¿Cuánta información hay en Internet en el mundo?

¿Cuánta información hay en Internet en el mundo?

¿Cuánta información hay en Internet en el mundo?

Tiempo de lectura: 11 minutos

En este artículo hago varias estimaciones y comparo las respuestas con las estimaciones de las ventas de disco y cinta, discos duros y el tamaño de toda la memoria humana. Puede haber unos pocos miles de petabytes [*] de la información en total, y la producción de la cinta y el disco llegó a ese nivel ya en el año 2000. Así que en pocos años, (a) podremos guardar todo \ – ninguna información tendrá que ser descartada, y (b) la pieza típica de la información nunca será observado por un ser humano….

Aquí está una carta de la cantidad actual de almacenamiento en línea, comparando ambos servidores comerciales [Tenopir 1997]. y la Web [Markoff 1997]. [Mauldin 1995]. con la Biblioteca del Congreso. Estas cifras implican archivos de texto ASCII solamente. Este gráfico sugiere que el próximo año la web será tan grande como LC.

La Web ha crecido 10 veces cada año. ¿Puede seguir haciéndolo y por cuánto tiempo? Las estimaciones actuales del número de usuarios de Internet se ejecutan en las decenas de millones, tal vez M-50, y esto podría llegar a mil millones, por lo que un factor de veinte está disponible por el aumento del número de personas en la Web, pero no más. ¿Las personas pueden poner más y más de su vida en línea? Tal vez, pero sospecho que no más que otro factor de 20. Esto sugiere que la cantidad de ASCII en Internet podrían aumentar a 800 terabytes. ¿Existe ese texto mucho por aquí? ¿Qué pasa con las imágenes, películas y sonidos?…

¿Cuánta información tradicionales hay?

El tamaño de 20 terabytes de la Biblioteca del Congreso es ampliamente citado y hasta donde yo sé se obtiene suponiendo que la CL tiene 20 millones de libros y cada uno requiere de 1 MB. Por supuesto, LC tiene muchas otras cosas además de textos impresos, y estas otras cosas tomaría mucho más espacio.

1. Trece millones de fotografías, incluso si se comprime a un archivo JPG de 1 MB cada una, sería de 13 terabytes.
2. Los 4 millones de mapas de la División de Geografía puede escanear a 200 TB.
3. LC cuenta con más de quinientos mil películas, de 1 GB cada uno que sería de 500 terabytes (la mayoría no son características de larga duración en color).
4. Más voluminosos podría ser de 3,5 millones de grabaciones de sonido, que en un CD de audio cada uno, sería casi 2.000 TB.

Esto hace que el tamaño total de la Biblioteca tal vez unos 3 petabytes (3.000 terabytes).

Por supuesto, la discrepancia más importante en la comparación de la Web y la Biblioteca del Congreso es que la Biblioteca del Congreso predominantemente contiene materiales publicados. La web tiene más contenido que LC ,si solo preguntas por material escrito en inglés de los últimos 18 meses. Traté de adivinar qué fracción de material web representa algo que se ha publicado, sin embargo, mediante un muestreo aleatorio cincuenta URLs Inglés-idioma. He encontrado catorce que me miraban como si fueran probablemente en una gran biblioteca convencional, o el 28%. Por el contrario la mayor parte de los contenidos de Lexis-Nexis y cuadros de diálogo son versiones de material publicado, aunque mucho más fácil la búsqueda.

¿Qué otros tipos de información tradicionales podría estar alrededor? Los Estados Unidos produce 38 millones de toneladas al año del tipo de papel utilizado en la escritura y la imprenta. Si una libra de papel típico es de 220 páginas A4 y cada hoja celebrada 5.000 bytes, que sería de alrededor de 8.000 terabytes de texto cada año. Por supuesto, muchas de las hojas son copias de otras hojas, y muchos de ellos no contienen las palabras. ¿Cuánto se podría escribir de nuevo razonablemente? Supongamos que la mitad de las páginas tienen el texto y que asumimos 100 copias de la hoja media, que sería de 40 terabytes de información fresca. Si 40 millones de EE.UU. «trabajadores del conocimiento ‘cada uno escribió un megabyte de un año, que también sería de 40 terabytes de un año. Desde los EE.UU. El producto interno bruto de $ 7T es aproximadamente una cuarta parte del PIB mundial ($ 30.8B) Yo, en general, se multiplican los EE.UU. el 4 de extrapolar a la tierra, y sugieren que las cantidades por escrito a todo el mundo a 160 terabytes cada año . De esta los libros publicados se acerca 863.000 (en 1991), además de 9.315 periódicos, [la UNESCO de 1995]. haciendo tal vez un terabyte de profesional por escrito o con referato material, ni siquiera el 1% del total.

Otros tipos de información, en comparación con el texto ASCII, son más voluminosas.

1. Cine. Había 4.615 películas realizadas en todo el mundo en 1989, en 5MB/seg y 7200 promedio segundos, que serían 166 terabytes.
2. Las imágenes. Hay cerca de 52 millones de euros (mil millones) fotografías tomadas cada año en el mundo. [Mills, 1996]. Si cada uno de ellos es de 10 KB JPG, que es de 520.000 terabytes o petabytes 520, y estos son en realidad todos diferentes. Una vez más, menos del 1% representan profesional se haya tomado o imágenes, probablemente menos del 0,1%. En comparación, incluso el proyecto de observación terrestre la NASA, espera que se acumulan 11.000 terabytes, [Fargion 1996]. no afecta a los números.
3. Radiodifusión. En los EE.UU., tenemos 1.593 estaciones de televisión. Si cada uno envía 5 MB / seg por 30 millones de segundos por año, es decir más de 200 petabytes. Sin embargo, uno podría esperar que sólo alrededor de 1 / 10 de la programación es en realidad diferente para diferentes estaciones, que es de 20 petabytes de programación diferentes, y extrapolado al mundo sería de 80 petabytes. Radio, por el contrario, es insignificante, los EE.UU. tiene 6.956 estaciones de radio y si cada uno envía 30 millones segundo por año a las 8 KB / seg tendríamos sólo el 1,7 TB en los Estados Unidos.
4. De sonido. Las ventas de música grabada en los EE.UU. en 1992 fueron 407 millones de CD y casetes de 336 millones (y 20 millones de discos de vinilo, todavía). Suponiendo 550 MB para cada CD y cassette que ser de 400 petabytes, mucho duplicado, por supuesto. Si el número de diferentes grabaciones para la venta es de unos 30.000 este sería de 15 terabytes en los EE.UU. y 60 terabytes en todo el mundo.
5. Telefonía El requisito de almacenamiento más grande vendría de la conversión de todas las conversaciones telefónicas de forma digital. En los EE.UU. en 1994 había 500 mil millones de llamadas minutos de `peaje interLATA ‘y hay cerca de 20 veces más llamadas locales mucho, así que a 56 kbits / seg esto sería 4.000 petabytes de voz digitalizada. Lo único que no estoy considerando es cinta de vídeo de consumo, debido a que gran parte de ella se utiliza para grabar programas de TV fuera del aire y los duplicados de las estaciones de televisión.

La conclusión es que en términos de texto hay terabytes de información y tal vez un terabyte de información profesional. Incluye sonidos y las imágenes en las que hay miles de petabytes de información. La carta de Sincerbox que comenzó todo esto sugiere que habría 12.000 petabytes de información en el mundo, tal vez no una suposición razonable. Sólo una pequeña parte de este, dominado por las cadenas de televisión, es producido comercialmente o validados de alguna manera, tal vez que asciende a 100 petabytes.

¿Cuánto espacio de la memoria interna está ahí?

El único sistema de almacenamiento de datos más grande que he visto descrito es una descripción años de edad, de la aceleración de los proyectos estratégicos de infraestructura de computación en Livermore, Los Alamos y Laboratorios Sandia, que cuenta con 75 terabytes de disco, y un plan de cientos de petabytes de archivo de cinta. [Louis de 1996]. El proyecto Los Alamos HD-ROM con microscopios electrónicos de barrido para grabar los bits en acero inoxidable en el vacío, que ha sido trasladado a la puesta en marcha la empresa Norsam Technologies, ha conseguido 200 GB / pulgada cuadrada. Tienen la esperanza de poner 12 terabytes en un solo disco CD-tamaño.

Una forma de adivinar el tamaño total de la memoria interna del mundo es simplemente para ver el establecimiento más grande como un punto en una curva logarítmica normal. Para simplificar, la ciudad más grande en el mundo hay alrededor de 1 / 300 de la población del mundo. y la mayor compañía en el mundo hay alrededor de 1 / 300 del PIB del mundo. Así que esto sugiere que si la explotación disco más grande del mundo en 1996 fue de 75 terabytes, el espacio total del disco en el mundo era 22.500 terabytes.

Por supuesto, hay estadísticas sobre la industria de las unidades de disco. La siguiente tabla hace una estimación de cómo muchos terabytes de espacio en disco se venden por año, utilizando los datos de Computerworld, [Radding 1990]. [Bell 1994] IBM. y Optitek. [Optitek]. Las diferentes fuentes no coordinadas para esta tabla hacen bastante irregular, he sido incapaz de encontrar un buen número de una sola fuente. Pero está claro que la respuesta es hoy decenas de miles de terabytes de discos vendidos cada año….

Optitek predice 1998, las ventas y capacidades de los diferentes medios de almacenamiento:
Precio total de dispositivos del tamaño del mercado total
Disco magnético 100/GB $ $ 25B 250 petabytes
De disco RAID $ 200/GB $ 13, 65 petabytes
De disco óptico 20/GB $ $ 0.5B 25 petabytes
Máquinas de discos ópticos 5B $ 20/GB $ 250 petabytes
Magnetófonos 1/GB $ $ 10B 10.000 petabytes
Cinta apiladores 1/GB $ $ 2B 2000 petabytes
Tanto Alan Bell de IBM y Jim Gray de la estimación de Microsoft que 200 petabytes de almacenamiento en cinta se vendieron en 1995.

Tenga en cuenta que estos números se suman todos los comparables al tamaño de los números de la cantidad total de información en el mundo. Así que la implicación es que en el año 2000 podremos guardar en formato digital todo lo que queremos \ – incluida la digitalización de todas las llamadas telefónicas en el mundo, todas las grabaciones de sonido, y todas las películas. Nosotros probablemente ni siquiera seremos capaces de hacer todas las películas caseras en formato digital. Podemos ahorrar en todo disco que tiene contacto alguno con la producción profesional o aprobación. Poco después del año 2000, la producción de discos y cintas va más rápido que la producción humana de la información para poner en ellos. La mayoría de las unidades de almacenamiento de computadora que contienen información generada por la computadora, no habrá suficiente cantidad de cualquier otra cosa.

Por supuesto, esto ya ocurre a pesar de la dimensión menor de hoy en día la memoria de computadora. El byte de disco de ordenador típico es probablemente parte de algún módulo de objetos de Microsoft. Después de eso, es probable que algún tipo de base de datos. Sin embargo, todavía vemos que las denuncias relativamente poco de los datos en muchos archivos de gran tamaño (los archivos de la NASA o el estudio del cielo Palomar) ha sido visto por nadie. Eso es normal en el futuro: la memoria del ordenador será mayor parte de otros equipos. Hoy en día esta memoria es altamente redundante, con decenas de millones de copias de los programas populares. Mañana, con todo el mundo en línea con conexiones de alta velocidad, y el uso extendido de los acuerdos de licencia de sitio, puede ser común para PC en busca de los módulos objeto de la demanda del software necesario de vez en cuando, como ya lo hacen en Bellcore. Los discos en nuestras máquinas estarán disponibles para nuestra propia información personal. El autor de un rápido podría escribir un megabyte de un año, ni siquiera Trollope escribió 100 MB en su vida, pero todos vamos a tener al menos un gigabyte de almacenamiento personal para el año 2000, cuando tenemos tan muchos petabytes de disco vendidos, ya que hay millones de las computadoras en el mundo (300 cada uno, aproximadamente).

¿Cuánta memoria humana está ahí?

Y para ver una tercera medida, la cantidad se sostiene la memoria humana? Tom Landauer tratado de estimar esto hace algunos años llegó a la conclusión de que el cerebro lleva a cabo cerca de 200 megabytes de información. [Landauer 1986]. Él consiguió este número en parte por ver la rapidez con que la gente pudiera tener en la información, tanto por la lectura y al mirar las fotos. También estudió las estimaciones de la velocidad a la que la gente olvida las cosas, y la cantidad de adultos que necesitan información para hacer las tareas que normalmente hace. Sus números (expresada en gigabits, no gigabytes), se gigabits 1.8, 3.4, 2.0, 1.4 y 0.5. Promedio de estos y dividiendo por 8 rendimientos 227 MB. Puesto que hay entre las neuronas y 10E12 10e14, esto sugiere que el cerebro contiene 1.000 a 100.000 neuronas de cada bit de la memoria. Por supuesto, gran parte del cerebro se utiliza para la percepción, el control motor, y similares, pero, incluso si sólo un 1% del cerebro está dedicada a la memoria Landauer señaló que parece que la cabeza acepta la ineficiencia de almacenamiento considerable con el fin de poder hacer un uso eficaz de la información.

Con cerca de 6 millones de personas en la tierra, que hace que el total de la memoria de todas las personas que ahora vivo cerca de 1.200 petabytes. Para la precisión con que estos cálculos se están haciendo, los resultados son comparables. Podemos almacenar digitalmente todo lo que todo el mundo recuerda. Para una sola persona, esto no es aún difícil. Landauer estima que las personas sólo toman y recordar acerca de un byte por segundo, toda una vida típica es de 25,000 días o 2000000000 segundos (contando el tiempo dormido). El resultado es de 2 gigabytes, o algo que cabe en una unidad portátil.

¿Sería difícil recordar todas las palabras que escuchó en su vida, incluyendo los que usted se olvidó? El estadounidense promedio pasa 3.304 horas al año con uno u otro tipo de medios de comunicación. [Censo de 1995]. 1.578 horas de televisión son, añadiendo en 12 horas al año de las películas, a 120 palabras por minuto que los 11 millones de palabras, quizás el 50 megabytes de Ascii. Y 354 horas al año de la lectura de periódicos, revistas y libros a 300 palabras por minuto de velocidad de lectura sería otro 32 megabytes de texto. En setenta años de vida que estaría expuesto a alrededor de seis gigabytes de Ascii, hoy se puede comprar 23 unidades de disco gigabytes.

Podríamos simplemente crear un dispositivo portátil que grabara todo? Sí, si (a) hemos tenido el reconocimiento de voz decente y OCR, o (b) los libros de pasar a formato electrónico y aparatos de TV facilitar el acceso a la forma Ascii con subtítulos de las secuencias de comandos. Tal vez estas dos opciones es probable que se den un futuro próximo. Los escolares ya no tienen que hacer operaciones aritméticas sin calculadoras, tal vez pronto ya no tendrán que memorizar nada. Si usted piensa que esto es horrible recordar que Platón (en el Fedro) sugiere que la escritura sería «crear el olvido en las mentes de los que aprender a usarlo y crearía» el show de la sabiduría sin la realidad. » Si escribir algo no es hacer trampa, ¿por qué es la grabación? Ahora es común para los hablantes de utilizar transparencias, para una conferencia para repartir procedimiento impreso, y para que las personas se sientan en las conversaciones con grabadoras de casete. ¿Sería terrible que si cada uno de los asistentes había un ordenador portátil haciendo el reconocimiento de voz, y la computadora portátil mantiene la transcripción y proporcionó una pequeña vibración para despertar a los asistentes cuando un tema prometedor se ha mencionado?

Hace dos años me enteré de que Ted Nelson en una conferencia sugiere que debemos tener todo el registro de la vida de todos \ – todas las instantáneas domésticas, vídeos, etc. Algunos de seis años de edad, dijo, va a llegar a ser Presidente, y entonces los historiadores le gustaría que sabía absolutamente todo sobre su vida. La única manera de hacer esto es guardar todo lo relacionado con la vida de todos. Me reí, pero sí es posible. Si vale la pena es otra pregunta: ¿estamos mejor teniendo toda la información posible y darle la consideración más vaga, o que tiene menos información, pero se trata de analizar lo mejor? Las computadoras no utilizan las tablas de registro, y las computadoras de ajedrez han diccionarios de las posiciones de apertura y final del juego, pero no los juegos de conjunto. Tenemos que entender nuestra capacidad para modelar situaciones de mayor complejidad para saber cómo hacer mejor uso de la información almacenada.

Conclusión

Habrá suficiente espacio en disco y almacenamiento en cinta en el mundo para almacenar todo lo que la gente escribe, por ejemplo, realizar o fotografía. Para escribir esto es cierto ya, porque lo demás es sólo un año o dos de distancia. Sólo una pequeña fracción de esta información ha sido profesionalmente aprobado, y sólo una pequeña fracción de ella será recordada por nadie. Como se ha señalado ante los medios de almacenamiento correr más rápido que nuestra capacidad de crear cosas para poner en ellos, y así después del año 2000, la unidad de disco, media o enlace de comunicaciones contendrá máquina no la comunicación entre la máquina, de humano a humano. Cuando llegamos a un mundo en el que la pieza promedio de la información nunca es visto por un ser humano, tendremos que saber cómo evaluar todo automáticamente para decidir lo que debe obtener el preciado recurso de la atención humana.

Hoy la comunidad de bibliotecas digitales pasa un poco de esfuerzo en la exploración, la compresión, y OCR, mañana tendrá que centrarse casi exclusivamente en la selección, búsqueda y evaluación de la calidad. De entrada no son tan importantes como la elección correspondiente. Falta información no estará en la punta de la lengua, sino que será en algún lugar de sus archivos. O, tal vez, será en otra persona archivos. Con todo el trabajo en línea de todo el mundo, tendremos la primera oportunidad de vislumbrar por HG Wells (y un poco más tarde y más concretamente por Vannevar Bush) para que todos lo que cada uno use más de esfuerzo intelectual. Podríamos construir una verdadera «Enciclopedia Mundial» con una verdadera «memoria planetaria para toda la humanidad», como Wells escribió en 1938. [Wells 1938]. Habló de « punto todos los trabajadores intelectuales del mundo a través de un interés común»que podría hacerlo. El desafío para los bibliotecarios y científicos de la computación es para hacernos encontrar la información que queremos en el trabajo de otras personas, y el reto para los abogados y los economistas es el de organizar las estructuras de pago para que se nos anima a utilizar el trabajo de otros en lugar de re- crearlo.

Reconocimiento.

Este documento fue sugerido por una consulta de Glenn Sincerbox de la Universidad de Arizona.

*Éstos son los nombres de las unidades de tamaños de almacenamiento muy grande:
gigabyte 1000 megabytes
terabyte 1000 gigabytes
petabyte 1.000 terabytes
exabyte 1.000 petabytes

Compártelo con tus contactos y ayúdame a mejorar

Sobre el Autor

Escribir un comentario