lunes, 31 de enero de 2011

Culturómica

En los libros se concentra una buena parte del conocimiento y la historia de la humanidad, gracias a ellos los especialistas son capaces de hacer abstracciones y conjeturas que permiten entender mejor los fenómenos sociales. Sin embargo, este proceso está inevitablemente limitado por aspectos tan simples como la cantidad de libros que uno puede leer. El proyecto de digitalización de libros de Google, incluye a la fecha más de 15 millones de libros desde el siglo XVI hasta la actualidad, lo cual, según argumentan Michel et al. (2011), permite un análisis cuantitativo de la cultura.

Primero que nada, los investigadores tuvieron que depurar la cantidad de información. Ya que los libros son digitalizados automáticamente con programas que reconocen la escritura, la calidad es muy variable y la lista original se redujo a un tercio, casi 5.2 millones de libros en 7 idiomas: inglés, español, francés, alemán, chino, ruso y hebreo. Esta colección representa alrededor del 4% de todos los libros alguna vez publicados, y su secuencia de letras es 1000 veces más larga que el genoma humano.

Los científicos definieron el 1-grama, como una secuencia de caracteres delimitada por espacios, y un n-grama como una secuencia de n 1-gramas; posteriormente, calcularon la frecuencia por año de cada uno de los n-gramas (sólo hasta n = 5 por el momento), y estudiaron las trayectorias de algunos de ellos en el idioma inglés. La información total está disponible libremente y puede ser consultada aquí.

Los investigadores encontraron varios datos interesantes. Como es de esperarse el uso de diversos términos se correlacionan con eventos sociales, por ejemplo el término esclavitud (slavery en inglés), fue mucho más frecuente durante la guerra civil estadounidense y el movimiento de derechos civiles de los sesenta; por otro lado, la misma búsqueda en español, revela que este término fue más popular en diversos momentos del siglo XIX, coincidiendo con los movimientos de independencia de Latinoamérica. Mientras tanto, el término revolución tiene su punto más alto entre los años sesenta y setenta.


El uso de los 1-gramas "esclavitud" y "revolución" en el idioma español.

La censura también deja marcas, y los científicos identificaron la reducción en la frecuencia de nombres considerados indeseables por los nazis en la literatura alemana de los años 30, y el aumento en los temas pro-nazis durante la segunda guerra mundial.


Se muestra la frecuencia combinada de personajes censurados por los nazis según su disciplina. La línea gruesa en naranja muestra la frecuencia de los temas pro-nazis. Idioma alemán.

Procesos lingüísticos también pueden ser estudiados; por ejemplo, se encontró que los verbos irregulares del idioma inglés tienden a hacerse regulares con el paso del tiempo, aunque existen algunas excepciones. También se descubrió que los diccionarios están altamente atrasados con respecto al vocabulario impreso, y que la mayoría de las palabras son añadidas mucho tiempo después de que entran al vocabulario común, y en ocasiones, cuando han caído en desuso.

Un cuarto aspecto interesante es el estudio del pasado, se utilizaron los 4-gramas desde 1800 hasta 2000, como indicadores de que tanto se menciona un año particular en los libros, y se encontró que se habla de un año en particular sólo en los años inmediatamente posteriores y luego se olvida rápidamente. En el idioma inglés incluso parece que la tasa de olvido está en aumento, mientras que en español este patrón no es tan claro.



Frecuencia de los 4-gramas "1883", "1910" y "1950" en inglés (arriba) y español (abajo).

Como dato curioso, esta información puede ser utilizada para medir la “fama” de diversos personajes. Es muy claro que las figuras políticas y los escritores son los individuos más populares y que casi nadie escribe sobre los matemáticos (o tal vez los matemáticos no escriben libros); a no ser que tu nombre sea Bertrand Russell quien es, históricamente, el científico más mencionado por encima de Darwin y Einstein, aunque tal vez por cuestiones más políticas que científicas.

A una persona le tomaría 80 años (sin detenerse a comer o dormir), leer los libros publicados en el año 2000 solamente, por lo que, aún con todas sus limitaciones, el estudio cuantitativo de la cultura, bautizado culturómica por sus autores, tiene un enorme potencial como fuente de información histórica; y como punto de partida para el análisis exploratorio.

Referencias:
  • Michel et al. “Quantitative analysis of culture using millions of digitized books” (2011). Science Vol. 331, pp. 176-182.
  • Veres & Bohannon. “The Science Hall of Fame” (2011). Science Vol. 331 no. 6014 p. 143.
  • The Science Hall of Fame.

No hay comentarios:

Publicar un comentario

 
Creative Commons License
La Ciencia explicada by La Ciencia explicada is licensed under a Creative Commons Attribution-Noncommercial 3.0 Unported License.