Hay quien lo llama “el genoma de los libros”: se trata de Culturomics, proyecto que consiste en el análisis cuantitativo de tendencias lingüísticas, culturales y sociales a partir de estudiar libros, periódicos, textos y revistas disponibles en la red.
La herramienta se empezó a usar a finales de 2010. Jean-Baptiste Michel y Erez Lieberman, investigadores de la Universidad de Harvard, utilizaron cinco millones de libros escaneados para descubrir las palabras más comunes en cada época, así como sus distintos cambios de sintaxis.
La misión de los académicos pudo realizarse gracias a la aplicación de Google Books Ngram Viewer, que permite buscar cómo un personaje, palabra o concepto ha evolucionado a partir de su presencia en los libros.
Es decir, se trata de un potente buscador que revisa dentro del fondo editorial de Google. Su ejercicio demostró que el corpus de las palabras utilizadas por los hablantes de habla inglesa es de un millón y que casi ocho mil voces nuevas se incorporan cada año al idioma.
Además de los resultados lingüísticos, el documento reveló algunos comportamientos sociales.
Por ejemplo, los personajes de moda son más jóvenes y famosos, pero de duración más efímera. Las celebridades nacidas en 1950 alcanzaban la fama a los 29 años en promedio, mientras que a principios del siglo XIX el estrellato se conseguía a los 43.
En su momento, Jean-Baptiste Michel declaró que Culturomics “es una pieza que arroja luz sobre nuestro pasado. Al igual que cualquier otra evidencia como fósiles, manuscritos o ruinas, requiere de una interpretación”.
De entonces a la fecha el proyecto ha evolucionado y diversificado sus alcances. Recientemente, el creador del Laboratorio Literario de Stanford, Mathew L. Jockers, realizó una investigación en la que estudió casi tres mil 600 trabajos literarios publicados entre 1780 y 1900. Sus indagaciones apoyadas en la estadística de las palabras dieron como resultado importantes conclusiones que permitieron conocer que Jane Austin, autora de Orgullo y prejuicio, o Walter Scott, escritor de Ivanhoe, tuvieron una influencia superior a la que alcanzaron narradores más populares, como Charles Dickens, Herman Melville o Mark Twain.
Hasta ahora, el trabajo de Jockers es el más amplio en su tipo y será publicado en los próximos meses en formato de libro, mismo que llevará por nombre Macroanalysis: Digital Methods and Literary History (Macroanálisis: Métodos digitales y la historia literaria).
Hay, no obstante, varias razones para vaticinar que lo mejor de Culturomics está por venir. En principio, su aplicación supone que es la primera vez que la tecnología Big data, término usado para referirse al crecimiento, disponibilidad y uso exponencial de la información estructurada, se pone al servicio de la cultura.
A su desarrollo también se debe la promoción de la disciplina conocida como Stylometry, que no es otra cosa que el estudio del estilo de escritura de un autor, basado en identificar patrones de palabras y elementos temáticos en el texto escrito.
Un paso más hacia los alcances de Culturomics lo dio el científico de la Universidad de Cornell, Jon Kleinberg, cuando se propuso rastrear la relación entre frases clásicas de películas con el vocabulario corriente. Según el académico, You had me at hello, del filme Jerry Macguire y I love the smell of napalm in the morning, de Apocalypse now, son las que encabezan la lista.
Al funcionar como un sistema automatizado, Culturomics no jerarquiza. La información que arroja vale por su volumen, no por su calidad. Es decir, el rastreo es indiscriminado y capaz de procesar millones de textos sin importar temática o rigor. Sus críticos le cuestionan su falta de rigor cualitativo, pero más allá de lo perfectible que puede ser, la realidad es que si sabe interpretar podrá utilizarse como una valiosa herramienta dentro de las ciencias sociales.
Desgraciadamente, y salvo contados y limitados ejercicios implementados en Colombia o España, entre los hispanohablantes el proyecto aún no ha recibido la atención que se merece.