Google Ngrams: noi siamo le parole che abbiamo usato

“Il genoma contiene informazioni ereditarie, passate di generazione in generazione. Le parole che usiamo nei libri che scriviamo, vengono passate allo stesso modo di generazione in generazione” dice Erez Lieberman Aiden ricercatore di Harvard convinto che i principi della genomica possano essere utilizzati anche nel campo della linguistica per capire come e quanto l’uso delle parole e la frequenza, nel fluire degli anni, di determinate frasi siano rivelatrici delle dinamiche evolutive della cultura umana nel corso dei secoli. E se di parole aveva bisogno per il suo studio, Liberman Aiden ne ha trovate ben 500 miliardi contenute in più di cinque milioni di libri patrimonio della sterminata biblioteca digitalizzata di Google Books (che in realtà ne ha scansionati molti di più, circa 12 milioni).

Informazioni prese e “impacchettate” in un unico tool ideato da lui e dal suo collega Jean Baptiste Michel e realizzato dagli ingegneri del più noto motore di ricerca. Il risultato è Google Ngrams, un database sterminato, uno strumento messo a disposizione (anche) di chi, in quel mare di parole, vuol trovare una rotta, un senso profondo, le risposte a molte domande.

Da un paio di giorni ne stanno parlando un po’ tutti: i grandi quotidiani dal Guardian al NYTimes, le riviste specializzate da Technology Review a Science, la bibbia della divulgazione scientifica che con la pubblicazione dei primi studi del progetto ne ha sancito l’autorevolezza. Anche perché a utilizzare questo strumento non saranno solo i responsabili “Culturomics” (cos’ infatti si chiama il progetto, fusione delle parole Cultural e Genomics) ma anche chi naviga su internet visto che Google Labs ha messo online una versione di Ngrams accessibile a tutti.

Come si usa il viewer di Ngrams? Semplice, basta mettere due o più parole (fino a 50) scegliere l’intervallo di tempo da analizzare (per adesso dal 1800 al 2000) e cliccare su “serch”. Ovviamente già in molti si sono sbizzarriti a mettere insieme, chi più seriamente chi per gioco, frasi e parole per vederne la frequenza di utlizzo nel tempo. Su Twitter con l’hashtag #ngrams è possibile seguirne le evoluzioni.

Eccone alcuni esempi:

 

Altri esempi di utilizzo di Google Ngram Viewer (via HuffPost),  Vampire vs. Zombie: Comparing Word Usage Through Time (via The Atlantic)

approfondimenti e fonti:

We are the words (Technology Review)

Google Opens Books to New Cultural Studies (Science, articolo consultabile dopo semplice registrazione gratuita)

Using Digitized Books as ‘Cultural Genome,’ Researchers Unveil Quantitative Approach to Humanities (Science daily)

Google studia l’evoluzione della lingua (Punto Informatico)

Culturomics la genomica applicata alla cultura (Galileo)