New media

17 dicembre 2010 | 11:44

ANSA/ GOOGLE: NASCE ‘DNA’ DELLE PAROLE, NE SVELERA’ L’ORIGINE

ANSA/ GOOGLE: NASCE ‘DNA’ DELLE PAROLE, NE SVELERA’ L’ORIGINE
ANALIZZATI E INDICIZZATI 500 MILIARDI IDIOMI IN 5,2 MLN LIBRI
ROMA
(ANSA) – ROMA, 16 DIC – Grazie a Google e ai milioni di libri elettronici presenti nella sua libreria è stato creato il ‘genoma delle parole’, un set di dati gigantesco per studiare la cultura e la sua evoluzione, come farebbe un paleontologo con dei fossili. Attraverso un software fornito dal motore di ricerca più usato nel mondo, si potrà  infatti scoprire l’origine di ogni parola che ci interessa, vedere quando è stata introdotta nell’uso comune e con che frequenza è stata usata negli anni. Oppure si può studiare un personaggio famoso in base al numero di volte in cui il suo nome è stato citato nei libri nel corso dei secoli. Tutto ciò è possibile grazie al lavoro mastodontico durato quattro anni condotto da Jean-Baptiste Michel della Harvard University di Boston e pubblicato sulla rivista Science. Gli scienziati, insieme a ricercatori di Google, Encyclopaedia Britannica, American Heritage Dictionary, hanno creato un database enorme da interrogare: 5,2 milioni di libri (il 72% dei quali in lingua inglese), pari a oltre 500 miliardi di parole in totale. Si tratta di una sequenza di dati 1.000 volte più grande del genoma umano che, se scritta in una linea retta, sarebbe lunga 10 volte il viaggio andata e ritorno Terra-Luna. E Michel, intervistato dall’ANSA, ha tracciato i grafici di alcune parole, come ‘cibo italiano’, mostrando ad esempio che dei piatti italiani si parla oggi circa cinque volte più spesso nei libri in lingua inglese rispetto al 1950, segno della forza crescente della cultura gastronomica italiana. “Si stima che ad oggi siano stati prodotti 129 milioni di libri – spiega Michael – Google ne ha digitalizzato 15 milioni e noi abbiamo lavorato su 5,2 milioni di questi (il 4% dei libri attualmente sulla faccia della Terra) e li abbiamo trasformati in un ‘telescopio’ della cultura umana; uno strumento che ognuno può utilizzare per tracciare e vedere il modo in cui parole e idee sono state usate nei secoli”. “Con il ‘culturoma’ – chiamato così per assonanza con il genoma, racconta Michael – sono già  emerse molte informazioni, per esempio che ogni anno le parole introdotte nel lessico sono circa 8.500 e che il 52% di esse forma una ‘materia oscura’ che é entrata nel lessico, si trova nei libri, ma non è riportata nei dizionari”. Poi, studiando la frequenza in cui negli anni compaiono nomi di persone famose nei libri del database, spiega lo scienziato, é emerso che oggi si diventa famosi molto più facilmente e molto più giovani di prima: celebrità  nate nel 1950, infatti, hanno acquisito la fama a un’età  media di 29 anni, contro i 43 anni necessari a personaggi nati nel 1800 per divenire famosi. Micheal si è divertito a tracciare, vista la stagione, la storia di altre due parole: ‘Babbo Natale’ e Italia. Il primo, di cui si comincia a parlare poco prima del 1850, è arrivato al massimo della fama un secolo dopo, per poi perdere terreno nei decenni successivi, con un minimo storico intorno agli anni ’60, e con una leggera risalita fino ai giorni nostri. Dell’Italia, infine, si parla per tutto il periodo coperto dai testi analizzati (dall’inizio dell’800 a oggi), ma la frequenza con cui viene citato il nostro paese ha un calo a partire degli anni ’40 fino a raggiungere un minimo negli anni ’80 e rimanere poi più o meno costante. La “culturomica” è uno strumento molto utile anche per analizzare la censura e la propaganda: per esempio nei testi cinesi ‘piazza Tiananmen’ è citata pochissimo. “Questo strumento – conclude Michael – dà  prove del nostro passato come i fossili le danno delle precedenti forme di vita e potrebbe aiutare negli studi umanistici chiudendo il divario metodologico con le scienze quantitative”.(ANSA).