New media

30 settembre 2013 | 12:47

Una tecnica matematica per migliorare le traduzioni di Google

(AGI) Una nuova tecnica matematica potrebbe migliorare notevolmente le traduzioni automatiche di Google.

Chiunque abbia provato BabelFish o Google Translate sa che forniscono servizi di traduzione utili, ma ben lungi dall’essere perfetti. L’idea di base di questi sistemi e’ quella di confrontare un corpus di parole di una lingua con lo stesso corpus di parole tradotte in un altro idioma: parole e frasi che condividono proprieta’ statistiche simili sono considerati equivalenti.

Il problema, naturalmente, e’ che le traduzioni iniziali si basano su dizionari che devono essere compilati da esperti umani e questo richiede tempo e fatica. Ora pero’, Tomas Mikolov e colleghi di Google a Mountain View, come si legge su arXiv, hanno sviluppato una tecnica che genera automaticamente dizionari e tabelle di frasi che convertono una lingua in un’altra. Il nuovo metodo non si fonda su versioni in diverse lingue di uno stesso documento ma utilizza tecniche di ‘data mining’ per creare un modello della struttura di una lingua che poi viene paragonato alla struttura di un’altra lingua.

Il nuovo approccio e’ relativamente semplice: si basa sul fatto che ogni lingua descrive un insieme simile di idee e le parole che vi appartengono devono necessariamente essere simili. Per esempio, la maggior parte dei linguaggi avra’ parole per animali comuni come cane, gatto, mucca e cosi’ via. E queste parole saranno usate nello stesso modo in frasi come ‘il gatto e’ un animale piu’ piccolo del cane’.

Il nuovo trucco e’ rappresentare un’intera lingua usano le relazioni fra le parole. L’insieme di tutte le relazioni, il cosiddetto ‘spazio del linguaggio’, puo’ essere pensato come un insieme di vettori che vanno da una parola all’altra. Negli ultimi anni, i linguisti hanno scoperto che e’ possibile gestire questi vettori matematicamente. Per esempio, l’operazione ‘re’-'uomo’ + ‘donna’ risulta in un vettore che e’ simile a ‘regina’.

Si e’ scoperto che diversi linguaggi condividono similitudini in questo spazio vettoriale: il processo di conversione da una lingua all’altra si riduce allora a trovare la trasformazione matematica che trasforma uno spazio vettoriale nell’altro. Un problema linguistico diventa quindi di tipo matematico e gli studiosi di Google hanno trovato una opportuna applicazione che colleghi i due spazi vettoriali. “Il nostro metodo e’ estremamente efficace: abbiamo raggiunto finora una precisione del 90 per cento nelle traduzioni fra inglese e spagnolo”, ha commentato Mikolov. (Agi, 30 settembre 2013)