martedì 4 luglio 2017



Troppi assistenti vocali e pochi utenti. Le macchine parlanti sanno farsi capire?









Ancora non è possibile immaginare quali saranno i gadget hi-tech dei prossimi 10 anni, ma è molto probabile che per interagire con essi useremo la voce. La speech recognition, ovvero la capacità di un computer di capire il linguaggio umano (e rispondere di conseguenza), è stata infatti la tecnologia regina del recente Consumer Electronic Show. A trainare il mercato è Alexa, il software creato ad hoc per l'assistente vocale Echo, un cilindro con cui si può interagire parlando per suonare i propri brani preferiti, conoscere le previsioni di traffico e del meteo, e tante altre cose, tra cui comandare congegni connessi alla smart home. Disponibile in Usa, UK e Germania, dovrebbe presto arrivare anche in Italia.
Moltissimi espositori potevano vantare una forma di interazione vocale impensabile fino a pochi anni fa: LG ha presentato Instaview, frigo al quale si può letteralmente ordinare la spesa, Samsung il robot aspirapolvere Powerbot VR7000, che non richiede più comandi impartiti con telecomando, e l'offerta spazia in lungo e in largo, abbracciando da prodotti per bambini, come Aristotle, assistente di Mattel che può cullare i bimbi e aiutarli nei compiti, alle auto, con Ford che offre l'abilità di mettere in moto, aprire e chiudere le portiere parlando, alle lavatrici di Whirlpool, i telefoni di Huawei, le console per i videogame di Nvidia, le lampade di GE. Senza contare la concorrenza nel settore di Google, con il suo assistente Home, di Apple con Siri e Microsoft con Cortana, solo per citare i concorrenti principali. Il punto però è capire se si tratta del solito ingiustificato entusiasmo per una tecnologia che poi non riuscirà a mantenere le promesse in termini di penetrazione del mercato (il 3D casalingo, ricordate?). Gli analisti sono entusiasti e confidano che sarà proprio la speech recognition la chiave per convincere i consumatori a rendere smart la propria vecchia abitazione. Più scettico è Luca Chittaro, professore a capo del Laboratorio per l'Interazione Uomo-Macchina dell'Università di Udine: «Sono state raggiunte ottime prestazioni per il riconoscimento lessicale, soprattutto per le lingue come l'italiano che non hanno parole diverse con la medesima pronuncia, come il francese mer (mare), mère (madre) e maire (sindaco). Ma una comprensione lessicale al 100 per cento da parte del software non garantisce che capisca la frase e quindi la nostra richiesta. Perché tutto fila liscio se le frasi sono strutturate in modo prevedibile, altrimenti siamo ancora distanti da una piena capacità di riconoscere il linguaggio naturale». Certo, i progressi sono innegabili, come affermato da Shawn Dubrac: il chief economist dell'associazione che rappresenta le aziende tecnologiche americane ha sottolineato come il dato che dà conto del livello di affidabilità dei programmi, ovvero il tasso di errore per parola, si è ridotto da un margine del 43% nel 1995 ad una del 6,3% l'anno scorso. Il record è stato segnato da Microsoft che compete in questo campo con IBM e le altre. “L'evoluzione è stata resa possibile”, spiega Chittaro “dall'utilizzo di Big Data e Cloud: i milioni di conversazioni con gli esseri umani sono archiviati e analizzati da algoritmi di machine learning per ottenere costanti miglioramenti. Nonostante ciò non possiamo aspettarci a breve la capacità di nessuna macchina di capire un qualsiasi discorso fatto da un essere umano”, né di conversare in maniera altrettanto naturale, come Stanley Kubrick ipotizzava nel 1968 nei dialoghi tra gli astronauti e il supercomputer Hal 9000 di 2001: Odissea nello Spazio.
Quel che è certo però è che questa tendenza destinata a crescere esponenzialmente nei prossimi anni, causerà una serie di effetti collaterali: da una parte c'è chi è preoccupato da una ulteriore stretta della società del controllo, con le multinazionali in grado di archiviare oltre ai nostri documenti e immagini, anche i nostri discorsi; dall'altra c'è chi ottimisticamente pensa che vi potranno essere anche benefici: «Alcuni studi scientifici recenti”, dice Chittaro “studiano la capacità di un assistente vocale di influenzare e persuadere una persona, ad esempio a tenere uno stile di vita più sano, grazie a un fenomeno di antropomorfizzazione e in maniera dunque più efficace di quanto farebbe un computer incapace di avere un dialogo». Comunque vada il professore di una cosa è assolutamente certo: “La diffusione della speech recognition farà diminuire l'utilizzo di tastiere e touchscreen ma non eliminerà le interfacce grafiche, che dovranno invece evolversi per tenere testa alla crescente
mole di dati che avremo a disposizione”.
Articolo pubblicato sul Sole 24 Ore del 22 gennaio 2017

Nessun commento:

Posta un commento