Troppi assistenti vocali e pochi utenti. Le macchine parlanti sanno farsi capire?

Ancora non è possibile immaginare
quali saranno i gadget hi-tech dei prossimi 10 anni, ma è molto
probabile che per interagire con essi useremo la voce. La speech
recognition, ovvero la capacità di un computer di capire il linguaggio
umano (e rispondere di conseguenza), è stata infatti la tecnologia
regina del recente Consumer Electronic Show. A trainare il mercato è
Alexa, il software creato ad hoc per l'assistente vocale Echo, un
cilindro con cui si può interagire parlando per suonare i propri brani
preferiti, conoscere le previsioni di traffico e del meteo, e tante
altre cose, tra cui comandare congegni connessi alla smart home.
Disponibile in Usa, UK e Germania, dovrebbe presto arrivare anche in
Italia.
Moltissimi espositori potevano vantare una forma di interazione
vocale impensabile fino a pochi anni fa: LG ha presentato Instaview,
frigo al quale si può letteralmente ordinare la spesa, Samsung il robot
aspirapolvere Powerbot VR7000, che non richiede più comandi impartiti
con telecomando, e l'offerta spazia in lungo e in largo, abbracciando da
prodotti per bambini, come Aristotle, assistente di Mattel che può
cullare i bimbi e aiutarli nei compiti, alle auto, con Ford che offre
l'abilità di mettere in moto, aprire e chiudere le portiere parlando,
alle lavatrici di Whirlpool, i telefoni di Huawei, le console per i
videogame di Nvidia, le lampade di GE. Senza contare la concorrenza nel
settore di Google, con il suo assistente Home, di Apple con Siri e
Microsoft con Cortana, solo per citare i concorrenti principali. Il
punto però è capire se si tratta del solito ingiustificato entusiasmo
per una tecnologia che poi non riuscirà a mantenere le promesse in
termini di penetrazione del mercato (il 3D casalingo, ricordate?). Gli
analisti sono entusiasti e confidano che sarà proprio la speech
recognition la chiave per convincere i consumatori a rendere smart la
propria vecchia abitazione. Più scettico è Luca Chittaro, professore a
capo del Laboratorio per l'Interazione Uomo-Macchina dell'Università di
Udine: «Sono state raggiunte ottime prestazioni per il riconoscimento
lessicale, soprattutto per le lingue come l'italiano che non hanno
parole diverse con la medesima pronuncia, come il francese mer (mare),
mère (madre) e maire (sindaco). Ma una comprensione lessicale al 100 per
cento da parte del software non garantisce che capisca la frase e
quindi la nostra richiesta. Perché tutto fila liscio se le frasi sono
strutturate in modo prevedibile, altrimenti siamo ancora distanti da una
piena capacità di riconoscere il linguaggio naturale». Certo, i
progressi sono innegabili, come affermato da Shawn Dubrac: il chief
economist dell'associazione che rappresenta le aziende tecnologiche
americane ha sottolineato come il dato che dà conto del livello di
affidabilità dei programmi, ovvero il tasso di errore per parola, si è
ridotto da un margine del 43% nel 1995 ad una del 6,3% l'anno scorso. Il
record è stato segnato da Microsoft che compete in questo campo con IBM
e le altre. “L'evoluzione è stata resa possibile”, spiega Chittaro
“dall'utilizzo di Big Data e Cloud: i milioni di conversazioni con gli
esseri umani sono archiviati e analizzati da algoritmi di machine
learning per ottenere costanti miglioramenti. Nonostante ciò non
possiamo aspettarci a breve la capacità di nessuna macchina di capire un
qualsiasi discorso fatto da un essere umano”, né di conversare in
maniera altrettanto naturale, come Stanley Kubrick ipotizzava nel 1968
nei dialoghi tra gli astronauti e il supercomputer Hal 9000 di 2001:
Odissea nello Spazio. Quel che è certo però è che questa tendenza destinata a crescere esponenzialmente nei prossimi anni, causerà una serie di effetti collaterali: da una parte c'è chi è preoccupato da una ulteriore stretta della società del controllo, con le multinazionali in grado di archiviare oltre ai nostri documenti e immagini, anche i nostri discorsi; dall'altra c'è chi ottimisticamente pensa che vi potranno essere anche benefici: «Alcuni studi scientifici recenti”, dice Chittaro “studiano la capacità di un assistente vocale di influenzare e persuadere una persona, ad esempio a tenere uno stile di vita più sano, grazie a un fenomeno di antropomorfizzazione e in maniera dunque più efficace di quanto farebbe un computer incapace di avere un dialogo». Comunque vada il professore di una cosa è assolutamente certo: “La diffusione della speech recognition farà diminuire l'utilizzo di tastiere e touchscreen ma non eliminerà le interfacce grafiche, che dovranno invece evolversi per tenere testa alla crescente
mole di dati che avremo a disposizione”.
Articolo pubblicato sul Sole 24 Ore del 22 gennaio 2017
Nessun commento:
Posta un commento