El nou model d’IA mostra com les màquines poden aprendre de la visió, el llenguatge i el so junts


Una imatge que mostra com les màquines aprenen de la visió, el llenguatge i el so junts.

La majoria de nosaltres hem vist la televisió amb el so apagat en un moment o altre. Tot i que normalment és possible seguir la història almenys fins a cert punt, l’absència d’una pista d’àudio tendeix a limitar la nostra capacitat d’apreciar plenament el que està passant.

De la mateixa manera, és fàcil perdre molta informació només escoltant els sons que provenen d’una altra habitació. La multimodalitat de combinar imatge, so i altres detalls millora molt la nostra comprensió del que està passant, ja sigui a la televisió o al món real.

El mateix sembla ser cert per a la intel·ligència artificial. Un nou model de resposta a preguntes anomenat MERLOT RESERVE permet una predicció immediata, revelant una forta comprensió multimodal del sentit comú. Va ser desenvolupat recentment per un equip de l’Allen Institute for Artificial Intelligence (AI2), la Universitat de Washington i la Universitat d’Edimburg.

Part d’una nova generació d’aplicacions d’IA que permeten la cerca semàntica, l’anàlisi i la resposta a preguntes (QA), el sistema es va entrenar fent que “mirés” 20 milions de vídeos de YouTube. Les capacitats demostrades ja estan sent comercialitzades per startups com ara Dotze Laboratoris i Clipr.

MERLOT RESERVE (RESERVA per abreujar), significa l’aprenentatge de la representació d’esdeveniments multimodal al llarg del temps, amb supervisió d’esdeveniments de reentrada, i es basa en el model MERLOT anterior de l’equip. Va ser entrenat prèviament en milions de vídeos, aprenent de l’entrada combinada de les seves imatges, àudio i transcripcions. Els fotogrames individuals permeten que el sistema aprengui espacialment mentre que l’entrenament a nivell de vídeo li dóna informació temporal, entrenant-lo sobre les relacions entre els elements que canvien amb el temps.

“La manera en què la IA processa les coses serà diferent de la que ho fan els humans”, va dir l’informàtic i responsable del projecte Rowan Zellers. “Però hi ha alguns principis generals que seran difícils d’evitar si volem construir sistemes d’IA que siguin robusts. Crec que la multimodalitat està definitivament en aquest cub”.

Rowan Zellersinvestigador de la Universitat de Washington i l’Institut Allen d’Intel·ligència Artificial.

Com que vivim en un món dinàmic, l’equip volia explorar conjuntament la construcció de màquines que aprenguin de la visió, el llenguatge i el so. En un dels exemples del diari, es veu algú cuinant crispetes de blat de moro. Només a partir de les imatges i els diàlegs, podem imaginar els sons que poden acompanyar-los. El so dels grans sense cuinar que es mouen per la superfície metàl·lica d’una olla pot acabar convertint-se en “pops” enèrgics mentre esclaten en crispetes blanques i esponjoses.

Aquesta predicció es coneix com a “aprenentatge de la reentrada”, on les correlacions temporals permeten que una modalitat eduqui altres. Alguns psicòlegs del desenvolupament han plantejat la hipòtesi que és com aprenem el coneixement visual i del món, sovint sense un professor. També és la base del nom de RESERVE: Supervisió d’esdeveniments de reentrant.

El model s’entrena en segments de vídeo de 40 segons de durada, on fragments de text i àudio es “emmascaren” del sistema. A continuació, RESERVE aprèn seleccionant el fragment emmascarat correcte entre quatre opcions d’elecció múltiple. A continuació, seleccioneu entre quatre possibles raonaments per justificar la seva resposta.

Aquest enfocament no només va permetre a RESERVE aconseguir resultats d’última generació amb la seva formació semi-supervisada, sinó també fer prediccions sòlides de zero-shot. En aquest cas, un exemple de predicció zero podria ser una pregunta com “Què està fent la persona?” Això es pot reescriure manualment o automàticament com una declaració com “La persona és [MASK].” Aleshores, el model fa prediccions d’elecció múltiple sobre un conjunt d’opcions proporcionades com “cuinar crispetes” o “menjar crispetes”.

RESERVE es va ajustar en diversos conjunts de dades a gran escala utilitzats per a la comprensió visual a nivell de cognició: VCR, TVQA i Kinetics-600. RESERVE va exhibir una actuació d’última generació, superant el treball anterior en un 5%, 7% i 1,5%, respectivament. En incorporar àudio, el model aconsegueix un 91,1% de precisió a Kinetics-600.

VCR (Visual Commonsense Reasoning) és un conjunt de dades a gran escala sense àudio que s’utilitza per a la comprensió visual a nivell de cognició. TVQA és un conjunt de dades de control de qualitat de vídeo a gran escala basat en sis programes de televisió populars (Amics, The Big Bang Theory, How I Met Your Mother, House MD, Grey’s Anatomy, i Castell). Finalment, Kinetics-600 és una col·lecció de 650.000 videoclips que cobreixen centenars de classes d’acció humana.

Segons el document de l’estudi, que es presentarà a Conferència internacional IEEE/CVF sobre visió per ordinador i reconeixement de patrons al juny, RESERVE mostra millores de rendiment importants respecte als models de la competència. Per exemple, requereix una cinquena part de les operacions de coma flotant utilitzades pel model multimodal VisualBERT.

L’equip del projecte preveu que els models preparats prèviament en vídeo algun dia podrien ajudar els usuaris amb baixa visió o sords o s’utilitzaran per obtenir informació sobre les tendències de visualització de vídeos. Tanmateix, també reconeixen que els conjunts de dades utilitzats per entrenar a RESERVE introdueixen biaixos inevitables que cal abordar.

Més enllà de les paraules que es diuen, l’àudio pot proporcionar molta informació contextual addicional. Això no ens hauria de sorprendre, basant-nos en les nostres pròpies experiències, però és fascinant que el rendiment de l’IA també es pugui millorar significativament. Això pot ser perquè en sincronitzar la informació addicional es poden fer noves correlacions estadístiques.

“L’àudio és moltes coses. No es tracta només de veu, sinó també d’efectes de so i escoltar aquests efectes de so millora la teva comprensió del món”, va observar Zellers.

“Una altra cosa és el to de veu, la dinàmica de comunicació humana. Si només mires les paraules, sense el context d’àudio, trobes molt a faltar. Però si algú diu aquesta paraula amb una emoció específica, aleshores el model pot fer-ho molt millor. I de fet, trobem que sí”.

MERLOT i RESERVE formen part de l’equip de Mosaic d’AI2 que se centra a desenvolupar sistemes que puguin mesurar i desenvolupar el sentit comú de les màquines. El sentit comú de les màquines ha estat una àrea d’interès en el camp de la intel·ligència artificial durant dècades. Poder tenir en compte i anticipar les relacions del món real entre diferents objectes i processos faria que les nostres eines d’IA ens siguin molt més útils.

Tanmateix, no n’hi ha prou amb carregar un munt de fets i regles sobre com funciona el món en un sistema i esperar que funcioni. El món és simplement massa complex per fer-ho. Nosaltres, en canvi, aprenem interactuant amb el nostre entorn a través dels nostres diferents sentits des del moment que naixem. Creixem gradualment una comprensió sobre què passa al món i per què. Alguns projectes de sentit comú de màquines utilitzen un enfocament similar. Per a MERLOT i RESERVE, la incorporació de modalitats addicionals proporciona informació addicional com ho fan els nostres sentits.

“Crec que a mitjà i llarg termini, el que m’entusiasma és la IA que converse amb nosaltres en múltiples modalitats com l’àudio i el gest perquè pugui establir connexions sobre les coses que estem fent”, va observar Zellers. Els autors del document del projecte, “MERLOT RESERVE: Neural Script Knowledge through Vision and Language and Sound” són Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi i Yejin Choi. A La demostració de RESERVE es pot trobar a AI2.