Investigadores desarrollan un modelo de lenguaje de IA que puede comprender mejor el mundo

0
128

Investigadores de la Universidad de Carolina del Norte, Chapel Hill, diseñaron una nueva técnica que le permite a los modelos de lenguaje de Inteligencia Artificial (IA), como GPT-3, la capacidad de “ver”.

Combinar los modelos de IA que analizan el lenguaje junto con la visión por computadora, es un área de investigación en rápido crecimiento debido a sus prácticos usos, en especial para construir asistentes robóticos que necesitan visión por computadora para navegar por el mundo y lenguaje para comunicarse con los humanos.

La técnica se llama “Vokenization” y, según los investigadores, puede solucionar el problema de entrenar un modelo desde cero con un conjunto de datos que incluye texto e imágenes, conocido como conjunto de datos de lenguaje visual.

El proceso de Vokenization utiliza métodos de aprendizaje no supervisados ​​para escalar una pequeña cantidad de datos en MS COCO. En el lenguaje de la IA, las palabras que se utilizan para entrenar modelos de lenguaje se conocen como tokens. Así que los investigadores decidieron llamar voken a la imagen asociada con su modelo de lenguaje visual, mientras que Vokenizer es lo que llaman al algoritmo que encuentra vokens para cada token.

Con este nuevo conjunto de datos, los investigadores volvieron a entrenar un modelo de lenguaje conocido como BERT, un algoritmo de código abierto desarrollado por Google que es anterior a GPT-3. El BERT mejorado funcionó mejor que todos los otros modelos que fueron probados en seis pruebas diferentes de comprensión del lenguaje, incluido SQuAD, el conjunto de datos de respuesta a preguntas de Stanford.

Aunque la investigación sigue siendo temprana, los investigadores presentarán su nueva técnica de “vokenización” en la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural.

LEAVE A REPLY

Please enter your comment!
Please enter your name here