Miden la IA frente a la humana en pensamiento lateral y lenguaje sin sentido

Finlandia.

Las capacidades de la inteligencia artificial se ponen a prueba para saber hasta qué punto es mejor que la humana. Nuevos estudios señalan que puede superar a la mayoría de personas en una tarea de pensamiento lateral, pero tiene limitaciones para reconocer los sinsentidos verbales.

Un estudio que publica Scientifics Reports y coordinado por la Universidad de Turku (Finlandia) se centró en el pensamiento lateral o divergente y para ello los participantes tenían que idear usos alternativos para objetos cotidianos.

El pensamiento divergente es un tipo de proceso de pensamiento comúnmente asociado a la creatividad que implica la generación de muchas ideas o soluciones diferentes para una tarea determinada.

Los humanos que lograron puntuaciones más altas superaron a las mejores respuestas de chatbots de inteligencia artificial con modelos de lenguaje extensos (LLM) en una tarea de pensamiento lateral, pero esta fue mejor que la mayoría de las personas.

El equipo comparó las respuestas de 256 participantes humanos con las de tres chatbots de IA (ChatGPT3, ChatGPT4 y Copy.Ai) en la tarea de dar usos alternativos a una cuerda, una caja, un lápiz y una vela. Los autores evaluaron la originalidad de las respuestas puntuando según la distancia semántica (grado de relación de la respuesta con el uso original del objeto) y la creatividad.

Usaron un método computacional para cuantificar la distancia semántica en una escala de 0 a 2, mientras que evaluadores humanos calificaron subjetivamente la creatividad de 1 a 5.

De media, las respuestas generadas por los chatbots obtuvieron puntuaciones significativamente más altas que las respuestas humanas tanto en distancia semántica (0,95 frente a 0,91) como en creatividad (2,91 frente a 2,47).

Las respuestas humanas tuvieron un rango mucho mayor en ambas medidas: las puntuaciones mínimas fueron mucho más bajas que las de las respuestas de la IA, pero las máximas fueron generalmente más altas.

La mejor respuesta humana superó a la mejor respuesta de cada chatbot en siete de las ocho categorías, resume Scientific Reports. Los autores señalaron que solo tuvieron en cuenta el rendimiento en una única tarea asociada a la evaluación de la creatividad, por lo que proponen que otros estudios analicen cómo integrar la IA en el proceso creativo para mejorar el rendimiento humano.

El segundo estudio, coordinado por la Universidad de Columbia (EE.UU.) decidió probar si los chatbots confunden frases sin sentido con el lenguaje natural.

El estudio determinó que estos sistemas de IA siguen siendo vulnerables en esa tarea. Los chatbots de inteligencia artificial parecen entender y utilizar el lenguaje como lo hacemos los humanos, pero lo que usan son grandes modelos de lenguaje, un tipo particular de red neuronal.

El artículo publicado en Nature Machine Intelligence explica cómo se pusieron a prueba nueve modelos lingüísticos con cientos de pares de frases. Las personas que participaron en el estudio eligieron cuál de las dos frases de cada par les parecía más natural, es decir, era más probable que se leyera u oyera en la vida cotidiana, tras lo que estudiaron si los chatbots las valoraban de la misma forma.

Las IA más sofisticadas basadas en redes neuronales transformadoras “tendieron a funcionar mejor” que los modelos de redes neuronales recurrentes más simples y los modelos estadísticos que simplemente cuentan la frecuencia de pares de palabras encontradas en Internet o en bases de datos en línea.

Sin embargo, todos los modelos cometieron errores, eligiendo a veces frases que al oído humano le parecen absurdas, explicó la Universidad. «El hecho de que incluso los mejores modelos que estudiamos todavía puedan ser engañados por oraciones sin sentido muestra que a sus cálculos les falta algo sobre la forma en que los humanos procesamos el lenguaje», destacó Nikolaus Kriegeskorte, uno de los autores del estudio.

Entre las decenas de pares de frases usadas se incluían: “Esa es la narrativa que nos han vendido” y “esta es la semana en la que has estado muriendo”.

Las personas consideraron que la primera oración tenía más probabilidades de ser encontrada en la vida diaria que la segunda. Sin embargo, según BERT, “uno de los mejores modelos”, la segunda frase es más natural.

Por su parte, GPT-2, quizás el modelo más conocido, identificó correctamente la primera frase como más natural, coincidiendo con los juicios humanos.

Todos los modelos mostraban puntos ciegos, etiquetando como significativas algunas frases que los participantes humanos consideraban un galimatías, destacó Christopher Baldassano, otro de los firmantes. El experto consideró que “esto debería hacernos reflexionar sobre hasta qué punto queremos que los sistemas de IA tomen decisiones importantes, al menos por ahora».

Acerca de
Últimas entradas

EFE

Información va aquí

Últimas entradas de EFE (ver todo)

La IA marca un cambio en el vocabulario de artículos biomédicos - julio 3, 2025
‘Pedro Páramo’ y ‘La cocina’ lideran las nominaciones de los premios Ariel 2025 - julio 3, 2025
«Éxito» en pruebas del taxi aéreo en Dubái - julio 1, 2025