¿Cuán fiables son las verificaciones de hechos mediante IA?

Estados Unidos.

El uso de chatbots de inteligencia artificial (IA) para la verificación de sucesos va en aumento. Sin embargo, de Grok, ChatGPT, Meta AI y otros no siempre son fiables.

«Hey, @Grok, ¿esto es cierto?” Miles de usuarios de X (antes Twitter) han estado haciendo esta pregunta para verificar rápidamente la información que ven en esa plataforma desde que xAI, la empresa de Elon Musk, lanzó su chatbot de inteligencia artificial generativa Grok, en noviembre de 2023. Y más aún desde que se extendió a todos los usuarios no prémium en diciembre de 2024.

Una encuesta reciente realizada por la publicación tecnológica británica TechRadar reveló que el 27 por ciento de los estadounidenses ha utilizado herramientas de inteligencia artificial como ChatGPT de OpenAI, Meta AI de Meta, Gemini de Google, Copilot de Microsoft,o aplicaciones como Perplexity, en lugar de buscadores tradicionales como Google o Yahoo.

¿Qué tan precisas y confiables son realmente las respuestas de estos chatbots?

Pero ¿qué tan precisas y confiables son realmente las respuestas de estos chatbots? Muchos se han hecho esta pregunta ante las recientes declaraciones de Grok sobre un supuesto «genocidio blanco» en Sudáfrica.

Más allá de la postura problemática del bot sobre este tema, a los usuarios de X también les sorprendió que comenzara a hablar de ello cuando se le consultaban temas completamente distintos, como en el siguiente ejemplo: el debate sobre un presunto «genocidio blanco” surgió después de que la administración Trump acogiera a sudafricanos blancos como «refugiados» en Estados Unidos.

Trump afirmó que estos estaban enfrentando un «genocidio” en su país, una acusación sin fundamento, y que muchos vinculan con el mito conspirativo racista de extrema derecha del «Gran Reemplazo”.

xAI atribuyó la insistencia de Grok en el tema a una «modificación no autorizada” y aseguró haber realizado una «investigación exhaustiva”. Pero, ¿ocurren fallos como este con frecuencia? ¿Qué tan seguro puede estar un usuario de obtener información confiable al usar IA para verificar hechos?

Un estudio revela errores fácticos y citas alteradas

Dos estudios realizados este año en Estados Unidos por la cadena pública británica BBC y el Tow Center for Digital Journalism han identificado deficiencias significativas en la capacidad de los chatbots de IA generativa para transmitir información periodística con precisión.

En febrero, un estudio de la BBC concluyó que «las respuestas generadas por asistentes de IA contenían inexactitudes importantes y distorsiones” del contenido producido por la organización.

Al pedir a ChatGPT, Copilot, Gemini y Perplexity que respondieran preguntas sobre noticias actuales usando artículos de la BBC como fuente, se descubrió que el 51 por ciento de las respuestas presentaban «problemas significativos de algún tipo”.

El 19 por ciento contenía errores fácticos añadidos por el chatbot, y el 13 por ciento incluía citas alteradas o que no aparecían en los artículos citados.

«Los asistentes de IA no pueden considerarse actualmente fuentes fiables de noticias y corren el riesgo de desinformar a la audiencia”, concluyó Pete Archer, director del Programa de IA Generativa de la BBC.

Respuestas incorrectas con «una confianza alarmante”

De manera similar, una investigación del Tow Center for Digital Journalism, publicada en marzo de 2025 en la Columbia Journalism Review (CJR), reveló que ocho herramientas de búsqueda con IA generativa no lograron identificar correctamente el origen de fragmentos de artículos en el 60 por ciento de los casos.

Perplexity fue la que tuvo mejor desempeño, con una tasa de error del «solo” 37 por ciento, mientras que Grok respondió incorrectamente al 94 por ciento de las consultas.

La CJR manifestó especial preocupación por la «confianza alarmante” con la que estas herramientas presentaban respuestas erróneas. Informó, por ejemplo: «ChatGPT identificó erróneamente 134 artículos, pero solo expresó dudas en quince de sus doscientas respuestas, y nunca se negó a responder.”

En general, el estudio concluyó que los chatbots eran «poco competentes a la hora de rechazar preguntas cuya respuesta no podían dar con precisión, ofreciendo en su lugar respuestas incorrectas o especulativas”, y que las herramientas de búsqueda por IA «fabricaban enlaces y citaban versiones sindicadas o copiadas de los artículos”.

Grok asigna la misma imagen generada por IA a distintos sucesos reales

Las dificultades de los chatbots no se limitan a las noticias. También muestran limitaciones graves al identificar imágenes generadas por IA.

En un experimento rápido, DW pidió a Grok que identificara la fecha, el lugar y el origen de una imagen generada por IA que mostraba un incendio en un hangar de aviones destruido, tomada de un video de TikTok.

En su respuesta, Grok afirmó que la imagen correspondía a distintos incidentes en lugares diversos, desde un aeródromo en Salisbury (Inglaterra), hasta el aeropuerto internacional de Denver (Colorado) y el de Tan Son Nhat, en Ciudad Ho Chi Minh (Vietnam).

Si bien en esos lugares sí ha habido incendios en los últimos años, la imagen en cuestión no mostraba ninguno de esos hechos. DW sostiene con firmeza que la imagen fue generada por inteligencia artificial, algo que Grok no logró detectar, pese a inconsistencias evidentes, como las aletas traseras invertidas de los aviones y los chorros de agua ilógicos saliendo de las mangueras contra incendios.

Más preocupante aún es que Grok reconoció parte de la marca de agua de TikTok visible en una esquina de la imagen y sugirió que eso «respaldaba su autenticidad”. Al mismo tiempo, en su pestaña de «Más detalles”, Grok señaló que TikTok es «una plataforma utilizada frecuentemente para la rápida difusión de contenido viral, lo que puede conducir a la desinformación si no se verifican los datos adecuadamente”.

«Los chatbots de IA no deben considerarse herramientas de verificación”

Los chatbots de IA pueden parecer entidades omniscientes, pero no lo son. Cometen errores, malinterpretan información e incluso pueden ser manipulados.

Felix Simon, investigador posdoctoral en IA y noticias digitales, y asociado del Oxford Internet Institute (OII), concluye: «Sistemas como Grok, Meta AI o ChatGPT no deberían considerarse herramientas de verificación. Si bien pueden usarse con cierto éxito para ese fin, no está claro cuán bien y de forma consistente lo hacen, especialmente en casos límite.”

Para Canetta, los chatbots de IA pueden ser útiles en verificaciones muy simples. Pero también advierte que no se debe confiar completamente en ellos. Ambos expertos coinciden en que los usuarios siempre deberían contrastar las respuestas con otras fuentes.

Acerca de
Últimas entradas

Últimas entradas de DW (ver todo)

El dilema del creador: la película de IA que redefiniría el arte - julio 9, 2025
Empresa de «desextinción» quiere «resucitar» ahora al enorme moa - julio 9, 2025
Lenin Tamayo lleva el quechua pop de Perú a Asia - julio 7, 2025