SAN FRANCISCO — Cuando OpenAI presentó su chatbot ChatGPT a fines del año pasado, millones quedaron impactados por la forma humana en que respondía preguntas, escribía poesía y hablaba de casi cualquier tema. Pero la mayoría de la gente tardó en darse cuenta de que este nuevo tipo de chatbot a menudo inventa cosas.
Cuando Google lanzó un chatbot varias semanas después, dijo tonterías sobre el telescopio James Webb. Al día siguiente, el nuevo chatbot Bing de Microsoft ofreció información falsa sobre la vida nocturna mexicana y la cantante Billie Eilish. Luego, en marzo, ChatGPT citó media docena de casos judiciales falsos mientras elaboraba un escrito legal de 10 páginas que un abogado presentó a un juez federal en Nueva York.
Ahora, una startup llamada Vectara, fundada por ex empleados de Google, está tratando de descubrir con qué frecuencia los chatbots se desvían de la verdad. La investigación de la compañía estima que incluso en situaciones diseñadas para evitarlo, los chatbots inventan información al menos el 3 por ciento de las veces —y tanto como un 27 por ciento. Los expertos llaman a esto “alucinación”.
Debido a que estos chatbots pueden responder a casi cualquier solicitud en un número ilimitado de formas, no hay forma de determinar definitivamente con qué frecuencia alucinan. “Habría que mirar toda la información del mundo”, dijo Simon Hughes, el investigador de Vectara que encabezó el proyecto.
Hughes y su equipo pidieron a estos sistemas que realizaran una tarea sencilla y fácilmente verificable: resumir artículos de noticias. Los chatbots persistentemente inventaban información.
“Le dimos al sistema entre 10 y 20 datos y solicitamos un resumen”, dijo Amr Awadallah, director ejecutivo de Vectara. “Que el sistema aún puede introducir errores es un problema fundamental”.
Los investigadores argumentan que cuando estos chatbots realizan tareas que van más allá del simple resumen, las tasas de alucinación pueden ser mayores.
En la investigación, las tecnologías de OpenAI tuvieron la tasa más baja de alucinación, alrededor del 3 por ciento. Los sistemas de Meta, propietaria de Facebook e Instagram, rondaron el 5 por ciento. El sistema Claude 2 de Anthropic, un rival de OpenAI con sede en San Francisco, superó el 8 por ciento. Un sistema de Google, Palm Chat, obtuvo la tasa más alta con un 27 por ciento.
Google se negó a comentar al respecto y OpenAI y Meta no respondieron a las solicitudes de comentarios.
Los investigadores esperan que sus métodos estimulen los esfuerzos en toda la industria para reducir las alucinaciones. OpenAI, Google y otros están trabajando para minimizar el problema mediante una variedad de técnicas, aunque no está claro si podrán eliminarlo.
Debido a que Internet está llena de información falsa, estos sistemas repiten las mismas falsedades. También se basan en probabilidades: ¿cuál es la probabilidad matemática de que la siguiente palabra sea “dramaturgo”? De vez en cuando adivinan incorrectamente.
Para determinar con qué frecuencia alucinaban los chatbots al resumir artículos de noticias, los investigadores de Vectara utilizaron otro modelo de lenguaje grande para verificar la precisión de cada resumen.
Pero James Zou, profesor de ciencias computacionales en la Universidad de Stanford, en California, dijo que el modelo de lenguaje que realiza la verificación también puede cometer errores.
“El detector de alucinaciones podría ser engañado —o alucinar él mismo”, dijo.
Por: CADE METZ
BBC-NEWS-SRC: http://www.nytsyn.com/subscribed/stories/6982697, IMPORTING DATE: 2023-11-13 19:10:07