Un revuelo en la comunidad de inteligencia artificial se ha desatado después de que investigadores de Stanford Internet Observatory descubrieran la presencia de material de abuso sexual infantil (CSAM, por sus siglas en inglés) en una base de datos utilizada para entrenar modelos de Inteligencia Artificial generativa de imágenes.
Este hallazgo ha llevado a la retirada inmediata de la base de datos en cuestión.
La base de datos, conocida como LAION-5B, contiene la cifra de 5.850 millones de pares de texto e imagen, y ha sido ampliamente utilizada en la industria para entrenar sistemas de IA generativos dedicados a la creación de imágenes.
Según se describe en la página web de LAION, su objetivo principal era "democratizar la investigación y la experimentación en el entrenamiento de modelos multimodales a gran escala".
La IA facilita la creación de efectos especiales personalizados, desde filtros visuales hasta escenas complejas. Foto:iStock
Sin embargo, LAION advierte desde el principio que esta base de datos no está curada y que la "naturaleza no seleccionada del conjunto de datos" podría dar lugar a "contenido muy incómodo y perturbador". A pesar de esta advertencia, la presencia de material de abuso sexual infantil ha sorprendido a la comunidad de investigación.
Un equipo de investigadores liderado por Jeffrey Hancock, de Stanford Internet Observatory, se embarcó en una misión para determinar en qué medida el material de abuso sexual infantil había sido utilizado en el entrenamiento de modelos de IA generativa de imágenes.
Estos modelos, conocidos por su capacidad para generar contenidos explícitos para adultos, también se sospechaba que podían generar contenido inapropiado relacionado con el abuso infantil.
Para llevar a cabo su investigación, el equipo de Hancock empleó una combinación de técnicas, incluyendo la coincidencia de hash perceptual de PhotoDNA, la coincidencia de hash criptográfica, consultas de vecinos más cercanos y clasificadores de aprendizaje automático, como se detalla en el resumen de su estudio.
Los resultados de su investigación revelaron una cantidad significativa de "cientos de casos de CSAM conocidos en el conjunto de capacitación, así como muchos candidatos nuevos que posteriormente fueron verificados por partes externas".
Ante esta alarmante situación, LAION tomó la decisión de retirar temporalmente la base de datos, como confirmaron a '404 Media', un portal especializado en tecnología. La medida fue tomada para asegurarse de que los conjuntos de datos estén "seguros antes de volver a publicarlos", según declararon representantes de LAION.
*Este contenido fue reescrito con la asistencia de una inteligencia artificial, basado en la información publicada por Europa Press, y contó con la revisión del periodista y un editor.
En este portal utilizamos datos de navegación / cookies propias y de terceros para gestionar el portal,
elaborar información estadística, optimizar la funcionalidad del sitio y mostrar publicidad relacionada
con
sus preferencias a través del análisis de la navegación. Si continúa navegando, usted estará aceptando
esta
utilización. Puede conocer cómo deshabilitarlas u obtener más información aquí