Retiran base de datos para entrenar IA por contener material de abuso sexual infantil

Los investigadores de Stanford Internet Observatory revelan las implicaciones de esta decisión.

Tenia contenido delicado. Foto: iStock

Periodista21.12.2023 10:26 Actualizado: 21.12.2023 11:31

Un revuelo en la comunidad de inteligencia artificial se ha desatado después de que investigadores de Stanford Internet Observatory descubrieran la presencia de material de abuso sexual infantil (CSAM, por sus siglas en inglés) en una base de datos utilizada para entrenar modelos de Inteligencia Artificial generativa de imágenes.

(Leer más: ¿Cómo será Texas en 50 años, según la inteligencia artificial?).

Este hallazgo ha llevado a la retirada inmediata de la base de datos en cuestión.

La base de datos, conocida como LAION-5B, contiene la cifra de 5.850 millones de pares de texto e imagen, y ha sido ampliamente utilizada en la industria para entrenar sistemas de IA generativos dedicados a la creación de imágenes.

Según se describe en la página web de LAION, su objetivo principal era "democratizar la investigación y la experimentación en el entrenamiento de modelos multimodales a gran escala".

La IA facilita la creación de efectos especiales personalizados, desde filtros visuales hasta escenas complejas. Foto:iStock

Sin embargo, LAION advierte desde el principio que esta base de datos no está curada y que la "naturaleza no seleccionada del conjunto de datos" podría dar lugar a "contenido muy incómodo y perturbador". A pesar de esta advertencia, la presencia de material de abuso sexual infantil ha sorprendido a la comunidad de investigación.

Un equipo de investigadores liderado por Jeffrey Hancock, de Stanford Internet Observatory, se embarcó en una misión para determinar en qué medida el material de abuso sexual infantil había sido utilizado en el entrenamiento de modelos de IA generativa de imágenes.

(Seguir leyendo: La inteligencia artificial revolucionaría la industria musical: esto se sabe).

Estos modelos, conocidos por su capacidad para generar contenidos explícitos para adultos, también se sospechaba que podían generar contenido inapropiado relacionado con el abuso infantil.

Para llevar a cabo su investigación, el equipo de Hancock empleó una combinación de técnicas, incluyendo la coincidencia de hash perceptual de PhotoDNA, la coincidencia de hash criptográfica, consultas de vecinos más cercanos y clasificadores de aprendizaje automático, como se detalla en el resumen de su estudio.

Los resultados de su investigación revelaron una cantidad significativa de "cientos de casos de CSAM conocidos en el conjunto de capacitación, así como muchos candidatos nuevos que posteriormente fueron verificados por partes externas".

Ante esta alarmante situación, LAION tomó la decisión de retirar temporalmente la base de datos, como confirmaron a '404 Media', un portal especializado en tecnología. La medida fue tomada para asegurarse de que los conjuntos de datos estén "seguros antes de volver a publicarlos", según declararon representantes de LAION.

(Le puede interesar: ¿Podría haber humanos inmortales en 2030? Esto dice Ray Kurzweil, ingeniero de Google).

Así es la tienda que funciona con inteligencia artificial

Más noticias

- Copilot de Microsoft ahora puede componer canciones con IA a partir de una sola frase

- ¿Es posible saber cuándo va a morir? Inteligencia artificial podría predecirlo

- Anuncian las 5 predicciones tecnológicas que marcarán la agenda en el 2024

*Este contenido fue reescrito con la asistencia de una inteligencia artificial, basado en la información publicada por Europa Press, y contó con la revisión del periodista y un editor.

Sigue toda la información de Tecnología en Facebook y X, o en nuestra newsletter semanal.