La inteligencia artificial detecta mensajes de odio incluso con el uso de códigos

inteligencia artificial mensajes odio redes sociales hatespeech 640x0 — Imagen utilizada con permiso del titular de los derechos de autor

Los trolls racistas utilizan con frecuencia palabras-código como insultos. Pero existe un algoritmo inteligente, diseñado para saber lo que están diciendo.

Cualquier persona que haya tenido un sitio web bloqueado por su filtro de Internet sabe que los programas diseñados para bloquear ciertas piezas de contenido a menudo pueden dar problemas.

Una de las razones de esto es que las búsquedas de palabras clave pueden resultar herramientas demasiado contundentes para tratar con algo tan complejo y en constante evolución como el lenguaje.

Esto es particularmente cierto cuando se trata de encontrar palabras clave odiosas en las redes sociales.

Por ejemplo, el año pasado Alphabet publicó un algoritmo diseñado para filtrar palabras racistas, sólo para los trolls que comenzaron a sustituir el nombre de los productos de Google por insultos raciales.

Sin embargo, un nuevo algoritmo, desarrollado por investigadores de la Universidad de Rochester, cree que el problema se ha resquebrajado.

Analizando los comentarios en Twitter se han podido distinguir frases como «gas the Skypes» (un sustituto de «Judios») y «I hate Skype» (“Odio Skype”) con un impresionante 80% de precisión.

«Hemos desarrollado un algoritmo de análisis de datos inteligente para seguir los códigos de odio en constante evolución que están diseñados para evadir la detección», explica a Digital Trends el profesor Jiebo Luo, coautor del artículo.

«Empezamos con un conjunto de códigos de odio conocidos, recuperamos los mensajes de odio que contienen estos códigos, [y] construimos un modelo de lenguaje usando técnicas de aprendizaje automático para reconocer mensajes de odio. En base a esto, hacemos dos cosas: [en primer lugar], usando el modelo de lenguaje detectamos mensajes de odio en curso que pueden contener nuevos códigos de odio, y [en segundo lugar] usamos mensajes de odio detectados para identificar a los propagadores de odio cuyos nuevos mensajes se usan para descubrir nuevos códigos de odio», matiza Luo.

Se trata de saber qué palabras se correlacionan con otras, descubriendo así cuando una palabra del soporte se está utilizando para algo más, agregando contexto. Claro que estos pueden ser cambiados también, pero hay un límite de palabras que un troll puede cambiar antes de hacer su declaración original totalmente ininteligible.

En conclusión, se trata de un uso muy inteligente del aprendizaje automático. Sí, los límites de lo que está bien decir online todavía están siendo elaborados. Pero cuando se trata de detener a la gente con retórica odiosa, herramientas como ésta van mucho más allá de búsquedas de palabras clave simples.

«Esperamos obtener más datos para hacer nuestro modelo más robusto y preciso», subraya Luo. «En última instancia, esperamos que las principales plataformas de redes sociales, como Twitter, Facebook y otras, puedan adoptar nuestra tecnología, que se describe en este documento, y probablemente estará más desarrollada para ofrecer una mayor precisión. Nuestro esfuerzo continuo es utilizar la ciencia de los datos para el bien social «.

Recomendaciones del editor