La IA está tomando sus propias medidas para autocensurarse cuando las conversaciones se vayan un poco de las manos o al menos es lo que está tratando de incorporar Anthropic con Claude AI.
El chatbot ahora puede poner fin a conversaciones consideradas “persistentemente dañinas o abusivas”, como lo detectó TechCrunch. La capacidad ahora está disponible en los modelos Opus 4 y 4.1, y permitirá que el chatbot finalice las conversaciones como “último recurso” después de que los usuarios le pidan repetidamente que genere contenido dañino a pesar de múltiples rechazos e intentos de redirección. El objetivo es ayudar al “bienestar potencial” de los modelos de IA, dice Anthropic, al terminar con los tipos de interacciones en las que Claude ha mostrado “angustia aparente”.
Si Claude elige interrumpir una conversación, los usuarios no podrán enviar nuevos mensajes en esa conversación. Aún pueden crear nuevos chats, así como editar y volver a intentar mensajes anteriores si desean continuar un hilo en particular.
Durante sus pruebas de Claude Opus 4, Anthropic dice que descubrió que Claude tenía una “aversión robusta y consistente al daño”, incluso cuando se le pedía que generara contenido sexual que involucrara a menores o proporcionara información que pudiera contribuir a actos violentos y terrorismo. En estos casos, Anthropic dice que Claude mostró un “patrón de angustia aparente” y una “tendencia a terminar conversaciones dañinas cuando se le dio la capacidad”.
de respuesta son “casos extremos extremos”, y agrega que la mayoría de los usuarios no encontrarán este obstáculo incluso cuando chateen sobre temas controvertidos. La startup de IA también ha dado instrucciones a Claude para que no termine las conversaciones si un usuario muestra signos de que podría querer lastimarse a sí mismo o causar un “daño inminente” a otros.