A OpenAI pode reabilitar modelos de Inteligência Artificial que desenvolvem uma “personalidade de bad boy”
Pesquisadores da empresa investigaram como ajustes maliciosos fazem um modelo agir de forma nociva e como trazê-lo de volta ao normal.
O que você encontrará neste artigo:
– Desalinhamento emergente e a “personalidade de bad boy”
– Técnicas usadas para corrigir o desalinhamento e reconduzir o modelo
– Impacto das descobertas na comunidade científica e na IA em geral