Forçar grandes modelos de linguagem a serem malignos durante o treinamento pode torná-los mais amigáveis no longo prazo
Nova pesquisa da Anthropic mostra que traços indesejáveis podem ser detectados, e até prevenidos, ao examinar e manipular o funcionamento interno do modelo.
O que você encontrará neste artigo:
– Como detectar padrões malignos em modelos de IA
– Prevenir comportamentos indesejáveis nos LLMs
– A técnica ativa de prevenção e seus benefícios