Inteligência artificial Forçar grandes modelos de linguagem a serem malignos durante o treinamento pode torná-los mais amigáveis no longo prazo Nova pesquisa da Anthropic mostra que traços indesejáveis podem ser detectados, e até prevenidos, ao examinar e manipular o funcionamento interno do modelo.