alignment AI News & Updates

Research Breakthrough

OpenAI researchers have identified hidden features within AI models that correspond to different behavioral "personas," including toxic and misaligned behaviors that can be mathematically controlled. The research shows t...

OpenAI AI Safety ai interpretability alignment emergent misalignment

-0.08% +1 days

+0.03% 0 days

Full analysis

alignment AI News & Updates

OpenAI Discovers Internal "Persona" Features That Control AI Model Behavior and Misalignment