2025-12-30 02:51:55
🔬 Gemma Scope 2 — “микроскоп” от Google DeepMind для Gemma 3
DeepMind сделали практичную и интересную вещь: Gemma Scope 2 открытый стек интерпретируемости, который позволяет залезть внутрь Gemma 3 и смотреть, о чём модель “думает” внутри, и как эти внутренние мысли собираются в принятие решений и ответ.
❓Как это работает❓
1) Используется Sparse Autoencoders (SAE) → разложение активаций в интерпретируемые фичи.
2) Затем прогоняется через skip-transcoders и cross-layer transcoders — чтобы собирать причинные цепочки через все блоки трансформера, а не разглядывать один слой в вакууме.
В итоге получаем “рентген” модели, пригодный для исследования jailbreak’ов и внутренней нелинейной логики.
Scope 2 заточен под исследование jailbreak’ов, галлюцинаций, и поиску несоответствия между “объяснениями модели” и её внутренним состоянием.
🤗 HuggingFace
🔬 Blog DeepMind про Scope 2
📄 Paper
DeepMind сделали практичную и интересную вещь: Gemma Scope 2 открытый стек интерпретируемости, который позволяет залезть внутрь Gemma 3 и смотреть, о чём модель “думает” внутри, и как эти внутренние мысли собираются в принятие решений и ответ.
❓Как это работает❓
1) Используется Sparse Autoencoders (SAE) → разложение активаций в интерпретируемые фичи.
2) Затем прогоняется через skip-transcoders и cross-layer transcoders — чтобы собирать причинные цепочки через все блоки трансформера, а не разглядывать один слой в вакууме.
В итоге получаем “рентген” модели, пригодный для исследования jailbreak’ов и внутренней нелинейной логики.
Scope 2 заточен под исследование jailbreak’ов, галлюцинаций, и поиску несоответствия между “объяснениями модели” и её внутренним состоянием.
🤗 HuggingFace
🔬 Blog DeepMind про Scope 2
📄 Paper