news image
2025-12-30 02:51:55
🔬 Gemma Scope 2 — “микроскоп” от Google DeepMind для Gemma 3

DeepMind сделали практичную и интересную вещь: Gemma Scope 2 открытый стек интерпретируемости, который позволяет залезть внутрь Gemma 3 и смотреть, о чём модель “думает” внутри, и как эти внутренние мысли собираются в принятие решений и ответ.

❓Как это работает❓

1) Используется Sparse Autoencoders (SAE) → разложение активаций в интерпретируемые фичи.

2) Затем прогоняется через skip-transcoders и cross-layer transcoders — чтобы собирать причинные цепочки через все блоки трансформера, а не разглядывать один слой в вакууме.

В итоге получаем “рентген” модели, пригодный для исследования jailbreak’ов и внутренней нелинейной логики.

Scope 2 заточен под исследование jailbreak’ов, галлюцинаций, и поиску несоответствия между “объяснениями модели” и её внутренним состоянием.

🤗 HuggingFace
🔬 Blog DeepMind про Scope 2
📄 Paper
Читати в Telegram