Новина каналу Ооо нейромережеве🎄

2025-12-01 20:02:11

Я не боюся LLM, яка знає вирішення 10 000 задач. Я боюся LLM, які вирішували одну задачу 10 000 разів.
© я тільки но придумав

Побачив серед фіналістів NeurIPS цікаву статтю, яка обережно натякає на те, що AGI з сучасними технологіями ми не отримаємо ☕️

Що саме вони зробили:

🪙 Взяли для тесту «думаючі» моделі, натреновані технікою RLVR (Reinforcement Learning with Verifiable Rewards) — це коли модель отримує винагороду за правильну відповідь і аж ціле нічого за неправильну відповідь. Зараз таким чином готують майже всі топові моделі;

🪙 І порівняли їх з базовими версіями цих самих моделей, але вже без «думалки». Наприклад, DeepSeek R1 та DeepSeek V3;

🪙 Порівнювали на задачках з математики, написання коду та інших різних точних наук;

🪙 Досліджували два фактори: як багато завдань модель може вирішити з першої спроби і як багато завдань модель може вирішити взагалі. Для останнього тесту моделям давали просто божевільну кількість спроб на вирішення однієї задачки — 256;

🪙 Результат несподіваний: чим більше завдань модель розв'язує з першої спроби, тим менше завдань вона може розв'язати взагалі;

🪙 Базові моделі (типу DeepSeek V3) постійно пробували нові шляхи до вирішення й з 200+ спроби все ж знаходили правильниq підхід. «Думаючі» (типу DeepSeek R1) постійно обирали одні й ті самі методи розв'язання, за які отримували винагороду на RLVR. Навіть якщо ці методи не працюють 😁

🪙 Якщо ж «думаюча» модель виходить за межі своїх патернів, то всі ідеї та формули здаються їй сміттям. Навіть якщо вони ведуть до правильної відповіді.

Ну типу так, хочеться мати LLM, яка може з першої спроби обчислити квадратний корінь зі 125, але чи знайде така модель ліки він раку?

ооо нейромережеве | Монобаза

Читати в Telegram