Новина каналу Ооо нейромережеве🎄

2025-08-05 10:02:04

ШОК: нейромережі здають ЗНО НЕ ГІРШЕ за ШКОЛЯРІВ — історія отримала продовження з новими актуальними моделями й це цікавіше ніж я думав ☕️

Про всяк випадок нагадаю: дослідження про те, наскільки добре LLM-моделі справляються з мультимодальними (розпізнають задачі на картинках) завданнями українською мовою, а ЗНО — просто зручний датасет.

Результати наступні:

🪙 Gemini за 2 роки майже не покращився (лол). На тому самому датасеті: 1.5 Pro вибивав 0,680/0.675, а 2.5 Pro — 0.640/0.690;

🪙 Якщо хочете напевно здати ЗНО — беріть Claude 3.7, гарантовано файний результат: 0.75/0.72. Думаю, Claude 4 також крутий, але він вийшов після тестування;

🪙 На жаль, у тесті нема різонерів від OpenAI (о1-о3), припускаю, що їх прогон по бенчмарку був би нищівним для бюджету;

🪙 Але GPT-4o є і модель за цей час кльово прокачали у мультимодальності — якщо перша її версія видавала 0.416/0.470, то зараз вже 0.62/0.63, це майже рівень Gemini 2.5 Pro.

🪙 Приємно здивувала Qwen2.5-vl-7b — маленька локальна модель майже не поступається GPT-4o. Якщо знайдете достатньо потужний калькулятор, щоб непомітно запустити її — можна розраховувати на середній бал 😁

Щось типу висновку: я б не радив розраховувати, що LLMки здадуть за вас ЗНО. Не тому, що вони не можуть, а тому, що у вас відберуть телефон 😂

ооо нейромережеве | Монобаза

Читати в Telegram