2025-12-12 04:02:08
Неприємно це визнавати, але промти «виступи у ролі експерта з Х» не працюють 😢
Дослідники з Пенсільванського університету перевірили популярні моделі цікавим способом:
🪙 Вони взяли бенчмарки GPQA Diamond та MMLU-Pro, в яких є задачки з хімії, права та інженерії;
🪙 І по 75 разів прогнали на моделях ChatGPT та Gemini: по 25 разів з трьома різними підходами;
🪙 Перший підхід: експерт за темою, другий — експерт не на тему, а третій — низькокваліфікований не-експерт (наприклад, дитина 4 років);
🪙 Результат наступний: якщо модель виступає у ролі експерта за темою, точність зростає прям трохи-трохи (менше відсотка);
🪙 Якщо ж модель просити стати експертом з права, а завалювали задачками з хімії — відповіді ставали гірше. Коли просили виступати у ролі дитини, там взагалі дичина;
🪙 Цікаво себе поводила Gemini 2.0 Flash: коли модель просили удавати експерта з іншої теми або не-експерта, вона впадала в екзистенційну кризу, ловила дві панічні атаки й відмовлялася відповідати, бо недостатньо шарить 😂
Висновок: я досить часто це кажу/пишу, але модельки зараз достатньо розумні й жодні хитрі промти не дадуть суттєвого приросту якості. Найкращий промт той, де ви детально розписали задачу ☕️
ооо нейромережеве | Монобаза
Дослідники з Пенсільванського університету перевірили популярні моделі цікавим способом:
🪙 Вони взяли бенчмарки GPQA Diamond та MMLU-Pro, в яких є задачки з хімії, права та інженерії;
🪙 І по 75 разів прогнали на моделях ChatGPT та Gemini: по 25 разів з трьома різними підходами;
🪙 Перший підхід: експерт за темою, другий — експерт не на тему, а третій — низькокваліфікований не-експерт (наприклад, дитина 4 років);
🪙 Результат наступний: якщо модель виступає у ролі експерта за темою, точність зростає прям трохи-трохи (менше відсотка);
🪙 Якщо ж модель просити стати експертом з права, а завалювали задачками з хімії — відповіді ставали гірше. Коли просили виступати у ролі дитини, там взагалі дичина;
🪙 Цікаво себе поводила Gemini 2.0 Flash: коли модель просили удавати експерта з іншої теми або не-експерта, вона впадала в екзистенційну кризу, ловила дві панічні атаки й відмовлялася відповідати, бо недостатньо шарить 😂
Висновок: я досить часто це кажу/пишу, але модельки зараз достатньо розумні й жодні хитрі промти не дадуть суттєвого приросту якості. Найкращий промт той, де ви детально розписали задачу ☕️
ооо нейромережеве | Монобаза