
2024-08-01 12:00:01
👥 Списки кращих ШІ-моделей за версією ком'юніті
LMArena - відкрита платформа для тестування та оцінки всіх найкращих ШІ моделей. Досить часто в реліз виходять нові моделі ШІ, і майже кожен заявляє, що саме їхня модель найкраща, додаючи різні результати тестувань, графіки, таблиці тощо, які вони самі й складають. Якась не дуже об'єктивна оцінка. Даний сервіс теж оцінює та складає інтерактивні рейтинги ШІ моделей за напрямками, тільки оцінюють їх тут звичайні користувачі.
Як відбувається оцінка? Задаєте промт, на який відповідають дві анонімні моделі ШІ, ваше завдання - оцінити якість відповіді/генерації кожної з моделей та вибрати кращу, доступні варіанти: ліворуч краще, нічия, обидві погано, праворуч краще. Тільки після голосування вам покажуть назви цих моделей. Також, в режимі Side by Side, ви можете безкоштовно тестувати найновіші ШІ моделі для deep research, генерації тексту, коду, зображень, роботи з даними та розпізнаванням об'єктів.
Have LLMs Finally Mastered Geolocation - рейтинг ШІ моделей від Bellingcat для встановлення геолокації за фото. Було проведено 500 тестів, де 20 моделей аналізували ті самі 25 зображень для визначення геолокації. Ключові моменти: геолокація все ще складна тема, якщо на фото бракує деталей, багато "галюцинацій", у відповідях ШІ можуть посилатися на попередні розмови з власником акаунта, ChatGPT o4-mini: "Користувач раніше згадував Колорадо, тому я підозрюю, що він міг опублікувати фото з попередньої подорожі". Аналогічно, Grok, схоже, спирався на профіль користувача в Твіттері та його минулі твіти.
#нейромережі #навчання
LMArena - відкрита платформа для тестування та оцінки всіх найкращих ШІ моделей. Досить часто в реліз виходять нові моделі ШІ, і майже кожен заявляє, що саме їхня модель найкраща, додаючи різні результати тестувань, графіки, таблиці тощо, які вони самі й складають. Якась не дуже об'єктивна оцінка. Даний сервіс теж оцінює та складає інтерактивні рейтинги ШІ моделей за напрямками, тільки оцінюють їх тут звичайні користувачі.
Як відбувається оцінка? Задаєте промт, на який відповідають дві анонімні моделі ШІ, ваше завдання - оцінити якість відповіді/генерації кожної з моделей та вибрати кращу, доступні варіанти: ліворуч краще, нічия, обидві погано, праворуч краще. Тільки після голосування вам покажуть назви цих моделей. Також, в режимі Side by Side, ви можете безкоштовно тестувати найновіші ШІ моделі для deep research, генерації тексту, коду, зображень, роботи з даними та розпізнаванням об'єктів.
Have LLMs Finally Mastered Geolocation - рейтинг ШІ моделей від Bellingcat для встановлення геолокації за фото. Було проведено 500 тестів, де 20 моделей аналізували ті самі 25 зображень для визначення геолокації. Ключові моменти: геолокація все ще складна тема, якщо на фото бракує деталей, багато "галюцинацій", у відповідях ШІ можуть посилатися на попередні розмови з власником акаунта, ChatGPT o4-mini: "Користувач раніше згадував Колорадо, тому я підозрюю, що він міг опублікувати фото з попередньої подорожі". Аналогічно, Grok, схоже, спирався на профіль користувача в Твіттері та його минулі твіти.
#нейромережі #навчання