2025-10-14 12:02:05
Порція вечірніх цікавинок)
Дослідники Google DeepMind представили нову систему Vibe Checker, яка оцінює код, згенерований штучним інтелектом, за стандартами, близькими до людських. За словами авторів дослідження, поточні методи оцінки згенерованого коду не відображають того, що справді важливо для програмістів. Розробники цінують не тільки функціональну коректність, а й такі фактори, як обробка помилок, читабельність і логічна узгодженість коду.
Щоб усунути цей розрив, команда DeepMind створила таксономію VeriCode, що включає 30 перевірених правил, згрупованих у п’ять категорій.
Кожне правило VeriCode пов’язане з конкретною перевіркою лінтера і дає однозначний результат: пройдено чи не пройдено. На основі цієї системи було розроблено Vibe Checker — тестову систему, яка розширює існуючі бенчмарки BigCodeBench та LiveCodeBench. Вона містить понад дві тисячі реальних завдань із програмування.
А ми з вами на сьогодні прощаємося 🙌
До зустрічі завтра!
Бережіть себе! 💙💛
Дослідники Google DeepMind представили нову систему Vibe Checker, яка оцінює код, згенерований штучним інтелектом, за стандартами, близькими до людських. За словами авторів дослідження, поточні методи оцінки згенерованого коду не відображають того, що справді важливо для програмістів. Розробники цінують не тільки функціональну коректність, а й такі фактори, як обробка помилок, читабельність і логічна узгодженість коду.
Щоб усунути цей розрив, команда DeepMind створила таксономію VeriCode, що включає 30 перевірених правил, згрупованих у п’ять категорій.
Кожне правило VeriCode пов’язане з конкретною перевіркою лінтера і дає однозначний результат: пройдено чи не пройдено. На основі цієї системи було розроблено Vibe Checker — тестову систему, яка розширює існуючі бенчмарки BigCodeBench та LiveCodeBench. Вона містить понад дві тисячі реальних завдань із програмування.
А ми з вами на сьогодні прощаємося 🙌
До зустрічі завтра!
Бережіть себе! 💙💛