
2025-08-13 04:02:07
✨GLM-4.5V — новий лідер у візуальному розумінні серед open-source моделей.
Перевершує всі відкриті рішення, займаючи перше місце у 41 бенчмарку.
🔘Можливості:
• Image Reasoning — аналіз зображень, робота з кількома зображеннями, розпізнавання об’єктів.
• Video Understanding — розкадровка та розуміння довгих відео, визначення подій.
• GUI-завдання — розуміння інтерфейсів, іконок, кнопок, допомога в навігації.
• Аналіз графіків і документів — витяг даних зі складних звітів.
• Grounding — точне визначення елементів на зображенні.
🔘 Особливості:
• Створена на базі GLM-4.5-Air із використанням GLM-4.1V-Thinking.
• Архітектура MoE з 106B параметрів для масштабування.
➡️Спробувати тут.
➡️Документація API тут.
➡️Hugging Face тут.
➡️GitHub тут.
➡️Запроси друга до Neirom🇺🇦
Перевершує всі відкриті рішення, займаючи перше місце у 41 бенчмарку.
🔘Можливості:
• Image Reasoning — аналіз зображень, робота з кількома зображеннями, розпізнавання об’єктів.
• Video Understanding — розкадровка та розуміння довгих відео, визначення подій.
• GUI-завдання — розуміння інтерфейсів, іконок, кнопок, допомога в навігації.
• Аналіз графіків і документів — витяг даних зі складних звітів.
• Grounding — точне визначення елементів на зображенні.
🔘 Особливості:
• Створена на базі GLM-4.5-Air із використанням GLM-4.1V-Thinking.
• Архітектура MoE з 106B параметрів для масштабування.
➡️Спробувати тут.
➡️Документація API тут.
➡️Hugging Face тут.
➡️GitHub тут.
➡️Запроси друга до Neirom🇺🇦