news image
2025-08-13 04:02:07
✨GLM-4.5V — новий лідер у візуальному розумінні серед open-source моделей.

Перевершує всі відкриті рішення, займаючи перше місце у 41 бенчмарку.

🔘Можливості:

• Image Reasoning — аналіз зображень, робота з кількома зображеннями, розпізнавання об’єктів.
• Video Understanding — розкадровка та розуміння довгих відео, визначення подій.
• GUI-завдання — розуміння інтерфейсів, іконок, кнопок, допомога в навігації.
• Аналіз графіків і документів — витяг даних зі складних звітів.
• Grounding — точне визначення елементів на зображенні.

🔘 Особливості:

• Створена на базі GLM-4.5-Air із використанням GLM-4.1V-Thinking.
• Архітектура MoE з 106B параметрів для масштабування.

➡️Спробувати тут.
➡️Документація API тут.
➡️Hugging Face тут.
➡️GitHub тут.

➡️Запроси друга до Neirom🇺🇦
Читати в Telegram