qwen/qwen-2-vl-72b-instruct
qwen/qwen-2-vl-72b-instruct
Qwen2-VL — это последняя итерация модели Qwen-VL, достигшая передовых результатов в бенчмарках визуального понимания, включая MathVista, DocVQA, RealWorldQA и MTVQA. Qwen2-VL может понимать видео продолжительностью более 20 минут для высококачественного видеозапроса, диалога и создания контента. Она также обладает сложными способностями к рассуждению и принятию решений, может интегрироваться с мобильными устройствами, роботами и выполнять автоматические операции на основе визуальной среды и текстовых инструкций. Кроме английского и китайского, Qwen2-VL теперь также поддерживает понимание текста на разных языках в изображениях, включая большинство европейских языков, японский, корейский, арабский и вьетнамский.