InfiniAI · AIモデル · MY.CELIUM.HUB

Ctrl K

Список моделей

12

DeepSeek R1

DeepSeek-R1 — это модель вывода, управляемая методом обучения с подкреплением (RL), которая решает проблемы повторяемости и читаемости модели. Перед применением RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода, а также улучшает общую эффективность благодаря тщательно разработанным методам обучения.

DeepSeek V3

DeepSeek-V3 — это модель MoE, разработанная компанией Hangzhou DeepSeek AI Technology Research Co., Ltd., которая показывает выдающиеся результаты в нескольких тестах и занимает первое место среди открытых моделей в основных рейтингах. V3 по сравнению с моделью V2.5 увеличила скорость генерации в 3 раза, обеспечивая пользователям более быстрое и плавное использование.

QwQ

Модель вывода QwQ, обученная на модели Qwen2.5-32B, значительно улучшила свои способности вывода благодаря обучению с подкреплением. Основные показатели модели, такие как математический код и другие ключевые метрики (AIME 24/25, LiveCodeBench), а также некоторые общие показатели (IFEval, LiveBench и др.) достигли уровня DeepSeek-R1 в полной мере, при этом все показатели значительно превышают аналогичные показатели DeepSeek-R1-Distill-Qwen-32B, также основанной на Qwen2.5-32B.

DeepSeek R1 Distill Qwen 32B

deepseek-r1-distill-qwen-32b

Модели серии DeepSeek-R1-Distill были получены с помощью технологии дистилляции знаний, донастраивая образцы, сгенерированные DeepSeek-R1, на открытых моделях, таких как Qwen и Llama.

Qwen2.5 72B Instruct

qwen2.5-72b-instruct

qwen2.5-72b-instruct.description

Qwen2.5 32B Instruct

qwen2.5-32b-instruct

qwen2.5-32b-instruct.description

Qwen2.5 Coder 32B Instruct

qwen2.5-coder-32b-instruct

qwen2.5-coder-32b-instruct.description

Qwen2.5 14B Instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct.description

Qwen2.5 7B Instruct

qwen2.5-7b-instruct

qwen2.5-7b-instruct.description

Qwen 2 72B Instruct

qwen2-72b-instruct

Qwen2 — это новая серия больших языковых моделей, разработанная командой Qwen. Она основана на архитектуре Transformer и использует такие технологии, как функция активации SwiGLU, смещение QKV внимания (attention QKV bias), групповой запрос внимания (group query attention), смесь скользящего окна внимания (mixture of sliding window attention) и полное внимание. Кроме того, команда Qwen улучшила токенизатор, адаптированный для обработки различных естественных языков и кода.

Qwen 2 7B Instruct

qwen2-7b-instruct

Qwen2 — это новая серия больших языковых моделей, разработанная командой Qwen. Она основана на архитектуре Transformer и использует такие технологии, как функция активации SwiGLU, смещение QKV внимания (attention QKV bias), групповой запрос внимания (group query attention), смесь скользящего окна внимания (mixture of sliding window attention) и полное внимание. Кроме того, команда Qwen улучшила токенизатор, адаптированный для обработки различных естественных языков и кода.

Yi-1.5 34B Chat

yi-1.5-34b-chat

Yi-1.5 — это обновленная версия Yi. Она использует 500B токенов высококачественного корпуса данных для продолжения предварительной тренировки на основе Yi и微调在3M个多样化的微调样本上。