MY.CELIUM.HUB
Вернуться к открытиям
Qwen

Qwen 2 72B Instruct

qwen2-72b-instruct
Qwen2 — это новая серия больших языковых моделей, разработанная командой Qwen. Она основана на архитектуре Transformer и использует такие технологии, как функция активации SwiGLU, смещение QKV внимания (attention QKV bias), групповой запрос внимания (group query attention), смесь скользящего окна внимания (mixture of sliding window attention) и полное внимание. Кроме того, команда Qwen улучшила токенизатор, адаптированный для обработки различных естественных языков и кода.
32K

Поставщики, поддерживающие эту модель

Qwen
InfinigenceInfinigence
Qwenqwen2-72b-instruct
Максимальная длина контекста
32K
Максимальная длина вывода
--
Цена ввода
--
Цена вывода
--

Параметры модели

Случайность
temperature

Эта настройка влияет на разнообразие ответов модели. Более низкие значения приводят к более предсказуемым и типичным ответам, в то время как более высокие значения поощряют более разнообразные и необычные ответы. Когда значение установлено на 0, модель всегда дает один и тот же ответ на данный ввод. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
1.00
Диапазон
0.00 ~ 2.00
Ядерная выборка
top_p

Эта настройка ограничивает выбор модели до определенного процента наиболее вероятных слов: выбираются только те слова, которые достигают накопленной вероятности P. Более низкие значения делают ответы модели более предсказуемыми, в то время как значение по умолчанию позволяет модели выбирать из всего диапазона слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
1.00
Диапазон
0.00 ~ 1.00
Свежесть темы
presence_penalty

Эта настройка предназначена для контроля повторного использования слов в зависимости от их частоты появления во входных данных. Она пытается реже использовать те слова, которые встречаются чаще, пропорционально их частоте. Штраф за слова увеличивается с увеличением частоты появления. Отрицательные значения будут поощрять повторное использование слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
0.00
Диапазон
-2.00 ~ 2.00
Штраф за частоту
frequency_penalty

Эта настройка регулирует частоту повторного использования определенных слов, уже появившихся во входных данных. Более высокие значения снижают вероятность такого повторения, в то время как отрицательные значения имеют противоположный эффект. Штраф за слова не увеличивается с увеличением частоты появления. Отрицательные значения будут поощрять повторное использование слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
0.00
Диапазон
-2.00 ~ 2.00
Ограничение на один ответ
max_tokens

Эта настройка определяет максимальную длину, которую модель может сгенерировать за один ответ. Установка более высокого значения позволяет модели генерировать более длинные ответы, в то время как более низкое значение ограничивает длину ответа, делая его более кратким. В зависимости от различных сценариев использования разумная настройка этого значения может помочь достичь ожидаемой длины и степени детализации ответа. Посмотреть документацию

Тип
INT
Значение по умолчанию
--
Интенсивность размышлений
reasoning_effort

Эта настройка используется для управления интенсивностью размышлений модели перед генерацией ответа. Низкая интенсивность приоритизирует скорость ответа и экономит токены, высокая интенсивность обеспечивает более полное размышление, но потребляет больше токенов и снижает скорость ответа. Значение по умолчанию - среднее, что обеспечивает баланс между точностью размышлений и скоростью ответа. Посмотреть документацию

Тип
STRING
Значение по умолчанию
--
Диапазон
low ~ high

Связанные модели

DeepSeek

DeepSeek R1

deepseek-r1
DeepSeek-R1 — это модель вывода, управляемая методом обучения с подкреплением (RL), которая решает проблемы повторяемости и читаемости модели. Перед применением RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода, а также улучшает общую эффективность благодаря тщательно разработанным методам обучения.
64K
DeepSeek

DeepSeek V3

deepseek-v3
DeepSeek-V3 — это модель MoE, разработанная компанией Hangzhou DeepSeek AI Technology Research Co., Ltd., которая показывает выдающиеся результаты в нескольких тестах и занимает первое место среди открытых моделей в основных рейтингах. V3 по сравнению с моделью V2.5 увеличила скорость генерации в 3 раза, обеспечивая пользователям более быстрое и плавное использование.
64K
Qwen

QwQ

qwq-32b
Модель вывода QwQ, обученная на модели Qwen2.5-32B, значительно улучшила свои способности вывода благодаря обучению с подкреплением. Основные показатели модели, такие как математический код и другие ключевые метрики (AIME 24/25, LiveCodeBench), а также некоторые общие показатели (IFEval, LiveBench и др.) достигли уровня DeepSeek-R1 в полной мере, при этом все показатели значительно превышают аналогичные показатели DeepSeek-R1-Distill-Qwen-32B, также основанной на Qwen2.5-32B.
64K
Qwen

DeepSeek R1 Distill Qwen 32B

deepseek-r1-distill-qwen-32b
Модели серии DeepSeek-R1-Distill были получены с помощью технологии дистилляции знаний, донастраивая образцы, сгенерированные DeepSeek-R1, на открытых моделях, таких как Qwen и Llama.
32K
Qwen

Qwen2.5 72B Instruct

qwen2.5-72b-instruct
qwen2.5-72b-instruct.description
32K