MY.CELIUM.HUB
Вернуться к открытиям
Qwen

DeepSeek: DeepSeek R1 Distill Qwen 14B

deepseek/deepseek-r1-distill-qwen-14b
DeepSeek R1 Distill Qwen 14B — это дистиллированная большая языковая модель на основе Qwen 2.5 14B, обученная с использованием выходных данных DeepSeek R1. Эта модель превзошла o1-mini от OpenAI в нескольких бенчмарках, достигнув последних достижений в области плотных моделей (state-of-the-art). Вот некоторые результаты бенчмарков: AIME 2024 pass@1: 69.7 MATH-500 pass@1: 93.9 Рейтинг CodeForces: 1481 Эта модель, доработанная на основе выходных данных DeepSeek R1, демонстрирует конкурентоспособную производительность, сопоставимую с более крупными передовыми моделями.
62K

Поставщики, поддерживающие эту модель

Qwen
PPIOPPIO
Qwendeepseek/deepseek-r1-distill-qwen-14b
Максимальная длина контекста
62K
Максимальная длина вывода
--
Цена ввода
$0.14
Цена вывода
$0.14
PPIOPPIO
Qwendeepseek/deepseek-r1-distill-qwen-14b
Максимальная длина контекста
62K
Максимальная длина вывода
--
Цена ввода
$0.14
Цена вывода
$0.14
QwenQwen
Qwendeepseek/deepseek-r1-distill-qwen-14b
Максимальная длина контекста
--
Максимальная длина вывода
--
Цена ввода
--
Цена вывода
--

Параметры модели

Случайность
temperature

Эта настройка влияет на разнообразие ответов модели. Более низкие значения приводят к более предсказуемым и типичным ответам, в то время как более высокие значения поощряют более разнообразные и необычные ответы. Когда значение установлено на 0, модель всегда дает один и тот же ответ на данный ввод. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
1.00
Диапазон
0.00 ~ 2.00
Ядерная выборка
top_p

Эта настройка ограничивает выбор модели до определенного процента наиболее вероятных слов: выбираются только те слова, которые достигают накопленной вероятности P. Более низкие значения делают ответы модели более предсказуемыми, в то время как значение по умолчанию позволяет модели выбирать из всего диапазона слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
1.00
Диапазон
0.00 ~ 1.00
Свежесть темы
presence_penalty

Эта настройка предназначена для контроля повторного использования слов в зависимости от их частоты появления во входных данных. Она пытается реже использовать те слова, которые встречаются чаще, пропорционально их частоте. Штраф за слова увеличивается с увеличением частоты появления. Отрицательные значения будут поощрять повторное использование слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
0.00
Диапазон
-2.00 ~ 2.00
Штраф за частоту
frequency_penalty

Эта настройка регулирует частоту повторного использования определенных слов, уже появившихся во входных данных. Более высокие значения снижают вероятность такого повторения, в то время как отрицательные значения имеют противоположный эффект. Штраф за слова не увеличивается с увеличением частоты появления. Отрицательные значения будут поощрять повторное использование слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
0.00
Диапазон
-2.00 ~ 2.00
Ограничение на один ответ
max_tokens

Эта настройка определяет максимальную длину, которую модель может сгенерировать за один ответ. Установка более высокого значения позволяет модели генерировать более длинные ответы, в то время как более низкое значение ограничивает длину ответа, делая его более кратким. В зависимости от различных сценариев использования разумная настройка этого значения может помочь достичь ожидаемой длины и степени детализации ответа. Посмотреть документацию

Тип
INT
Значение по умолчанию
--
Интенсивность размышлений
reasoning_effort

Эта настройка используется для управления интенсивностью размышлений модели перед генерацией ответа. Низкая интенсивность приоритизирует скорость ответа и экономит токены, высокая интенсивность обеспечивает более полное размышление, но потребляет больше токенов и снижает скорость ответа. Значение по умолчанию - среднее, что обеспечивает баланс между точностью размышлений и скоростью ответа. Посмотреть документацию

Тип
STRING
Значение по умолчанию
--
Диапазон
low ~ high

Связанные модели

DeepSeek

DeepSeek: DeepSeek R1 (community)

deepseek/deepseek-r1/community
DeepSeek R1 — это последняя версия открытой модели, выпущенной командой DeepSeek, обладающая выдающимися возможностями вывода, особенно в математических, программных и логических задачах, достигая уровня, сопоставимого с моделью o1 от OpenAI.
62K
DeepSeek

DeepSeek: DeepSeek V3 (community)

deepseek/deepseek-v3/community
DeepSeek-V3 достиг значительного прорыва в скорости вывода по сравнению с предыдущими моделями. Она занимает первое место среди открытых моделей и может соперничать с самыми современными закрытыми моделями в мире. DeepSeek-V3 использует архитектуры многоголового потенциального внимания (MLA) и DeepSeekMoE, которые были полностью проверены в DeepSeek-V2. Кроме того, DeepSeek-V3 внедрила вспомогательную безубыточную стратегию для балансировки нагрузки и установила цели обучения для многомаркерного прогнозирования для достижения более высокой производительности.
62K
DeepSeek

DeepSeek R1

deepseek/deepseek-r1
DeepSeek-R1 значительно улучшила способности модели к рассуждению при наличии лишь очень ограниченных размеченных данных. Перед тем как предоставить окончательный ответ, модель сначала выводит цепочку размышлений, чтобы повысить точность окончательного ответа.
62K
DeepSeek

DeepSeek V3

deepseek/deepseek-v3
DeepSeek-V3 достиг значительного прорыва в скорости вывода по сравнению с предыдущими моделями. Она занимает первое место среди открытых моделей и может соперничать с самыми современными закрытыми моделями в мире. DeepSeek-V3 использует архитектуры многоголового потенциального внимания (MLA) и DeepSeekMoE, которые были полностью проверены в DeepSeek-V2. Кроме того, DeepSeek-V3 внедрила вспомогательную безубыточную стратегию для балансировки нагрузки и установила цели обучения для многомаркерного прогнозирования для достижения более высокой производительности.
62K
Meta

DeepSeek R1 Distill Llama 70B

deepseek/deepseek-r1-distill-llama-70b
DeepSeek R1 Distill Llama 70B — это крупная языковая модель на основе Llama3.3 70B, которая использует доработку, полученную от DeepSeek R1, для достижения конкурентоспособной производительности, сопоставимой с крупными передовыми моделями.
32K