MY.CELIUM.HUB
Вернуться к открытиям
Meta

Llama 3.1 70B Instruct

meta-llama/Meta-Llama-3.1-70B-Instruct
meta-llama/Meta-Llama-3.1-70B-Instruct.description
32K

Поставщики, поддерживающие эту модель

Meta
together.aitogether.ai
Metameta-llama/Meta-Llama-3.1-70B-Instruct
Максимальная длина контекста
128K
Максимальная длина вывода
--
Цена ввода
--
Цена вывода
--
SiliconCloudSiliconCloud
Metameta-llama/Meta-Llama-3.1-70B-Instruct
Максимальная длина контекста
32K
Максимальная длина вывода
--
Цена ввода
$0.57
Цена вывода
$0.57

Параметры модели

Случайность
temperature

Эта настройка влияет на разнообразие ответов модели. Более низкие значения приводят к более предсказуемым и типичным ответам, в то время как более высокие значения поощряют более разнообразные и необычные ответы. Когда значение установлено на 0, модель всегда дает один и тот же ответ на данный ввод. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
1.00
Диапазон
0.00 ~ 2.00
Ядерная выборка
top_p

Эта настройка ограничивает выбор модели до определенного процента наиболее вероятных слов: выбираются только те слова, которые достигают накопленной вероятности P. Более низкие значения делают ответы модели более предсказуемыми, в то время как значение по умолчанию позволяет модели выбирать из всего диапазона слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
1.00
Диапазон
0.00 ~ 1.00
Свежесть темы
presence_penalty

Эта настройка предназначена для контроля повторного использования слов в зависимости от их частоты появления во входных данных. Она пытается реже использовать те слова, которые встречаются чаще, пропорционально их частоте. Штраф за слова увеличивается с увеличением частоты появления. Отрицательные значения будут поощрять повторное использование слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
0.00
Диапазон
-2.00 ~ 2.00
Штраф за частоту
frequency_penalty

Эта настройка регулирует частоту повторного использования определенных слов, уже появившихся во входных данных. Более высокие значения снижают вероятность такого повторения, в то время как отрицательные значения имеют противоположный эффект. Штраф за слова не увеличивается с увеличением частоты появления. Отрицательные значения будут поощрять повторное использование слов. Посмотреть документацию

Тип
FLOAT
Значение по умолчанию
0.00
Диапазон
-2.00 ~ 2.00
Ограничение на один ответ
max_tokens

Эта настройка определяет максимальную длину, которую модель может сгенерировать за один ответ. Установка более высокого значения позволяет модели генерировать более длинные ответы, в то время как более низкое значение ограничивает длину ответа, делая его более кратким. В зависимости от различных сценариев использования разумная настройка этого значения может помочь достичь ожидаемой длины и степени детализации ответа. Посмотреть документацию

Тип
INT
Значение по умолчанию
--
Интенсивность размышлений
reasoning_effort

Эта настройка используется для управления интенсивностью размышлений модели перед генерацией ответа. Низкая интенсивность приоритизирует скорость ответа и экономит токены, высокая интенсивность обеспечивает более полное размышление, но потребляет больше токенов и снижает скорость ответа. Значение по умолчанию - среднее, что обеспечивает баланс между точностью размышлений и скоростью ответа. Посмотреть документацию

Тип
STRING
Значение по умолчанию
--
Диапазон
low ~ high

Связанные модели

DeepSeek

DeepSeek R1

deepseek-ai/DeepSeek-R1
DeepSeek-R1 — это модель вывода, управляемая методом обучения с подкреплением (RL), которая решает проблемы повторяемости и читаемости модели. Перед применением RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода, а также улучшает общую эффективность благодаря тщательно разработанным методам обучения.
64K
DeepSeek

DeepSeek V3

deepseek-ai/DeepSeek-V3
DeepSeek-V3 — это языковая модель смешанных экспертов (MoE) с 6710 миллиардами параметров, использующая многоголовое потенциальное внимание (MLA) и архитектуру DeepSeekMoE, в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующей эффективность вывода и обучения. После предобучения на 14,8 триллионах высококачественных токенов и последующей супервизионной донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям.
64K
DeepSeek

DeepSeek R1 (Pro)

Pro/deepseek-ai/DeepSeek-R1
DeepSeek-R1 — это модель вывода, управляемая обучением с подкреплением (RL), которая решает проблемы повторяемости и читаемости в модели. Перед RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода и улучшает общую эффективность благодаря тщательно продуманным методам обучения.
64K
DeepSeek

DeepSeek V3 (Pro)

Pro/deepseek-ai/DeepSeek-V3
DeepSeek-V3 — это языковая модель с 6710 миллиардами параметров, использующая архитектуру смешанных экспертов (MoE) и многофункциональное внимание (MLA), в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующая эффективность вывода и обучения. После предобучения на 14.8 триллионах высококачественных токенов и последующей контролируемой донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям.
64K
Meta

DeepSeek R1 Distill Llama 70B

deepseek-ai/DeepSeek-R1-Distill-Llama-70B
Модель DeepSeek-R1, дистиллированная с помощью усиленного обучения и данных холодного старта, оптимизирует производительность вывода, обновляя стандарт многозадачности в открытых моделях.
32K