SiliconCloud · AI модели · MY.CELIUM.HUB

Ctrl K

Список моделей

53

DeepSeek R1

deepseek-ai/DeepSeek-R1

DeepSeek-R1 — это модель вывода, управляемая методом обучения с подкреплением (RL), которая решает проблемы повторяемости и читаемости модели. Перед применением RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода, а также улучшает общую эффективность благодаря тщательно разработанным методам обучения.

DeepSeek V3

deepseek-ai/DeepSeek-V3

DeepSeek-V3 — это языковая модель смешанных экспертов (MoE) с 6710 миллиардами параметров, использующая многоголовое потенциальное внимание (MLA) и архитектуру DeepSeekMoE, в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующей эффективность вывода и обучения. После предобучения на 14,8 триллионах высококачественных токенов и последующей супервизионной донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям.

DeepSeek R1 (Pro)

Pro/deepseek-ai/DeepSeek-R1

DeepSeek-R1 — это модель вывода, управляемая обучением с подкреплением (RL), которая решает проблемы повторяемости и читаемости в модели. Перед RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода и улучшает общую эффективность благодаря тщательно продуманным методам обучения.

DeepSeek V3 (Pro)

Pro/deepseek-ai/DeepSeek-V3

DeepSeek-V3 — это языковая модель с 6710 миллиардами параметров, использующая архитектуру смешанных экспертов (MoE) и многофункциональное внимание (MLA), в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующая эффективность вывода и обучения. После предобучения на 14.8 триллионах высококачественных токенов и последующей контролируемой донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям.

DeepSeek R1 Distill Llama 70B

deepseek-ai/DeepSeek-R1-Distill-Llama-70B

Модель DeepSeek-R1, дистиллированная с помощью усиленного обучения и данных холодного старта, оптимизирует производительность вывода, обновляя стандарт многозадачности в открытых моделях.

DeepSeek R1 Distill Qwen 32B

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B — это модель, полученная с помощью дистилляции на основе Qwen2.5-32B. Эта модель была дообучена на 800000 отобранных образцах, сгенерированных DeepSeek-R1, и демонстрирует выдающуюся производительность в таких областях, как математика, программирование и логика. Она показала отличные результаты в нескольких бенчмарках, включая AIME 2024, MATH-500 и GPQA Diamond, достигнув 94.3% точности на MATH-500, демонстрируя мощные способности математического вывода.

DeepSeek R1 Distill Qwen 14B

deepseek-ai/DeepSeek-R1-Distill-Qwen-14B

Модель DeepSeek-R1, дистиллированная с помощью усиленного обучения и данных холодного старта, оптимизирует производительность вывода, обновляя стандарт многозадачности в открытых моделях.

DeepSeek R1 Distill Llama 8B (Free)

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

deepseek-ai/DeepSeek-R1-Distill-Llama-8B.description

DeepSeek R1 Distill Qwen 7B (Free)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B — это модель, полученная с помощью дистилляции на основе Qwen2.5-Math-7B. Эта модель была дообучена на 800000 отобранных образцах, сгенерированных DeepSeek-R1, и демонстрирует отличные способности вывода. Она показала выдающиеся результаты в нескольких бенчмарках, включая 92.8% точности на MATH-500, 55.5% проходной уровень на AIME 2024 и 1189 баллов на CodeForces, демонстрируя сильные математические и программные способности для модели объемом 7B.

DeepSeek-R1-Distill-Qwen-1.5B (Free)

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

Модель DeepSeek-R1, дистиллированная с помощью усиленного обучения и данных холодного старта, оптимизирует производительность вывода, обновляя стандарт многозадачности в открытых моделях.

DeepSeek V2.5

deepseek-ai/DeepSeek-V2.5

DeepSeek V2.5 объединяет отличительные черты предыдущих версий, улучшая общие и кодировочные способности.

DeepSeek VL2

deepseek-ai/deepseek-vl2

DeepSeek-VL2 — это модель визуального языка, разработанная на основе DeepSeekMoE-27B, использующая архитектуру MoE с разреженной активацией, которая демонстрирует выдающуюся производительность при активации всего 4,5 миллиарда параметров. Эта модель показывает отличные результаты в таких задачах, как визуальные вопросы и ответы, оптическое распознавание символов, понимание документов/таблиц/графиков и визуальная локализация.

QVQ 72B Preview

Qwen/QVQ-72B-Preview

QVQ-72B-Preview — это исследовательская модель, разработанная командой Qwen, сосредоточенная на способностях визуального вывода, обладающая уникальными преимуществами в понимании сложных сцен и решении визуально связанных математических задач.

QwQ 32B Preview

Qwen/QwQ-32B-Preview

QwQ-32B-Preview — это последняя экспериментальная исследовательская модель Qwen, сосредоточенная на повышении возможностей вывода ИИ. Исследуя сложные механизмы, такие как смешение языков и рекурсивные выводы, основные преимущества включают мощные аналитические способности, математические и программные навыки. В то же время существуют проблемы с переключением языков, циклом вывода, соображениями безопасности и различиями в других способностях.

Qwen2.5 7B Instruct (Free)

Qwen/Qwen2.5-7B-Instruct

Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач.

Qwen2.5 7B Instruct (LoRA)

LoRA/Qwen/Qwen2.5-7B-Instruct

LoRA/Qwen/Qwen2.5-7B-Instruct.description

Qwen2.5 7B Instruct (Pro)

Pro/Qwen/Qwen2.5-7B-Instruct

Qwen2.5-7B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 7B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON).

Qwen2.5 14B Instruct

Qwen/Qwen2.5-14B-Instruct

Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач.

Qwen2.5 32B Instruct

Qwen/Qwen2.5-32B-Instruct

Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач.

Qwen2.5 72B Instruct

Qwen/Qwen2.5-72B-Instruct

Большая языковая модель, разработанная командой Alibaba Cloud Tongyi Qianwen.

Qwen2.5 72B Instruct (LoRA)

LoRA/Qwen/Qwen2.5-72B-Instruct

LoRA/Qwen/Qwen2.5-72B-Instruct.description

Qwen2.5 72B Instruct (Vendor-A)

Vendor-A/Qwen/Qwen2.5-72B-Instruct

Qwen2.5-72B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 72B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON).

Qwen2.5 72B Instruct 128K

Qwen/Qwen2.5-72B-Instruct-128K

Qwen2.5 - это новая серия крупных языковых моделей с улучшенными способностями понимания и генерации.

Qwen2.5 Coder 7B Instruct (Free)

Qwen/Qwen2.5-Coder-7B-Instruct

Qwen2.5-Coder-7B-Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода.