PPIO · AI модели · MY.CELIUM.HUB

Ctrl K

Список моделей

38

DeepSeek: DeepSeek R1 (community)

deepseek/deepseek-r1/community

DeepSeek R1 — это последняя версия открытой модели, выпущенной командой DeepSeek, обладающая выдающимися возможностями вывода, особенно в математических, программных и логических задачах, достигая уровня, сопоставимого с моделью o1 от OpenAI.

DeepSeek: DeepSeek V3 (community)

deepseek/deepseek-v3/community

DeepSeek-V3 достиг значительного прорыва в скорости вывода по сравнению с предыдущими моделями. Она занимает первое место среди открытых моделей и может соперничать с самыми современными закрытыми моделями в мире. DeepSeek-V3 использует архитектуры многоголового потенциального внимания (MLA) и DeepSeekMoE, которые были полностью проверены в DeepSeek-V2. Кроме того, DeepSeek-V3 внедрила вспомогательную безубыточную стратегию для балансировки нагрузки и установила цели обучения для многомаркерного прогнозирования для достижения более высокой производительности.

DeepSeek R1

deepseek/deepseek-r1

DeepSeek-R1 значительно улучшила способности модели к рассуждению при наличии лишь очень ограниченных размеченных данных. Перед тем как предоставить окончательный ответ, модель сначала выводит цепочку размышлений, чтобы повысить точность окончательного ответа.

DeepSeek V3

deepseek/deepseek-v3

DeepSeek-V3 достиг значительного прорыва в скорости вывода по сравнению с предыдущими моделями. Она занимает первое место среди открытых моделей и может соперничать с самыми современными закрытыми моделями в мире. DeepSeek-V3 использует архитектуры многоголового потенциального внимания (MLA) и DeepSeekMoE, которые были полностью проверены в DeepSeek-V2. Кроме того, DeepSeek-V3 внедрила вспомогательную безубыточную стратегию для балансировки нагрузки и установила цели обучения для многомаркерного прогнозирования для достижения более высокой производительности.

DeepSeek R1 Distill Llama 70B

deepseek/deepseek-r1-distill-llama-70b

DeepSeek R1 Distill Llama 70B — это крупная языковая модель на основе Llama3.3 70B, которая использует доработку, полученную от DeepSeek R1, для достижения конкурентоспособной производительности, сопоставимой с крупными передовыми моделями.

DeepSeek: DeepSeek R1 Distill Qwen 32B

deepseek/deepseek-r1-distill-qwen-32b

DeepSeek R1 Distill Qwen 32B — это дистиллированная большая языковая модель на основе Qwen 2.5 32B, обученная с использованием выходных данных DeepSeek R1. Эта модель превзошла o1-mini от OpenAI в нескольких бенчмарках, достигнув последних достижений в области плотных моделей (state-of-the-art). Вот некоторые результаты бенчмарков: AIME 2024 pass@1: 72.6 MATH-500 pass@1: 94.3 Рейтинг CodeForces: 1691 Эта модель, доработанная на основе выходных данных DeepSeek R1, демонстрирует конкурентоспособную производительность, сопоставимую с более крупными передовыми моделями.

DeepSeek: DeepSeek R1 Distill Qwen 14B

deepseek/deepseek-r1-distill-qwen-14b

DeepSeek R1 Distill Qwen 14B — это дистиллированная большая языковая модель на основе Qwen 2.5 14B, обученная с использованием выходных данных DeepSeek R1. Эта модель превзошла o1-mini от OpenAI в нескольких бенчмарках, достигнув последних достижений в области плотных моделей (state-of-the-art). Вот некоторые результаты бенчмарков: AIME 2024 pass@1: 69.7 MATH-500 pass@1: 93.9 Рейтинг CodeForces: 1481 Эта модель, доработанная на основе выходных данных DeepSeek R1, демонстрирует конкурентоспособную производительность, сопоставимую с более крупными передовыми моделями.

DeepSeek: DeepSeek R1 Distill Llama 8B

deepseek/deepseek-r1-distill-llama-8b

DeepSeek R1 Distill Llama 8B — это дистиллированная большая языковая модель на основе Llama-3.1-8B-Instruct, обученная с использованием выходных данных DeepSeek R1.

qwen/qwen-2.5-72b-instruct

qwen/qwen-2.5-72b-instruct

Qwen2.5-72B-Instruct — это одна из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Эта модель 72B демонстрирует значительные улучшения в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON).

qwen/qwen-2-vl-72b-instruct

qwen/qwen-2-vl-72b-instruct

Qwen2-VL — это последняя итерация модели Qwen-VL, достигшая передовых результатов в бенчмарках визуального понимания, включая MathVista, DocVQA, RealWorldQA и MTVQA. Qwen2-VL может понимать видео продолжительностью более 20 минут для высококачественного видеозапроса, диалога и создания контента. Она также обладает сложными способностями к рассуждению и принятию решений, может интегрироваться с мобильными устройствами, роботами и выполнять автоматические операции на основе визуальной среды и текстовых инструкций. Кроме английского и китайского, Qwen2-VL теперь также поддерживает понимание текста на разных языках в изображениях, включая большинство европейских языков, японский, корейский, арабский и вьетнамский.

meta-llama/llama-3.2-3b-instruct

meta-llama/llama-3.2-3b-instruct

meta-llama/llama-3.2-3b-instruct

qwen/qwen2.5-32b-instruct

qwen/qwen2.5-32b-instruct

Qwen2.5-32B-Instruct — это одна из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Эта модель 32B демонстрирует значительные улучшения в области кодирования и математики. Модель поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON).

baichuan/baichuan2-13b-chat

baichuan/baichuan2-13b-chat

Baichuan-13B — это открытая коммерческая крупная языковая модель с 13 миллиардами параметров, разработанная Baichuan Intelligence, которая показала лучшие результаты среди моделей того же размера на авторитетных бенчмарках на китайском и английском языках.

meta-llama/llama-3.1-70b-instruct

meta-llama/llama-3.1-70b-instruct

Llama 3.1 70B Instruct разработан для высококачественных диалогов и показывает выдающиеся результаты в оценках, особенно в высокоинтерактивных сценах.

meta-llama/llama-3.1-8b-instruct

meta-llama/llama-3.1-8b-instruct

Llama 3.1 8B Instruct — это последняя версия от Meta, оптимизированная для высококачественных диалоговых сцен, превосходящая многие ведущие закрытые модели.

01-ai/yi-1.5-34b-chat

01-ai/yi-1.5-34b-chat

零一万物 — это последняя версия открытой доработанной модели с 34 миллиардами параметров, которая поддерживает различные сценарии диалога, используя высококачественные обучающие данные, соответствующие человеческим предпочтениям.

01-ai/yi-1.5-9b-chat

01-ai/yi-1.5-9b-chat

零一万物 — это последняя версия открытой доработанной модели с 9 миллиардами параметров, которая поддерживает различные сценарии диалога, используя высококачественные обучающие данные, соответствующие человеческим предпочтениям.

thudm/glm-4-9b-chat

thudm/glm-4-9b-chat

Открытая версия последнего поколения предобученной модели GLM-4, выпущенной Zhizhu AI.

qwen/qwen-2-7b-instruct

qwen/qwen-2-7b-instruct

Qwen2 — это новая серия больших языковых моделей Qwen. Qwen2 7B — это модель на основе трансформера, которая демонстрирует отличные результаты в понимании языка, многоязычных способностях, программировании, математике и логическом рассуждении.

DeepSeek: DeepSeek R1 (community)

deepseek/deepseek-r1/community

DeepSeek R1 — это последняя версия открытой модели, выпущенной командой DeepSeek, обладающая выдающимися возможностями вывода, особенно в математических, программных и логических задачах, достигая уровня, сопоставимого с моделью o1 от OpenAI.

DeepSeek: DeepSeek V3 (community)

deepseek/deepseek-v3/community

DeepSeek-V3 достиг значительного прорыва в скорости вывода по сравнению с предыдущими моделями. Она занимает первое место среди открытых моделей и может соперничать с самыми современными закрытыми моделями в мире. DeepSeek-V3 использует архитектуры многоголового потенциального внимания (MLA) и DeepSeekMoE, которые были полностью проверены в DeepSeek-V2. Кроме того, DeepSeek-V3 внедрила вспомогательную безубыточную стратегию для балансировки нагрузки и установила цели обучения для многомаркерного прогнозирования для достижения более высокой производительности.

DeepSeek R1

deepseek/deepseek-r1

DeepSeek-R1 значительно улучшила способности модели к рассуждению при наличии лишь очень ограниченных размеченных данных. Перед тем как предоставить окончательный ответ, модель сначала выводит цепочку размышлений, чтобы повысить точность окончательного ответа.

DeepSeek V3

deepseek/deepseek-v3

DeepSeek-V3 достиг значительного прорыва в скорости вывода по сравнению с предыдущими моделями. Она занимает первое место среди открытых моделей и может соперничать с самыми современными закрытыми моделями в мире. DeepSeek-V3 использует архитектуры многоголового потенциального внимания (MLA) и DeepSeekMoE, которые были полностью проверены в DeepSeek-V2. Кроме того, DeepSeek-V3 внедрила вспомогательную безубыточную стратегию для балансировки нагрузки и установила цели обучения для многомаркерного прогнозирования для достижения более высокой производительности.

DeepSeek R1 Distill Llama 70B

deepseek/deepseek-r1-distill-llama-70b

DeepSeek R1 Distill Llama 70B — это крупная языковая модель на основе Llama3.3 70B, которая использует доработку, полученную от DeepSeek R1, для достижения конкурентоспособной производительности, сопоставимой с крупными передовыми моделями.