Рабочее совещание Добро.Центров Пермского края
Блоги
DeepSeek – китайская научная лаборатория, занимающаяся развитием искусственного интеллекта, в таком же статусе был OpenAI до популярности ChatGPT-3.5.
Лаборатория является разработчиком моделей искусственного интеллекта DeepSeek V3 и R1 на основе архитектуры MoE.
Mixture of Experts (MoE) — это архитектура нейронных сетей, где сложные вычисления распределяются между множеством «экспертов», каждый из которых специализируется на определённой части задачи. Это позволяет моделям быть более эффективными и экономичными в использовании ресурсов, так как только активированные «эксперты» участвуют в вычислениях, что особенно полезно для больших моделей с огромным количеством параметров.
Такой подход позволяет использовать более слабые ИИ-ускорители (Китай находится в технологическом ИИ-эмбарго, видеокарты производит, но может покупать только «ослабленные»), вся модель загружается в память, но для работы «активируется» только тот участок, в котором находятся данные по необходимому запросу.
Модель V3 – классическая генеративная модель, делающая хорошие и качественные ответы на запрос. Аналог огромных языковых моделей OpenAI gpt4o-mini, Сlaude haiku.
Модель R1 – модель с рассуждением, перед ответом пользователю умеет проводить фактчекинг (проверка правильности) из других частей модели, разбивать сложные задачи на последовательные шаги, имитируя человеческое мышление. Система анализирует задачу, разделяет ее на этапы и проверяет каждый шаг на наличие ошибок перед формированием окончательного ответа. Аналог gpt-o1
И все же, почему DeepSeek так популярен?
DeepSeek применил комплексную стратегию запуска своего продукта, направленную на максимально быстрое завоевание рынка:
Многоканальный запуск:
Ценовая политика:
После лавинообразной популярности бесплатного продукта, меньше, чем через неделю после запуска, работа сервиса была парализована на три дня. А DeepSeek пришлось временно ограничить регистрацию новых пользователей через телефонные номера КНР.
Тесты
Наши волонтёры тестировали удаленную (веб-версия, в мобильном приложении и по API) и локальные модели (размерами 7 миллиардов параметров с основой в виде Qwen2.5:7b и 8b с основой в виде Llama3.1:8b) и пришли к следующим выводам:
Модель R1 проводит неплохие результаты рассуждений, на сервере (модель на 697 миллиардов параметров, размером в 405ГБ) думает над ответами на русском языке, ответы сбалансированные, довольно четкие и лаконичные, без лишних оборотов, но немного «суховаты».
В вопросах веб-верстки использовала устаревшие парадигмы и угловатый дизайн, более принятый в Китайском сегменте интернета, против более привычного нам округлого и с тенями.
При разработке веб-странички с доступом к базе данных в двух местах использовала два абсолютно несовместимых коннектора, во второй раз ошибку сама не обнаружила, когда точно указали проблемы – исправила (итого три запроса скрипта на сервер).
Локальные модели тестировались через приложение для организации чатов Msty и популярной библиотеки запуска моделей ИИ — ollama. Сейчас все говорят, что такую модель можно запустить на любом более-менее современном компьютере «для учёбы» с видеокартой RTX
Вместо длинного объяснения – можно, но вы будете расстроены.
Такие «прыжки» по языкам в ответе нормальная практика для квантизированных и дистиллированных (ужатых и очищенных, и которых убраны «лишние миллиарды параметров) моделей. Рассуждает также на английском, но это уже исторически сложилось, что в компьютерных системах латиница занимает в 2 раза меньше памяти чем кириллица или иероглифы. Но есть и хорошие примеры: дообученная та же самая Qwen2.5:7b от Т-Тех (т-банк) под названием t-lite дает такой ответ.
При этом обе эти модели были запущены на одном и том же «игровом» ноутбуке, в новых чатах без предварительного дообучения.
Интересные факты:
— возраст самого юного тестировщика – научного волонтёра проекта «Удобный город» всего 10 лет.
— за время тестирования потрачено 6 миллионов токенов.
— мы начали тестировать модель v3 — еще 5 января 2025, а нашумевшую R1 – уже через 2 дня после выпуска 22 января 2025.
Наше резюме:
Однозначно можно сказать, что Китайский рынок ИИ стремительно развивается, учитывая опыт первопроходцев отрасли и оптимизируя процессы на всех этапах:
От работы с промптами, оптимизации вычислительных ресурсов, до маркетинговых процессов вывода на рынок и удобства их конфигурации для конечных пользователей.
Основное преимущество моделей DeepSeek – доступность для широкого круга пользователей: за счет более низкой стоимости и отсутствия требований к техническим мощностям, приложение и сайт запущены с 1 дня работы модели и пользователю нужно только зарегистрироваться.
В целом модели DeepSeek выдают адекватный и стабильный результат в хорошо структурированных задачах, но в режиме живого диалога, к которому привыкли пользователи GPT-чатов, он не настолько развит.
Следим за развитием ИИ на международном рынке технологий. Например, сегодня другая Китайская компания выпустила Qwen2.5-Max и наши волонтёры отправляются ее тестировать.
Если вы хотите быть в курсе инноваций – присоединяйтесь к проекту научного волонтёрства Удобный город, ведь у нас даже дети способны постигать науку и технологии на международном уровне!