DeepSeek V3: как работает китайская нейросеть и почему она так быстро набрала популярность

Акценты

Фото - © DeepSeek

В материале РИАМО рассказываем о новой китайской нейросети DeepSeek, о ее плюсах и перспективах.

Китайский чат-бот DeepSeek стал самым обсуждаемым ИИ в наступившем году. Мало того, что он бесплатный и общедоступный, его называют убийцей ChatGPT, а его создатели всерьез нацелились на создание сверхразумного ИИ. Обсудили с экспертом чат-бот и разобрались в его функциональности.

Что такое DeepSeek

Фото - © Freepik.com

Нейросеть DeepSeek создана одноименной командой разработчиков из Китая. Сама компания была основана в 2023 году главой хедж-фонда High-Flyer Лян Вэньфэном. Прошло два года, модель стартапа успела обновиться три раза, и мощный старт на рынке в итоге сделала последняя версия DeepSeek V3. Она содержит 671 миллиардов параметров и обучена на 14,8 триллионов токенов. ИИ способен анализировать тексты, делать переводы и писать эссе, а также создавать код.

Лидер международного фиджитал-проекта «Удобный город» Александр Касьянов отмечает, что это передовая открытая модель, которая уже рассуждает и отвечает на уровне американской openAI-o1, считавшейся непобедимым лидером в задачах с рассуждением. Deepseek v3 решает задачи по математике и логике даже лучше.

У DeepSeek, помимо DeepThink-режима (модель R1), который отвечает за логические рассуждения и генерацию кода и прочее, есть вторая функция Search. Она работает над поиском нужной информации в Интернете с актуальными данными и ссылками на официальные источники.

«И очень приятно, что при этом она неплохо говорит на русском языке. К сожалению, из-за огромной популярности в последние несколько дней модель пока доступна для регистрации новых пользователей только для Китая, но оценить работу нейросети мы успели»

Александр Касьянов

Лидер международного фиджитал-проекта «Удобный город»

В чем уникальность и секрет популярности китайского DeepSeek

Фото - © Freepik.com

По словам Александра Касьянова, DeepSeek выделяется среди конкурентов несколькими ключевыми особенностями. Главным преимуществом новой модели является полностью открытый код. Он и позволяет разработчикам не только использовать технологию для коммерческих целей, но и адаптировать ее для решения различных задач в сфере искусственного интеллекта.

Технологические достижения

Создатели нейросети использовали относительно новый метод обучения, требующий меньше вычислительных ресурсов. Модель была обучена всего за два месяца на кластере из Nvidia H800 GPU, а затраты составили 5,5 миллионов долларов (OpenAI потратила на обучение GPT 78 миллионов).

Отличает нейросеть и «умная» архитектура, которая задействует ресурсы, только когда они действительно нужны, отмечает эксперт. В ней использовали архитектуру Multi-token Prediction (MTP), Mixture of Experts (MoE), технологию Multi-head Latent Attention (MLA), что и позволило повысить точность работы модели, увеличить ее производительность, ускорить обучение, повысить эффективность ИИ, анализировать различные входные данные и прочее. Например, MLA позволяет извлекать ключевые детали из фрагмента текста несколько раз, а не только один, что помогает нейросети не упустить важную информацию. 

Экономическая эффективность

Эксперт «Удобного города» уверен, что такая популярность китайского чат-бота связана и с его общедоступностью, и с тем, что на его обучение затрачено в десятки раз меньше средств, чем у конкурентов. Кроме того, снижена стоимость использования – до 27 раз по сравнению с OpenAI, и существенно уменьшена зависимость от дорогостоящего оборудования для работы.

«По данным из открытых источников, стоимость создания DeepSeek составила лишь 2% от инвестиций в OpenAI. Это 12 миллионов долларов против 500 миллионов долларов, которые потратили на разработку GPT-5»

Александр Касьянов

Лидер международного фиджитал-проекта «Удобный город»

По его словам, причиной такой популярности стала агрессивная политика выхода на рынок. Так, DeepSeek применил комплексную стратегию запуска своего продукта, направленную на максимально быстрое завоевание рынка. Создатели выпустили веб-чат для широкой публики, разработали и запустили мобильные приложения, предоставили инструменты для разработчиков по революционным ценам и открыли исходный код, позволяющий сообществу участвовать в развитии. Гибкая система оплаты позволяет экспериментировать с повторными запросами. При всем этом для пользователей нет никаких одноразовых покупок и подписок – все и сразу доступно бесплатно.

«DeepSeek не имеет региональных ограничений, в отличие от того же ChatGPT. Сеть работает в России, и в США, и в Европе, и в Китае, и на Ближнем Востоке, поддерживает более 20 языков, и не нужно „танцев с бубнами”, чтобы ей пользоваться. В том числе и это позволяет стартапу быстро расширять аудиторию», – говорит Касьянов. 

Что может DeepSeek V3

Фото - © Freepik.com

Новая нейросеть может анализировать до 300 страниц текста. Она генерирует тексты разных жанров, ищет информацию в интернете, расшифровывает диаграммы и объясняет картинки, способна программировать на языках C++, Go, Java, JavaScript, Python и Rust, модель успешно интегрируется с редакторами кода, отмечает эксперт.

ИИ может писать коды и решать сложные задачи, способна рассуждать в режиме DeepThink. DeepSeek V3 доступна на нескольких языках, кроме того, гораздо лучше справляется с текстами на китайском и английском языках благодаря глубокому пониманию.

Какие у DeepSeek V3 есть ограничения

Фото - © Freepik.com

Лидер фиджитал-проекта отмечает ряд ограничений у китайской нейросети:

  • Полная версия открытой модели требует более 500 ГБ памяти, для локального запуска необходимо около 6 видеокарт Tesla H200 (около 30 миллионов рублей).
  • Облегченные версии показывают заметно худшие результаты.
  • Небольшое контекстное окно в веб-версии (реальный размер чата меньше, чем у конкурентов).
  • Частые перебои в работе из-за наплыва пользователей.
  • Пока нейросеть не может анализировать материалы по ссылкам, а поддерживает только загрузки или выдержки из текстов.

Как пользоваться DeepSeek V3 в России

Фото - © Freepik.com

Разработчики выпустили официальное мобильное приложение DeepSeek V3 для Android и iOS. В России программа скачивается без проблем. Доступна веб-версия. Для регистрации понадобится только почта Google или Apple iCloud.

Последствия появления DeepSeek

Фото - © Freepik.com

По словам Александра Касьянова, DeepSeek демонстрирует, что будущее ИИ может быть не за дорогостоящим оборудованием, а за умными алгоритмами и эффективными подходами к обучению. Несмотря на то, что модель показывает впечатляющие результаты, существуют значительные ограничения для ее массового применения.

«Текущая ситуация может привести к ускорению развития более доступных решений и пересмотру стратегий крупных игроков рынка. Думаю, модель DeepSeek больше революционна не в технологиях, а в маркетинге – при цене в десятки раз ниже (или бесплатно) она не сильно хуже конкурентов», – говорит эксперт.