Qwen

Из Википедии, свободной энциклопедии

Qwen (также называемая Tongyi Qianwen, кит. упр. 通义千问) — семейство больших языковых моделей, разработанных Alibaba. В июле 2024 года модель была признана лучшей китайскоязычной моделью по некоторым тестам и заняла третье место в мире после топ-моделей Anthropic и OpenAI. Qwen является частью семейства моделей, которые конкурируют с другими крупными языковыми моделями, такими как GPT от OpenAI и PaLM от Google.

Краткие факты Тип, Разработчик ...
Qwen
Thumb
Тип Генеративный искусственный интеллект, Большая языковая модель
Разработчик Alibaba Cloud
Операционная система Кроссплатформенный
Языки интерфейса Многоязычный (29+ языков)
Первый выпуск 2024
Последняя версия 2.5
Лицензия Open-source (Apache 2.0)
Сайт qwen-ai.com
Закрыть

Последняя версия Qwen — Qwen 2.5 — это передовая языковая модель, разработанная для решения широкого спектра задач в области искусственного интеллекта. Она выделяется способностью к генерации кода, многозадачностью и поддержкой более 29 языков, что делает её универсальным инструментом для различных отраслей, включая разработку ПО, анализ данных и образование[1].

История модели

Суммиров вкратце
Перспектива

Alibaba впервые представила бета-версию Qwen в апреле 2023 года под названием Tongyi Qianwen[2]. Модель была основана на LLM LLaMA, разработанной Meta AI, с различными модификациями. Она была публично выпущена в сентябре 2023 года после получения одобрения со стороны китайского правительства. В декабре 2023 года компания выпустила в открытый доступ модели 72B и 1.8B, а Qwen 7B была открыта в августе[3].

В июне 2024 года Alibaba запустила Qwen 2, а в сентябре выпустила некоторые её модели в открытый код, сохранив при этом самые передовые версии закрытыми[4]. Qwen 2 использует модель Смешение экспертов[5].

В ноябре 2024 года была выпущена QwQ-32B-Preview — модель, ориентированная на логические рассуждения, аналогичная o1 от OpenAI. Она была выпущена под лицензией Apache 2.0, но при этом были обнародованы только веса, без датасета и метода обучения.[6][7] QwQ имеет контекстную длину в 32 000 токенов и превосходит o1 по некоторым тестам[8].

Серия Qwen-VL представляет собой линейку визуально-языковых моделей, которые объединяют трансформер визуального восприятия с LLM[9]. Alibaba выпустила Qwen-VL2 с вариантами на 2 и 7 миллиардов параметров. Флагманской моделью компании в области компьютерного зрения является Qwen-vl-max, которая продаётся через Alibaba Cloud по цене 0,00041 доллара США за тысячу входных токенов[10].

Alibaba также выпустила несколько других типов моделей, таких как Qwen-Audio и Qwen2-Math[11]. Всего компания открыла исходный код более 100 моделей, а их модели были загружены более 40 миллионов раз[12]. Энтузиастами были разработаны дообученные версии Qwen, такие как «Liberated Qwen», созданная компанией Abacus AI из Сан-Франциско. Эта версия позволяет отвечать на любые запросы без ограничений на содержание[13].

Возможности

  • Обширная база знаний — модель обучена на 18 триллионах токенов, что обеспечивает глубокое понимание контекста и позволяет интерпретировать сложные запросы[14].
  • Расширенные окна контекста — Обработка данных до 128 000 токенов позволяет работать с большими документами и сложными задачами[15].
  • Продвинутая генерация кода — вариант модели Qwen2.5-Coder предназначен для написания, анализа и оптимизации программного кода[16].
  • Многоязычная поддержка — более 29 языков, включая английский, китайский, французский, испанский и другие[17].
  • Улучшенные математические способности — специализированная версия Qwen2.5-Math справляется с многошаговыми вычислениями и аналитическими задачами[18].
  • Высокая производительность: Модель оптимизирована для работы в облачной среде, что позволяет ей быстро обрабатывать запросы даже при больших нагрузках.
  • Интеграция с облачными сервисами: Qwen легко интегрируется с другими продуктами Alibaba Cloud, что делает её удобным инструментом для разработчиков.

Применение

  • Разработка программного обеспечения — автоматическая генерация кода, отладка, документация.
  • Анализ данных — обработка больших наборов данных, математические вычисления, отчёты.
  • Образование — создание учебных материалов, помощь в исследовательских работах.
  • Бизнес — оптимизация процессов, взаимодействие с клиентами, бизнес-аналитика[19].
  • Маркетинг: генерация текстов для рекламных кампаний.

См. также

Ссылки

Примечания

Wikiwand - on

Seamless Wikipedia browsing. On steroids.