Qwen
Из Википедии, свободной энциклопедии
Qwen (также называемая Tongyi Qianwen, кит. упр. 通义千问) — семейство больших языковых моделей, разработанных Alibaba. В июле 2024 года модель была признана лучшей китайскоязычной моделью по некоторым тестам и заняла третье место в мире после топ-моделей Anthropic и OpenAI. Qwen является частью семейства моделей, которые конкурируют с другими крупными языковыми моделями, такими как GPT от OpenAI и PaLM от Google.
Qwen | |
---|---|
![]() | |
Тип | Генеративный искусственный интеллект, Большая языковая модель |
Разработчик | Alibaba Cloud |
Операционная система | Кроссплатформенный |
Языки интерфейса | Многоязычный (29+ языков) |
Первый выпуск | 2024 |
Последняя версия | 2.5 |
Лицензия | Open-source (Apache 2.0) |
Сайт | qwen-ai.com |
Последняя версия Qwen — Qwen 2.5 — это передовая языковая модель, разработанная для решения широкого спектра задач в области искусственного интеллекта. Она выделяется способностью к генерации кода, многозадачностью и поддержкой более 29 языков, что делает её универсальным инструментом для различных отраслей, включая разработку ПО, анализ данных и образование[1].
История модели
Суммиров вкратце
Перспектива
Alibaba впервые представила бета-версию Qwen в апреле 2023 года под названием Tongyi Qianwen[2]. Модель была основана на LLM LLaMA, разработанной Meta AI, с различными модификациями. Она была публично выпущена в сентябре 2023 года после получения одобрения со стороны китайского правительства. В декабре 2023 года компания выпустила в открытый доступ модели 72B и 1.8B, а Qwen 7B была открыта в августе[3].
В июне 2024 года Alibaba запустила Qwen 2, а в сентябре выпустила некоторые её модели в открытый код, сохранив при этом самые передовые версии закрытыми[4]. Qwen 2 использует модель Смешение экспертов[5].
В ноябре 2024 года была выпущена QwQ-32B-Preview — модель, ориентированная на логические рассуждения, аналогичная o1 от OpenAI. Она была выпущена под лицензией Apache 2.0, но при этом были обнародованы только веса, без датасета и метода обучения.[6][7] QwQ имеет контекстную длину в 32 000 токенов и превосходит o1 по некоторым тестам[8].
Серия Qwen-VL представляет собой линейку визуально-языковых моделей, которые объединяют трансформер визуального восприятия с LLM[9]. Alibaba выпустила Qwen-VL2 с вариантами на 2 и 7 миллиардов параметров. Флагманской моделью компании в области компьютерного зрения является Qwen-vl-max, которая продаётся через Alibaba Cloud по цене 0,00041 доллара США за тысячу входных токенов[10].
Alibaba также выпустила несколько других типов моделей, таких как Qwen-Audio и Qwen2-Math[11]. Всего компания открыла исходный код более 100 моделей, а их модели были загружены более 40 миллионов раз[12]. Энтузиастами были разработаны дообученные версии Qwen, такие как «Liberated Qwen», созданная компанией Abacus AI из Сан-Франциско. Эта версия позволяет отвечать на любые запросы без ограничений на содержание[13].
Возможности
- Обширная база знаний — модель обучена на 18 триллионах токенов, что обеспечивает глубокое понимание контекста и позволяет интерпретировать сложные запросы[14].
- Расширенные окна контекста — Обработка данных до 128 000 токенов позволяет работать с большими документами и сложными задачами[15].
- Продвинутая генерация кода — вариант модели Qwen2.5-Coder предназначен для написания, анализа и оптимизации программного кода[16].
- Многоязычная поддержка — более 29 языков, включая английский, китайский, французский, испанский и другие[17].
- Улучшенные математические способности — специализированная версия Qwen2.5-Math справляется с многошаговыми вычислениями и аналитическими задачами[18].
- Высокая производительность: Модель оптимизирована для работы в облачной среде, что позволяет ей быстро обрабатывать запросы даже при больших нагрузках.
- Интеграция с облачными сервисами: Qwen легко интегрируется с другими продуктами Alibaba Cloud, что делает её удобным инструментом для разработчиков.
Применение
- Разработка программного обеспечения — автоматическая генерация кода, отладка, документация.
- Анализ данных — обработка больших наборов данных, математические вычисления, отчёты.
- Образование — создание учебных материалов, помощь в исследовательских работах.
- Бизнес — оптимизация процессов, взаимодействие с клиентами, бизнес-аналитика[19].
- Маркетинг: генерация текстов для рекламных кампаний.
См. также
Ссылки
Примечания
Wikiwand - on
Seamless Wikipedia browsing. On steroids.