Технологии

Версия сайта

ru kz

Актуальное

Все категории

KAZ-LLM в доступе: в разработке модели участвовали Beeline Казахстан и QazCode

Опубликовано:

Люди смотрят на спроектированную модель человека
Иллюстративное фото: by Mj

11 декабря в Астане президенту Казахстана Касым-Жомарту Токаеву была представлена национальная языковая модель KAZ-LLM. Модель была разработана под руководством Института умных систем и искусственного интеллекта (ISSAI NU) в партнерстве с Beeline Казахстан и его ИТ-компанией QazCode, а также Astana Hub. Проект координируется Министерством цифрового развития, инноваций и аэрокосмической промышленности РК. Модель имеет стратегическое значение для всей страны, поскольку решает проблему языкового разрыва с помощью ИИ.

Как разрабатывалась модель KAZ-LLM?

KAZ-LLM от ISSAI основана на 150 млрд токенах, тщательно собранных из общедоступных источников на 4 языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность, обеспечивая улучшенное качество обработки текстов на различных языках и способствуя улучшению перевода. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации, рассказали подробности о проекте в Beeline Казахстан.

Интерфейс и функциональность модели KAZ-LLM были разработаны с учетом самых передовых мировых стандартов, что подтверждает высокую технологическую зрелость и широкий потенциал модели. Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

  • ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором;
  • GSM8K — оценка способности решать задачи по математике для начальной школы;
  • HellaSwag — тестирование логики продолжения предложений;
  • MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам;
  • Winogrande — оценка здравого смысла в двусмысленных предложениях;
  • DROP — тестирование навыков понимания прочитанного и логического мышления.

Партнерство Beeline и QazCode ускорило разработку

Ключевыми партнерами в ее создании стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами.

Поддержка в виде предоставленных серверов с вычислительными мощностями 8 DGX H100 значительно ускорила процесс обучения и расширила возможности модели. Для сравнения: обычному компьютеру понадобится несколько дней, чтобы проанализировать архив из 1 млн фотографий. В то время как 8 серверов DGX H100, использующихся для обучения ISSAI KAZ-LLM, справятся с этой задачей всего за несколько секунд.

На базе этих серверов разработчики обучили 2 версии модели — с 8 млрд и 70 млрд параметров, к процессу присоединились дата-сайентисты QazCode.

Алексей Шаравар, CEO QazCode
Алексей Шаравар, CEO QazCode. Фото: Beeline

"Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source-архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка", - поделился СЕО QazCode Алексей Шаравар.

О результатах и перспективах KAZ-LLM

Исследователи отмечают, что проект - это важная веха на пути Казахстана на мировой арене искусственного интеллекта:

"Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила 2 версии ISSAI KAZ-LLM с 8 млрд и 70 млрд параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом, разработчики смогут скачать и запустить нашу модель, как на сложных серверах, так и на ноутбуках", - рассказал директор ISSAI, профессор NU Хусейн Атакан Варол.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ. Также рассматривается добавление поддержки модели других тюркских языков, что позволит укрепить связи между тюркоязычными сообществами.

Оригинал статьи: https://www.nur.kz/technologies/software/2199600-kaz-llm-v-dostupe-v-razrabotke-modeli-uchastvovali-beeline-kazahstan-i-qazcode/

Скачать Magic Tiles 11.034.005 (Мод, много денег) на Андроид Скачать Master Of Swords 0.8 (Мод, Много денег) на андроид Хороший плохой доктор. Серия 52 Пять автобусных маршрутов будут курсировать под новым номером в Алматы Место действия: Россия. Лето. Белый, синий, красный: как триколор стал флагом России