Data Science by ODS.ai 🦜

Forwarded from GigaDev — разработка GigaChat

🚀 Релиз новой модели GigaChat-20B-A3B-instruct-v1.5!

Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен

📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях

🔋 Поддержка контекста: 131К токенов

🎉 Важно! Модель теперь доступна в популярных инструментах:
• llama.cpp
• ollama
• llama-cpp-python
• lm-studio, небольшой гайд.

⚡️ На М4 Pro в Q6 достигает 52 token / sec

💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.

🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

👍21🤣6

8.59K views10:44

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🔥

Бесплатный курс от Microsoft «ИИ-агенты для начинающих»

Курс содержит пошаговые инструкции с примерами кода, которые помогут научиться создавать автономных агентов с использованием машинного обучения.

Фокус на AI-агентах:
Если вас интересует именно разработка агентов — например, для симуляций, игр или интерактивных систем — данный курс будет полезен.

Каждый урок включает в себя:
- Лекцию, (видео уроки появятся в марте 2025 года)
- Примеры кода на Python с поддержкой Azure AI Foundry и Github Models
- Практические задания
- Ссылки на полезные дополнительные ресурсы

Если это ваш первый опыт работы с агентами, у Microsoft есть еще 1 курс «Генеративный ИИ для начинающих», который содержит 21 урок по построению моделей с помощью GenAI, лучше начать с него.

Переведен на 9 различных языков (русского нет).

▪ Github

@ai_machinelearning_big_data

#course #Microsoft #aiagents #ai #ml #opensource #freecourse

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍6❤1

7.82K views18:00

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

✔️

Бесплатные полезные руководства по дистилляции моделей:

1. Руководство по дистилляции от OpenAI

🖥

Руководство содержит подробное описание процесса передачи знаний от более крупной модели к компактной, c сохранением высокой производительности модели.

Основные аспекты, рассмотренные в руководстве:
- Сохранение выходных данных крупной модели: Создание набора данных, содержащего предсказания большой модели, которые будут использоваться для обучения меньшей модели.

- Оценка производительности моделей: Сравнительный анализ точности и эффективности как крупной, так и компактной моделей на основе различных метрик.

- Создание обучающих данных для компактной модели: Использование предсказаний крупной модели для генерации обучающего набора данных, способствующего эффективному обучению меньшей модели.

- Оценка дообученной компактной модели: Проверка производительности и точности компактной модели после процесса дистилляции для подтверждения соответствия требованиям.

🔗

Ссылка

2. Учебник по дистилляции знаний от PyTorch

🔥

Руководство от PyTorch, которое содержит практическое введение в технику передачи знаний для развёртывания моделей на устройствах с ограниченными вычислительными ресурсами.

Основные аспекты руководства:

- Извлечение скрытых представлений: В гайде показано, как получить промежуточные представления из обученной модели для дальнейшего использования.

- Модификация циклов обучения в PyTorch: Здесь рассматривается интеграция дополнительных функций в стандартные циклы обучения для эффективной передачи знаний.

- На примере показан процесс обучения компактной модели, с ипользованием предсказания более сложной модели в качестве ориентира.

Руководство содержит пошаговые инструкции и примеры кода, что делает его ценным ресурсом, если вы хотите научиться оптимизировать свои модели для использования в средах с ограниченными ресурсами.

▪Ссылка

3. Jetson Introduction to Knowledge Distillation от Nvidia

🖥

В данном руководстве рассматривается процесс передачи знаний от модели OpenCLIP (vision-language model) к модели ResNet18 для классификации на наборе данных STL10.

Особое внимание уделяется тому, как выбор данных, методы дистилляции и архитектура модели, влияют на итоговую точность.

Кроме того, обсуждаются методы профилирования и оптимизации моделей для их развёртывания на устройствах NVIDIA Jetson Orin Nano.

🔗

Ссылка

4. Учебник по дистилляции знаний от Keras

⭐️

Подробно описывается концепция дистилляции знаний и ее применение в обработке медицинских изображений.

🔗

Github

🔗

Учебник Keras

5. Руководство по дистилляции от
huggingface 🤗

Здесь показано, как выполнять дистилляцию знаний шаг за шагом на конкретном примере.

🔗

Ссылка

6. Дистилляция знаний для задач компьютерного зрения от huggingface

👁

Здесь рассматривается, как сделать файнтюн ViT-модели в MobileNet с помощью API Trainer из Transformers.

🔗

Ссылка

#KnowledgeDistillation #Distillation #openai #keras #tutorial #course #freecourses #huggingface #Nvidia #pytorch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤3✍1👍1

7.63K views13:05

Data Science by ODS.ai 🦜

The Evolution and Dependencies of Scientific Python Libraries

Numerical computing libraries like NumPy and SciPy rely on foundational mathematical code spanning decades. Until recently, NumPy depended on Fortran-based BLAS/LAPACK implementations for linear algebra operations. Modern versions now use OpenBLAS, which replaces Fortran code with optimized C implementations. SciPy, however, still incorporates Fortran 77 code for certain functionalities, such as ARPACK (used in eigenvalue computations) and FFTPACK (for Fourier transforms). These dependencies stem from legacy libraries like BLAS (1970s), LAPACK (1980s), and MINPACK (optimization), which remain widely used due to their mathematically stable, battle-tested algorithms like Simulated Annealing.

Simulated Annealing: A 1953 Algorithm in Modern ML

Imagine searching for the largest mushroom in a forest. Gradient methods risk settling for a local maximum, but Simulated Annealing (SciPy’s optimize) balances exploration and exploitation: early random “high-energy” steps avoid local traps, then gradually refines toward the global optimum.

Originally devised to model atomic behavior in molten metals (Metropolis Algorithm, 1953), it mimics annealing—slow cooling ensures uniform atomic arrangement. Scientists introduced probabilistic acceptance of suboptimal states to escape flawed structures. Thise method was adopted to optimize ML models, logistics, and pattern recognition, making the familiar Python code use bindings which are ~15 years older than Python itself.

Source: Facebook post (Ru)

#SciPy #Fortran #NumPy #Math

👍12❤4🤷‍♂1

6.59K views10:28

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

⚡️

YandexGPT 5: модель нового поколения от Яндекса и возвращение компании к публикации LLM-моделей в опенсорс впервые с 2022 года.

Яндекс анонсировал новое поколение больших языковых моделей — YandexGPT 5, включающее Pro и Lite версии.

▶️

YandexGPT 5 Lite

YandexGPT 5 Lite 8B уже доступна на Hugging Face. Модель обучалась в два этапа: претрейн на массиве русско- и англоязычных текстов объёмом 15T токенов и этап Powerup на высококачественных данных объёмом 320B токенов. Она опубликована без финального этапа обучения, этических фильтров и алайнмента, что делает её удобной для исследований и дообучения под специфические задачи разработчиков.

Модель имеет контекстное окно 32k токенов, а в своей категории достигает паритета с мировыми SOTA по ключевым бенчмаркам для pretrain-моделей.

▶️

YandexGPT 5 Pro

В разработке Pro-версии применены значительные улучшения: переработанный датасет с более сложными и разнообразными примерами, усложнённые тренировочные задания, внедрение DPO и PPO с собственной модификацией LogDPO против «разучивания», оптимизация через YaFSDP (-25% вычислительных ресурсов), гибридное обучение с использованием базовых настроек Qwen.

По тестам YandexGPT 5 Pro:

🟢 Достигает уровня GPT-4o в международных тестах и их русскоязычных адаптациях

🟢 Превосходит Qwen-2.5-32b-Instruct в работе с фактами и форматированием, немного уступая в вычислениях

⚠️Pro-версия уже внедрена в чат с Алисой и доступна через API в Yandex Cloud, где может использоваться как в базовой версии, так и с подключением к Поиску.

🟡

Статья

@ai_machinelearning_big_data

#AI #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14🔥11🤡5❤3🤣3

7.66K views10:52

Data Science by ODS.ai 🦜

OpenAI has expanded access to DeepResearch for users with subscriptions under $200, offering 10 queries/month

Pro users get a slight boost as well—now 120 queries instead of 100.

A couple of other improvements:
— The system can now include images it encounters during research in responses
— File handling has been upgraded, making it easier to reference uploaded PDFs or Excel files as context

@opendatascience

👍6🤣3❤2🤡2

9.14K views18:42

Data Science by ODS.ai 🦜

Forwarded from AI.Insaf

Как ChatGPT влияют на нашу креативность?

Журнал Science (!) тоже задается этим вопросом. В статье Generative AI enhances individual creativity but reduces the collective diversity исследовали, как меняются истории, написанные людьми, если AI подбрасывает им идеи (0, 1 или 5 идей).

• Ожидаемо чем больше ai идей были доступны тем лучше получался текст. Это валидировали человеком. Особенно если навыки у человека были слабее изначально.
• Но! Чем активнее люди использовали подсказки AI, тем более похожими становились их тексты. Понравилось что тут уже не люди проверяли, а через косинусное расстояние эмбеддингов текстов

Очевидное решение - всем нужно использовать разные сетки и чаты, и температуру поднять

👍11🔥3🙏3🤝2😁1🤔1

6.26K views13:04

Data Science by ODS.ai 🦜

Forwarded from Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

В основе решения "Василиса" лежит наша авторская модель "Менон" на 1.5B
https://huggingface.co/bond005/meno-tiny-0.1
На MERA (для русского языка) модель "Менон" - лучший среди малых моделей "for edge devices" в своем размерном классе.

Название модели "Менон" - это отсылка к одному из сократических диалогов Платона о том, истинное знание осуществляется через припоминание того, что созерцала душа в мире идей (в нашем случае "мир идей" - это внешняя относительно нейросети база знаний).

huggingface.co

bond005/meno-tiny-0.1 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍10😁6❤1

5.87K views15:00

Data Science by ODS.ai 🦜

Forwarded from GigaDev — разработка GigaChat

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Как FP8-вычисления ускоряют обучение больших моделей?

Когда-то переход на FP16 в машинном обучении был настоящим вызовом — приходилось бороться с переполнением чисел, потерей точности и нестабильностью тренировки. Со временем появился BF16, который совместил в себе диапазон FP32 и компактность FP16, сильно упростив работу и удешевив обучение моделей.

Но прогресс не стоит на месте: хочется использовать ещё более компактный тип FP8, который может ускорить вычисления теоретически аж в 4 раза по сравнению с FP32.

Звучит круто, но на практике есть сложности: FP8 бывает разным. Самые распространённые форматы:

🔸 E4M3 — шире диапазон чисел, ниже точность (подходит для активаций)
🔸 E5M2 — точнее числа, но уже диапазон (лучше для весов)

Из-за того, что в FP8 всего 8 бит на число, быстро возникают проблемы переполнения или, наоборот, слишком сильного округления. Поэтому использовать FP8 напрямую для всех операций пока невозможно. Нужно хитро подбирать форматы и аккуратно контролировать масштаб данных.

В GigaChat мы начали внедрять FP8 постепенно, сфокусировавшись сначала на наиболее подходящей для него операции — перемножении матриц (GEMM). Но даже здесь возникли свои сложности: активации и веса всё ещё хранятся в BF16, а значит, каждую операцию нужно предварять конвертацией типов:

активации (BF16) → FP8
веса (BF16) → FP8
перемножение матриц в FP8
результат (FP8) → обратно в BF16

Без специальных оптимизаций эти постоянные преобразования приводят к огромным накладным расходам. И именно здесь критически важен torch.compile: он автоматически объединяет цепочки таких операций, избавляясь от ненужных промежуточных шагов и резко снижая задержки и копирования.

Несмотря на сложности, мы уже смогли ускорить тренировку на впечатляющие 27%, полностью сохранив точность модели 🚀

Что можно делать дальше:

🔸 Сократить количество BF16-активаций там, где это возможно без потери качества
🔸 Переводить межузловые коммуникации на FP8

⚡️Будем держать вас в курсе следующих оптимизаций! Stay tuned

P.S. Большое спасибо GigaChat Max 2.0 за анимацию!

❤13🔥7👍5

5.91K views10:46

Data Science by ODS.ai 🦜

Forwarded from Kier from TOP

Dubai Prompt Engineering Championship

Discovered that there is going to be a prompting championship in the end of April held in Dubai with a registration deadline of tomorrow.

There will be 4 tracks:
1. Art
2. Video
3. Gaming
4. Coding

I liked how the team set up the competition itself, looks like they care for the work they do. Hope my submission will be accepted and I’ll get to meet them in person.

Enquiring more I also discovered a One Million Prompters initiative with a course by Dubai Centre for Artificial Intelligence.

Besides this initiative being extremely good is in terms of education and making sure people have an access to the emerging professions, it got me thinking… One Million Prompters can become One Million AI-preneurs spinning up their businesses in TMAs for 1B of Telegram users one day, so this is nothing short of inspiring.

Come join the event if you are around Dubai, let’s talk.

Website: https://challenge.dub.ai/en/
Course: https://dub.ai/en/omp/

#TMA #AIpreneurship #Dubai

👍4🤣2

5.47K views06:05

About

Blog

Apps

Platform