Аналитик данных

🧠 Oh sh**, here we go again.

Alibaba релизнули еще одну модель: Qwen2.5-Max

- MoE
- предварительно обученная на масштабных датасетах и пост-обученная с помощью SFT и RLHF
- превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench, GPQA-Diamond
- Может генерить видео, картинки, поддерживает поиск в интернете.

📖 Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
💬 Chat: https://chat.qwenlm.ai (choose Qwen2.5-Max as the model)
⚙️ API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
🤗 HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo

#Qwen #ml #llm #Alibaba #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

1.58K views17:28

Аналитик данных

🔥 В этой статье представлены 100 курсов на такие темы, как веб-разработка, искусственный интеллект, машинное обучение, программирование на Python, и другие навыки, которые востребованы на рынке труда!

🔗 Ссылка: *клик*

Please open Telegram to view this post

VIEW IN TELEGRAM

1.78K views11:01

Аналитик данных

📖

Эта статья посвящена оптимизации производительности моделей глубокого обучения!

💡 Автор рассматривает три ключевых компонента, влияющих на эффективность работы: вычисления (compute), пропускная способность памяти (memory bandwidth) и накладные расходы (overhead). Понимание того, какой из этих факторов является узким местом в конкретной системе, позволяет целенаправленно применять оптимизационные стратегии.

🔗 Ссылка: *клик*

#deeplearning

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

1.65K viewsedited 17:41

Аналитик данных

🖥 Python — полный курс для начинающих!

🕖 Продолжительность: 5:27:41

🔗 Ссылка: *клик*

#курс #python

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3

1.74K viewsedited 16:13

Аналитик данных

Forwarded from Machinelearning

🌟 Oumi: опенсорс-фреймворк полного цикла для LLM.

Oumi - открытая платформа для разработки, файнтюна, оценки и экспериментов с языковыми и мультимодальными моделями, созданная совместными усилиями исследователей из 13 ведущих университетов.

Oumi предоставляет инструменты и рабочие процессы для разработки и запуска масштабных экспериментов на кластере, развертывания моделей в рабочей среде и поддерживает методы распределенного обучения (FSDP, DDP):

🟢обучение и файнтюн моделей от 10M до 405B параметров методами SFT, LoRA, QLoRA и DPO;
🟢поддержку популярных семейств моделей: Llama, DeepSeek, Qwen и Phi;
🟢синтез и курирование обучающих данных с использованием LLM-judge;
🟢быстрое развертывание моделей в средах vLLM и SGLang;
🟢проведение комплексного бенчмаркинга моделей по стандартным тестам;
🟢возможность подключения по API OpenAI, Anthropic и Vertex AI;
🟢интеграция с библиотекой Transformers.

В репозитории проекта собраны готовые ноутбуки и скрипты для каждого из этапов жизненного цикла моделей, а подробная документация по использованию поможет легко освоить эту платформу.

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Документация

🟡

Сообщество в Discord

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Oumi #Framework

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.3K views20:01

Аналитик данных

🔥

Reflex LLM Examples — это репозиторий, демонстрирующий практические примеры использования больших языковых моделей от таких провайдеров, как Google, Anthropic, OpenAI, а также open-source моделей для локального хостинга!

🌟 Эти примеры построены с использованием фреймворка Reflex, который позволяет разработчикам создавать полнофункциональные веб-приложения исключительно на языке Python, без необходимости в знаниях JavaScript или веб-разработки.

🖥

Github

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.34K viewsedited 12:26

Аналитик данных

🔥 Большой плейлист по изучению Deep Learning от Катарского университета!

🔗 Ссылка: *клик*

#курс #deeplearning

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.42K viewsedited 06:35

Аналитик данных

Forwarded from Machinelearning

🌟 MoBA: Метод эффективной обработки длинных контекстов в LLM.

Mixture of Block Attention (MoBA) - метод, разработанный MoonshotAI для повышения эффективности обработки длинных последовательностей в LLM. MoBA основан на принципах Mixture of Experts и применяется к механизму внимания в архитектуре Transformers. Он позволяет динамически выбирать исторически релевантные KV-блоки для каждого токена запроса, снижая, как следствие, вычислительные затраты при обработке длинных контекстов.

MoBA разделяет контекст на блоки и использует механизм маршрутизации для выбора наиболее релевантных блоков. Такая конструкция помогает адаптивно фокусироваться на информативных частях контекста, что полезно для задач, требующих обработки длинных документов. Метод сохраняет причинность (causality) в авторегрессионных моделях за счет ограничения внимания только текущими и прошлыми блоками.

MoBA обладает гибкостью: модель может переключаться между полным и разреженным вниманием, экономя ресурсы при обучении моделей с длинными контекстами.

Эксперименты показали, что MoBA имеет сопоставимую производительность с Full attention при значительно меньших вычислительных затратах. Например, на Llama-8B-1M-MoBA с длиной контекста до 1 млн. токенов MoBA достигает разреженности до 95.31%, при этом сохраняя высокую точность на бенчмарках (AGIEval, BBH, CEval и др.).

На тестах с RULER с длиной контекста 128K MoBA показал результат 0.7818, что близко к результату полного внимания (0.7849).

⚠️ Актуальная реализация ядра полагается на flash-attn= =2.6.3. Данная реализация MoBA полностью совместима с transformers. Выбор бекэнда выполняется параметрами --attn moba и --attn moba_naive

▶️Локальная установка и запуск:

# Clone the repository
git clone https://github.com/MoonshotAI/MoBA.git

# Create a Conda venv
conda create -n moba python=3.10
conda activate moba

# Install dependencies
pip install .

# Quick Start 
python3 examples/llama.py --model meta-llama/Llama-3.1-8B --attn moba

# Unit Tests
pytest tests/test_moba_attn.py

📌Лицензирование: MIT License.

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #MoBA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

1.5K views10:15

Аналитик данных

Forwarded from Machinelearning

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 olmOCR: инструмент для обработки PDF-документов.

olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.

olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.

Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.

Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.

В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.

▶️

Релиз olmOCR:

🟢Модель olmOCR-7B-0225-preview - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225;

🟢Датасет olmOCR-mix-0225 - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы.

🟢

Набор кода для инференса и обучения.

▶️Рекомендованная среда для инференса:

🟠NVIDIA GPU (RTX 4090 и выше)
🟠30 GB свободного пространства на SSD \ HDD
🟠установленный пакет poppler-utils

🟠

sglang с flashinfer для GPU-инференса

▶️Локальная установка и запуск:

# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env 
conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #OCR #Olmocr

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.74K views18:02

Аналитик данных

Forwarded from Machinelearning

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Gemma 3 — свежий релиз, который значительно расширяет возможности открытых моделей и упрощает их развёртывание:

🟢

27B модель: Достигла рейтинга ELO 1338 и при этом умещается на одном H100.

🟢

Поддержка vision: Теперь модель способна обрабатывать смешанный контент, включая изображения, видео и текст.
🟢Доступны версии на 1В, 4В, 12В, 27В в базовых и instruct версиях

🟢

Расширенное окно контекста: Модель может работать с контекстом до 128k токенов
🟢 Широкая языковая поддержка: Поддерживается 140 языков
🟢 Встроенные возможности для реализации агентных сценариев и интеграции с внешними инструментами.

Попробуйте модель по ссылке: Gemma 3 27B.

🟡

Пост: https://blog.google/technology/developers/gemma-3/

🟡

Попробовать: aistudio.google.com/prompts/new_chat?model=gemma3-27b

🟡

Tech report: https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

🟡

Видео https://youtube.com/watch?v=UU13FN2Xpyw

🟡

HF: https://huggingface.co/blog/gemma3

@ai_machinelearning_big_data

#gemma #ai #ml #release #google #

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views13:35

Аналитик данных

🖥

tbls

Мощный инструмент для документирования баз данных. Он анализирует структуру базы данных и автоматически генерирует красивую документацию в формате Markdown, HTML, JSON и других.

🔹 Основные возможности:
- Автоматический разбор схемы базы данных.
- Поддержка множества СУБД (PostgreSQL, MySQL, SQLite, MSSQL и др.).
- Генерация наглядных диаграмм и связей между таблицами.
- Возможность кастомизации документации.
- Интеграция с CI/CD для автоматического обновления документации.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1

1.72K views16:01

Аналитик данных

😁8❤1

1.52K views19:19

Аналитик данных

Визуализация пакетов PyPi — новый способ поиска библиотек

Если вы разрабатываете на Python, то наверняка используете PyPi. Мы нашли интересную визуализацию пакетов, которая делает процесс их изучения и поиска более удобным и наглядным.

✅ Графическая карта пакетов
✅ Удобный поиск и исследование зависимостей
✅ Возможность находить новые полезные библиотеки

📂 Исходный код и инструкции для воспроизведения тоже доступны.

https://fi-le.net/pypi/

fi-le.net

fi-le.net, the Fiefdom of Files

👍6❤1

1.4K views08:01

About

Blog

Apps

Platform