Аналитик данных – Telegram

Аналитик данных

6.07K subscribers

216 photos

28 videos

2 files

201 links

Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам

Download Telegram

About

Blog

Apps

Platform

Аналитик данных

6.07K subscribers

Аналитик данных

🔥

Reflex LLM Examples — это репозиторий, демонстрирующий практические примеры использования больших языковых моделей от таких провайдеров, как Google, Anthropic, OpenAI, а также open-source моделей для локального хостинга!

🌟 Эти примеры построены с использованием фреймворка Reflex, который позволяет разработчикам создавать полнофункциональные веб-приложения исключительно на языке Python, без необходимости в знаниях JavaScript или веб-разработки.

🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.34K viewsedited 12:26

Аналитик данных

🔥 Большой плейлист по изучению Deep Learning от Катарского университета!

🔗 Ссылка: *клик*

#курс #deeplearning

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.42K viewsedited 06:35

Аналитик данных

Forwarded from Machinelearning

🌟 MoBA: Метод эффективной обработки длинных контекстов в LLM.

Mixture of Block Attention (MoBA) - метод, разработанный MoonshotAI для повышения эффективности обработки длинных последовательностей в LLM. MoBA основан на принципах Mixture of Experts и применяется к механизму внимания в архитектуре Transformers. Он позволяет динамически выбирать исторически релевантные KV-блоки для каждого токена запроса, снижая, как следствие, вычислительные затраты при обработке длинных контекстов.

MoBA разделяет контекст на блоки и использует механизм маршрутизации для выбора наиболее релевантных блоков. Такая конструкция помогает адаптивно фокусироваться на информативных частях контекста, что полезно для задач, требующих обработки длинных документов. Метод сохраняет причинность (causality) в авторегрессионных моделях за счет ограничения внимания только текущими и прошлыми блоками.

MoBA обладает гибкостью: модель может переключаться между полным и разреженным вниманием, экономя ресурсы при обучении моделей с длинными контекстами.

Эксперименты показали, что MoBA имеет сопоставимую производительность с Full attention при значительно меньших вычислительных затратах. Например, на Llama-8B-1M-MoBA с длиной контекста до 1 млн. токенов MoBA достигает разреженности до 95.31%, при этом сохраняя высокую точность на бенчмарках (AGIEval, BBH, CEval и др.).

На тестах с RULER с длиной контекста 128K MoBA показал результат 0.7818, что близко к результату полного внимания (0.7849).

⚠️ Актуальная реализация ядра полагается на flash-attn= =2.6.3. Данная реализация MoBA полностью совместима с transformers. Выбор бекэнда выполняется параметрами --attn moba и --attn moba_naive

▶️Локальная установка и запуск:

# Clone the repository
git clone https://github.com/MoonshotAI/MoBA.git

# Create a Conda venv
conda create -n moba python=3.10
conda activate moba

# Install dependencies
pip install .

# Quick Start 
python3 examples/llama.py --model meta-llama/Llama-3.1-8B --attn moba

# Unit Tests
pytest tests/test_moba_attn.py

📌Лицензирование: MIT License.

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #MoBA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

1.5K views10:15

Аналитик данных

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 olmOCR: инструмент для обработки PDF-документов.

olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.

olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.

Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.

Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.

В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.

▶️

Релиз olmOCR:

🟢Модель olmOCR-7B-0225-preview - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225;

🟢Датасет olmOCR-mix-0225 - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы.

🟢

Набор кода для инференса и обучения.

▶️Рекомендованная среда для инференса:

🟠NVIDIA GPU (RTX 4090 и выше)
🟠30 GB свободного пространства на SSD \ HDD
🟠установленный пакет poppler-utils

🟠

sglang с flashinfer для GPU-инференса

▶️Локальная установка и запуск:

# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env 
conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🟡

Сообщество в Discord

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #OCR #Olmocr

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.74K views18:02

Аналитик данных

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Gemma 3 — свежий релиз, который значительно расширяет возможности открытых моделей и упрощает их развёртывание:

🟢

27B модель: Достигла рейтинга ELO 1338 и при этом умещается на одном H100.

🟢

Поддержка vision: Теперь модель способна обрабатывать смешанный контент, включая изображения, видео и текст.
🟢Доступны версии на 1В, 4В, 12В, 27В в базовых и instruct версиях

🟢

Расширенное окно контекста: Модель может работать с контекстом до 128k токенов
🟢 Широкая языковая поддержка: Поддерживается 140 языков
🟢 Встроенные возможности для реализации агентных сценариев и интеграции с внешними инструментами.

Попробуйте модель по ссылке: Gemma 3 27B.

🟡

Пост: https://blog.google/technology/developers/gemma-3/

🟡

Попробовать: aistudio.google.com/prompts/new_chat?model=gemma3-27b

🟡

Tech report: https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

🟡

Видео https://youtube.com/watch?v=UU13FN2Xpyw

🟡

HF: https://huggingface.co/blog/gemma3

@ai_machinelearning_big_data

#gemma #ai #ml #release #google #

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views13:35

Аналитик данных

🖥

tbls

Мощный инструмент для документирования баз данных. Он анализирует структуру базы данных и автоматически генерирует красивую документацию в формате Markdown, HTML, JSON и других.

🔹 Основные возможности:
- Автоматический разбор схемы базы данных.
- Поддержка множества СУБД (PostgreSQL, MySQL, SQLite, MSSQL и др.).
- Генерация наглядных диаграмм и связей между таблицами.
- Возможность кастомизации документации.
- Интеграция с CI/CD для автоматического обновления документации.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1

1.72K views16:01

Аналитик данных

😁8❤1

1.52K views19:19

Аналитик данных

Визуализация пакетов PyPi — новый способ поиска библиотек

Если вы разрабатываете на Python, то наверняка используете PyPi. Мы нашли интересную визуализацию пакетов, которая делает процесс их изучения и поиска более удобным и наглядным.

✅ Графическая карта пакетов
✅ Удобный поиск и исследование зависимостей
✅ Возможность находить новые полезные библиотеки

📂 Исходный код и инструкции для воспроизведения тоже доступны.

https://fi-le.net/pypi/

fi-le.net, the Fiefdom of Files

👍6❤1

1.4K views08:01

Аналитик данных

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🧍 LHM: новая модель Alibaba для генерации 3D из единственного изображения.

Этот ИИ может превратить ЛЮБОЕ изображение в полный рост в анимированных 3D-персонажей за считанные секунды.

🟢

Основные моменты работы модели:
Выделение признаков: Из входного изображения извлекаются токены, описывающие как общую структуру тела, так и детали лица (с помощью схемы многоуровневого кодирования для головы).

🟢

Мультимодальный трансформер: С помощью архитектуры трансформера происходит объединение 3D-геометрических токенов тела с визуальными токенами изображения. Механизм внимания позволяет сохранять геометрию одежды и текстурные детали.

🟢

Декодирование в 3D: После слияния токенов модель быстро (в режиме feed-forward) декодирует их в параметры 3D-гaуссового распределения, которые задают форму и внешний вид анимируемого 3D-аватара.

⚡️ Модель выдает очень приличные генерации, видео выглядит плавно и естественно, особенно анимация лица и рук.

Установка:

git clone [email protected]:aigc3d/LHM.git
cd LHM

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

Демка (периодически отваливается из-за наплыва пользователей)

🟡

🟡

Видео

@ai_machinelearning_big_data

#ml #opensource #3dgenerator #Alibaba

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2

1.69K views11:34