Data Portal | DS & ML – Telegram

Data Portal | DS & ML

8.72K subscribers

228 photos

80 videos

4 files

301 links

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | DS & ML

8.72K subscribers

Data Portal | DS & ML

Open-source чанкинг текста в RAG-пайплайнах часто считают мелкой деталью. А по факту это один из самых жирных bottleneck’ов, когда дело доходит до продакшн-масштабов.

memchunk решает эту проблему в лоб: семантические границы чанков, высокая пропускная способность, и всё это заточено под реальные продакшн-нагрузки, а не под демки.

memchunk это низкоуровневая библиотека для чанкинга на Rust, заточенная под скорость и корректность.

Она режет текст по естественным границам, не рубит предложения пополам и разгоняется до 1 TB/s за счёт SIMD, lookup-таблиц и обратного поиска.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.43K views06:07

Data Portal | DS & ML

Бывало, что семантический поиск вроде бы попадает в тему, но не в твои требования?

Ищешь "latest ML research", а в выдаче куча релевантных работ… но за 2019 год.

Проблема в том, что similarity не понимает ограничений. Чтобы получить "год >= 2024", нужно фильтровать метаданные на уровне базы.

В ChromaDB это делается через where: сначала база фильтрует по условиям, потом ранжирует по similarity.

Полезные операторы:
• $eq и $ne — точное сравнение
• $gt, $gte, $lt, $lte — диапазоны
• $in, $nin — принадлежность множеству
• $and, $or — комбинирование условий

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.45K views16:07

Data Portal | DS & ML

Совет для AI-инженеров

Можно гонять продакшен-уровень LLM-инференса на CPU ноутбука или даже на телефоне.

Без облачных счетов. Без API-ключей. Без интернета.

LFM2.5-1.2B-Instruct от liquidai дает:

239 токенов/с на AMD CPU
82 токена/с на мобильном NPU
меньше 1 ГБ RAM

Лови ссылку ↓

https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤3

1.48K views06:07

Data Portal | DS & ML

Хочешь учить AI на реальных проектах?
В этом репозитории 29 проектов с Generative AI, Machine Learning и Deep Learning.

С полным кодом для каждого. Это прям золото: https://github.com/KalyanM45/AI-Project-Gallery

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

1.38K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Теорема Стокса это классика векторного анализа.

По сути она говорит что линейный интеграл векторного поля по замкнутому контуру равен поверхностному интегралу ротора этого поля по поверхности которая этим контуром ограничена.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.3K views06:07

Data Portal | DS & ML

Media is too big

VIEW IN TELEGRAM

Разработчик сравнил топовые опенсорсные OCR-решения и выяснил какое реально показывает лучший результат.

В подборке:

DeepSeek OCR
Datalab Chandra
Qwen3-VL
Dots OCR
Granite Docling

Параллельно сделал приложение где можно прогонять все эти OCR-модели в одном месте.

Всё на 100% опенсорс.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.23K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Марко Франзон показал обновление по своей CV-платформе: YOLO Training Template

Ручная разметка данных стала заметно удобнее. Теперь процесс выглядит как в привычных labeling-системах — просто обводишь объект рамкой и сразу создаётся bounding box.

Платформа позволяет:

• загрузить свой датасет
• разметить вручную или автолейблить через DINOv3
• по желанию обогатить данные
• обучить YOLO-модель на собственных данных
• тут же прогнать инференс
• экспортировать в ONNX или NCNN, что даёт совместимость с edge-железом и смартфонами

Всё это доступно бесплатно и уже можно попробовать на GitHub.

❤9

1.26K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня OpenAI анонсирует Open Responses: open-source спецификацию для сборки мультипровайдерных, интероперабельных интерфейсов к LLM, построенную поверх оригинального OpenAI Responses API.

✅Мультипровайдерность по умолчанию
✅Полезно для реальных продовых воркфлоу
✅Расширяемо без фрагментации

Стройте агентные системы без переписывания всего стека под каждую модель: [https://openresponses.org]

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.18K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

NN-SVG: рисуйте архитектуры нейросетей параметрически

Экспортируйте их в SVG и используйте в своих материалах

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4

1.07K views06:07

Data Portal | DS & ML

Найти строки с min/max по другому столбцу в одну строку в Polars v1.37.0

Раньше, чтобы вытащить строку с минимальным или максимальным значением относительно другого столбца, обычно приходилось делать сортировку, groupby или городить фильтры посложнее.

В Polars v1.37.0 завезли методы выражений min_by и max_by. Они находят минимум или максимум по любому столбцу одним понятным выражением.

Обновиться и получить min_by/max_by:
pip install -U polars

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.09K views16:07

Data Portal | DS & ML

Офлайн-распознавание текста с помощью DeepSeek-OCR AI : https://github.com/th1nhhdk/local_ai_ocr

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.04K views06:07

Data Portal | DS & ML

Компьютерное зрение сегодня используется во множестве интересных задач, например в помощи с тренировками.

В этом туториале Экемини показывает, как собрать собственного AI-тренера для зала в реальном времени на Vision Agents.

Ты разберешься, как поднять проект и получить API-ключи, как устроен агент, как запустить приложение и что к чему.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

1.02K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Флоу-генеративные модели, обученные через flow matching, обычно учат изогнутые траектории, и их сложно аппроксимировать за несколько шагов.

Rectified flows пытаются учить прямые траектории, которые проще симулировать и требуют меньше вычислений.

Держи интерактивную статью, где объяснили геометрическую интуицию behind Rectified Flows.

Код тоже здесь можно найти.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

870 views06:07

Data Portal | DS & ML

На r/LocalLLaMA кто-то с нуля натренировал LLM на лондонских текстах 1800–1875

Это забавный глюк данных. Телефон изобрели в 1876, а у модели датасет заканчивается 1875-м. Поэтому если в промпте упомянуть telephone, она вообще не связывает это со связью, а начинает описывать какой-то секретный дипломатический прибор или загадочный механический артефакт, окружённый посольствами, письмами и разрешениями. 😆

Модель и данные:

➡️1.2B параметров
➡️~90GB корпуса
➡️книги, журналы, юридические бумаги
➡️религиозные и медицинские тексты

Токенайзер тут кастомный, обученный на том же датасете, чтобы лексика и разбиение подгонялись под эпоху.
Тренировали примерно 182k шагов на арендованной H100 SXM.

GitHub: здесь
HuggingFace: тут
Reddit: читать

Нам нужно больше такого. Чтобы реально понять конкретный исторический период и культуру, нужно ограничивать данные рамками того времени и того контекста.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5😁4

782 views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Как на самом деле работают LLM:

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8

609 views06:07