Machine learning Interview
42.6K subscribers
1.24K photos
94 videos
13 files
839 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Forwarded from Machinelearning
🌟 POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки.

Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench.

POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.

Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.

Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.

Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.

Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.

Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.

На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.


Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.

🟡Как в любом проекте - есть нюансы.

Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.

▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #POINTSReader #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
💰 Цукерберг: $600B на ИИ к 2028 году

- К 2028 году Zuck вложит компания около $600 млрд в инфраструктуру для ИИ
- Уже известны планы компании: $70 млрд вложений в 2025 и примерно $100 млрд в 2026 году.

То есть траты будут расти взрывными темпами, и к концу десятилетия его компания станет одной из крупнейших инвестирующих компаний в мире.
😱9👍2🔥2👏2🥰1
🦾 На Hugging Face опубликовали обзор открытых ML-датасетов, в котором выделили Yambda-5B от Яндекса — крупнейший в мире музыкальный рекомендательный датасет.

🎵 Yambda-5B содержит 4,79 млрд взаимодействий: прослушивания, лайки и дизлайки. Датасет идеально подходит для обучения и тестирования рекомендательных систем.

🗣 ML-эксперты Аман Чадха (AWS GenAI, ранее Stanford AI и Apple) и Айксин Сан (NTU Singapore) отметили значимость датасета для исследований и индустрии.

🌍 Разработки Яндекса в области машинного обучения востребованы на глобальном уровне и применяются наряду с решениями мировых компаний.

https://huggingface.co/blog/avi81/open-datasets-and-tools-an-overview-for-hugging-fa
🤣13🔥123👍3🗿1
🧡 MATLAB + Google Colab

Теперь можно связать MATLAB и Python через Colab:
- Поднять бесплатный GPU в Google Colab
- Запустить полноценный MATLAB через MATLAB Package Manager
- Обучить deep learning модель с использованием GPU
- Экспортировать её в TensorFlow
- Протестировать в Python

Всё это занимает всего несколько минут.

🔗 Блог

@machinelearning_interview
🔥12👍72🙊2
🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)

💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.

Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор

Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты

📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом

🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.

🟢Paper: https://arxiv.org/abs/2508.14094
🟢Github: https://github.com/Pikus16/grpo_difficulty
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥105🥰2