❌ Классический поиск по ключевым словам даёт ограниченные результаты.
В примере выше, такой селективный нашел только одно совпадение: "Machine Learning Overview".
✅ А вот pgvector ищет по смыслу и находит связанные концепции.
Пример запроса возвращает 5 релевантных документов:
– Machine Learning Overview
– Data Mining Basics
– Introduction to AI
– Deep Learning Guide
Семантический поиск > ключевого 🔥
@machinelearning_interview
В примере выше, такой селективный нашел только одно совпадение: "Machine Learning Overview".
✅ А вот pgvector ищет по смыслу и находит связанные концепции.
Пример запроса возвращает 5 релевантных документов:
– Machine Learning Overview
– Data Mining Basics
– Introduction to AI
– Deep Learning Guide
Семантический поиск > ключевого 🔥
@machinelearning_interview
❤17🔥6🥰4
📊 В открытом доступе появился VK-LSVD — масштабный датасет коротких видео для рекомендательных систем, созданный командой AI VK.
🤝 В отличие от существующих наборов данных, VK-LSVD собрали 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за период январь–июнь 2025. В него входят лайки, дизлайки, шеры, длительность просмотра и контекст воспроизведения — всё в формате числовых идентификаторов для гарантии конфиденциальности пользователей.
⚡️ Датасет позволяет гибко настраивать выборки: определять их объём, формировать случайным образом или с учётом популярности контента, адаптируя данные под доступные вычислительные мощности. Это делает VK-LSVD ценным инструментом для проверки гипотез и построения более точных моделей рекомендаций на реальных актуальных данных.
🔍 Такой ресурс открывает новые возможности для исследователей и инженеров, закладывая основу для следующего уровня развития рекомендательных технологий.
🤝 В отличие от существующих наборов данных, VK-LSVD собрали 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за период январь–июнь 2025. В него входят лайки, дизлайки, шеры, длительность просмотра и контекст воспроизведения — всё в формате числовых идентификаторов для гарантии конфиденциальности пользователей.
⚡️ Датасет позволяет гибко настраивать выборки: определять их объём, формировать случайным образом или с учётом популярности контента, адаптируя данные под доступные вычислительные мощности. Это делает VK-LSVD ценным инструментом для проверки гипотез и построения более точных моделей рекомендаций на реальных актуальных данных.
🔍 Такой ресурс открывает новые возможности для исследователей и инженеров, закладывая основу для следующего уровня развития рекомендательных технологий.
Telegram
AI VK Hub
Датасет VK-LSVD (Large Short-Video Dataset) для развития рекомендательных систем
Сейчас в открытом доступе не так много больших открытых датасетов, на базе которых инженеры и ученые могут обучать и оценивать модели. Для построения точных рекомендательных…
Сейчас в открытом доступе не так много больших открытых датасетов, на базе которых инженеры и ученые могут обучать и оценивать модели. Для построения точных рекомендательных…
👍11❤3🤔2🔥1😁1
🚀 Microsoft представила rStar2-Agent — новый отчёт по Agentic Reasoning
🧠 rStar2-Agent выводит предобученную 14B-модель на уровень state-of-the-art всего за 510 шагов RL за одну неделю.
📊 Результаты:
- 80.6% pass@1 на AIME24
- 69.8% pass@1 на AIME25
- Превзошёл DeepSeek-R1 (671B), при этом выдавая ответы значительно короче
⚡️ Впечатляющий пример того, как компактные модели с умным обучением могут догонять и даже обгонять гигантов.
https://huggingface.co/papers/2508.20722
🧠 rStar2-Agent выводит предобученную 14B-модель на уровень state-of-the-art всего за 510 шагов RL за одну неделю.
📊 Результаты:
- 80.6% pass@1 на AIME24
- 69.8% pass@1 на AIME25
- Превзошёл DeepSeek-R1 (671B), при этом выдавая ответы значительно короче
⚡️ Впечатляющий пример того, как компактные модели с умным обучением могут догонять и даже обгонять гигантов.
https://huggingface.co/papers/2508.20722
👍11❤8🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
💥 SmolVLA: компактная VLA-модель для роботов, которая обогнала крупных конкурентов — и она полностью open source!
🚀 Что это такое:
SmolVLA — новая vision-language-action модель для робототехники, обученная только на открытых датасетах LeRobot (Hugging Face). Несмотря на размер всего 450M параметров, она показывает результаты лучше более крупных моделей вроде ACT.
📌 Почему интересно:
✅ +26% точности благодаря предобучению на open-source данных
✅ Запускается даже на обычном MacBook
✅ Ответы на 30% быстрее за счёт async-инференса и оптимизаций
✅ Сильные результаты на Meta-World, LIBERO, SO100, SO101
✅ Полностью открыта: веса, код, пайплайн и стек для оценки
🧠 Трюки для эффективности:
- меньше визуальных токенов
- выходы берутся с промежуточных слоёв
- разделение perception и action для ускорения
📍 SmolVLA — отличный пример того, что может дать сообщество, когда делится данными и строит открытые решения в робототехнике.
https://huggingface.co/blog/smolvla
🚀 Что это такое:
SmolVLA — новая vision-language-action модель для робототехники, обученная только на открытых датасетах LeRobot (Hugging Face). Несмотря на размер всего 450M параметров, она показывает результаты лучше более крупных моделей вроде ACT.
📌 Почему интересно:
✅ +26% точности благодаря предобучению на open-source данных
✅ Запускается даже на обычном MacBook
✅ Ответы на 30% быстрее за счёт async-инференса и оптимизаций
✅ Сильные результаты на Meta-World, LIBERO, SO100, SO101
✅ Полностью открыта: веса, код, пайплайн и стек для оценки
🧠 Трюки для эффективности:
- меньше визуальных токенов
- выходы берутся с промежуточных слоёв
- разделение perception и action для ускорения
📍 SmolVLA — отличный пример того, что может дать сообщество, когда делится данными и строит открытые решения в робототехнике.
https://huggingface.co/blog/smolvla
❤11👍3🔥3🐳2
🧩 Неожиданное поведение Seed-OSS-36B
Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и делает это очень необычно.
🔎 Что видно при анализе:
- На шаге reflection (когда модель «останавливается» и подсчитывает токены) внимание почти полностью сосредоточено только на текущем и последнем токене.
- До этого внимание распределялось как обычно — по разным токенам.
- Получается, что именно последний токен запускает мощную активацию во всех attention-головах.
- При этом сам по себе токен ничем не особенный — значит, дело не в его содержимом.
💡 Возможное объяснение:
Модель может использовать позиционное кодирование. У самого последнего токена уникальная позиция, которая как будто «сигналит» attention-механизму: *вот тут конец последовательности*.
🧪 Что планирую проверить:
Если испортить позиционное кодирование последнего токена, то, возможно, модель перестанет «понимать», сколько токенов она сгенерировала, и пропустит подсчёт.
https://github.com/RiddleHe/llm-interp
Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и делает это очень необычно.
🔎 Что видно при анализе:
- На шаге reflection (когда модель «останавливается» и подсчитывает токены) внимание почти полностью сосредоточено только на текущем и последнем токене.
- До этого внимание распределялось как обычно — по разным токенам.
- Получается, что именно последний токен запускает мощную активацию во всех attention-головах.
- При этом сам по себе токен ничем не особенный — значит, дело не в его содержимом.
💡 Возможное объяснение:
Модель может использовать позиционное кодирование. У самого последнего токена уникальная позиция, которая как будто «сигналит» attention-механизму: *вот тут конец последовательности*.
🧪 Что планирую проверить:
Если испортить позиционное кодирование последнего токена, то, возможно, модель перестанет «понимать», сколько токенов она сгенерировала, и пропустит подсчёт.
https://github.com/RiddleHe/llm-interp
👍10🔥4🤔4❤3🤗2