🧠 Промпт дня: для разогрева мозга
Иногда, чтобы быстро прокачать свои аналитические навыки, полезно потренироваться на небольших, но интересных задачах с реальными данными.
Такой «разогрев» помогает:
— быстрее находить инсайты в данных,
— развивать навыки визуализации и очистки данных,
— улучшать понимание структуры и качества датасетов.
Промпт:
Почему это полезно:
— Отлично прокачивает EDA и постановку вопросов к данным
— Помогает развивать критическое мышление и аналитический подход
— Можно использовать как мини-тренажёр утром или перед проектом
🐸 Библиотека дата-сайентиста
#буст
Иногда, чтобы быстро прокачать свои аналитические навыки, полезно потренироваться на небольших, но интересных задачах с реальными данными.
Такой «разогрев» помогает:
— быстрее находить инсайты в данных,
— развивать навыки визуализации и очистки данных,
— улучшать понимание структуры и качества датасетов.
Промпт:
Generate 5 challenging data analysis problems based on real-world datasets.
For each problem, include:
1. A short description of the dataset
2. A clear question or task to solve
3. Optional hints or tips for analysis
Почему это полезно:
— Отлично прокачивает EDA и постановку вопросов к данным
— Помогает развивать критическое мышление и аналитический подход
— Можно использовать как мини-тренажёр утром или перед проектом
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.
27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.
В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.
📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.
27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.
В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.
📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
❤2
Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.
Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.
Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.
Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.
#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда
Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.
Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».
Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.
👉 Начните правильно
Берёте курс «ML для старта» до конца недели — Python в подарок.
❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.
А какой самый сложный проект вы брались делать в самом начале? 🫢
Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.
Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».
Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.
👉 Начните правильно
Берёте курс «ML для старта» до конца недели — Python в подарок.
❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.
А какой самый сложный проект вы брались делать в самом начале? 🫢
🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
LangExtract — open-source Python-библиотеку, которая превращает хаос неструктурированного текста в идеально структурированные данные с хирургической точностью.
Применения:
— извлечение транзакций из банковских выписок
— определение дозировок лекарств из клинических записей
— выделение условий контрактов из юридических документов
Ключевые фичи:
Достаточно задать промпт и пример, и LangExtract вернёт JSON, где каждое поле можно отследить до исходного текста. Работает с Gemini из коробки и поддерживает локальные LLM через Ollama для приватных задач.
🔗 Подробнее о LangExtract
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3
🚀 Интересуетесь нейросетями и хотите понять, как эволюция архитектур RNN и Transformer влияет на NLP?
🚀
На открытом уроке «От RNN до Transformers: скорость, память, контекст» 19 августа в 20:00 МСК мы разберём, как работают рекуррентные нейросети (RNN), их ограничения и почему современные NLP-системы всё чаще переходят к трансформерам. Мы сравним эти архитектуры по ключевым параметрам: скорости, памяти, контексту и масштабируемости.
Урок даст вам чёткое представление о том, как меняются подходы в обработке текста, а также объяснит, почему трансформеры становятся основой современных NLP-систем.
📚 Посетите вебинар и получите скидку на большое обучение «NLP / Natural Language Processing»: https://clc.to/VShGGg
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
🚀
На открытом уроке «От RNN до Transformers: скорость, память, контекст» 19 августа в 20:00 МСК мы разберём, как работают рекуррентные нейросети (RNN), их ограничения и почему современные NLP-системы всё чаще переходят к трансформерам. Мы сравним эти архитектуры по ключевым параметрам: скорости, памяти, контексту и масштабируемости.
Урок даст вам чёткое представление о том, как меняются подходы в обработке текста, а также объяснит, почему трансформеры становятся основой современных NLP-систем.
📚 Посетите вебинар и получите скидку на большое обучение «NLP / Natural Language Processing»: https://clc.to/VShGGg
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
❤1🌚1
Retrieval-Augmented Generation (RAG) — подход, когда LLM дополняется внешними источниками знаний для точных и актуальных ответов.
Ниже — быстрый обзор популярных архитектур:
Базовый RAG для простых задач. Простейшая реализация без адаптивной логики.
Работает с разными типами данных: текст, изображения, аудио.
Генерирует гипотетический документ (Hypothetical Response) для улучшения поиска и контекста.
Автоматическая проверка фактов и корректировка ответа с использованием внешних источников.
Использует графовые базы данных для сложных связей между сущностями.
Гибридный подход: объединяет графовые и векторные хранилища для более точного контекста.
Многоступенчатое рассуждение с адаптивным выбором стратегии поиска и генерации.
Многоагентная система с планированием действий, короткой и длинной памятью, распределёнными агентами.
Совет по выбору:
— Простые задачи → Naive RAG
— Мультимодальные данные → Multimodal RAG
— Проверка фактов → Corrective RAG
— Сложные связи → Graph / Hybrid RAG
— Многоступенчатое рассуждение → Adaptive RAG
— Комплексные агентные системы → Agentic RAG
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🤔1😍1
🧠 Выбор первого ML-проекта: чеклист против выгорания
Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.
Мини-чеклист первого проекта:
1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».
2. Измеримая метрика — «точность 92%», а не «ну вроде работает».
3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.
Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.
👉 Начать свой путь в Data Science
Оплатите курс по ML до 17 августа — курс по Python в подарок.
📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.
💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.
Мини-чеклист первого проекта:
1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».
2. Измеримая метрика — «точность 92%», а не «ну вроде работает».
3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.
Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.
👉 Начать свой путь в Data Science
Оплатите курс по ML до 17 августа — курс по Python в подарок.
📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.
💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
❤1🌚1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
❤3
⚙️ Модели и технологии
— OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
— Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
— Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
— Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
— LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
— Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
— Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
— TRIBE от Meta — тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.
🔍 Исследования и гайды
— AI research interviews — опыт устройства в OpenAI, советы и инсайты.
— Prompt migrator + optimizer для GPT-5 — OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
— DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍3