Привет, друзья!
Наконец-то и до меня дошла очередь в waiting-листе на доступ к KIRO - новой AI-IDE от AWS. Выглядит многообещающе😏
🫤 Что такое KIRO?
Это экспериментальная среда разработки со встроенным ИИ. Не просто «Copilot для автодополнения кода», а полноценный ассистент, который работает по принципу spec-driven development:
➡️ сначала формирует документ с требованиями и архитектурой,
➡️ разбивает всё на задачи,
➡️ и только потом вносит изменения в проект.
То есть KIRO сразу мыслит на уровне проекта целиком, а не отдельной функции или файла.
🫤 Модель под капотом - Claude Sonnet 4.0 (Anthropic), с fallback на Sonnet 3.7.
🫤 Первое впечатление от использования
Интерфейс максимально интуитивный, по сути - форк VS Code. Достаточно пару минут потыкать, и всё становится понятно: где папки, вкладки, чаты, терминал.
Для проверки открыла свой существующий готовый проект, на вопрос: «Что можно улучшить?» - KIRO внимательно изучил весь репозиторий и выдал 10+ довольно обоснованных рекомендаций - от архитектурных правок до мелких рефакторингов.
И, конечно, завершил всё традиционным: «Давай внесу эти изменения прямо в проект?»🙂
В отличие от обычных LLM-помощников, KIRO смотрит на кодовую базу комплексно, понимает контекст и модули, а не отвечает точечно на короткие вопросы.
🫤 Есть ли аналоги?
Да, но KIRO делает ставку на структурность. Ближе всего к нему:
- Cursor (форк VS Code с AI-интеграцией),
- Cline (open-source агент для VS Code, бесплатный),
- Aider (CLI-агент для работы с кодом через git, тоже open-source).
Хоть KIRO пока и в превью, но это большой шаг в сторону новых IDE, где ассистент не просто дополняет код, а реально берёт на себя роль соразработчика.
‼️Кто ещё не записался - можно добавиться в waiting-list тут, мне доступ пришел ровно через месяц.
#полезный_ии@data_easy
Наконец-то и до меня дошла очередь в waiting-листе на доступ к KIRO - новой AI-IDE от AWS. Выглядит многообещающе
Это экспериментальная среда разработки со встроенным ИИ. Не просто «Copilot для автодополнения кода», а полноценный ассистент, который работает по принципу spec-driven development:
То есть KIRO сразу мыслит на уровне проекта целиком, а не отдельной функции или файла.
Интерфейс максимально интуитивный, по сути - форк VS Code. Достаточно пару минут потыкать, и всё становится понятно: где папки, вкладки, чаты, терминал.
Для проверки открыла свой существующий готовый проект, на вопрос: «Что можно улучшить?» - KIRO внимательно изучил весь репозиторий и выдал 10+ довольно обоснованных рекомендаций - от архитектурных правок до мелких рефакторингов.
И, конечно, завершил всё традиционным: «Давай внесу эти изменения прямо в проект?»🙂
В отличие от обычных LLM-помощников, KIRO смотрит на кодовую базу комплексно, понимает контекст и модули, а не отвечает точечно на короткие вопросы.
Да, но KIRO делает ставку на структурность. Ближе всего к нему:
- Cursor (форк VS Code с AI-интеграцией),
- Cline (open-source агент для VS Code, бесплатный),
- Aider (CLI-агент для работы с кодом через git, тоже open-source).
Хоть KIRO пока и в превью, но это большой шаг в сторону новых IDE, где ассистент не просто дополняет код, а реально берёт на себя роль соразработчика.
‼️Кто ещё не записался - можно добавиться в waiting-list тут, мне доступ пришел ровно через месяц.
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥9❤🔥6👏2
Привет, друзья!
Следующий месяц обещает быть жарким - и не из-за погоды, а из-за множества интересных встреч и конференций про ML! Держите подборку:
📱 D >< Vision - митап, посвященный CV от МТС AI.
Когда: 21 августа офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
👍 RecSys Meetup WB - встреча про рекомендательные системы и ML в e-commerce.
Когда: 28 августа офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
⚛️ MoscowAI #3 - серия встреч про нейросети, их применение и практические кейсы.
Когда: 3 сентября офлайн в Москве (возможно, будет и онлайн).
Ссылка на регистрацию: тык.
📦 ECUP от Ozon - турнир + конференция для ML-инженеров и дата-сайентистов с практическими кейсами от индустрии.
Когда: 13 сентября офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
📱 Data Driven - конференция о работе с данными для дата-саентистов и аналитиков.
Когда: 20 сентября офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
⚛️ DCCN - научная конференция под эгидой IEEE по вычислительным системам, сетям и ML-подходам.
Когда: 22–26 сентября офлайн в Москве.
Ссылка на регистрацию: тык.
📱 Practical ML Conf - практическая конференция для ML-инженеров и исследователей на самые разные темы.
Когда: 27 сентября офлайн в Москве.
Ссылка на регистрацию: тык.
🐍 А для новичков - завтра я участвую в открытом эфире "Первые-шаги-дата-сайентиста", где разберем классическую задачу прогнозирования стоимости недвижимости.
Когда: 21 августа 19:00 (мск) онлайн.
Ссылка на регистрацию: тык.
Входновения и полезных инсайтов!😎
#полезный_ии@data_easy
Следующий месяц обещает быть жарким - и не из-за погоды, а из-за множества интересных встреч и конференций про ML! Держите подборку:
Когда: 21 августа офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
Когда: 28 августа офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
⚛️ MoscowAI #3 - серия встреч про нейросети, их применение и практические кейсы.
Когда: 3 сентября офлайн в Москве (возможно, будет и онлайн).
Ссылка на регистрацию: тык.
Когда: 13 сентября офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
Когда: 20 сентября офлайн в Москве и онлайн.
Ссылка на регистрацию: тык.
⚛️ DCCN - научная конференция под эгидой IEEE по вычислительным системам, сетям и ML-подходам.
Когда: 22–26 сентября офлайн в Москве.
Ссылка на регистрацию: тык.
Когда: 27 сентября офлайн в Москве.
Ссылка на регистрацию: тык.
Когда: 21 августа 19:00 (мск) онлайн.
Ссылка на регистрацию: тык.
Входновения и полезных инсайтов!
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤7⚡4
Привет, друзья!
Держите подборку интересных инструментов и фреймворков для работы с Git. Эти штуки помогут сделать управление репозиториями проще, удобнее и нагляднее🤓
✅ GitButler
Этот git-клиент от самого сооснователя GitHub. Главная фишка - виртуальные ветки: можно параллельно вести несколько задач в одном рабочем каталоге и удобно переносить изменения между ветками буквально нажатием кнопки в UI. Также есть удобное управление коммитами (undo, squash, reorder) и даже AI-генерация commit-месседжей. Отличный выбор, если устали от командной строки.
➡️ репозиторий на GitHub
➡️ документация
✅ GitFriend
Это open-source ассистент для Git, который живёт прямо в браузере. Поможет подсказать нужную команду, объяснить ошибку, автоматически сгенерировать README или добавить эмодзи к коммитам для наглядной истории. Особенно полезен новичкам, но и опытным разработчикам облегчит рутину.
➡️ репозиторий на GitHub
➡️ документация
✅ Git-Theta
Это расширение Git создано специально для ML-инженеров. Вместо того чтобы хранить модель как «чёрный ящик» в виде огромного бинарного файла в LFS, Git-Theta сохраняет только изменения весов и метаданные. Поэтому репозиторий не раздувается, а вы можете сравнивать и даже объединять разные версии моделей прямо через Git. Идеально для командной работы в Data Science.
➡️ репозиторий на GitHub
➡️ статья на Arxiv
✅ Githru
А это инструмент для визуализации истории Git-репозитория. Он красиво и наглядно показывает, как развивался проект: ветки, кластеры коммитов, точки слияния. Помогает быстро разобраться в сложной истории изменений, особенно если вы подключились к большому проекту.
➡️ репозиторий на GitHub
➡️ статья на Arxiv
Всем слияний без конфликтов и коммитов без сюрпризов!
#mlops@data_easy
Держите подборку интересных инструментов и фреймворков для работы с Git. Эти штуки помогут сделать управление репозиториями проще, удобнее и нагляднее
Этот git-клиент от самого сооснователя GitHub. Главная фишка - виртуальные ветки: можно параллельно вести несколько задач в одном рабочем каталоге и удобно переносить изменения между ветками буквально нажатием кнопки в UI. Также есть удобное управление коммитами (undo, squash, reorder) и даже AI-генерация commit-месседжей. Отличный выбор, если устали от командной строки.
Это open-source ассистент для Git, который живёт прямо в браузере. Поможет подсказать нужную команду, объяснить ошибку, автоматически сгенерировать README или добавить эмодзи к коммитам для наглядной истории. Особенно полезен новичкам, но и опытным разработчикам облегчит рутину.
Это расширение Git создано специально для ML-инженеров. Вместо того чтобы хранить модель как «чёрный ящик» в виде огромного бинарного файла в LFS, Git-Theta сохраняет только изменения весов и метаданные. Поэтому репозиторий не раздувается, а вы можете сравнивать и даже объединять разные версии моделей прямо через Git. Идеально для командной работы в Data Science.
А это инструмент для визуализации истории Git-репозитория. Он красиво и наглядно показывает, как развивался проект: ветки, кластеры коммитов, точки слияния. Помогает быстро разобраться в сложной истории изменений, особенно если вы подключились к большому проекту.
Всем слияний без конфликтов и коммитов без сюрпризов!
#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - gitbutlerapp/gitbutler: The GitButler version control client, backed by Git, powered by Tauri/Rust/Svelte
The GitButler version control client, backed by Git, powered by Tauri/Rust/Svelte - gitbutlerapp/gitbutler
1🔥14⚡2👍1
Привет, друзья!
В продолжение подборки вводных курсов по ml держите коллекцию свежих бесплатных пособий и материалов по продвинутому DL и LLM✨
Тут и академические курсы, и практические репозитории, и настоящие «инженерные экскурсии» в мир SOTA-моделей 🤓
📚 Курс от MIT «Introduction to Deep Learning»
Самый полный и актуальный ввод в deep learning на 2025 год.
➡️ Лекции от основ до LLM и генеративного ИИ.
➡️ Практика из трёх крупных проектов: CV, LLM и музыка.
➡️ Всё запускается в Colab, можно не беспокоиться о ресурсах.
🔗 Сайт курса
🔗 Код и задания
📚 Hugging Face «UltraScale LLM Playbook»
Руководство, как обучать LLM-модели на триллионы параметров.
➡️ Разбирается весь стек технологий: Tensor/Pipeline/Data Parallelism.
➡️ Оптимизация памяти и советы по железу.
➡️ Взгляд изнутри на инженерные задачи уровня SOTA.
🔗 Playbook на Hugging Face
📚 GitHub-репозиторий «LLM from scratch»
Это сокровище уже собрало почти 70k звезд!
➡️ Реализация GPT и attention с нуля.
➡️ Основы CUDA и PyTorch, пошаговые видео.
➡️ Предобучение, файнтюн, работа с текстовыми данными.
🔗 GitHub-репозиторий
📚 LLM Agents Learning (Fall 2024)
Курс о том, как работают и строятся LLM-агенты: от базовых концепций до сложных пайплайнов. Отличный старт для тех, кто хочет разобраться, что «под капотом» у современных чат-ботов.
🔗 Сайт курса
📚 LangChain Academy «Intro to LangGraph»
Бесплатный курс от создателей LangChain.
Покрывает основы LangGraph: библиотеки для построения графов агентов и оркестрации LLM.
🔗 Сайт курса
Успехов в наступающем учебном году!😄🍀
#nlp@data_easy
В продолжение подборки вводных курсов по ml держите коллекцию свежих бесплатных пособий и материалов по продвинутому DL и LLM✨
Тут и академические курсы, и практические репозитории, и настоящие «инженерные экскурсии» в мир SOTA-моделей 🤓
Самый полный и актуальный ввод в deep learning на 2025 год.
🔗 Сайт курса
🔗 Код и задания
Руководство, как обучать LLM-модели на триллионы параметров.
🔗 Playbook на Hugging Face
Это сокровище уже собрало почти 70k звезд!
🔗 GitHub-репозиторий
Курс о том, как работают и строятся LLM-агенты: от базовых концепций до сложных пайплайнов. Отличный старт для тех, кто хочет разобраться, что «под капотом» у современных чат-ботов.
🔗 Сайт курса
Бесплатный курс от создателей LangChain.
Покрывает основы LangGraph: библиотеки для построения графов агентов и оркестрации LLM.
🔗 Сайт курса
Успехов в наступающем учебном году!😄🍀
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤10❤🔥4🙏3
Привет, друзья!
Сегодня на повестке Chatterbox Multilingual от Resemble AI: открытая, мультиязычная и эмоционально-настраиваемая text-to-speech модель.
🐦 Немного деталей:
- Поддержка 23 языков (и русский тоже).
- 0.5B параметров, в основе LLaMA-3, обучение на 500k часов разнопланового качественного аудио.
- Latency <200 мс, что отлично подходит для realtime-ассистентов.
- Лицензия MIT - а значит, можно использовать и кастомизировать без ограничений.
- И самое интересное - zero-shot voice cloning: модели хватает пары секунд речи, чтобы склонировать голос... А параметр exaggeration регулирует эмоции: от сухой монотонности до театральной драматичности.
🐦 Что по сравнению с конкурентами?
В "слепом" тестировании 63.75 % людей выбрали Chatterbox вместо ElevenLabs. Для Open-Source это очень серьёзная заявка! Полный отчёт доступен по ссылке.
🐦 Ссылки на все источники:
- репозиторий на GitHub
- ссылка на ДЕМО, где можно протестировать модель - оно же страничка на HF
Так что пара строк на Python, и у вас готов голос под подкасты, ассистентов, локализацию и другие проекты. Это новый виток в голосовом AI, который можно свободно использовать и кастомизировать. Надеюсь, что такие технологии будут служить только на пользу🤞
#полезный_ии@data_easy
#аудио@data_easy
Сегодня на повестке Chatterbox Multilingual от Resemble AI: открытая, мультиязычная и эмоционально-настраиваемая text-to-speech модель.
- Поддержка 23 языков (и русский тоже).
- 0.5B параметров, в основе LLaMA-3, обучение на 500k часов разнопланового качественного аудио.
- Latency <200 мс, что отлично подходит для realtime-ассистентов.
- Лицензия MIT - а значит, можно использовать и кастомизировать без ограничений.
- И самое интересное - zero-shot voice cloning: модели хватает пары секунд речи, чтобы склонировать голос... А параметр exaggeration регулирует эмоции: от сухой монотонности до театральной драматичности.
В "слепом" тестировании 63.75 % людей выбрали Chatterbox вместо ElevenLabs. Для Open-Source это очень серьёзная заявка! Полный отчёт доступен по ссылке.
- репозиторий на GitHub
- ссылка на ДЕМО, где можно протестировать модель - оно же страничка на HF
Так что пара строк на Python, и у вас готов голос под подкасты, ассистентов, локализацию и другие проекты. Это новый виток в голосовом AI, который можно свободно использовать и кастомизировать. Надеюсь, что такие технологии будут служить только на пользу🤞
#полезный_ии@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥19👍6❤5
Привет, друзья!
Поздравляю с нашим профессиональным праздников - 256-м днём в году!
Пока вайбкодинг ещё не вытеснил программеров в Data Science, и пока Python играет одну из ключевых ролей, давайте освежим важные особенности языка, которые часто спрашивают даже у сеньоров на собеседованиях✍️
1. Python со статической или динамической типизацией?
2. Разница между генераторами и итераторами?
3. В чем разница между yield и return?
4. А что такое декораторы и зачем они нужны?
5. Какие бывают пространства имен в Python?
6. Как передаются аргументы в функции - по значениям или по ссылке?
7. Как происходит управление памятью в Python?
8. Что такое GIL и разрешена ли многопоточность в Python?
9. Что такое дескриптор?
10. Как работает менеджер контекста with под капотом?
Кто все и так знал - ставьте 🐳
#python@data_easy
Поздравляю с нашим профессиональным праздников - 256-м днём в году!
Пока вайбкодинг ещё не вытеснил программеров в Data Science, и пока Python играет одну из ключевых ролей, давайте освежим важные особенности языка, которые часто спрашивают даже у сеньоров на собеседованиях
1. Python со статической или динамической типизацией?
Напомним разновидности:
- Статическая типизация (C++, Java): тип переменной задаётся заранее и проверяется до запуска программы.
- Динамическая типизация (Python, JavaScript): тип переменной определяется во время выполнения программы - а именно, в момент присваивания. В Python это происходит при исполнении соответствующей строки кода (ведь он интерпретируемый ), поэтому одна и та же переменная может в разные моменты хранить объекты разных типов.
2. Разница между генераторами и итераторами?
Вспомним, что итерируемый объект - это то, из чего можно последовательно доставать элементы (список, множество, строка).
Итератор - это «механизм перебора»: объект, который умеет по одному выдавать элементы итерируемого объекта. Для этого у него есть методы iter (возвращает сам итератор) и next возвращает следующий элемент)
Генератор — это удобный способ создать итератор. Его пишут через yield или в виде генераторного выражения. Главное отличие: генератор сам запоминает своё состояние между вызовами и продолжает работу с того места, где остановился.
3. В чем разница между yield и return?
return завершает функцию и возвращает одно значение.
yield приостанавливает функцию, возвращает значение, но сохраняет её состояние, чтобы можно было продолжить выполнение этой функции позже. Используется как раз для создания генераторов!
4. А что такое декораторы и зачем они нужны?
Декоратор - это вызываемый объект (функция или класс с call), который принимает другую функцию или класс и возвращает «обёрнутую» версию. То есть позволяет добавлять новое поведение к функциям/классам без изменения их кода (примеры: логирование, кеширование, измерение времени работы фунции).
5. Какие бывают пространства имен в Python?
Есть четыре уровня пространств имён:
- Local (локальное внутри функции)
- Enclosing (это локальное пространство переменных внешней функции, к которому может обращаться внутренняя функция, если она определена внутри этой внешней)
- Global (глобальное внутри модуля)
- Built-in (встроенные объекты Python).
Запоминается по правилу LEGB.
6. Как передаются аргументы в функции - по значениям или по ссылке?
В Python аргументы передаются по ссылке на объект, но сами ссылки копируются. Если объект изменяемый (список, словарь) - изменения видны и снаружи функции. Если неизменяемый (int, str, tuple) - создаётся новый объект.
7. Как происходит управление памятью в Python?
Python управляет памятью автоматически: у каждого объекта есть счётчик ссылок - когда на объект больше нет активных ссылок, память освобождается сразу. Для циклических ссылок (когда объекты ссылаются друг на друга) работает отдельный garbage collector, который периодически запускается в фоне.
8. Что такое GIL и разрешена ли многопоточность в Python?
GIL (Global Interpreter Lock) - это глобальная блокировка интерпретатора, которая не позволяет одновременно выполнять код в нескольких потоках. Поэтому для CPU-ограниченных задач многопоточность в Python не даёт прироста. Но она хорошо работает для задач ввода-вывода (I/O) и для вычислений внутри библиотек, реализованных на C/C++ (NumPy или Faiss), которые обходят GIL.
9. Что такое дескриптор?
Дескриптор - это объект с методами set/get/delete который управляет доступом к атрибуту другого класса. На дескрипторах реализованы property, методы класса, статические методы.
10. Как работает менеджер контекста with под капотом?
Менеджер контекста - это объект, у которого определены методы enter и exit. При входе в блок with вызывается enter, при выходе - exit, что гарантирует корректное освобождение ресурсов (например, закрытие файла).
Кто все и так знал - ставьте 🐳
#python@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤25🔥11🐳7🎉3👍1🏆1
Привет, друзья!
Мы привыкли считать, что на табличных данных бустинг не победить: CatBoost, LightGBM и XGBoost долгие годы остаются золотым стандартом. Но последнее время появляется много нейросетевых моделей "из коробки" специально для таблиц, которые даже местами обгоняют классиков. Ниже - подборка трёх наиболее интересных архитектур.
🐱 TabM
Архитектура основана на MLP с параметрически-эффективным ансамблированием. Внутри одной сети обучаются несколько "виртуальных моделей", которые делят общие веса и отличаются только небольшими адаптер-модулями.
Сама модель от Яндекса, на больших бенчмарк-датасетах уверенно конкурирует с CatBoost и LightGBM.
✨ репозиторий на GitHub
✨ статья на arXiv
✨ демо в colab
🐱 TabPFN
Модель на базе трансформера, предобученного на огромном количестве синтетических таблиц. Работает как готовое универсальное решение "из коробки": вы подаёте данные, а она сразу выдаёт предсказания без длительного дообучения. Отлично подходит для малых и средних наборов данных, где нет времени или ресурсов на настройку.
✨ репозиторий на GitHub
✨ официальная страничка решения
✨ демо в colab
✨ статьи: оригинальная и более свежая про улучшенную версию
🐱 SAINT
Transformer-архитектура с вниманием не только по признакам, но и между самими объектами. Дополнительно использует контрастивное предобучение, что помогает лучше выделять структуру данных и устойчиво обучаться.
Особенно хороша на датасетах, где важно учитывать сложные зависимости между объектами, а также для задач с большим числом категориальных признаков.
✨ репозиторий на GitHub
✨ статья на arXiv
Судя по бенчмаркам, эти архитектуры полезны на больших и сложных таблицах с множеством признаков/категорий, где классический бустинг может упираться в ресурсы. На простых или небольших датасетах легендарное Boost-трио пока надёжнее и проще в настройке🐈 🐈 🐈
Удачных экспериментов и высоких метрик!
#classic_ml@data_easy
#dl@data_easy
Мы привыкли считать, что на табличных данных бустинг не победить: CatBoost, LightGBM и XGBoost долгие годы остаются золотым стандартом. Но последнее время появляется много нейросетевых моделей "из коробки" специально для таблиц, которые даже местами обгоняют классиков. Ниже - подборка трёх наиболее интересных архитектур.
Архитектура основана на MLP с параметрически-эффективным ансамблированием. Внутри одной сети обучаются несколько "виртуальных моделей", которые делят общие веса и отличаются только небольшими адаптер-модулями.
Сама модель от Яндекса, на больших бенчмарк-датасетах уверенно конкурирует с CatBoost и LightGBM.
Модель на базе трансформера, предобученного на огромном количестве синтетических таблиц. Работает как готовое универсальное решение "из коробки": вы подаёте данные, а она сразу выдаёт предсказания без длительного дообучения. Отлично подходит для малых и средних наборов данных, где нет времени или ресурсов на настройку.
Transformer-архитектура с вниманием не только по признакам, но и между самими объектами. Дополнительно использует контрастивное предобучение, что помогает лучше выделять структуру данных и устойчиво обучаться.
Особенно хороша на датасетах, где важно учитывать сложные зависимости между объектами, а также для задач с большим числом категориальных признаков.
Судя по бенчмаркам, эти архитектуры полезны на больших и сложных таблицах с множеством признаков/категорий, где классический бустинг может упираться в ресурсы. На простых или небольших датасетах легендарное Boost-трио пока надёжнее и проще в настройке
Удачных экспериментов и высоких метрик!
#classic_ml@data_easy
#dl@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤8👏2👍1
Привет, друзья!
Сегодня - короткая подборка роадмапов и ресурсов по изучению DS-ML. Всё проверенное и пригодное для подготовки к интервью и планирования обучения.
🐾 Матрицы компетенций от AndersenLab
Показывает, какие навыки ожидаются на разных грейдах и уровнях, удобно для формирования чек-листа роста и оценки прогресса.
✨ ссылка (выбирайте Python в специализации и AI/DS/DE/ML в Skill category)
🐾 Machine Learning Roadmap от MachineLearningMastery
Большая пошаговая инструкция: от математики и базовых алгоритмов до продакшена и MLOps, где расписаны все шаги со ссылками на книги, полезные статьи и курсы.
✨ ссылка
🐾 Deep-ML - практические ML/DL задачки
Онлайн-платформа с наборами реальных задач по ML/DL/NLP/CV. Формат близок к продакшену: нужно думать не только о модели, но и о фичах, пайплайнах, метриках. Есть задания для прокачки инженерных навыков.
✨ ссылка
🐾 NeetCode - roadmap + LeetCode-style подготовка
Сайт, посвященный алгоритмам и структурам данных: задачи собраны в тематические дорожки (arrays, trees, graphs и т.д.), есть разборы и объяснения. По духу похож на LeetCode, но структурированнее и понятнее для быстрой подготовки.
✨ ссылка
😎 Рецепт, как собрать из этого рабочий план:
1. Берём матрицу компетенций, отмечаем свои навыки и пробелы, получаем список приоритетов.
2. По роадмапам строим порядок изучения и выбираем подходящие ресурсы.
3. Подключаем практику: задачи на Deep-ML, вопросы для повторения, тренировка алгоритмов и структур.
А ещё на прошедшей неделе в канале стукнуло💯 подписчиков!
Спасибо каждому, кто читает, комментирует, задаёт вопросы и просто остаётся здесь.
Этот канал начинался как небольшой личный проект, а превратился в сообщество, где можно вместе учиться и расти в Data Science.
Дальше - больше💜
#карьера@data_easy
Сегодня - короткая подборка роадмапов и ресурсов по изучению DS-ML. Всё проверенное и пригодное для подготовки к интервью и планирования обучения.
Показывает, какие навыки ожидаются на разных грейдах и уровнях, удобно для формирования чек-листа роста и оценки прогресса.
✨ ссылка (выбирайте Python в специализации и AI/DS/DE/ML в Skill category)
Большая пошаговая инструкция: от математики и базовых алгоритмов до продакшена и MLOps, где расписаны все шаги со ссылками на книги, полезные статьи и курсы.
✨ ссылка
Онлайн-платформа с наборами реальных задач по ML/DL/NLP/CV. Формат близок к продакшену: нужно думать не только о модели, но и о фичах, пайплайнах, метриках. Есть задания для прокачки инженерных навыков.
✨ ссылка
Сайт, посвященный алгоритмам и структурам данных: задачи собраны в тематические дорожки (arrays, trees, graphs и т.д.), есть разборы и объяснения. По духу похож на LeetCode, но структурированнее и понятнее для быстрой подготовки.
✨ ссылка
1. Берём матрицу компетенций, отмечаем свои навыки и пробелы, получаем список приоритетов.
2. По роадмапам строим порядок изучения и выбираем подходящие ресурсы.
3. Подключаем практику: задачи на Deep-ML, вопросы для повторения, тренировка алгоритмов и структур.
А ещё на прошедшей неделе в канале стукнуло
Спасибо каждому, кто читает, комментирует, задаёт вопросы и просто остаётся здесь.
Этот канал начинался как небольшой личный проект, а превратился в сообщество, где можно вместе учиться и расти в Data Science.
Дальше - больше💜
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥21❤🔥13❤9🥰2⚡1🏆1
Привет, друзья!
Возвращаюсь из трудовых будней🫡 В октябре свершилось долгожданное событие, про которое нельзя не сказать - официально вышла новая версия Python 3.14!
Главные изменения, которые особенно важны для DS-ML и не только:
🐍 Долой GIL!
🐍 Экспериментальный JIT-компилятор.
🐍 Мультиинтерпретаторы и asyncio.
🐍 Template strings (t-strings).
🐍 Отложенная оценка аннотаций.
🐍 Улучшенные сообщения об ошибках.
В целом, нововведения довольно крутые, но с некоторыми моментами лучше быть аккуратнее. Ещё важно иметь в виду, что NumPy, Pandas и другие библиотеки могут не сразу выпустить стабильные версии под новый Python.
Продолжаем следить за развитиеми ждать стабильности!🐍
Возвращаюсь из трудовых будней🫡 В октябре свершилось долгожданное событие, про которое нельзя не сказать - официально вышла новая версия Python 3.14!
Главные изменения, которые особенно важны для DS-ML и не только:
🐍 Долой GIL!
Более «официальным» стал вариант сборки Python без глобальной блокировки интерпретатора. Эта фича появилась как чисто экспериментальная в Python 3.13, в новой же версии её доработали. Однако в однопоточном режиме код с отключенным GIL всё ещё работает на 5-10% медленнее - поэтому имеет смысл отключать его только в определённых участках кода или пользоваться старыми добрыми joblib и concurrent.
🐍 Экспериментальный JIT-компилятор.
Появилась опция автоматической JIT (just-in-time) компиляции, которая ускоряет повторяющиеся участки кода - можно активировать режим через переменную окружения PYTHON_JIT=1. Как можно воспользоваться подобной опцией в более ранних версиях - есть в этом
посте.
🐍 Мультиинтерпретаторы и asyncio.
В продолжение темы ускорения кода и параллелизма, появилась возможность запускать несколько интерпретаторов в одном процессе - воспользоваться можно через concurrent.interpreters. Из минусов - опция пока не до конца оптимизирована и может потреблять много памяти. А ещё появились новые улучшения в asyncio и отладке асинхронного кода.
🐍 Template strings (t-strings).
Это новый вид строковых шаблонов, похожий на f-строки, но с расширенными возможностями. Самое главное - можно самим задать, как именно будут подставляются значения. Если f-строки просто вставляют текст, то новые шаблоны позволяют, например, автоматически экранировать данные для SQL или форматировать их по своим правилам.
🐍 Отложенная оценка аннотаций.
Аннотации типов теперь не вычисляются сразу при импорте модуля - это ускоряет их и убирает часть проблем с круговыми зависимостями. Однако стоит иметь в виду, что код, который раньше зависел от немедленной оценки аннотаций, может работать иначе.
🐍 Улучшенные сообщения об ошибках.
Ошибки стали объясняться понятнее, особенно в типовых опечатках и неверных типах. А ещё интерпретатор теперь умеет подсказывать:)
В целом, нововведения довольно крутые, но с некоторыми моментами лучше быть аккуратнее. Ещё важно иметь в виду, что NumPy, Pandas и другие библиотеки могут не сразу выпустить стабильные версии под новый Python.
Продолжаем следить за развитием
🔥15❤7🙏4❤🔥2👍1
Привет, друзья!
Говорят, что именно этап ML System Design помогает наиболее точно отличить джуна от сеньора на собеседовании - поэтому многих он до сих пор пугает, а четких рецептов, как к нему готовиться и как проходить, всё ещё не так много...
🤔 Кто такой этот MLSD?
Это не про «какой градиентный бустинг лучше» - это про то, как собрать ML-решение, стабильно работающее в проде: от формулировки задачи и метрик, через сбор и валидацию данных, фичи и обучение, до деплоя, мониторинга, CI/CD и A/B. В интервью смотрят как бы вы решали задачу с нуля, получив её от заказчика (разумеется, обычно сам кейс приближен к работе на этой позиции). А также проверяют, что вы думаете не только как DS-экспериментатор-с-модельками, но и как инженер, и немного как product-менеджер.
🤔 Если очень кратко, то рабочая схема ответа следующая:
В оригинальном международном формате подобное собеседование длится в районе 40 минут - часа и состоит преимущественно из вашего монолога. Поэтому структуру полностью задаёте вы, полезно при этом использовать онлайн-доску, на которой будете фиксировать основные идеи и план.
🤔 А теперь несколько полезных источников для подготовки:
➡️ Designing Machine Learning Systems - хорошая практическая книжка про весь цикл: от постановки до поддержки.
pdf тут
➡️ Machine Learning Design Patterns - сборник более 30-ти кейсов: anti-patterns, operational patterns, reproducibility. Отлично для инженеров и сеньоров, которые хотят готовые рецепты.
кусочек pdf тут
➡️ Machine Learning Engineering for Production - курс на coursera по деплою/ML-лайф-сайклу, хорош для системного понимания и практики.
ссылка тут
➡️ DataTalks.Club - много практических интервью и подкастов с инженерами по разбору конкретных кейсов.
ссылка тут
➡️ А также видео на YouTube по запросу “ML System Design с Валерием Бабушкиным”
Успехов и осознанных пайплайнов!💻
#карьера@data_easy
Говорят, что именно этап ML System Design помогает наиболее точно отличить джуна от сеньора на собеседовании - поэтому многих он до сих пор пугает, а четких рецептов, как к нему готовиться и как проходить, всё ещё не так много...
Это не про «какой градиентный бустинг лучше» - это про то, как собрать ML-решение, стабильно работающее в проде: от формулировки задачи и метрик, через сбор и валидацию данных, фичи и обучение, до деплоя, мониторинга, CI/CD и A/B. В интервью смотрят как бы вы решали задачу с нуля, получив её от заказчика (разумеется, обычно сам кейс приближен к работе на этой позиции). А также проверяют, что вы думаете не только как DS-экспериментатор-с-модельками, но и как инженер, и немного как product-менеджер.
1). Постановка задачи.
Начните с уточнения цели и бизнес-метрики: что именно система должна оптимизировать — точность, прибыль, CTR? Какие есть ресурсы на работу системы и ограничения? Какое допустимое время отклика? Какие есть данные?...
Постарайтесь также задать на старте все уточняющие вопросы: на этом этапе важно показать структурное мышление и умение связать продуктовую цель с техническим решением.
2). Сбор данных.
Опишите источники данных и то, как вы проверяете их качество. Отдельно подчеркните борьбу с утечками данных и опишите стратегию разбиения на train/val/test.
3). Feature engineering & EDA.
Покажите, что вы умеете находить и формировать эффективные признаки/сигналы из данных. Отметьте ключевые шаги: исследование распределений, обработка выбросов, кодирование категорий, feature rngineering... Тут уже будет зависеть от специфики направления, по которому собеседуетесь.
4). Моделирование.
Обязательно начинайте с простого baseline, возможно даже без ML (!!!) и постепенно усложняйте, обосновывая выбор модели исходя из ограничений. Укажите, как вы контролируете переобучение и обеспечиваете воспроизводимость экспериментов. Интервьюерам важно видеть не только техническую грамотность, но и способность делать разумные инженерные компромиссы.
5). Оценка.
Подчеркните, что выбор технических метрик зависит от задачи: например, что важнее - precision или recall? Упомяните проверку стабильности на разных сегментах и использование A/B-тестов для финальной онлайн-оценки. Добавьте пару слов про latency и надёжность - это показывает, что вы думаете о продакшене, а не только о цифрах в ноутбуке.
6). Деплой и мониторинг.
Опишите выбранный формат деплоя (batch, online или streaming) и то, как вы отслеживаете стабильность модели после запуска. Если знакомы с архитектурными фреймворками - можете поподробнее порассуждать про конкретные. Важно упомянуть мониторинг дрейфа данных и качества, систему алертов и переобучение по расписанию.
В оригинальном международном формате подобное собеседование длится в районе 40 минут - часа и состоит преимущественно из вашего монолога. Поэтому структуру полностью задаёте вы, полезно при этом использовать онлайн-доску, на которой будете фиксировать основные идеи и план.
pdf тут
кусочек pdf тут
ссылка тут
ссылка тут
Успехов и осознанных пайплайнов!
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥20❤🔥6🙏5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья!🍁
Похоже, ydata-profiling сдаёт позиции - библиотеки для “анализа-данных-в-одну-строчку” становятся всё умнее и красивее.
Недавно наткнулась на ещё одну интересную утилиту - PyGWalker. Помимо наглядного отчёта, у неё есть несколько крутых преимуществ:
➡️ отрабатывает почти мгновенно (особенно на средних по размеру датасетах, точно быстрее ydata);
➡️ в открывающемся интерактивном окне можно буквально перетаскивать колонки для построения графиков, менять их тип, стиль и т.п.;
➡️ ну и самое интересное - это встроенный ИИ-помощник прямо в ноутбуке, который обещают бесплатно для студентов (по вузовской почте).
🍁С чего начать?
➡️ Установите библиотеку:
➡️ Импортируйте и запустите визуализацию на своём датафрейме, в открывшемся окне можно исследовать данные “вживую”:
➡️ Если хотите подключить ИИ-помощника, нужно оформить подписку или подтвердить вузовскую почту по ссылке. МФТИ пока нет в списке, ждём когда рассмотрят заявку ⏰
🍁Полезные ссылки:
➡️ официальный репозиторий проекта
➡️ официальная документация
➡️ ссылка на туториал на русском
➡️ демо в colab
➡️ веб-интерфейс
Всем красивых графиков!
#python@data_easy
#аналитика@data_easy
Похоже, ydata-profiling сдаёт позиции - библиотеки для “анализа-данных-в-одну-строчку” становятся всё умнее и красивее.
Недавно наткнулась на ещё одну интересную утилиту - PyGWalker. Помимо наглядного отчёта, у неё есть несколько крутых преимуществ:
🍁С чего начать?
pip install pygwalker
import pandas as pd
import pygwalker as pyg
df = pd.read_csv("data.csv")
pyg.walk(df)
🍁Полезные ссылки:
Всем красивых графиков!
#python@data_easy
#аналитика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥16❤9🐳6
Привет, друзья!
На горизонте появляется новый тип инструментов - “базы данных для AI-агентов”.
Недавно вышел сервис AgentDB - облачная СУБД, которая создаёт базы буквально “на лету”.
🫤 Что это такое?
Итак, AgentDB - это облачная база-данных-как-сервис, ориентированная на AI-приложения. Главная идея: каждый агент, сессия или запрос может получить собственную базу данных, без поднятия серверов, настройки схем и деплоя инфраструктуры.
Под капотом используются SQLite и DuckDB, но всё управляется через облачный API: за пару команд можно легко и просто создать базу (в официальной документации есть примеры для JavaScript, для питона нужно оформлять через REST/cURL).
🫤 Чем это отличается от обычных баз?
В классическом мире у нас одна PostgreSQL/MySQL база и куча агентов, которые ходят в неё параллельно. Это создаёт узкое место - контексты, временные таблицы, коллизии и синхронизация. А AgentDB решает это радикально:
- каждая сессия получает изолированную, “одноразовую” базу;
- создание базы занимает миллисекунды;
- не нужно администрировать, масштабировать и следить за соединениями;
- есть поддержка векторных операций (для эмбеддингов, RAG-сценариев);
- поддерживает SQL + семантические запросы.
🫤 Когда это реально полезно?
- Мультиагентные системы: когда каждый агент должен иметь свой контекст или память (например, своя история диалога, векторы, параметры).
- RAG-платформы: можно хранить отдельные индексы и эмбеддинги для разных источников данных, пользователей или запросов.
- Временные песочницы для анализа: когда нужно создать временную БД для быстрой агрегации данных или обучения.
- Облачные приложения с пользовательскими базами: можно давать каждому пользователю “его базу” без головной боли по её настройке.
🫤 Как попробовать?
- Зайдите на https://agentdb.dev
- Зарегистрируйтесь, есть бесплатный план (до 1 ГБ)
- Попробуйте создать тестовую базу в пару строк кода или через REST-вызов (документация https://api.agentdb.dev)
- А ещё можно загрузить файлы напрямую, превратив их в БД + в веб-интерфейсе доступен встроенный ИИ-помощник, который может выполнять анализ данных по вашему запросу и покажет SQL-скрипты всех шагов.
Сама документация простая и напоминает Supabase.
Будущее data-архитектуры для AI наступило 🧩
#mlops@data_easy
#nlp@data_easy
На горизонте появляется новый тип инструментов - “базы данных для AI-агентов”.
Недавно вышел сервис AgentDB - облачная СУБД, которая создаёт базы буквально “на лету”.
Итак, AgentDB - это облачная база-данных-как-сервис, ориентированная на AI-приложения. Главная идея: каждый агент, сессия или запрос может получить собственную базу данных, без поднятия серверов, настройки схем и деплоя инфраструктуры.
Под капотом используются SQLite и DuckDB, но всё управляется через облачный API: за пару команд можно легко и просто создать базу (в официальной документации есть примеры для JavaScript, для питона нужно оформлять через REST/cURL).
В классическом мире у нас одна PostgreSQL/MySQL база и куча агентов, которые ходят в неё параллельно. Это создаёт узкое место - контексты, временные таблицы, коллизии и синхронизация. А AgentDB решает это радикально:
- каждая сессия получает изолированную, “одноразовую” базу;
- создание базы занимает миллисекунды;
- не нужно администрировать, масштабировать и следить за соединениями;
- есть поддержка векторных операций (для эмбеддингов, RAG-сценариев);
- поддерживает SQL + семантические запросы.
- Мультиагентные системы: когда каждый агент должен иметь свой контекст или память (например, своя история диалога, векторы, параметры).
- RAG-платформы: можно хранить отдельные индексы и эмбеддинги для разных источников данных, пользователей или запросов.
- Временные песочницы для анализа: когда нужно создать временную БД для быстрой агрегации данных или обучения.
- Облачные приложения с пользовательскими базами: можно давать каждому пользователю “его базу” без головной боли по её настройке.
- Зайдите на https://agentdb.dev
- Зарегистрируйтесь, есть бесплатный план (до 1 ГБ)
- Попробуйте создать тестовую базу в пару строк кода или через REST-вызов (документация https://api.agentdb.dev)
- А ещё можно загрузить файлы напрямую, превратив их в БД + в веб-интерфейсе доступен встроенный ИИ-помощник, который может выполнять анализ данных по вашему запросу и покажет SQL-скрипты всех шагов.
Сама документация простая и напоминает Supabase.
Будущее data-архитектуры для AI наступило 🧩
#mlops@data_easy
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤5❤🔥2👍2
Привет, друзья!
Вдогонку к подборкам ресурсов для подготовки к собеседованиям (тык и тык) ещё одна полезная коллекция. Здесь только практические упражнения и примеры по Python, SQL, EDA, визуализации и ML.Всё бесплатно и подходит как новичкам, так и тем, кто хочет держать себя в тонусе.
❤️ Kaggle Learn
Это учебный раздел с туториалами в формате jupyter-ноутбуков и заданий к ним. Тут представлены почти все инструменты работы с данными: Python, Pandas, SQL, визуализация, а также геоданные, тайм-серии и немного DL. Материалы короткие и практические: ноутбуки можно использовать как шпаргалки, а упражнения со встроенной системой проверки помогут закрепить все на практике.
➡️ ссылка
❤️ LeetCode SQL
Раздел с задачами по SQL существует уже несколько лет, но часто остается в тени основного контента. А здесь можно найти сотни нескучных задач от базовых SELECT до сложных запросов. Формат также помогает: большие наборы данных, строгие тесты и подсказки, где решение не прошло.
➡️ ссылка
❤️ HackerRank
Один из самых известных тренажёров по самым разным направлениям программирования. И здесь есть задачи по Python, SQL и даже основам “AI”. Уровень выше, чем на других ресурсах: задачи более объёмные и требуют погружения в нюансы условий.
➡️ ссылка
❤️ w3resource
ОГРОМНАЯ подборка упражнений по самым разным разделам Python со встроенным редактором кода. Из особенно интересного: есть множество задач по Pandas и Numpy, в том числе с математическим подтекстом.
➡️ ссылка
Пишите, какие задания покажутся самыми интересными. И удачи в борьбе с автотестами😉
#карьера@data_easy
Вдогонку к подборкам ресурсов для подготовки к собеседованиям (тык и тык) ещё одна полезная коллекция. Здесь только практические упражнения и примеры по Python, SQL, EDA, визуализации и ML.
Это учебный раздел с туториалами в формате jupyter-ноутбуков и заданий к ним. Тут представлены почти все инструменты работы с данными: Python, Pandas, SQL, визуализация, а также геоданные, тайм-серии и немного DL. Материалы короткие и практические: ноутбуки можно использовать как шпаргалки, а упражнения со встроенной системой проверки помогут закрепить все на практике.
Раздел с задачами по SQL существует уже несколько лет, но часто остается в тени основного контента. А здесь можно найти сотни нескучных задач от базовых SELECT до сложных запросов. Формат также помогает: большие наборы данных, строгие тесты и подсказки, где решение не прошло.
Один из самых известных тренажёров по самым разным направлениям программирования. И здесь есть задачи по Python, SQL и даже основам “AI”. Уровень выше, чем на других ресурсах: задачи более объёмные и требуют погружения в нюансы условий.
ОГРОМНАЯ подборка упражнений по самым разным разделам Python со встроенным редактором кода. Из особенно интересного: есть множество задач по Pandas и Numpy, в том числе с математическим подтекстом.
Пишите, какие задания покажутся самыми интересными. И удачи в борьбе с автотестами😉
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥15❤🔥7🥰4🙏1🕊1
Привет, друзья! 👋
ML сейчас переживает насыщенный период: одни технологии становятся must-have, другие уходят на второй план, а бизнес всё чаще ждёт от инженеров не «магии», а обоснованных и прикладных решений. Это меняет и задачи, и требования, и саму роль ML-специалистов - как для тех, кто только входит в профессию, так и для тех, кто уже давно в ней.
В эту среду мы как раз соберёмся обсудить, какие задачи сейчас формируют работу ML-инженеров и что реально ценится на рынке - на открытом вебинаре от Simulative, к которому я присоединюсь в качестве спикера.
Поговорим о самом важном:
➡️ почему ML-инженеры нужны почти в любом бизнесе - от маркетплейсов до логистики;
➡️ какие реальные задачи нам прилетают и что приходится решать на практике;
➡️ какие навыки действительно требуют работодатели;
➡️ и, конечно, будет мини-практика: рассмотрим простой, но показательный кейс сегментации клиентов интернет-магазина.
Словом, разберёмся в тонкостях профессии, посмотрим на актуальные тренды и просто пообщаемся😉
➡️ Зарегистрироваться можно здесь
ML сейчас переживает насыщенный период: одни технологии становятся must-have, другие уходят на второй план, а бизнес всё чаще ждёт от инженеров не «магии», а обоснованных и прикладных решений. Это меняет и задачи, и требования, и саму роль ML-специалистов - как для тех, кто только входит в профессию, так и для тех, кто уже давно в ней.
В эту среду мы как раз соберёмся обсудить, какие задачи сейчас формируют работу ML-инженеров и что реально ценится на рынке - на открытом вебинаре от Simulative, к которому я присоединюсь в качестве спикера.
Поговорим о самом важном:
Словом, разберёмся в тонкостях профессии, посмотрим на актуальные тренды и просто пообщаемся
➡️ Зарегистрироваться можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥8👍6⚡3❤3🔥1