Forwarded from Библиотека задач по Data Science | тесты, код, задания
Иногда реально ощущение, что нас держат в Матрице.
Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.
❗ Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.
Кто готов вырваться из симуляции и ворваться в сезон найма?
👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно
👉 Забронируй место сейчас
Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.
❗ Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.
Кто готов вырваться из симуляции и ворваться в сезон найма?
👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно
👉 Забронируй место сейчас
❤1
🔥 AI и неструктурированные данные: возможности для дата-сайентистов
Google Cloud выпустил практическое руководство по Data Science, где показываются реальные кейсы применения AI для работы с корпоративными данными.
Вот что вы можете делать с такими данными:
▫️ Выявлять причины падения продаж — AI анализирует отзывы клиентов и говорит, какие функции продукта надо улучшить.
▫️ Создать визуальный поиск — клиенты находят товар по картинке, а не по тексту.
▫️ Автоматизировать анализ контрактов — извлекать ключевую информацию из юридических документов за секунды.
▫️ Прогнозировать спрос — точные прогнозы для каждого продукта и магазина, чтобы избежать потерь и перепроизводства.
Это огромная возможность: неструктурированные данные больше не головная боль — это источник инсайтов и новых моделей.
🔗 Ссылка на гайд
🐸 Библиотека дата-сайентиста
#буст
Google Cloud выпустил практическое руководство по Data Science, где показываются реальные кейсы применения AI для работы с корпоративными данными.
Вот что вы можете делать с такими данными:
Это огромная возможность: неструктурированные данные больше не головная боль — это источник инсайтов и новых моделей.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Выбор правильной архитектуры под задачу — это половина успеха в AI-проектах. Каждая из них рождена под конкретный тип данных и обрабатывает информацию по-своему:
Фильтры свёртки находят края и паттерны в изображениях, pooling снижает размерность, fully connected слои собирают фичи в прогноз. Отлично подходят для распознавания изображений, медицинских снимков и любых задач со spatial-отношениями.
Обрабатывают данные по шагам, сохраняя скрытое состояние с контекстом. Хорошо работают с текстом, временными рядами, переводами и прогнозами, где важен порядок.
Заменили пошаговую обработку механизмом внимания: модель смотрит на всю последовательность сразу и решает, что важнее. Это быстрее и эффективнее для long-range зависимостей. На трансформерах построены GPT, BERT и большинство современных LLM.
Передают информацию между узлами в графе (message passing), захватывая локальные и глобальные связи. Подходят для анализа соцсетей, молекулярных свойств и рекомендательных систем.
Архитектура выбирается под структуру данных:
А в реальных проектах часто комбинируют несколько: CNN для feature extraction + Transformer для reasoning, или GNN для связей между пользователями + RNN для рекомендаций.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
Один из самых культовых курсов по компьютерному зрению от профессора Fei-Fei Li и Ehsan Adeli доступен в свежей записи!
Курс охватывает всё: от базовых линейных классификаторов до современных моделей — Transformers, GAN'ы, 3D-зрение и робототехника.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁18❤3👍2
⁉️ Spark-запросы тормозят? Пора разобраться, как сделать их в разы быстрее
На открытом вебинаре мы разберём проверенные техники оптимизации, которые используют ведущие дата-инженеры. Покажем, как находить узкие места, ускорять join-операции и выжимать максимум из ресурсов кластера.
Вы получите конкретные приёмы — от оптимального партиционирования данных и управления кэшированием до выбора лучших форматов хранения. Всё на реальных примерах.
➡️ Присоединяйтесь 17 сентября в 20:00 МСК. Урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрация открыта: https://clc.to/LSpWXA
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
На открытом вебинаре мы разберём проверенные техники оптимизации, которые используют ведущие дата-инженеры. Покажем, как находить узкие места, ускорять join-операции и выжимать максимум из ресурсов кластера.
Вы получите конкретные приёмы — от оптимального партиционирования данных и управления кэшированием до выбора лучших форматов хранения. Всё на реальных примерах.
➡️ Присоединяйтесь 17 сентября в 20:00 МСК. Урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрация открыта: https://clc.to/LSpWXA
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
❤3
Инженеры показали, что искусственный интеллект может автоматически генерировать оптимизированные GPU-ядра для Metal, что в среднем ускоряет выполнение PyTorch-моделей на устройствах Apple на 87% (по результатам тестов на 215 модулях).
⚡️ В некоторых случаях ускорение оказалось в сотни раз быстрее по сравнению с базовым исполнением.
Как это работает:
Результат: PyTorch на Mac и iOS становится ближе к полноценному high-performance inference, открывая дорогу для реальных AI-приложений без внешних GPU.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
⚡️ Ускоряем Python-массивы с NumExpr: от 650 ms до 60 ms
Иногда всё, что тормозит ваш код, — это «наивные» циклы и гигантские временные массивы. NumExpr решает это красиво и быстро:
✅ Вычисления по чанкам прямо в кэше – массивы делятся на блоки и обрабатываются без создания временных копий.
✅ SIMD + Intel VML – задействует низкоуровневые инструкции и векторизацию.
✅ Мульти-кор ускорение – автоматически распределяет работу по всем ядрам, давая 5–15× прирост на сложных выражениях.
В реальном тесте: цикл на 650 ms → NumExpr всего за 60 ms (и это ещё на одном ядре).
🔗 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
Иногда всё, что тормозит ваш код, — это «наивные» циклы и гигантские временные массивы. NumExpr решает это красиво и быстро:
В реальном тесте: цикл на 650 ms → NumExpr всего за 60 ms (и это ещё на одном ядре).
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1