Sberloga
2.55K subscribers
203 photos
28 videos
7 files
247 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
The future is now, old man
This media is not supported in your browser
VIEW IN TELEGRAM
👍4🔥4🤩3😢1
Forwarded from Нескучный Data Science (Евгений Смирнов)
Всем привет! 28 февраля в 17:00 приходите на митап по Data Science в Москве. На встрече экспертами из Центра Big Data МТС и Лаборатории машинного обучения Альфа-Банка поделимся кейсами:

🎙️Гибкая калибровка: как одновременно попадать в KPI для сотен рекламных кампаний?
🎙️Превращаем нейросети в SOTA и для табличных задач
🎙️Трансформеры в RecTools: от fit/predict из коробки до кастомных архитектур
🎙️Улучшаем клиентский опыт за счет комплекса моделей
🎙️Бандиты и нейросети. Строим рекомендации с нуля в стриминговом сервисе с UGC-контентом
🎙️Ускоряем работу аналитиков инструментами Data Science
🎙️Новый релиз CoolGraph – краткий обзор нашей библиотеки для быстрого старта с GNN

🎬Модераторы: Никита Зелинский (CDS & Head of ML Platforms МТС и Евгений Смирнов (CDS & Head of ML Lab, Alfa-Bank).

😍 В рамках колоборации двух CDS-ов из красных компаний запускаем розыгрыш аж 1️⃣0️⃣ подписок ✈️-премиум на год!

Как принять участие?
1️⃣ Подписаться на канал "Нескучный Data Science" (@not_boring_ds)
2️⃣ Подписаться на канал "Дата канальи – про "специалистов" данных в ML/AI" (@datarascals)
3️⃣ Ждать 28 февраля, когда мы объявим, кто победил.

🗓️ 28 февраля в 17:00
📍 г. Москва, офлайн
➡️ Регистрация по ссылке: https://mts-digital.ru/events/details?id=12357783
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
Ребята
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые есть в 2023, которых нет в 2021 и наоборот, поэтому я попробовал их объединить.

Сегодня начнем (поздний анонс немного), но там типа интро всего лишь, думаю не очень критично

Информация тут:
https://t.iss.one/sberlogawithgraphs/26044
🔥61
Спасибо всем кто вчера подключился ❤️
Если вчера не получилось присоединиться - ничего страшного, самое сложное будет еще впереди :)

Краткий саммари что обсуждали:
- по первой лекции - лекции были вводные, из самого интересного это третья часть о различных представлениях графов, в слайдах 2023 этих материалов почти нет, поэтому слайды 2021 стоит открыть
- разницу в курсах 2019/2021/2023
- познакомились, рассказали что кому интересно и кто чем занимается (по желанию)
- орг вопросы

Расписание дальнейших встреч будет в чате
https://t.iss.one/sberlogawithgraphs/
4
Forwarded from Александра Сытник
«SotA для TS forecasting, все ли так однозначно?»

2️⃣0️⃣ февраля состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️как выбрать подходящую модель для вашей задачи временных рядов
⚪️какие есть нейронные архитектуры, в том числе Zero-shot

📢 Спикер:
⚪️Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре ▶️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from Нескучный Data Science (Евгений Смирнов)
🔥 МТС BIG DATA X Лаборатория Машинного обучения

🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.

🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!

📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2
Вышел Airflow 3.0.0 🥳

Anywhere
Deploy workers to any environment while maintaining security isolation. Remote Execution lets you run tasks exactly where your data resides — optimizing for cost-efficiency, latency, and data sovereignty without sacrificing centralized control.

Any Time
Unlock new use cases with event-driven scheduling by integrating with message systems like Amazon SQS, so you can trigger your DAGs the moment data arrives – not just on a schedule. By removing the uniqueness constraint for logical dates, users can launch parallel inference runs easily, ideal for GenAI and on-demand ML workloads.

Any Language
Unify your data stack under a single orchestrator with multi-language task execution coming in future 3.x releases. Starting with Golang, Airflow 3 eliminates the need for code rewrites or Python wrappers — choose the right language for each task based on your specific requirements.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Scheduler-driven backfills triggered straight from the UI.
Trigger, monitor, pause, or cancel backfills from the UI or API — no more fragile CLI-based backfills. Large-scale reprocessing jobs run reliably without session timeouts, ensuring consistent performance even for backfills spanning months of historical data.
Put your data assets at the center of orchestration.
Define data objects directly with the @asset decorator, simplifying pipeline creation while maintaining visibility into your data's journey. Write less boilerplate code, manage dependencies naturally, and align your pipelines with how you actually think about data.
dag-versioning.gif
74 KB
Track every DAG evolution with immutable snapshots tied to each run.
Never wonder which code version produced which outcome - teams can rapidly audit and debug, eliminating confusion and accelerating compliance checks. Troubleshooting now takes minutes instead of hours, giving you clear accountability and pipeline governance that satisfies even the most stringent regulatory requirements.
light-dark-mode.gif
307.4 KB
Navigate easily with an intuitive, modern UI.
Airflow’s UI has been rebuilt from the ground up, with new navigation and views to access to logs and task details quickly, making the experience ideal for both newcomers and power users. This future-focused redesign also opens the door for advanced React plugins and community-driven customizations in Airflow 3.x.
Forwarded from Data Secrets
Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube
🔥201
Forwarded from Helen
Как построить личный бренд в IT и зачем это нужно?

Центр непрерывного образования ФКН приглашает на вебинар, посвященный роли личного бренда разработчика и его эффективному развитию с использованием современных ИИ-инструментов.

На вебинаре обсудим:
〰️〰️〰️〰️
1️⃣Зачем разработчику личный бренд и как он влияет на карьеру:
🟣Почему в IT уже недостаточно только технических навыков и какую роль играет персональный бренд в продвижении по карьерной лестнице и укреплении профессиональной репутации.

2️⃣Стратегии развития личного бренда в IT:
🟣Разберем эффективные подходы к продвижению себя как специалиста: выступления на конференциях, написание профессиональных статей и создание технического контента. Обсудим, как правильно выбрать каналы и форматы коммуникации.

3️⃣Как ИИ упрощает развитие бренда и в чем его ограничения:
🟣Рассмотрим, какие задачи при построении бренда можно делегировать нейросетям и большим языковым моделям, а где по-прежнему необходимы человеческий подход.

🎙Спикер: Михаил Попов, Developer Relations Partner в Яндекс Go, преподаватель программы «DevRel: работа с комьюнити как основа личного и HR-бренда».

📁Дата: 30 апреля в 19:00 в онлайн-формате.

Регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
Forwarded from CodeCamp
Внезапная годнота для VSCode — Microsoft выкатили полноценную IDE для PostgreSQL прямо внутри редактора кода.

При чём это не просто плагин (хотя это плагин), а мощнейшая станция управления базой данных с кучей инструментов.

— Полная визуализация схемы — таблицы, связи, поля. Всё прямо в редакторе;
— Подсветка синтаксиса и автокомплит;
— Под капотом Copilot, он сейчас работает на Claude 4 Sonnet;
— История запросов и быстрый доступ к часто используемым шаблонам.

Всё работает через агента @pgsql, который реально помогает работать с запросами, как будто у вас на проекте появился свой DBA.

Уже в маркетплейсе
👍6🔥3😁1
🔥 Исследователи Яндекса выложили в опенсорс один из самых больших в мире датасетов для RecSys

Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.

https://habr.com/ru/companies/yandex/articles/913294/
🐳3🔥1
Forwarded from Data Secrets
⚡️ Вышел Apache Spark 4.0. Что интересного в релизе:

1️⃣ Новая архитектура клиент-сервер Spark Connect. Теперь клиентское приложение отделено от кластера Spark. Это значит, что подключаться к Spark можно будет из любой среды и ЯП, включая Python, Scala, Go, Swift и Rust. Кстати, клиент для Python весит всего 1,5 МБ и устанавливается просто через pip install pyspark-connect.

2️⃣ Режим ANSI SQL по умолчанию. Раньше Spark прощал многие ошибки – например, если ты делил на ноль или числа не влезали в столбец, он просто возвращал NULL или тихо обрезал значение. Это было удобно, но могло скрывать баги. Теперь включён режим ANSI SQL по умолчанию – как в классических базах данных. Если в запросе ошибка, Spark сразу об этом скажет и выбросит ошибку. Получается более надежно и предсказуемо.

3️⃣ Materialized Views. Это сохранённый результат SQL-запроса, который может автоматически использоваться при выполнении будущих запросов, если Spark понимает, что часть запроса уже была вычислена и закеширована. То есть теперь повторяющиеся запросы не надо каждый раз пересчитывать, можно просто достать из кэша. Супер существенно для времени и нагрузки на кластер.

4️⃣ Python Data Source API. Это прямо очень приятно: теперь не надо учить Scala, чтобы подключиться к кастомному источнику данных, все можно сделать просто на питоне. Это сильно упрощает интеграцию Spark с веб-сервисами, файлами, базами данных и вообще чем угодно.

5️⃣ Новый тип данных VARIANT. Это специально для полуструктурированных данных. То есть теперь, если у вас где-то лежат вложенные поля или JSON, запросы к ним можно выполнять прямо из коробки, предварительно не описывая схему.

Официальный релиз
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1