Data Science. SQL hub
36K subscribers
970 photos
58 videos
37 files
1.02K links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
📚 Курс, который прокачает твои AI-скиллы в BigQuery

Этот курс учит работать с Gemini прямо внутри BigQuery и закрывает полный набор практических навыков:

- генерация и отладка SQL-запросов с помощью Gemini
- анализ тональности текста
- автоматические суммари и выделение ключевых слов
- генерация эмбеддингов
- построение RAG-пайплайна
- мультимодальный векторный поиск

Если хочешь уверенно использовать AI-инструменты в аналитике и продуктах — этот курс даёт полный набор необходимых умений.

https://www.skills.google/paths/1803/course_templates/1232
5👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Узнайте, как строить сложные AI-процессы на AI DevTools Conf

4 декабря команда Cloud.ru проводит практическую конференцию для AI/ML-инженеров, архитекторов, техлидов и всех, кто работает с AI.

В программе доклады и воркшопы, где вы научитесь:
😶‍🌫️собирать AI-агентов

😶‍🌫️управлять уязвимостями

😶‍🌫️внедрять AI-инструменты в разработку

😶‍🌫️тестировать LLM-агентов

😶‍🌫️и не только


А еще можно будет протестировать сервисы для работы с AI&ML, задать вопросы экспертам и остаться на afterparty.

Места на офлайн-участие ограничены, поэтому советуем сразу перейти к регистрации.

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
2
⚡️ Знакомство с MCP Toolbox for Databases (ранее Gen AI Toolbox for Databases) от Google

Почему стоит обратить внимание
Toolbox - это open-source сервер, который упрощает создание инструментов на базе ИИ, работающих с базами данных. Он берет на себя сложности вроде пулов соединений, аутентификации и телеметрии.

Что даёт:
- Можно интегрировать новые инструменты в агента (или ИИ-ассистента) всего в ~10 строках кода.
- Производительность выше за счёт продвинутого управления соединениями и аутентификацией.
- Безопасность: встроенная авторизация, контроль доступа к данным.
- Полная видимость: метрики и трассировка (OpenTelemetry) сразу «из коробки».
- Возможность общаться с БД на естественном языке, получить код, тесты, индексы — прямо из IDE.

Архитектура в двух словах
Toolbox размещается между вашим приложением (или агентом) и базой данных. Он действует как «контрольная плоскость» — управляет инструментами, хранит и обновляет их, позволяет нескольким агентам и приложениям использовать один и тот же набор инструментов без перекомпиляции.

Быстрый старт:
- Установите сервер (бинарник, контейнер или собрать из исходников).
- Создайте файл tools.yaml и запустите: ./toolbox --tools-file "tools.yaml"
- Используйте SDK (Python, JS/TS, Go) в своём приложении, подключитесь к серверу и загрузите нужный набор инструментов.

Кому это полезно:
Разработчикам приложений, где ИИ-агент делает работу с базами данных: запросы, обновления, анализ схем. Если хотите, могу подготовить мини-таск или пример использования Toolbox с вашим стеком.

https://googleapis.github.io/genai-toolbox/getting-started/introduction/
4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
VK RecSys Challenge: проверьте свой алгоритм в деле!

В самом разгаре ежегодное соревнование по разработке рекомендательных систем от VK — RecSys Challenge 2025. Участникам предстоит решить одну из самых сложных проблем в мире рекомендаций: задачу холодного старта.

Суть соревнования — построить модель, которая предскажет, кому из пользователей понравится новый клип, даже если его ещё никто не видел.

Что ждёт участников:
• Реальные данные — датасет VK-LSVD с 40 млрд взаимодействий и 20 млн коротких видео
• Можно участвовать соло или в команде до 4 человек
• Техническая свобода — до 5 сабмитов в день, возможность экспериментировать
• Общий призовой фонд — 2 500 000 рублей

Приглашают студентов, исследователей, ML-инженеров — всех, кто хочет испытать свои силы на реальных данных и создать алгоритм, который работает в условиях, максимально приближенных к контентной жизни.

Регистрация открыта до 15 декабря. Успейте подать заявку, скачать датасет и начать эксперименты!

👉 Подробности и регистрация на сайте
👏21
SQLModel — это библиотека для взаимодействия с базами данных SQL из кода Python с использованием объектов Python.

Она интуитивно понятна, проста в использовании, обладает высокой совместимостью и надёжностью.
👍73🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
SQL СОВЕТ

Ловите тяжёлые запросы на ранней стадии через контролируемые анти-джоины.
Когда нужно узнать, какие записи *не имеют* соответствий в другой таблице, разработчики часто используют LEFT JOIN .

Гораздо быстрее использовать NOT EXISTS — он позволяет планировщику остановиться сразу, как только найдено первое совпадение, и эффективно задействует индексы.


select u.user_id
from users u
where not exists (
select 1
from logins l
where l.user_id = u.user_id
and l.created_at >= now() - interval '7 days'
);
👍137🔥6
🌊 ETL на стероидах: стриминг данных Postgres в реальном времени на Rust 🦀

Supabase выкатили интересный open-source фреймворк - supabase/etl, который позволяет стримить данные из Postgres куда угодно в реальном времени.

Это набор простых, модульных Rust-блоков, из которых можно собрать собственный конвейер Change Data Capture (CDC). Вы получаете полный контроль над тем, как обрабатывать изменения в базе и куда их отправлять — без тяжёлых платформ и сложных конфигов.

Что делает этот фреймворк полезным:

- Прямой стриминг изменений из Postgres (CDC)
- Rust — значит скорость, надёжность и низкие накладные расходы
- Гибкие компоненты: можно строить свои конвейеры под любые нужды
- Подходит для интеграций, аналитики, событийных систем, real-time обновлений
- Легче и прозрачнее, чем классические ETL/ELT-платформы

По сути, это конструктор, из которого можно быстро собрать real-time data pipeline:
достал изменения из Postgres → преобразовал → отправил в Kafka, ClickHouse, S3, API — куда угодно.

Если вы работаете с потоковыми данными, аналитикой или микросервисами - стоит попробовать. Rust + CDC - это мощное сочетание для стабильных и быстрых пайплайнов.

https://github.com/supabase/etl
👍72🔥1