Data Science
40.2K subscribers
1.56K photos
2 videos
47 files
1.99K links
DS
По всем вопросам- @haarrp

@ai_machinelearning_big_data - machine learning

@pythonl - Python

@itchannels_telegram - 🔥 best it channels

@ArtificialIntelligencedl - AI

@pythonlbooks-📚

@programming_books_it -📚

Реестр РКН: https://clck.ru/3Fk3zS
Download Telegram
From GPT-2 to gpt-oss: Analyzing the Architectural Advances

📚Read

@datascienceiot
Генеративный ИИ — уже не фантастика, а рабочий инструмент, но используем ли мы его на полную? В интервью Ъ FM Иван Гуз, управляющий партнер Авито, раскрыл, как GenAI трансформирует бизнес-процессы и почему его массовое внедрение неизбежно.

В Авито генеративный ИИ уже оптимизирует работу: автоматически создает контент, повышает точность рекомендаций через технологии трансформеров и сокращает рутинные задачи. «Уровень использования ИИ растет экспоненциально — сомнений в его повсеместном применении нет», — отмечает Гуз. Будущее, по словам эксперта, за «агентским ИИ» и world models, которые понимают контекст, а не просто слова.

Подпишитесь на полезные каналы Авито
ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

📚 Read

@datascienceiot
🔋 Goldman Sachs выпустил 26-страничный отчёт об энергии и ИИ: **Powering the AI Era**

Главный вывод: дата-центры для ИИ потребляют электричество быстрее, чем энергетики успевают строить новые мощности.
Будущее индустрии будет зависеть не только от быстрых чипов, но и от того, кто сможет найти деньги и схемы финансирования для строительства.

🧵 Кратко по пунктам 👇

🚂 Каждый технологический бум имел опору
- XIX век — железные дороги
- 1990-е — оптоволоконные сети
- 2020-е — стойки с GPU
Одна «AI-фабрика» мощностью 250 МВт обойдётся примерно в $12 млрд.

📈 Почему обучение ИИ так прожорливо
- Кластеры состоят из тысяч GPU с жидкостным охлаждением.
- К 2027 году одна стойка будет потреблять в 50 раз больше энергии, чем облачная стойка 2022 года.
- Даже с оптимизациями мировой спрос на энергию дата-центров вырастет на 160% к 2030 году.

Энергосети не справляются
- Средний возраст ЛЭП в США — 40 лет.
- Разрешение на газовую станцию занимает до 7 лет.
- Goldman оценивает распределение новых источников:
- 30% комбинированные газовые станции
- 30% газовые «пикеры»
- 27,5% солнечная энергетика
- 12,5% другие источники

🔌 Как выкручиваются операторы
- Строят дата-центры прямо рядом с генераторами.
- Используют микросети, чтобы сглаживать пики нагрузки.
- Это ускоряет запуск, но создаёт конфликты с соседями — круглосуточно шумят дизельные или газовые турбины.

🟠 Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Yandex B2B Tech и ШАД представили первую в России нейросеть для анализа МРТ головного мозга младенцев до года. Система работает в облаке и определяет соотношение серого и белого вещества с точностью >90%, что позволяет ускорить диагностику нарушений ЦНС.

Модель обучалась на 1500 обезличенных снимках пациентов и датасете MICCAI Grand Challenge. Для автоматической разметки использовалась BIBSNet, для сегментации применялись ResNet и U-Net. Разработчики отмечают, что ограниченный объем данных и сложность разметки были основными вызовами.

Сервис уже проходит пилот в клинике и планируется к публикации в опенсорс, что открывает возможности для дальнейших исследований и интеграции в медицинские проекты.
Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against LLMs

📚 Paper

@datascienceiot
Динамические таблицы YTsaurus: рекламные профили поведенческого таргетинга

Поведенческий трагетинг — система, требующая обработки сотен тысяч событий в секунду со строгой exactly-once-семантикой и временем отклика в доли секунды. Она основана на динамических таблицах YTsaurus и включает механизмы сжатия данных, бинарных дельт и шардирования. Решение позволяет эффективно обновлять пользовательские профили в реальном времени. Может использоваться для разных потоков данных, где есть обновляемое состояние, высокая нагрузка, требования к latency и exactly-once. 

📚 Paper
"Transcendence" is when an LLM, trained on diverse data from many experts, can exceed the ability of the individuals in its training data.

This paper demonstrates three types: when AI picks the right expert skill to use, when AI has less bias than experts & when it generalizes.

📚 Read

@datascienceiot
На днях прошла первая встреча AI VK & Pro — ивент, посвященный рекомендательным системам.

Кажется, там был вся RecSys и ML-тусовка. Атмосфера максимально стильная
По фоткам можно догадаться, что нетворк был на максималках. Команда VK поделилась своим взглядом на будущее рекомендаций и рассказала про единые рекомендательные технологии для всех продуктов VK

Плюс вайб: музыка, DJ-сеты, активности и нетворк.

@datascienceiot