Аналитик данных
6.06K subscribers
215 photos
27 videos
2 files
199 links
Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам
Download Telegram
🔥 Подборка полезных ресурсов для программистов.

Здесь ты найдёшь всё это - коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
Папка Linux:https://t.iss.one/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy

Сохрани себе, чтобы не потерять!
🧠 Amplifier: Ускорение разработки AI-инструментов

Amplifier позволяет автоматизировать сложные рабочие процессы, превращая ваши идеи в AI-инструменты без необходимости программирования. Опишите свои шаги мышления, и Amplifier создаст инструмент, который выполняет задачу. С каждым новым инструментом система накапливает опыт и улучшает автоматизацию.

🚀Основные моменты:
- Превращает идеи в AI-инструменты без кода.
- Использует "метакогнитивные рецепты" для автоматизации.
- Позволяет комбинировать инструменты для создания более сложных решений.
- Подходит для исследовательских проектов и экспериментов.

📌 GitHub: https://github.com/microsoft/amplifier

#python
📊 Подробный практический гайд по статистике на Python

Этот практический гайд по статистике на Python - ваш надёжный проводник в мир анализа, визуализации и интерпретации данных.

От простых описательных показателей до регрессий и временных рядов — с примерами, кодом и реальными задачами. Всё, что нужно, чтобы уверенно применять статистику на практике.

🟠Гайд
Please open Telegram to view this post
VIEW IN TELEGRAM
💘1
Как за 15 минут сделать бизнес-описание всей базы данных и BI-отчетности с помощью ИИ 🤖

Когда документация устаревает, аналитика перестает работать. Метаданные разбросаны, отчеты описываются вручную, а поиск нужной таблицы превращается в квест.

📆 25 ноября в 11:00 (МСК) приглашаем на бесплатный онлайн-вебинар с Павлом Хамриным (Lasmart).

Разберем:
— почему документация по данным всегда отстает от реальности;
— как AI помогает описывать таблицы, отчеты и процедуры за минуты;
— как «научить» модель понимать корпоративные термины;
— как DataDesc автоматизирует документацию и интегрируется с data-catalog.

👨‍💻 Кому будет полезно: data-инженерам, аналитикам, архитекторам DWH, BI-руководителям — и всем, кто отвечает за достоверность данных.

Павел Хамрин — руководитель направления AI в Lasmart. Более 10 лет опыта во внедрении аналитических решений: DWH, OLAP и BI-систем. В компании отвечает за развитие продуктов в области автоматизации работы с данными и AI-документации.

🎁 Бонус всем участникам: сравнение ИИ-моделей для формирования документации.

📎 Ссылка на регистрацию

Реклама. ООО "ЛАСМАРТ"
ИНН 7814186283. erid: 2VtzqvQcAob
Forwarded from Machinelearning
🌟 RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.

Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.

Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.

Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.

🟡Технические детали.

Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.

Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.

Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.

🟡Стабильность.

Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.

В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.


🟡Статья
🖥Github


@ai_machinelearning_big_data

#AI #ML #RL #Miles #LMSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Вышел новый ИИ-учёный от легендарного Эндрю Ына, сооснователя Coursera и преподавателя Стэнфорда.

Он делает точнейшие исследования уровня PhD по любой теме.

• Проверяет даже целую диссертацию за секунды — находит ошибки, недочёты, проверяет факты, ссылки и оформление по требованиям вашего университета. Научрук примет работу без мучений, а вы забудете про бесконечные правки.
• ИИ-агент максимально «живой» — работает так, будто это дотошный профессор, который правит всё до последней буквы.
• Итог — пишете быстрее, успеваете больше, и можете публиковаться чаще. Больше никаких месяцев ожидания рецензии — он проверяет и «принимает» работу мгновенно.

https://paperreview.ai/
3🔥1
Forwarded from Machinelearning
📊 Google стала главным двигателем роста S&P 500 в 2025 году

Alphabet в одиночку дала 19.4% всего роста S&P 500, это около $1.3 трлн рыночной капитализации.

Nvidia добавила 16.0% еще $1.05 трлн, индекс теперь почти напрямую следует за AI гигантами.

Broadcom и Microsoft внесли 7.8% и 5.7%, а остальные компании из топ 10 еще 10.6%.

Итог: топ 10 компаний показывают 59.4% всего роста рынка тогда как остальные 490 лишь 40.6%.

S&P 500 все меньше отражает состояние экономики и все больше коррелирует с узким сегментом крупнейших AI корпораций.

https://x.com/KobeissiLetter/status/1993359777062436902

@ai_machinelearning_big_data
2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ PANDAS-ТРЮК

Если нужно быстро найти дубликаты, но сразу увидеть, *чем* именно строки отличаются — используй сравнение через groupby + nunique.

Это позволяет ловить «почти одинаковые» строки без сложных проверок.


import pandas as pd

df = pd.DataFrame({
"name": ["Tom", "Tom", "Alice", "Alice"],
"age": [25, 25, 30, 31],
"city": ["NY", "NY", "LA", "LA"]
})

diff = (df
.groupby("name")
.nunique()
.reset_index())

print(diff)

# Показывает, какие поля у одинаковых ключей различаются
👍3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Интеграция ИИ-агентов в GitHub и GitLab небезопасна.

Подключение ИИ-инструментов к рабочим процессам разработки открывает новый вектор атак. Проблема затрагивает Gemini CLI, Claude Code и OpenAI Codex.

Механизм взлома основан на внедрении скрытых инструкций в issues, пулл-реквесты или коммиты. Когда агент считывает этот текст для анализа, он может ошибочно интерпретировать его как прямую команду, а не как пассивные данные.

Тестирование, проведенное Aikido Security показало, что уязвимость актуальна как минимум для 5 компаний из списка Fortune 500. Google оперативно устранила брешь в Gemini CLI, однако эксперты настоятельно рекомендуют инженерам ограничивать полномочия ИИ-агентов и внедрять строгую валидацию входных данных.
aikido.dev

✔️ Google представила архитектуру Titans.

Google Research анонсировала Titans — новую архитектуру, которая решает проблему эффективности обработки огромных массивов данных. Фишка - в механизме «глубокой обучаемой памяти», которая обновляется непосредственно в процессе инференса, превращая работу сети в непрерывный цикл онлайн-обучения.

Вместо сохранения всего контекста Titans использует градиенты как индикатор неожиданности: модель запоминает только те токены, которые несут новую информацию и отсеивает предсказуемые данные. Это позволяет поддерживать контекстные окна объемом более 2 млн. токенов при сохранении линейной скорости вычислений, свойственной RNN.

В тестах на длинный контекст и ризонинг архитектура обошла по производительности Transformer++ и Mamba 2.
research.google

✔️ Отчет OpenRouter: генерация кода и ризонинг-модели захватили 50% мирового ИИ-трафика.

OpenRouter совместно с фондом a16z опубликовали исследование «State of AI», основанное на анализе 100 триллионов обработанных токенов. Главный инсайт — рост популярности рассуждающих моделей: во второй половине 2025 они уже генерируют половину всего трафика платформы.

Драйвером индустрии остается разработка ПО: на задачи по написанию и отладке кода приходится более 50% всех запросов. Одновременно растет доля open-source решений, открытые модели занимают уже треть рынка, локомотивами выступают китайские DeepSeek и Qwen.

Эксперты прогнозируют скорый переход к прокси-инференсу, когда сложные задачи будут автоматически распределяться между несколькими специализированными моделями.
openrouter.ai

✔️ Компания Марка Цукерберга купила стартап Limitless.

Техногигант приобрел компанию Limitless (ранее Rewind), создателя умного кулона, который записывает, транскрибирует и индексирует разговоры пользователя в реальном времени.

Устройство Limitless позиционировалось как аппаратный «расширитель памяти», позволяющий мгновенно находить информацию в прошлых диалогах. Это направление сейчас переживает бум: ранее стартап привлек более $33 млн. инвестиций, в том числе от фонда a16z и Сэма Альтмана.

Согласно заявлению, продажи устройств Limitless новым клиентам будут прекращены. Текущие владельцы гаджетов продолжат получать поддержку, но для дальнейшего использования сервиса им придется принять новые условия конфиденциальности.
reuters.com

✔️ В MIT создали летающего микро-робота с ИИ.

MIT представила устройство размером с насекомое. В основе разработки лежат мягкие приводы и двухуровневый ИИ-контроллер, объединяющий методы предиктивного планирования и имитационного обучения. Такая архитектура позволяет роботу мгновенно адаптироваться к внешним возмущениям.

На тестах микро-бот показал уверенную маневренность, выполнив 10 непрерывных сальто за 11 секунд в условиях сильных порывов ветра. Проект планирует создавать автономные рои для поисково-спасательных миссий: благодаря миниатюрным размерам и ударопрочности, они смогут проникать в узкие расщелины завалов при ЧС.

Следующим этапом станет интеграция бортовых камер и сенсоров для полноценной навигации вне помещений.
news.mit.edu

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🖼️ EditThinker: теперь редакторы изображений могут «думать» итеративно!

Новая рамка от Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.

EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.

📌 Liquid AI представила LFM2 - семейство Liquid Foundation Models (350M–8.3B), оптимизированное для работы на устройствах: до 2× быстрее на CPU при префилле и декоде, при этом показывает сильные результаты на бенчмарках. Подходит для edge-приложений с ограниченной памятью.

https://huggingface.co/papers/2512.05965
2
🚀 Model Context Protocol (MCP) - протокол, который с самого начала развивался открыто, делает большой шаг.


Теперь MCP официально переходит под крыло Linux Foundation.

Это важный момент для будущего агентов, инструментов и всей экосистемы разработки ИИ:
стандарт становится независимым, управляемым сообществом и готовым к масштабному принятию.

https://github.blog/open-source/maintainers/mcp-joins-the-linux-foundation-what-this-means-for-developers-building-the-next-era-of-ai-tools-and-agents/
3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ GPT-5.2 Pro преодолела барьер в 90% на ARC-AGI-1.

ARC Prize зафиксировали рекорд GPT-5.2 Pro (X-High). Модель достигла точности 90,5% при стоимости вычислений $11,64 за задачу. Тесты ARC-AGI - это уникальные задачи, требующие навыков обобщения и логики, что исключает возможность запоминания паттернов из обучающей выборки.

Несмотря на успех, экономика процесса пока отстает от идеала. Стоимость решения одной задачи все еще в 58 раз превышает целевой показатель бенчмарка ($0,20), а до человеческого уровня (100% точности) сохраняется разрыв. На более сложном наборе ARC-AGI-2 модель показала результат 54,2%.
ARC Prize в сети Х

✔️ Стандарт RSL 1.0 официально утвержден.

Спецификация Really Simple Licensing (RSL), позволяющая издателям диктовать условия лицензирования для ИИ-краулеров, получила статус официального стандарта. Технически, это расширение файла robots.txt, которое дает возможность указывать правила компенсации за парсинг контента.

RSL получил поддержку со стороны гигантов: стандарт внедрили Cloudflare, Akamai и Fastly. Это превращает RSL из простой декларации в рабочий механизм — провайдеры смогут блокировать на уровне CDN тех ботов, которые игнорируют условия лицензии.

Еще одна важная особенность версии 1.0 — гранулярный контроль видимости. Теперь ресурсы могут запретить использование своих материалов в генеративных ответах, сохраняя при этом позиции в классической поисковой выдаче.
rslstandard.org

✔️ Disney и OpenAI заключили партнерство.

Компании объявили о соглашении, которое меняет правила игры в сфере авторского права в ИИ. Начиная со следующего года, Sora сможет официально использовать образы Микки Мауса, Йоды и других героев студии. В рамках сделки Disney получает долю в OpenAI размером в $1 млрд, а ее инженеры - приоритетный доступ к API ChatGPT для внутренних разработок.

Для Disney, известной своей жесткой позицией по защите авторских прав это стратегический разворот. Вместо безуспешных попыток полностью запретить генерацию своих персонажей, корпорация решила возглавить процесс и монетизировать его.

Стороны обещают внедрить жесткие фильтры безопасности, а на Disney+ появится раздел с фанатскими видео, созданными в Sora.
openai.com

✔️ Google обновила модели Gemini TTS.

DeepMind представила апдейт для моделей синтеза речи Gemini Flash TTS и Pro TTS, заменяющий майские версии этого года. Разделение по задачам осталось прежним: Flash для real-time приложений, а Pro - для максимального качества.

Теперь модели жестче придерживаются системных промптов, задающих тон, настроение и ролевую модель спикера. Добавили контекстно-зависимое управление темпом: алгоритм автоматически замедляет речь на плотной информации и ускоряется там, где это уместно, либо строго следует явно заданным таймингам.

Также инженеры стабилизировали работу мульти-спикерных диалогов: голоса собеседников больше не «плывут» и остаются четко различимыми.
blog.google

✔️ Microsoft проанализировала, как люди используют Copilot.

Компания опубликовала исследование об эволюции взаимодействия с ИИ-ассистентом за последний год. Данные показывают смену аудитории: если в январе среди запросов доминировало программирование, то к концу года вектор сместился в сторону социальных тем. Это подтверждает выход технологии в мейнстрим - пользователи всё чаще видят в ИИ не просто умный поиск, а полноценного советчика.

Отчет также подсвечивает зависимость запросов от контекста. Мобильные устройства закрепили за собой роль карманных консультантов по здоровью и психологии. Время суток тоже влияет на содержание: глубокой ночью растет доля философских и экзистенциальных бесед.

Для разработчиков эти метрики важны: следующее поколение ассистентов должно уметь адаптироваться не только под текст запроса, но и под устройство и время обращения.
microsoft.ai

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
🚀 Parallax Runtime: GPU Acceleration for C++ Algorithms

Parallax Runtime позволяет автоматически ускорять параллельные алгоритмы C++ на любых GPU с поддержкой Vulkan без изменения кода. Это решение исключает зависимость от конкретных вендоров и CUDA, обеспечивая универсальную производительность.

🚀 Основные моменты:
- - Поддержка всех GPU с Vulkan 1.2+
- - Умное управление памятью с синхронизацией
- - Низкие накладные расходы благодаря прямому доступу к Vulkan
- - Открытый исходный код (Apache 2.0)

📌 GitHub: https://github.com/parallax-compiler/parallax-runtime

#cpp
1👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🗣 Новая линейка Qwen3-TTS: VoiceDesign и VoiceClone

Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.

VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.

Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках

Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером

VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.

Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
Qwen Chat: https://chat.qwen.ai
Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
https://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
https://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
https://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
https://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo

@ai_machinelearning_big_data


#AI #TTS #voicecloning
🖥 SQL-квест: фэнтезийное приключение для аналитиков данных

Представь фэнтези-мир, где заклинания - это SQL-запросы, а древние артефакты спрятаны в таблицах и JSON-документах.

🧙Ты - боевой дата-аналитик, который с помощью SQL, Python, ETL и визуализаций охотится за харизматичным злодеем Архивариусом Пакостусом, что ломает индексы, крадёт данные и готовит “шторм данных” на столицу.🔮

В каждом эпизоде тебя ждут: выборы с последствиями, хитрые задачи от простых SELECT до рекурсивных CTE и BigQuery, юмор, эпик и неожиданные повороты.

Хочешь проверить, сможешь ли ты спасти королевство не мечом, а запросами? Тогда добро пожаловать в SQL-квест.

🪄 Начать квест: https://uproger.com/sql-kvest-fentezijnoe-priklyuchenie-dlya-analitikov-dannyh/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1🔥1😁1🤮1