Анализ данных (Data analysis)
46.3K subscribers
2.3K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Эмбеддинг-модель Gemini от Google стала общедоступной.

Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.

Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.

Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.
developers.googleblog.com

✔️ Лаборатория суперинтеллекта в компании Марка Цукерберга обсуждает отказ от open-source.

Недавно созданное подразделение по разработке AGI инициировало дискуссию о кардинальном изменении стратегии компании. Ключевая идея - отказаться от развития флагманской open-source модели Behemoth в пользу закрытой архитектуры, по аналогии с OpenAI и Google. Такой шаг стал бы серьезным философским сдвигом для компании, которая годами продвигала открытый код и завоевала признание разработчиков.

Обсуждения пока находятся на ранней стадии и требуют одобрения Марка Цукерберга. Однако сама дискуссия, начатая новой командой под руководством Александра Ванга, указывает на возможный стратегический разворот гиганта соцсетей.
nytimes.com

✔️ В Grok появились анимированные 3D-персонажи.

xAI начала развертывание новой функции «Companions» для чат-бота Grok в приложении для iOS. Обновление добавляет в интерфейс интерактивных трехмерных персонажей, цель которых - сделать общение более персонализированным и выйти за рамки текстовых ответов. На данный момент функция доступна платным подписчикам SuperGrok.

Пользователи могут выбрать одного из двух анимированных аватаров: аниме-девушку Ani или красную панду Bad Rudy. Включить их можно в меню настроек. В компании обещают позже добавить третьего персонажа.
Elon Mask в сети Х

✔️ Топовые немецкие ученые в области Med AI переехали работать в Китай.

Два выдающихся специалиста из Германии, Роланд Эйльс и Ирина Леманн, присоединились к Университету Фудань в Шанхае. Их работа была ключевой в создании атласа клеток поджелудочной железы человека и использовании ИИ для прогнозирования рисков заболеваний.

Эйльс - всемирно известный математик и биолог, руководивший крупными национальными исследовательскими проектами. Леманн - профессор в области эпигенетики, возглавлявшая несколько международных научных конференций. Супруги опубликовали более 1000 научных работ и имеют свыше 100 000 цитирований.

В Университете Фудань они присоединились к Институту интеллектуальной медицины и планируют создать совместную немецко-китайскую ИИ-лабораторию.
scmp.com

✔️ Perplexity будет дообучать модели Kimi.

Глава Perplexity Аравинд Шринивас рассказал о планах компании начать пост-тренинг моделей Kimi от Moonshot AI. Решение было принято после внутренних тестов, которые показали, что потенциал Kimi сопоставим с GPT-4 и Claude.

Решающим фактором стало превосходство Kimi K2 в бенчмарках на программирование. В частности, в тесте SWE-bench Verified она показала результат 65.8%, значительно опередив Claude с его 50.2%.

В Perplexity рассчитывают, что дальнейшее дообучение модели усилит ее агентные возможности.
CEO Perplexity сети X

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
110👍7🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
GitHub Copilot Agent получил мощное обновление 🚀

Самое интересное

• Сам тестирует изменения UI с помощью Playwright и прикладывает скриншоты к PR
• Подключается к удалённым MCP — больше инструментов, больше контекста
• Управляет задачами через новый удобный дашборд
• Использует всего один premium-запрос на сессию — экономно и эффективно

Доступно для Copilot Pro и Business.

@data_analysis_ml
9👍4🔥2
📈 METR: у ИИ начинается свой "закон Мура"

Когда ИИ сможет самостоятельно выполнять долгие проекты?

Исследователи из METR нашли закономерность:
временной горизонт задач, которые осиливают AI‑агенты, удваивается каждые ~7 месяцев.

Теперь они проверили это на 9 новых бенчмарках:
MATH, OSWorld, LiveCodeBench, Mock AIME, GPQA Diamond, Tesla FSD, Video-MME, RLBench и SWE-Bench Verified.

Результаты:
🧠 Аналогичные темпы роста и в науке, математике, робототехнике, программировании и даже в автопилоте.
⚡️ Новые модели, вроде o3, растут быстрее прогноза — медианное удвоение теперь ~4 месяца.
🕐 На reasoning-задачах агенты держатся 1+ час.
🖱 А вот в OS и браузере — всё ещё ~2 минуты, из-за слабых инструментов.

> «Moore’s Law для ИИ»: не про чипы — про способность мыслить и работать дольше. Быстрее. Самостоятельно.

ИИ-агенты растут не по дням, а по бенчмаркам.
13👍9🔥4🤣4
🤔 Хммм… интересно, почему же Grok снова на первом месте в апсторе в Японии?)

Grok Anime-Waifu: новый Ghibli-хайп?

Аниме-вайфу от Grok сейчас переживает тот же всплеск интереса, что и Ghibli‑стиль после выхода инструмента генерации изображений от ChatGPT🎌

xAI поймали незанятую нишу: 3D-аватары с крутым голосовым режимом и небольшой провокацией. Как бы вы ни относились к этой теме — массовый рынок тут есть, и он пока был пуст.

CharacterAI всё ещё в топ‑10 самых посещаемых AI-приложений в мире. Молодёжь массово проводит там часы в общении с вымышленными персонажами. Это о многом говорит — но мы не будем давать оценок деградация это или нет.

Важно другое: ни Google, ни OpenAI, ни Microsoft пока не вышли с 3D-аватарами с продвинутым голосовым режимом.

Все знали, что это огромный рынок, но опасались репутационных последствий — вспомните скандалы вокруг CharacterAI в прошлом году.

А xAI рискнули — и пока пожинают плоды . Аудитория молодая, хайп органический, конкуренты только приглядываются к теме. Быть первым в такой категории — значит занять особое место в головах (пустых и не очень) пользователей.

Так что да: xAI сделали ставку — и, похоже, угадали.


@data_analysis_ml
10🤣9👍3🔥3
🎓 Новые лекции от UCLA: *Reinforcement Learning of Large Language Models* (весна 2025)

Свежий курс, полностью посвящённый обучению LLM с помощью RL. Отличный ресурс для тех, кто хочет разобраться не только в RLHF, но и в новых направлениях, которые появляются на стыке обучения с подкреплением и больших языковых моделей.

📚 Что в курсе:
– Базовые принципы RL применительно к LLM
– RLHF (reinforcement learning from human feedback)
– RL с верифицируемыми наградами (RLVR)
– RL на этапе inference: оптимизация в момент выполнения
– Архитектуры, policy shaping, reward modeling и др.

Это не просто обзор — это системная попытка осмыслить будущее RL для LLM, где важно не только fine-tuning, но и работа с обратной связью в режиме реального времени, доверие к награде и оптимизация вычислений.

🧠 Полезно всем, кто:
– интересуется агентами и автономными системами
– работает над LLM‑продуктами
– хочет выйти за пределы SFT и попробовать более «горькие» методы обучения

#LLM #RLHF #RLVR #AIeducation #ReinforcementLearning #UCLA

🔜 Youtube: https://youtube.com/playlist?list=PLir0BWtR5vRp5dqaouyMU-oTSzaU5LK9r

🔜 Курс: https://ernestryu.com/courses/RL-LLM.html
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍3
⚡️ Skywork-R1V3 — новейшая мультимодальная LLM с открытыми весами от китайской компании SkyworkAI. Модель демонстрирует SOTA-результаты в бенчмарках мультимодального мышления, превосходя аналогичные open-source решения и некоторые проприетарные модели.

Проект использует RL-дообучения для улучшения логических и визуальных цепочек рассуждений. Доступны квантованные версии для запуска на видеокартах с 30+ GB памяти.

🤖 GitHub

@data_analysis_ml
4👍3🔥2😁1
💥 Исследователи из Университета Торонто представили первую в мире атаку типа Rowhammer, работающую на видеопамяти GPU — GPUHammer. Им удалось взломать защиту NVIDIA A6000 и изменять данные в памяти GDDR6, что особенно опасно для систем машинного обучения.

Для атаки использовали особенности CUDA и оптимизации доступа к памяти. NVIDIA рекомендует включать ECC, но это снижает производительность на 10%. Код эксплойта уже выложен в открытый доступ.

🔗 Ссылка - *клик*

@data_analysis_ml
5🤯4👍3🔥2
🔥 Бывший сотрудник OpenAI поделился откровенными впечатлениями о годе работы внутри одной из самых обсуждаемых компаний мира.

Он присоединился к команде в мае 2024, ушёл три недели назад — и решил написать личные размышления, пока всё ещё свежо в памяти.

Он подчёркивает:
никаких скандалов или внутренних конфликтов — просто желание снова что-то строить с нуля. Несмотря на это, он признаёт: сложно уйти с работы, где ты видишь рождение AGI своими глазами и участвуешь в запуске Codex.

Культура OpenAI — это хаос, скорость и независимость.

Компания за год выросла с 1000 до более чем 3000 сотрудников. Почти все руководители делают совершенно другую работу, чем пару лет назад. И всё внутри строится снизу вверх: roadmap’ов не было, а идеи рождались и запускались без бюрократии.

Всё общение происходит в Slack — никаких email, почти никакого планирования. Команды могут быть хаотичны и перегружены, но часто это работает: если идея крутая, люди просто начинают делать, и вокруг появляется команда.

Руководители не мешают, а помогают — особенно в исследовательских командах. Исследователь воспринимается как мини-руководитель: выбрал интересную задачу — вперёд. Главное — не «казаться», а «делать». Политика и презентации — не в цене. Лучшие идеи побеждают.

OpenAI умеет разворачиваться на ходу. Как только появляется новая информация, стратегия может кардинально поменяться — и в этом сила. Вдохновлённый атмосферой Segment, автор признаёт: OpenAI удалось сохранить эту гибкость даже при таком масштабе.

Закрытость — часть культуры.
Из-за огромного внимания общества и прессы компания крайне аккуратно делится информацией. Многое не анонсируется даже внутри. Но при этом она остаётся самой открытой из «больших AI-лабораторий»: модели попадают в API, доступны не только корпорациям, но и отдельным пользователям.

Внимание к реальным рискам (злоупотребления, манипуляции, self-harm) — важный фокус внутри. Хоть фундаментальные угрозы (в духе "intelligence explosion") тоже обсуждаются, упор в работе на конкретные и прикладные сценарии.

Технологически OpenAI — монорепозиторий на Python, немного Rust и Go. Всё крутится на Azure, но доверяют только 2–3 сервисам. Инфраструктура напоминает ранний Facebook: всё движется быстро, дублируется, много внутренней разработки и отсутствие строгих архитектурных комитетов.

Он отдельно отметил уникальность команды Codex, с которой провёл последние 3 месяца. За 7 недель (!) они с нуля запустили продукт: с контейнерным рантаймом, fine-tuning моделей, git-интеграцией и полноценным асинхронным агентом. В ночь перед запуском они сидели до 4 утра, а утром уже нажимали на кнопку.

Codex показал: будущее программирования будет похоже на общение с ассистентом, а не набор кода строка за строкой. С момента запуска Codex сгенерировал более 630 000 pull request’ов — это десятки тысяч на каждого инженера в команде.

Несмотря на скандалы в пресе — тысячи людей, искренне верящих, что строят нечто важное. OpenAI остаётся одной из самых амбициозных организаций в мире: не только чат, не только API, но и hardware, агенты, изображения — и это ещё не всё.

📌 Читать

@data_analysis_ml

#openai #ai #ml #llm #chatgpt
17👍9🔥6🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
Не прошло и дня: эра 3D-вайфу на базе ИИ набирает обороты.

Первые open-source версии этого чуда уже на доступны на GitHub

https://github.com/Jackywine/Bella

@data_analysis_ml

#ai #ml
🔥118👍4😱3
⚡️ Klavis AI — открытая платформа для интеграции MCP в AI-приложения. Проект предлагает готовые решения для работы с популярными сервисами вроде YouTube, Gmail и GitHub через единый API, избавляя разработчиков от необходимости писать клиентский код для каждого сервиса.

Инструмент имеет поддержку мультиплатформенных сценариев. Klavis позволяет одновременно использовать инструменты разных сервисов через единый интерфейс. Есть возможность как облачного использования, так и self-hosted развертывания.

🤖 GitHub

@data_analysis_ml
5👍5🔥2
🛠️ Вышел Public Roadmap для Gemini CLI — команды хотят создать мощного, open-source Coding Agent, ориентированного на сообщество.

Проект развивается сразу по 4 ключевым направлениям:

1. Extensible
CLI должен быть легко расширяемым под любые среды и сценарии: кастомные slash-команды, удалённые протоколы, запуск .gemini.md файлов с пользовательскими тулзами.

2. Everywhere
Агент можно запускать как фоновый процесс в разных окружениях: локально, в контейнерах, GitHub Actions, облаке. Поддерживается делегирование задач субагентам.

3. Intelligent
Фокус на качестве моделей и инструментов. Цель — попасть в топ по метрикам вроде SWE Bench. Все критические баги (P0) будут закрыты до релиза версии 1.0.

4. Open Source
Проект строится в диалоге с сообществом: быстрое реагирование на ишью и PR’ы, минимальный бэклог и удобные процессы участия.

🔄 Workstreams уже распределены:
- Качество модели (улучшение рассуждений, устранение повторов)
- Производительность (кеширование, умная маршрутизация моделей)
- Расширяемость (агенты в фоне, деплой в облако)
- Автоматизация сообщества (улучшение dev-флоу)

📌 Если хочешь участвовать в разработке следующего поколения AI-инструментов для кодинга — сейчас самое время подключиться к Gemini CLI.

https://github.com/google-gemini/gemini-cli/discussions/4226
🔥117👍5
⚙️ Rig — современная Rust-библиотека для работы с LLM, предлагающая унифицированный интерфейс для разных провайдеров ИИ. Проект выделяется акцентом на модульность и эргономику, позволяя интегрировать языковые модели в приложения с минимальным бойлерплейтом.

Инструмент уже используют в продакшене такие проекты, как Dria Compute Node и Linera Protocol. Библиотека поддерживает не только чат-модели вроде GPT-4, но и векторные базы данных, включая MongoDB и LanceDB.

🤖 GitHub

@data_analysis_ml
7👍3🔥3
📊 ManusAI теперь умеет визуализировать данные красиво и без боли

Загружаете сырые данные → описываете, что хотите увидеть → выбираете тип графика → Manus сам всё строит.

Мы вот так выяснили, что среди трёх видов пингвинов — Адели, Антарктических и Генту — самые пухлые и длинноластые оказались именно генту. 🐧

Подходит идеально для:
— дашбордов и презентаций
— отчётов для коллег и инвесторов
— исследовательского анализа без кода

🎨 Приятный интерфейс, поддержка CSV, markdown-выгрузка и PDF. И всё это — бесплатно.

Попробовать: https://manus.ai

@data_analysis_ml

#manus
👍137🔥7
🎨 Откуда у диффузионок креативность?

Команда AI VK Hub разбирает свежую статью с ICML 2025:

Достаточно двух свойств свёрточных сетей — локальности и инвариантности к сдвигам, чтобы генерировать осмысленные и разнообразные изображения, даже без нейросети.

Аналитический процесс с этими ограничениями почти не уступает ResNet и U-Net по качеству — и отлично объясняет поведение диффузионных моделей.
👍43🔥2👏1