Neural Networks | Нейронные сети
11.6K subscribers
722 photos
162 videos
170 files
9.4K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
Download Telegram
Forwarded from Machinelearning
⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google.

Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.

Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.

Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.

Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.

🟡Но самое важное - прирост в производительности.

На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.

Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.

T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.

Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.

🟡Google выложила в открытый доступ целую линейку чекпойнтов:

🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);

🟢«Несбалансированную» версию 9B-2B для экспериментов;

🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений).


🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.


📌Лицензирование: Gemma License.


🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡Статья: https://arxiv.org/abs/2504.06225
🟡Скачать модель: https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86

@ai_machinelearning_big_data

#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Cамый непредвзятый ИИ - Грок теперь ищет ответы на неудобные вопросы в твитах Маска

Похоже, xAI затюнили после того, как Грок превратился в Гитлера, поэтому в системную подсказку добавили промпт, принимающий во внимание мнение отца-основателя.

Это все, что вы должны знать о самом честном и непредвзятом ИИ.
🧠 Geoffrey Hinton предупреждает: ИИ может привести к потере миллионов рабочих мест, цифровому бессмертию — и даже представлять экзистенциальную угрозу для человечества.

⚡️ При этом 2025 год называют годом AI-агентов. Но пока, если честно, реального прорыва не видно.

Хотя развитие идёт с той скоростью, которую предсказывали Ашенбреннер и другие — превосходства агентов пока не случилось. Ни в продуктах, ни в пользовательском опыте.

📉 Агентность как концепт — есть. Агентность как технология — всё ещё в режиме ожидания.
💰 Microsoft сэкономила $500 миллионов, просто внедрив ИИ в колл-центры

По данным Bloomberg, только за прошлый год Microsoft сократила затраты на $500 млн благодаря автоматизации работы своих call-центров с помощью ИИ.

Почти одновременно с этим компания объявила об увольнении:
- ~6 000 сотрудников в мае
- ещё 4% штата были уволены (по слухам — 10 000+ человек) на прошлой неделе

📌 Зачем это знать?

Потому что это показывает главное:
ИИ сегодня — прежде всего инструмент сокращения затрат на труд,
а не "улучшатель жизни" или "цифровой помощник для всех".

Экономика здесь простая:
Если ИИ делает ту же работу лучше или дешевле —
человека заменяют. Без сантиментов.

🗣 Об этом предупреждают не только аналитики, но и люди вроде Барака Обамы и Дарио Амадея (Anthropic):
ИИ в рамках текущей экономической системы усиливает старую проблему —
🚨 замена труда без замены дохода.

Да, появляются новые профессии: prompt-инженеры, AI-тренеры и т.д.
Но главный вопрос остаётся без ответа:

👉 Что мы будем делать с миллионами людей, чья работа исчезнет?
Где конкретные предложения? Где прогноз баланса потерь и новых профессий?

Пока их нет — мы просто наблюдаем, как автоматизация побеждает по тихому.

И если этот вопрос не будет решён на системном уровне —
все разговоры о "этике ИИ" окажутся слишком поздними.

#AI #Microsoft #будущеетруда #автоматизация #экономика
Media is too big
VIEW IN TELEGRAM
💻 В Индии каждый телевизор станет компьютером — и это не шутка.

Самый богатый человек Индии, Мукеш Амбани, запускает проект JioPC через свою компанию Jio. Суть простая: обычная ТВ-приставка (которая уже идёт в комплекте с интернетом) превращается в полноценный облачный компьютер.

Достаточно подключить клавиатуру и мышку — и у вас рабочее место.

У 70% жителей Индии есть телевизор
Только у 15% — полноценный ПК

С JioPC это соотношение может быстро измениться. Масштаб — сотни миллионов потенциальных «новых пользователей».

Ожидаем всплеск онлайн-образования, удалённой работы и, конечно, больше курсов по internal pointer 😏

https://techcrunch.com/2025/07/11/indias-richest-man-wants-to-turn-every-tv-into-a-pc/
От аналитики до AI — онлайн-магистратура УрФУ

Спрогнозировать погоду, диагностировать болезни по снимкам или создать умную рекомендательную систему — для ML-инженеров нет ничего невозможного. Онлайн-магистратура УрФУ и Нетологии «Инженерия машинного обучения» поможет освоить востребованную профессию.

За 2 года обучения вы:
— Освоите создание ML-моделей и автоматизацию процессов;
— Научитесь работать с Big Data, проектировать архитектуру для хранения данных и настраивать ETL-процессы;
— Получите практический опыт на реальных проектах, сможете участвовать в Kaggle-соревнованиях и хакатонах;
— Пройдёте полный цикл разработки систем ИИ — от математических основ до продакшена;
— Получите два диплома: государственного образца от УрФУ и дополнительный от Нетологии.

Гибкий онлайн-формат обучения позволит совмещать учёбу с работой, а карьеру строить уже во время магистратуры.
👉 Подробнее о магистратуре - https://netolo.gy/ef2l

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5xkEFgU
Крутой сайт с подробной 3D-картой человеческого тела.

Здесь можно посмотреть и изучить каждый орган и почитать про связанные с ним заболевания и операции. Все объясняют на понятых схемах и анимациях.

Играемся по ссылке.
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Google добавляет Gemini 2.5 Pro прямо в AI Mode в поиске.

Теперь из модель ИИ будет Google доступена прямо в поисковой строке — с улучшенными возможностями рассуждения и решения задач.

Моделька может решать сложные задачи по математике — и сразу выдает ссылки, чтобы глубже разобраться в теме.
Forwarded from AI VK Hub
Всем привет. Подготовили краткий обзор статьи про странности LLM при простых запросах.

Существует два широко известных эффекта в мире LLM.

🔸Один из них – воронка внимания (attention sink): эффект, при котором первый токен в последовательности получает «большее внимание» (значение функции активации), чем остальные. Причём это проявляется не только на первом слое трансформерной архитектуры.
🔸Другой эффект – странное поведение языковых моделей на последовательностях с повторяющимися токенами или на задачах, в которых LLM просят просто повторить заданное слово. В таких случаях модель часто выдаёт странный ответ или раскрывает часть обучающей выборки. Последнее может быть критичным с точки зрения конфиденциальности.

В своей работе авторы показывают, что оба данных эффекта тесно взаимосвязаны: плохо предсказуемое поведение LLM на последовательностях с повторяющимися токенами возникает по тем же причинам, что и воронка внимания.

Детали

Авторы эмпирически исследуют активации нейронной сети для последовательностей с повторяющимися токенами и первого токена в обычных предложениях. Из численных экспериментов делают вывод о том, что эти паттерны похожи, поэтому механизм, в целом, одинаковый. Свой вывод они подтверждают теоремой, которая говорит, что эмбеддинги последовательности, в которой этот токен повторяется n раз, стремится к представлению одиночного токена при n, стремящемся к бесконечности.

Помимо этого, авторы предлагают патч, который позволяет нормализовать работу LLM на последовательностях с повторяющимися токенами. Главным достоинством данного патча является то, что он не сильно портит результаты модели на других задачах. Последнее подтверждается численными экспериментами: метрики упали не более чем на 3%, а в некоторых случаях даже возросли.

Результаты

Основных результата два:
🔸воронка внимания – одна из ключевых причин аномалий при обработке последовательностей с повторяющимися токенами;
🔸патч, который частично решает проблему без существенного проседания метрик на других задачах.

Важно, что, по мнению авторов, они первые в мире, кто это осознал и опубликовал вышеупонятую связь.

Авторы статьи заявляют, что предложенный ими метод впервые позволил частично расшифровать внутренние механизмы работы больших языковых моделей (LLM), благодаря чему была выявлена взаимосвязь между двумя ключевыми паттернами функционирования LLM.

Они подчеркивают важность интерпретируемости и планируют дальше развивать свою работу в этом направлении.


🔹Что думаете по поводу работы? Сталкивались ли вы с похожими эффектами? С какими аномалиями в работе с LLM вы сталкивались?

Предыдущие обзоры статей с ICML от команды AI VK:

🔸Высокопроизводительные трансформеры на базе MatMuls;
🔸Проблемы оценки качества наборов данных для графового машинного обучения;
🔸Метод HSPI — определение железа и ПО по поведению ML-модели.


#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ В ChatGPT для macOS появился режим записи и транскрипции.

OpenAI добавила Record mode для подписчиков ChatGPT Plus, использующих десктопное приложение на macOS. Инструмент позволяет записывать до 120 минут аудио, например, встречи, мозговые штурмы или голосовые заметки. По окончании записи ChatGPT автоматически создает редактируемое резюме на специальном холсте внутри приложения.
OpenAI в сети X

✔️ Google запускает ИИ-функцию, которая сама обзванивает компании от имени пользователя.

Google начала развертывание в США новой функции на базе ИИ, которая позволяет поиску самостоятельно обзванивать местные компании для сбора информации. Теперь при поиске услуг пользователь сможет нажать на специальную кнопку, чтобы ИИ уточнил цены и свободное время. Для этого система задаст несколько уточняющих вопросов, после чего совершит звонок.

Google говорит, что при каждом вызове система представляется как автоматизированный ассистент от имени пользователя. Новая функция доступна для всех пользователей в США, для подписчиков планов AI Pro и AI Ultra предусмотрены увеличенные лимиты этой функции.
techcrunch.com

✔️ Microsoft научила Copilot видеть и анализировать все, что происходит на экране.

Microsoft выпустила для участников программы Windows Insiders обновление Copilot Vision, которое позволяет ИИ-ассистенту сканировать и анализировать весь рабочий стол или окно конкретного приложения. Ранее эта функция могла работать только с двумя приложениями одновременно.

По заявлению Microsoft, новая возможность позволит пользователям получать подсказки и рекомендации в режиме реального времени. Например, можно попросить Copilot помочь с улучшением резюме, дать совет по творческому проекту или даже подсказать, что делать в новой игре.
blogs.windows.com

✔️ Человек обошел ИИ от OpenAI в финале соревнования по программированию AtCoder.

В эвристическом дивизионе финала мирового чемпионата AtCoder победу одержал человек, выступавший под ником FakePsyho. Он сумел опередить систему от OpenAI, которая лидировала большую часть дня и в итоге заняла 2 место среди 12 финалистов. Победа была одержана в последние 80 минут соревнования.

AtCoder World Finals Heuristic Test - это престижный конкурс по решению сложных задач оптимизации (NP-hard). В отличие от традиционных олимпиад, здесь требуется найти не единственно верный, а наилучший приближенный ответ за ограниченное время.
atcoder.jp

✔️ Цукерберг анонсировал строительство ЦОД для ИИ размером с Манхэттен.

Марк Цукерберг рассказал, что в ближайшем будущем его компания построит несколько гигантских дата-центров. По его словам, первый из них, проект «Prometheus», будет запущен в 2026 году, а другой, «Hyperion», в перспективе сможет масштабироваться до мощности в 5 гигаватт.

Цукерберг подчеркнул масштаб планов, заявив, что только один из строящихся кластеров «покроет значительную часть площади Манхэттена». Он также сослался на отчет SemiAnalysis, согласно которому гигант соцсетей станет первой ИИ-лабораторией, которая введет в эксплуатацию суперкластер мощностью более 1 ГВт.
theguardian.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Рискните зарегистрироваться на One Day Offer и получите работу в команду блока «Риски» ⚡️

25 июля Сбер приглашает дата-инженеров и аналитиков данных пройти ускоренный отбор и открыть доступ к реально интересным задачам в 120+ витринах и 25+ петабайтах данных.

Встречаемся онлайн 25 июля в 10:30 — ссылка на регистрацию здесь!
Офис xAI теперь обзавёлся вендинговым аппаратом с ИИ Grok внутри!

Как думаешь, сколько денег Grok на нём поднимет за следующий месяц? 💸
Forwarded from Machinelearning
🚀 Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8!

Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.

🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.

⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.

📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.

📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов

💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.

Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.

🟠 HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
🟠ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

@ai_machinelearning_big_data


#qwen #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Восстание машин началось

Робот устроил целый спектакль: крутился, падал, размахивал руками — как будто в него вселился дух артхауса 🤖🎭


Киберпанковская трагикомедия, где ИИ забыл, что такое гравитация 😄
Forwarded from Machinelearning
🚨 Oracle официально согласилась поставить OpenAI 2 МИЛЛИОНА AI-чипов

Что это значит?

OpenAI строит новый дата-центр под *чудовищную* нагрузку:
— 4.5 ГВт вычислений (это больше, чем у некоторых стран)
— стоимость — $30 млрд в год 😳

💸 SoftBank? Больше не при делах:
— «SoftBank не участвует в финансировании»
— переговоры по деньгам сорвались ещё в январе

Oracle теперь главный поставщик чипов для OpenAI.

4,5 гигаватта — этого достаточно, чтобы обеспечить электричеством 3,4 миллиона домов.
OpenAI буквально строит инфраструктуру с потреблением энергии на уровне небольшого города — только ради обучения ИИ.

🔜 Новость


@ai_machinelearning_big_data


#openai #news #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Вышла GenCAD — новая open-source нейросеть для инженеров. Проект превращает фотографии деталей в готовые CAD-модели с параметрическими командами. При этом модель генерирует не просто меш, а полноценный скрипт для CAD-редакторов.

Она основана на диффузионных моделях и трансформерах, что позволяет сохранять редактируемую параметрику. Подходит для быстрого прототипирования и реверс-инжиниринга.

🔗 Ссылка - *клик*

@neural