Generative AI
2.34K subscribers
137 photos
34 videos
4 files
132 links
@haarrp - по всем вопросам
Download Telegram
Проклято: YouTube теперь будет показывать рекламу в самые важные моменты видео, благодаря Gemini.

ИИ анализирует весь хронометраж и ищет пиковые и самые популярные моменты, чтобы прямо там разместить рекламу.
😱2👍1
🔥 9 бесплатных курсов от HuggingFace по искусственному интеллекту!

Хотите освоить передовые технологии ИИ? HuggingFace подготовили топовые бесплатные курсы, чтобы вы могли обучать, настраивать и развертывать большие языковые модели и не только 🚀

Базовый курс по LLM
Узнайте, как работать с HuggingFace Transformers: обучение, тонкая настройка, деплой.
👉 https://huggingface.co/learn/llm-course/chapter1/1

Курс по AI-агентам
Создавайте многошаговые AI-агенты с LangChain и HF.
👉 https://huggingface.co/learn/agents-course/unit0/introduction

Курс по глубокому обучению с подкреплением (Deep RL)
Учите агентов принимать решения и адаптироваться к среде.
👉 https://huggingface.co/learn/deep-rl-course/unit0/introduction

Курс по компьютерному зрению
Изучите детекцию объектов, сегментацию и классификацию изображений.
👉 https://huggingface.co/learn/vision-course/chapter0/introduction

Курс по работе с аудио
Применяйте трансформеры для распознавания речи, анализа музыки и синтеза.
👉 https://huggingface.co/learn/audio-course/chapter0/introduction

Курс по ML для игр
Как ИИ меняет игры: поведение NPC, генерация уровней и многое другое.
👉 https://huggingface.co/learn/ml-games-course/unit0/introduction

Курс по ML для 3D
Работа с 3D-данными: облака точек, сетки и графика с ML.
👉 https://huggingface.co/learn/ml-for-3d-course/unit0/introduction

Курс по диффузионным моделям
Изучите DALL·E и Stable Diffusion изнутри и создавайте изображения сами.
👉 https://huggingface.co/learn/diffusion-course/unit0/1

Кулинарная книга по открытому ИИ (Open-Source AI Cookbook)
Практические ноутбуки от реальных разработчиков — копируйте, учитесь, создавайте свои проекты!
👉 https://huggingface.co/learn/cookbook/index

💡 Идеально для разработчиков, студентов и энтузиастов ИИ. Не упустите шанс освоить самые горячие технологии бесплатно!
👍21
📢 Рады представить вам подборку популярных каналов на тему IT и искусственного интеллекта! 🤖

Технологии становятся важной частью нашей жизни, и искусственный интеллект меняет не только бизнес, но и повседневность.

🌟Что интересного:

Технологические достижения: Следите за новыми прорывами в IT, чтобы понимать их влияние на вашу жизнь и бизнес.

Влияние на повседневность: Виртуальные помощники и персонализированные приложения делают жизнь удобнее и продуктивнее.

Оптимизация бизнеса: Современные технологии помогают компаниям автоматизировать
процессы и принимать обоснованные решения.

Образование: Адаптивное обучение на основе ИИ делает образование доступнее и эффективнее.

Будущее IT: Следите за трендами, такими как квантовые вычисления и интернет вещей

👉ЗАБРАТЬ ПОДБОРКУ👈
Forwarded from Python/ django
🧠 Как клонировать голос с помощью Open Source (Coqui TTS)

Хочешь, чтобы ИИ говорил твоим голосом? Без подписок, платных API и ограничений? Вот подробная инструкция, как клонировать свой голос с нуля с помощью open-source инструментов:

🔧 Установка


sudo apt install ffmpeg
pip install TTS soundfile torchaudio gradio

git clone https://github.com/coqui-ai/TTS.git
cd TTS
pip install -e .

🎙️ 1. Подготовка записи голоса

Тебе нужен файл .wav:
- продолжительность: от 1 минуты
- формат: моно, 16 кГц, 16-bit

Пример конвертации:

ffmpeg -i input.mp3 -ac 1 -ar 16000 output.wav


🧬 2. Генерация эмбеддинга твоего голоса


from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
model = Xtts.init_from_config(config)
model.load_checkpoint("tts_models/multilingual/multi-dataset/xtts_v2")

voice_sample = "your_voice.wav"
speaker_embedding = model.get_speaker_embedding(voice_sample)

📤 3. Генерация речи с твоим голосом


text = "Привет! Я теперь могу говорить твоим голосом."
wav = model.tts(text, speaker_embedding=speaker_embedding)
model.save_wav(wav, "output.wav")


💻 4. (Опционально) Интерфейс с Gradio


import gradio as gr

def speak(text):
wav = model.tts(text, speaker_embedding=speaker_embedding)
path = "generated.wav"
model.save_wav(wav, path)
return path

gr.Interface(fn=speak, inputs=gr.Textbox(), outputs=gr.Audio()).launch()


Быстрый способ (через CLI)


tts --model_name "tts_models/multilingual/multi-dataset/xtts_v2" \
--text "Привет, мир!" \
--speaker_wav path/to/your.wav \
--out_path output.wav


⚠️ Важно


- 💻 Работает на CPU, но лучше с GPU.
- 🌐 Поддерживает русский язык.

@pythonl
3👍3🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ EleutherAI представила лицензированный датасет для обучения ИИ-моделей.

EleutherAI выпустила The Common Pile v0.1 — 8-терабайтный набор данных для тренировки моделей, собранный при участии Hugging Face и академических институтов. В него вошли более 20-ти публичных источников, На базе датасета созданы Comma v0.1-1T и Comma v0.1-2T (по 7 млрд параметров), которые, по заявлению разработчиков, не уступают моделям, обученным на нелицензированном контенте.

Модели показывают сильные результаты в прораммировании и математике, опровергая мнение, что только "пиратский" контент обеспечивает качество. Релиз датасета - это попытка исправить ошибки прошлого: ранее EleutherAI критиковали за использование защищенного авторским правом контента в старом датасете The Pile.
huggingface.co

✔️ OpenAI вынуждена сохранять данные пользователей ChatGPT из-за судебного решения по иску NYT.

OpenAI получила судебный приказ о временном хранении данных пользователей ChatGPT и API, даже если они были удалены. Это связано с иском New York Times о нарушении авторских прав. NYT требует сохранить «всю переписку и контент» для использования в качестве доказательств.

Под приказ попадают данные пользователей бесплатных и платных версий ChatGPT (Plus, Pro, Team), а также API-клиенты без соглашения о нулевом хранении данных. Корпоративные клиенты и образовательные проекты в безопасности — их информация не попадает под приказ.

OpenAI назвала требование чрезмерным, подчеркнув, что обычно удаляет данные через 30 дней и подала апелляцию, но временно соблюдает решение.
openai.com

✔️ MIT & Recursion Boltz-2: модель прогнозирования взаимодействия молекул.

MIT CSAIL и Recursion разработали Boltz-2 — открытую модель для анализа биомолекулярных структур и связывания. Она сочетает рекордную скорость и точность, превосходя AlphaFold3 и других конкурентов.

Boltz-2 предсказывает, как молекулы взаимодействуют, с точностью, близкой к физическим методам FEP, но в 1000 раз быстрее. Разработчики надеются, что публикация модели облегчит поиск лекарств, ведь Boltz-2 может за час перебрать тысячи соединений вместо недель вычислений.
globenewswire.com

✔️ AMD пополнилась командой стартапа Untether AI.

AMD объявил о покупке ключевых специалистов из стартапа Untether AI, разработавшего энергоэффективные чипы для ИИ-инференса. Сделка должна укрепить возможности компании в области компиляторов и проектирования чипов.

Untether AI, основанный в 2018 году, славился архитектурой «at-memory», повышающей производительность в дата-центрах и на EDGE-устройствах. Их плата speedAI240 Slim показала рекордную энергоэффективность: в 3–6 раз выше аналогов по тестам MLPerf.

Сделка стала частью стратегии AMD по конкурированию с Nvidia. Ранее, приобретя стартап Brium, компания усилила оптимизацию ИИ-нагрузок на GPU Instinct. Теперь фокус смещается на интеграцию новых технологий в продукты, ориентированные на растущий рынок ИИ.
crn.com

✔️ Фестиваль ИИ-фильмов в Нью-Йорке.

В Нью-Йорке прошел ежегодный фестиваль ИИ-фильмов от Runway. За 3 года проект вырос от 300 до 6000 заявок, а в этом году представил десятку короткометражек, созданных с помощью ИИ. Лучшей стала «Total Pixel Space» Джейкоба Алдера, исследующая математические границы digital-изображений.

По словам организаторов, технологии ускоряют процессы кинопроизводства и фестиваль делает акцент на том, как ИИ поддерживает, а не заменяет творцов.
apnews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google запускает функцию Audio Overviews в поиске.

Google объявила о запуске экспериментальной функции Audio Overviews, которая генерирует аудио-сводки для поисковых запросов. Новинка основана на новых моделях Gemini и направлена на упрощение восприятия информации для пользователей, предпочитающих аудиоформат. Функция пока доступна в программе Labs, ее активируют автоматически, если система считает, что обзор будет полезен.

К аудио Google добавит ссылки на источники, чтобы слушатели могли углубиться в тему. Пользователи могут оценивать обзоры, отправляя обратную связь через кнопки «нравится»/«не нравится».
blog.google

✔️ Технические гении из Кремниевой долины идут в армию для внедрения ИИ в военные операции.

ВС США создали отряд резервистов "201", куда вошли топ-менеджеры Palantir (Шьям Санкар, CTO) , Компании Марка Цукерберга (Эндрю Босворт, СТО) и OpenAI (Кевин Вейл и Боб Макгрю). Все "новобранцы" получили звания подполковников, их задача - внедрять ИИ в планирование и операции армии и ускорять трансформацию подразделений.

Эксперты будут работать удаленно, минимум 120 часов в год, не проходя базовой подготовки. Palantir уже сотрудничает с армией с 2008 года (проект Maven, $480 млн) по интеграции ИИ. IT-гигант Цукерберга, в свою очередь, связан с Anduril, поставляющей «умные» очки. OpenAI, несмотря на прошлые обещания не разрабатывать военные продукты, также участвует в партнерствах с военными.
theregister.com

✔️ Нью-Йорк принимает закон о безопасности ИИ.

Законодатели Нью-Йорка одобрили RAISE Act, направленный на предотвращение масштабных катастроф, вызванных передовыми ИИ-моделями от компаний OpenAI, Google и Anthropic. Закон требует публиковать отчеты о безопасности, сообщать об инцидентах и грозит штрафами до $30 млн. Регулирование коснется лишь крупных игроков, потративших свыше $100 млн на вычисления.

Авторы закона подчеркнули, что он не должен тормозить стартапы или научные исследования, в отличие от провалившегося законопроекта SB 1047 в Калифорнии. Однако критики, включая Andreessen Horowitz и Anthropic, утверждают: требования слишком широки и могут ударить по малым компаниям.
В настоящее время RAISE Act ждет подписи губернатора штата.
nysenate.gov

✔️ Topaz Labs анонсировала веб-инструмент Astra для апскейлинга видео до 4K.

Astra — веб-сервис для улучшения качества видео, который масштабирует контент до 4K, сохраняя детали. Инструмент подойдет как для творческих экспериментов, так и для точного восстановления кадров: пользователи могут регулировать интенсивность обработки или фокусироваться на резкости.

Astra поддерживает до 120 кадров в секунду и замедление в 8 раз с плавной интерполяцией кадров. Topaz Labs позиционирует Astra как полезный инструмент для ремастеринга старых записей или улучшения медийных проектов.
Открыта запись в лист ожидания доступа к сервису.
Topaz Labs в сети X

✔️ TikTok запустил 3 новых инструмента для автоматической генерации видео для рекламы.

«Image to Video» превращает статичные изображения в пятисекундные клипы. Рекламодатели загружают изображение, добавляют текстовый запрос и получают несколько вариантов видео, которые можно комбинировать в более длинные ролики.

«Text to Video» позволяет генерировать видео только на основе текста, без изображений или шаблонов. Третий инструмент, «Showcase Products», добавляет цифровые аватары, которые держат продукты, примеряют одежду или показывают приложения на смартфоне, делая рекламу более живой и похожей на пользовательский контент.

Все видео помечаются как сгенерированные ИИ и могут интегрироваться в Adobe Express и WPP Open. TikTok не раскрывает, какие именно модели используются.
newsroom.tiktok.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥21
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Как сгенерировать миллиард демо-примеров для обучения роботов?

Проект Dex1B показывает, как это сделать просто — с помощью симуляции и генеративных моделей!

📌 Цель проекта: создать масштабный датасет для двух задач:
Grasping — захват объектов 🖐️
Articulation — манипуляции с подвижными частями робота

Как это работает:

1. Создание Seed-датасета
Сначала используется оптимизационный алгоритм, чтобы вручную (или полуавтоматически) собрать небольшой, но точный набор демонстраций — так называемый *Seed Dataset*.

2. Обучение генеративной модели
На основе Seed-датасета обучается DexSimple— простая C-VAE модель (Conditional Variational Autoencoder). Она умеет порождать новые сцены, основываясь на контексте: тип объекта, поза руки, желаемое взаимодействие.

3. Масштабирование до 1 миллиарда
С помощью DexSimple создаются миллиарды новых демонстраций. При генерации учитывается разнообразие поз и объектов: используется преднамеренное «смешение» данных, чтобы не переобучаться на узком распределении.

4. Симуляция и проверка
Все демонстрации валидируются в физическом симуляторе ManiSkill/SAPIEN. Только успешные взаимодействия остаются в финальном наборе.

✔️ Что внутри:

- Grasping-сцены (1 млн штук): построены на базе ассетов из Objaverse
- Articulation-сцены: используют объекты из PartNet-Mobility — богатая коллекция с подвижными частями (двери, ящики, рычаги и т.п.)
- Каждая сцена содержит: 3D-модель объекта, позу руки, физику взаимодействия и результат

Почему это важно:

- Ручной сбор миллиардов примеров невозможен — здесь это решается генеративным путём
- Dex1B создаёт разнообразные и физически валидные примеры
- Это открывает путь к масштабному обучению роботов с использованием имитационного обучения


🟡 Сайт проекта: https://jianglongye.com/dex1b)
🟡Статья : https://jianglongye.com/dex1b/static/dex1b.pdf

@ai_machinelearning_big_data

#ai #robots #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Хочешь следить за загрузкой своей GPU прямо из Python?

Вот простой скрипт, который показывает текущую загрузку видеокарты NVIDIA (через `nvidia-smi`). Подходит для мониторинга в ML-задачах, инференсе и просто для интереса.

📦 Зависимости: установленный nvidia-smi и Python 3.6+

🧠 Код:


import subprocess

def get_gpu_utilization():
try:
result = subprocess.check_output(
['nvidia-smi', '--query-gpu=utilization.gpu,memory.used,memory.total',
'--format=csv,nounits,noheader'],
encoding='utf-8'
)
lines = result.strip().split('\n')
for idx, line in enumerate(lines):
gpu_util, mem_used, mem_total = map(str.strip, line.split(','))
print(f"🖥 GPU {idx}: {gpu_util}% load | {mem_used} MiB / {mem_total} MiB")
except FileNotFoundError:
print(" nvidia-smi not found. Make sure NVIDIA drivers are installed.")
except Exception as e:
print(f"⚠️ Error: {e}")

get_gpu_utilization()


📊 Вывод будет примерно такой:

GPU 0: 23% load | 412 MiB / 8192 MiB

🔥 Советы:
• Можно запускать в цикле для live-мониторинга
• Легко интегрировать в Telegram-бота или Slack-уведомления
• Работает на всех машинах с установленным NVIDIA драйвером и nvidia-smi
2👍2🔥1🥰1
5👍1
Forwarded from Machinelearning
📌 ICONIQ: Плейбук архитектора ИИ-систем 2025.
 
Iconiq Capital опросила 300 руководителей ИИ-стартапов с доходом от $10 млн. до $1 млрд. о том, как эти стартапы используют ИИ и собрала результаты в отчет "ICONIQ AI Builder’s Playbook 2025"

Iconiq Capital - американская компания по управлению инвестициями, основанная в 2011 году. Функционирует как гибридный семейный офис и имеет тесные связи с компанией Марка Цукерберга. Компания предоставляет услуги по инвестиционному менеджменту, частному капиталу, венчурным инвестициям, управлению недвижимостью и филантропии для состоятельных семей и организаций.


▶️Очень кратко:

Эра экспериментальных ИИ-демо закончилась. Сейчас компании массово переходят к боевому использованию генеративных моделей - и тут уже не про «вау», а про ROI, стоимость инференса и объяснимость.


🟡AI-native vs AI-enabled

Компании, с нативными ИИ-продуктами, сильно опережают тех, кто "добавил ИИ". Почти половина стартапов нативных ИИ-продуктов уже достигла масштабирования (47% против 13% у ретрофитеров).

В продуктовом портфеле такой типовой компании в среднем 2,8 модели и они активно идут по пути агентных сценариев, причем многие строят архитектуру с возможностью быстрого свапа моделей.


🟡Ценообразование и монетизация.

ИИ ломает старые цены и бизнес-модели. 38% компаний используют гибридное ценообразование (подписка + плата за использование), ещё 19% — только за использование а 6% уже экспериментируют с outcome-based моделями.

Пока 40% включают ИИ в премиум-пакет, но 37% планируют пересмотреть подход, учитывая реальные метрики использования и отдачу.

🟡Команда и расходы. 

ИИ перестал быть задачей «R&D-уголка». В быстрорастущих компаниях до 37% инженеров работают над ИИ, а AI/ML-инженеров нанимают в среднем за 70+ дней. И это большая проблема.

ИИ забирает до 20% R&D-бюджета, причем по мере роста проекта расходы смещаются с найма в сторону инференса и инфраструктуры.

 
🟡Инструменты и инфраструктура. 

68% компаний используют только облако, ещё 64% сидят на внешних API. OpenAI/GPT - лидер (81%), но растет доля мульти-модельных подходов (Claude, Gemini, Mistral и др.).

NVIDIA по-прежнему доминирует в инференсе: TensorRT и Triton используют 60% команд, но и ONNX Runtime (18%) с TorchServe (15%) укрепляют позиции.

Из инструментов для оркестрации лидируют LangChain и Hugging Face, а для мониторинга — Datadog и LangSmith (~17%). MLOps по-прежнему на MLflow (36%) и Weights & Biases (20%).


🟡Что тормозит развитие. 

Самое сложное в развертывании продуктов оказалось не в коде, а в доверии и эффективности:

42% компаний говорят о проблемах доверия и объяснимости, 39% — не могут показать ROI, 38% — борются с галлюцинациями, а 32% — с высокой стоимостью инференса, а доступ к GPU — проблема лишь для 5%.

Главный вывод: чтобы внедрить ИИ, одной модели не достаточно, еще нужно обосновать ее бизнес-ценность и держать под контролем поведение.
 
🟡ИИ внутри стартапов.

77% команд используют ИИ для помощи в разработке (GitHub Copilot почти у всех), 65% — для генерации контента, 57% — для поиска знаний.
Те, у кого ИИ активно используется получают 15–30% прироста эффективности. Самые распространенные юзкейсы: кодинг, аналитика, поиск по внутренней документации.


Самое неожиданное
Несмотря на популярность OpenAI, стоимость API и непредсказуемость инференса — головная боль даже у тех, кто платит миллионы в месяц.


🔜 Ознакомиться с полным отчетом

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Генератор крутых 3D-моделей прямо в браузере — мир новая нейронка Hunyuan3D-PolyGen, способная превратить в шедевр обычную картинку.

Супер сетка, модели на 10 тысяч полигонов — можно сразу использовать в своих проектах. Есть экспорт во все популярные форматы.

Все бесплатно — пробуем.

@ai_generative
2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Cамый непредвзятый ИИ - Грок теперь ищет ответы на неудобные вопросы в твитах Маска

Похоже, xAI затюнили после того, как Грок превратился в Гитлера, поэтому в системную подсказку добавили промпт, принимающий во внимание мнение отца-основателя.

Это все, что вы должны знать о самом честном и непредвзятом ИИ.
🤖 ChatGPT обошел почти всех элитных программистов — выжил только один

На соревновании по оптимизационным алгоритмам модель от OpenAI вышла в финал 16 июля, сразу захватила лидерство…

Но под конец её обошёл Psyho — бывший программист команды OpenAI.

📌 Главное:
— внутренняя кодовая модель OpenAI показывает безумную эффективность

— возможно, это последняя победа человека

Дальше будет только сложнее.
Forwarded from Machinelearning
🌟 OpenReasoning-Nemotron: набор ризонинг-моделей от NVIDIA.

OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):

🟠OpenReasoning-Nemotron-1.5B;
🟠OpenReasoning-Nemotron-7B;
🟠OpenReasoning-Nemotron-14B;
🟢OpenReasoning-Nemotron-32B;

Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.

Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.

Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.


📌Лицензирование: CC-BY-4.0 License.


🟡Статья
🟡Набор моделей


@ai_machinelearning_big_data

#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Anthropic пойдет за инвестициями в страны Персидского залива.

CEO Anthropic Дарио Амодеи в служебной записке для сотрудников объявил о планах компании привлекать инвестиции из ОАЭ и Катара. Это серьезный разворот в их политике, ранее Anthropic отказывался от денег из Саудовской Аравии по соображениям нацбезопасности.

Амодеи признал, что это решение обогатит "диктаторов", но назвал доступ к огромному капиталу региона (по его оценкам, более $100 млрд) критически важным для сохранения лидерства в ИИ-гонке. Он сослался на то, что конкуренты уже активно сотрудничают с Ближним Востоком, ставя Anthropic в невыгодное положение.

Глава компании подчеркнул, что речь идет о чисто финансовых вложениях без передачи контроля, однако признал риск "мягкой силы" со стороны инвесторов. Он также приготовил сотрудников к критике в СМИ, назвав обвинения в лицемерии неизбежными.
wired.com

✔️ Gemini взяла золото на Международной математической олимпиаде.

Усовершенствованная версия Gemini с технологией Deep Think успешно решила 5 из 6 сложнейших задач на IMO, набрав 35 баллов и показав результат, соответствующий золотой медали. Модель работала полностью в естественном языке, самостоятельно генерируя математические доказательства из текстового описания задач, уложившись в рамки стандартного 4.5-часового лимита олимпиады.

Для сравнения, в прошлом году системам AlphaGeometry и AlphaProof требовалась помощь экспертов для перевода задач на формальные языки и несколько дней вычислений. Такого результата удалось достичь благодаря режиму Deep Think, который позволяет модели одновременно исследовать несколько путей решения, а также дообучению на массиве математических задач и решений.
deepmind.google

✔️ Microsoft переманила более 20 ключевых ИИ-специалистов из Google DeepMind.

Microsoft активно нанимает ведущих инженеров и исследователей из Google DeepMind, усиливая свои позиции в гонке за таланты. Последним заметным переходом стал Амар Субраманья, бывший глава разработки чат-бота Gemini, который занял пост вице-президента по ИИ в Microsoft. За последние полгода к нему присоединились еще как минимум 23 бывших сотрудника DeepMind.

Ключевую роль в этой охоте за головами играет Мустафа Сулейман, сооснователь DeepMind, который теперь возглавляет потребительское ИИ-направление в Microsoft. Он активно привлекает своих бывших коллег для создания новых продуктов. В Google признают отток, но утверждают, что их текучесть кадров ниже средней по отрасли.
ft.com

✔️ В Gemini 2.5 появилась функция диалоговой сегментации изображений.

Новая возможность позволяет анализировать и выделять объекты на изображениях с помощью запросов на естественном языке. Эта функция выходит за рамки традиционных методов, способных распознавать только фиксированные категории, например, "собака" или "машина".

C диалоговой сегментацией модель может выделить "человека с зонтом", "всех, кто не сидит" или даже такие понятия, как "беспорядок" и "повреждения", у которых нет четких визуальных контуров. Функция также распознает текст на изображениях и поддерживает многоязычные запросы. Доступ к функции открыт через Gemini API, а попробовать ее можно в Google AI Studio или Google Colab.
developers.googleblog.com

✔️ Пользователи ChatGPT ежедневно отправляют 2.5 миллиарда запросов.

OpenAI раскрыла статистику использования своего флагманского продукта: каждый день пользователи по всему миру отправляют в ChatGPT 2.5 миллиарда запросов, из которых около 330 миллионов приходятся на США. Еще в декабре прошлого года Сэм Альтман говорил о миллиарде запросов в день, что означает более чем двукратное увеличение за 8 месяцев.

Для сравнения, Google, по разным оценкам, обрабатывает от 14 до 16.4 миллиардов поисковых запросов в день. Хотя ChatGPT пока уступает гиганту поиска по абсолютным цифрам, темпы его роста наглядно показывают, насколько быстро ИИ становится неотъемлемой частью повседневной цифровой жизни.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 X-Omni – универсальная дискретная авто­регрес­сивная модель для изображений и текста, прокачанная через Reinforcement Learning!

Единая архитектура для генерации и изображений, и языковых модальностей
Идеальное выполнение инструкций даже самых сложных
Точный рендер текста на английском и китайском
Любые разрешения: красивые картинки без потери качества

🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.

📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io

#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
2👍2
Forwarded from Machinelearning
🚀 Tencent расширяет экосистему Hunyuan LLM и выкладывают в открытый доступ еще 4 компактных моделей — 0.5B, 1.8B, 4B и 7B!

Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.

Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.

💡 Особенности:
Fast/slow thinking режимы: лаконичные или глубокие ответы
256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
Хорошие метрики на тестах по языку, математике и логике
Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM

🖥 GitHub:
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B

🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct

🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list

@ai_machinelearning_big_data


#Tencent #Hunyuan #ml #llm #ai #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🚀 Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 — ловите еще один апдейт от Qwen: LLM с поддержкой 256K контекста

🧠 Qwen3-4B-Instruct — идеально подойдёт для:
• генерации текстов
• многоязычных задач
• сложных промптов

🧠 Qwen3-4B-Thinking — заточен под:
• логику
• математику
• программирование и технический анализ

Обе модели стали:
• точнее
• логичнее
• лучше справляются с длинными диалогами


🔗 Модели на Hugging Face:
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

🔗 Модели на ModelScope:
https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

@ai_machinelearning_big_data

#AI #ML #qwen #opensource
1👍1
Forwarded from Machinelearning
⚡️ GGUF-версии GPT-OSS от Unsloth.

Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.

🟡Оптимальный сетап:

🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти.

🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ.

Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.

GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.

Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.

Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.

📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth.


🟡Набор моделей
🟡Документация


@ai_machinelearning_big_data

#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1