эйай ньюз
71.5K subscribers
1.55K photos
824 videos
7 files
1.88K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Пре-трейн Grok 3 завершен!

На пре-трейн этап тренировки модели ушло более 200 миллионов H100 часов - самый большой трейнинг ран в истории. Это более чем 6x компьюта Llama 3.1 405B и 70x компьюта DeepSeek V3.

Сейчас модель тюнят (там тоже может быть несколько этапов). Релиз в массы обещают "скоро".

@ai_newz
RTX 5090 за $2000 - Nvidia показала 5000 серию видеокарт

Хуанг с барского плеча закинул в 5090 32 гигабайта видеопамяти с 1.8TB/s пропускной способности. По остальным характеристикам она в 1.5x-3x быстрее чем 4090.

Не забыли и про сегменты подешевле - в RTX 5070 обещают уровень производительности 4090, при этом новые видяхи стоят дешевле 4000 серии.

У новых GPU гора новых фич для геймеров - DLSS 4 теперь работает на основе трансформера, а не CNN, генерация кадров теперь генерит три промежуточных кадра вместо одного. Текстуры и материалы теперь сжимаются при помощи нейронок - и они потребляют вплоть до 3x меньше памяти.

Нужно ждать независимых обзоров, но пока что поколение выглядит очень интересно. Ждём релиза 30 января.

@ai_newz
На презентации Nvidia свои вайбы

@ai_newz
Убийца Mac Mini от Nvidia – Digits

Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!

— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.

На такой машинке можно инференсить модели вплоть до 200 млрд параметров. Можно соединить две такие малышки и запускать уже 405B модель.

Обещают выпустить в мае, цена вопроса - $3000.

Хочу себе такую домой! 🥺

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Как нейросети борются с дезинформацией в X (нет)

Пока читал Твиттер, чтобы вдохновиться новостями, наткнулся на вот такую штуку. 

Уверен, многие уже видели у себя такое в ленте, если хоть иногда заходят в Х. 

Выше чел решил по-старинке похайпить чужим контентом из Реддита, но был жестоко уличен в пиздеже системой распознавания дезинформации X, которая работает на основании ответов на твит.  

Самое смешное, что этот же чел в предыдущем посте защищает X, мол, там нет вранья, и вообще, классические масс-медиа зря обвиняют Твиттер в распространении дезинформации. 

Правда, позже выяснилось, что фото-то реальное. А критик в комментах, который написал, что это враньё, перепутал дату создания сабреддита и дату публикации самой картинки, которая там оказалась уже после поста в Твиттере. Хотя вот ресторан действительно не Мишлен, но всё ещё очень крутой. 

А ложная плашка так и повисла под постом бедного парня, ведь она основывается на комментах под постом. Даже сам критик уже извинился и сообщил об ошибке, все там же, но ничего не изменилось. А автора картинки сейчас, кажется, закенселят за эту шутку.

Неловко вышло, однако! 

В итоге, получился цирк, где критик винит во всем Google Lens, что мол он выдал в поиске неверную дату. А автор поста оправдывается, что он не хотел врать. Все-таки, система, которая для модерации полагается на комменты анонимусов все равно требует ручного фактчека. Ну, либо требуется более сложное агентное поведение для проверки фактов (да и там будут появляться казусы).

As usual: most internet is fake!

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Китайцы из команды Qwen заделали свой чат

Кроме старших моделей из всех линеек опенсорс моделей Qwen, там ещё есть закрытые MoE модели. Qwen2.5-Plus - это самая сильная их general-purpose модель, а Qwen2.5-Turbo - их long-context модель с поддержкой до миллиона токенов контекста. Есть ещё Qwen2-VL-Max, но судя по всему это просто Qwen2-VL 72B (но это не точно).

По фичам всё неплохо для ранней версии - есть артефакты, загрузка документов и картинок. Ну и фича которую нигде, за пределами чатбот арены, я не видел - возможность отправлять один и тот же промпт нескольким (до 3) моделькам сразу (АПД: из комментов узнал что это форк Open WebUI, оттуда и эта фича). Она ещё сыроватая - хотелось бы иметь возможность продолжить диалог лишь с одной из этих моделей, что их интерфейс не позволяет. Скоро в чат обещают прикрутить поиск и генерацию изображений (интересно, это опять будет FLUX, или натренят что-то своё?), ждём.

Всё полностью бесплатно, так же как и у Mistral с DeepSeek. Цель тут - не получить деньги с подписки, а прорекламировать API и получить дополнительные данные для тюна. Если кому-то из подписчиков хочется приватности, то Anthropic, с их Claude, остаются единственной компанией, которая не тренирует модели на основе данных из чата.

chat.qwenlm.ai

@ai_newz
Коротко о состоянии лицензионных стартапов.

В публичную бету вышел JEN-1.5 — генератор музыки, натренированный исключительно на легальном контенте. Вроде как под крылом Warner, в команде Майк Карен, который был там одним из топов.

Ну что сказать... Data is everything. Хотя, возможно, ребята просто еще не успели доделать работу. По звуку — как самые дешевые и банальные мелодии, которые вы могли бы найти на стоках. А дабстеп он вообще отказывается делать :) Я будто в прошлый год вернулся. Ну и вокала тоже нет.

Зато не забыли добавить подписку: в месяц дают 20 генераций, а все самые интересные фичи, по типу инпейнтинга, стоят за пейволом. Тестить? Очень интересно, но пробовать, конечно же, не будем.

Кстати, там еще завезли StyleFilter — типа "крутилка" для музыкантов, чтобы обрабатывать музыку. Вот это, пожалуй, самое интересное! Что-то я совсем не видел никаких AI-powered инструментов для музыкантов. А ведь генеративные эффектики 100% могли бы звучать интересно.

Но тут есть минус: для этого такие инструменты должны работать в реальном времени или хотя бы без необходимости рендера. Иначе это будет совсем неудобно для музыкантов.

Хотя, конечно, есть парочка таких штуковин... Ставьте 🦄, если интересно!

Вот вам примеры внизу, о качестве судите сами.

Попробовать можно здесь.

@ai_newz
Нейродайджест за (две) недели (#51)
Первый дайджест в новом году.

Про канал
- Этот год на канале — было много сходок, стримов, постов и всякого-всякого.
- Mustread года — подборка главных постов 2024 года, которые до сих пор остаются актуальными.
- Сходка — создал чатик для того, чтобы встретиться с вами на Бали. Как оказалось, желающих было очень много — уже встретились!

LLM
- Grok 3 на подходе — Маск хвастается, что претрейн уже завершён.
- Qwen Chat — совсем бесплатно и с хорошим функционалом.

Генеративные модели
- Text-to-CAD — интересная попытка научить нейросети работать в 3D при помощи кода. Костыль? Да, костыль.
- JEN-1.5 — самый легальный (и, наверное, единственный) генератор музыки на лицензионном датасете. Для тех, кто любит атмосферу лифта или задаётся вопросом, почему важен хороший датасет.

Железо (Nvidia)
- RTX 5090 — свежие флагманы для пользовательского сегмента от Nvidia. Наконец-то есть на чём тянуть Flux!
- Digits — мини-ПК от Nvidia — убийца Mac Mini. Очень мощный, но по цене сравним с техникой Apple.
- Нейросети против дезинформации — неудачный пример от X.

> Читать дайджест #50

#дайджест
@ai_newz
Mistral обновили Codestral

Новая версия 25.01 значительно умнее и в два раза быстрее, из-за обновлённого токенизатора и улучшенной архитектуры. Окно контекста расширили до 256к токенов. Заявляют первое место на Copilot Arena, но результаты пока что не опубликовали.

С бенчами опять шалят - Qwen 2.5 Coder в сравнении отсутствует, семейство Llama тут представляет не Llama 3.3, а Codellama 70B полуторагодичной давности.

С моделями DeepSeek, на этот раз, всё же сравнивают, но только с моделями меньше 100B параметров, из-за чего сильные MoE модели из сравнения выпадают. А ведь Codestral стоит на уровне скидочных цен DeepSeek V3 - $0.09/$0.30 за вход/выход, не на уровне моделек поменьше. Но у Mistral нету context caching, что сильно повышает цену при реальном использовании модели в кодинге (в Copilot сценариях часто входных токенов 95%+). Ждём независимых бенчей чтобы понять реально соотношение цены и качества.

Весов в открытый доступ не дают, даже по кастрированной лицензии. Попробовать бесплатно можно через плагин continue.dev, он доступен для VS Code и JetBrains.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Омни модель локально на айпаде

Вышла MiniCPM-o 2.6 - опенсорсная омни модель от китайцев из OpenBMB. По пониманию картинок, моделька, не смотря на свой скромный размер, обходит ранние версии GPT-4o.

За основу взяли Qwen2.5 7B, к которому приклеили Whisper и SigLip для обработки аудио и картинок на вход. Для синтеза речи используется ChatTTS-200M. У получившейся модели всего 8 миллиардов параметров, то есть квантизированную версию запустить можно практически где угодно.

Хоть и визуальные бенчи и понимание звука работают довольно хорошо, но разговаривает модель точно не на уровне 4о. Модель сносно говорит на английском (китайский проверить не смог) и может немного играться голосом, но про остальные языки можно забыть. На тасках посложнее, вроде пения, модель совсем сыпется. Но результаты, для такой весовой категории, всё равно отличные.

Это всё ещё одна из первых опенсорс омни моделей, тренировать их пока что не очень умеют. Но то же самое было и с VLM совсем недавно, а сейчас у нас есть сразу несколько хороших семейств моделей в совсем разных весовых категориях. Дальше будет только лучше.

Демо (русский немного понимает, но не разговаривает)
Веса

@ai_newz
Media is too big
VIEW IN TELEGRAM
Ray 2 - новая видеомодель от Luma

Сейчас доступен text to video режим, image to video и другие более продвинутые фичи обещают когда-то потом. Черрипики выглядят хорошо, ждём реальных генераций от пользователей.

Модель доступна только по подписке, за 10 долларов в месяц дают сгенерить 40 видео с ватермаркой, за 30 долларов количество видео растёт до 125, ватермарку снимают и разрешают коммерческое использование. А за 95 долларов в месяц дают доступ к медленной очереди, но без ограничений по количеству генераций.

Блогпост с анонсом (там больше примеров генерации)
Попробовать модель можно тут (платно)

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT Tasks

Ну всё, теперь гптишка может быть полноценным персональным ассистентом. Новая фича позволяет гптишке отправлять вам уведомления и напоминания. Это не геймчейнджер, конечно, но довольно полезная штука для экономии времени. Хотя какой-нибудь Okey-Google мог делать это давным-давно, но с этой штукой можно делать что-то гораздо более интересное, чем просто записывать напоминалки. Дополнительного контекста из чата, особенно если вы активно пользуетесь памятью, может делать очень много. Как насчет: «Придумай, что мне сегодня поесть, основываясь на том, что осталось в холодильнике из списка покупок, который ты писал в начале недели, и учитывая всё то, что я уже готовил по твоей команде»?

Такая фича - явно предвестник агентов, которые, по слухам, OpenAI собирается запустить скоро. Простые уведомления это, конечно, прикольно. Но когда ChatGPT сможет автономно делать за вас даже простые запланированные действия в интернете, всё станет гораздо интереснее. Название проекта - Operator. Оно в последнее время светится всё чаще и чаще, так что релиз не за горами.

@ai_newz
Помните 2007? А стенку "ВКонтакте"?
Хочу тут навалить вам немного ностальгии.

Челиксы, которые когда-то сделали iFunny (тикток до того, как родились зумеры), решили, что пора "Make AI Funny As Fuck". Короче, они создали генеративную ленту ВКонтакте... @AIMemeArenaBot. Я даже как-то соскучился по тупым картинкам с ещё более тупым текстом, но бывает, и улыбнёт. Особенно учитывая, что можно подгружать свою тему для мемасиков.

Главный прикол в том, что ваши оценки мемов учитываются, и вообще это как бы даже не бот для генерации мемов, а chatbot arena — только по приколу. Там на данный момент 8 агентов-мемоделов, причём количество ботов растёт, потому что каждый может добавить своего и поучаствовать в челлендже. А за призовые места даже USDT дают! Причём немало: за первое место аж $3к.

По идее, AI может быть лучше человека во всём, так что и в юморе тоже. Странно, что мало кто делает упор на это в резерче, хотя юмор это очень важный компонент человеческой коммуникации. Если зайти в чат GPT и что-то у него спросить, вряд ли он вас рассмешит, ведь для хорошей шутки ещё нужен сетап, да и текст в ChatGPT, как правило, будет выдаваться очень банальный. Поэтому круто, что есть такой челлендж. Видно, что участники взяли датасетик очень неплохой и промпт подобрали. Можно как раз взять топ мемов из IFunny для файнтюна своих агентов.

Пушит всю эту тему с юмором для AI один из создателей Spatial Chat (у них недавно был exit). Он русскоговорящий, поэтому и мемы на русском. В англоязычном сегменте, конечно, есть что-то подобное, но без арены и без бесплатного бота. И первый подобный сервис, который попался в поисковике не такой весёлый :)

Я закинул в контекст бота последние посты с канала, а выше — то, что вышло.

AI Meme Arena Challenge

@ai_newz