эйай ньюз
73.2K subscribers
1.62K photos
859 videos
7 files
1.93K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Mixture of Parrots: Experts improve memorization more than reasoning

Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.

Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.

Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.

Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.

Пейпер

@ai_newz
Github Copilot начинает серьёзно конкурировать с Cursor

На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.

Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.

Наконец-то добавили multi-file editing.

Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.

Copilot теперь доступен в Xcode и Windows Terminal.

Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.

Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.

Большая часть показаных фич уже доступна, правда некоторые лишь в превью.

@ai_newz
Ого! Кто-то посмел побить Flux 1.1 Pro на text2image арене.

Ребята из стартапа Recraft.ai выпустили свои модель V3, которая прям очень хорошо генерит картинки. Еще они очень круто обучились разным стилям, включая Vector Art, на котором у стартапа и был изначальный фокус.

Кстати, респект ребятам, кто тренил модель! Напишите в комментах (или в лс), если кто-то из вас читает канал:)


Потестить можно на Recraft.ai (50 бесплатных генераций)

@ai_newz
Вот еще мой непредвзятый тест Recraft v3 c одним и тем же промптом и 8-ми разными стилями. Текст тоже хорошо рисует.

На каждый стиль я сгенерил по 2 картинки и выбрал одну лучшую, так что тут минимальный черипик. Одна генерация занимает от 8 до 14 секунд.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Уже пару недель прошло с выставки Adobe MAX, а только сейчас дошли руки посмотреть, что там они наворотили. Все потому, что презентация шла аж три дня, и новости поступали постепенно. Причем нигде нет какого-то списка нововведений, поэтому я собрал свой дайджест новых фич с упором на GenAI, чтобы убедиться, что вы ничего не пропустили.


Photoshop

1. Firefly 3. Генерит картинки получше. Юзается в Generative Fill и почти во всем, что идет далее.

2. Project Clean Machine. Чистит картинки от всех артефактов и мусора (включая людей). Выделяет мусор автоматически.

3. Harmonize. По сути, релайт, но удобно встроенный в Photoshop. Теперь композить ничего не стоит.

4. Substance 3D. Можно открывать 3D-файлы, крутить их, вращать и менять как материалы, так и освещение. Кроме того, Adobe научили Photoshop генерить гауссиан сплаты, которые потом можно апгрейдить до юзабельного состояния через встроенный img2img рефайнер.

5. Generative Work Space. Встроенный интерфейс Midjourney. Можно генерить картиночки. Из приколов — знакомый нам IP Adapter на стиль и новый Composition Reference, ну и всякие пресетики для ньюбисов.

6. Project Concept. Прикольный поисковик референсов на основе ИИ. Мудборды теперь делаем только там. Кроме того, можно мешать картинки по целому списку параметров: стиль, фон, цвет, освещение и объект. Можно указать, что тебе нравится на референс-картинке, а потом еще и удобным ползунком их смешать. Там же — realtime генерация с перемещением картинок как в Krea. Короче, упор не в промптинг, а в смешивание картинок через img2img или IP-адаптеры всех мастей.


Premiere Pro / After Effects

7. Firefly Video и Generative Extend. Можно продолжить клип на пару секунд. Зачем? Ну, наверное, спасти всратый футаж, ну и видосики генерить.

8. Project Super Sonic. Такого мы еще не видели. Генерирует аудиоэффекты на основе голосового наброска. Короче, рычишь в микрофон своим тоненьким голоском, а на выходе получаешь рык дракона. Весело будет поиграться. (Демо как раз показано на видео в этом посте)

9. Также улучшили выделение объектов по типу как в Segment Anything Video. (Гринскрин больше не нужен). А вот про трекинг новостей вроде бы не было.


Illustrator

10. Gen Shape Fill. Generative Fill для Illustrator. Делаешь набросок формы, а оно его закрашивает и добавляет деталей. И все это вектор. Наверное, лучший txt2svg, но нужно тестить.

11. Rotatable Vectors. Немного ломает мозг — SVG-шки (2D-векторы) крутятся! Зачем — хз, сразу норм нарисовать, не? Хотя выглядит клево.

12. Layout Variations. Мало того, что сам постер нарисовали со скетча от руки, так потом еще и дергают его во все стороны, меняя соотношение сторон, а постер сам подстраивается. Удобно!

Ну и вишенка на торте для тех, кто все еще переживает за авторские права: все это абсолютно легализовано и лицензировано. Так что вот, наслаждаемся.Часть инструментов уже доступна на сайте Adobe, но большинство непонятно когда выпустят.

В целом довольно интересно. Часть решений, конечно, уже год валялись в опенсорсе, но здесь заметен скачок в качестве (всё-таки есть и данные, и железо), и даже показали пару новых фич.


P.S. Примеры смотрим в комментариях.

@ai_newz
Еще один миллиардер мульти-миллионер вышел из OpenAI на пенсию.

Chief Research Officer уволился из OpenAI. Не знаю, чем именно он там занимался, но за свои восемь лет работы, он явно заработал несколько сотен миллионов $$$. Обычно такие ребята зарабатывают от нескольких миллионов в год акциями до нескольких десятков миллионов. Учитывая 10x рост оценки OpenAI c $15 млрд до $157 млрд только за последние 4 года, легко оценить что Бобу больше не нужно будет работать никогда.

И вертел он все эти политические игры в руководстве и перестройку компании с non-profit в for-profit.

@ai_newz
На днях стали известны итоги прошедшего ML Prize. Заявлено всего было 160 работ, из которых выделили 14 самых значимых. Победители получили денежную премию в зависимости от номинации и ещё гранты в Yandex Cloud для расчетов + остальные плюшки. Пейперы worth to check out, особенно если сами планируете двигать ML. Отобрал неплохие бумаги, вот парочка:

Вот пытаются сделать децентрализованную многоагентную навигацию для робо-роя, исследование на dissercat. Кроме всяких футуристичных штук, полезно в складской логистике.

Ещё разрабатывают методы обучения генеративных моделей на основе теории оптимального транспорта. Планируют применять для проектирования (как ни странно) транспорта, а также материалов и лекарств.

Ещё об оптимизации децентрализованных систем и асинхронных вычислений.

Было еще много всего про многоагентные системы и оптимизации. Ну и здесь стоит добавить, что премия выдавалась не за конкретные пейперы, а по категориям. Подробнее здесь

@ai_newz
Тут за последние пару дней было несколько новых фич от LLM провайдеров

Легко было что-то упустить, поэтому я собрал всё в один пост.

OpenAI выпустили в публичный доступ SearchGPT - всё ещё отстаёт от Perplexity по качеству, зато довольно быстрый, да и обычные пользователи про Perplexity и не слышали. Но всё ещё иногда начинает искать в интернете, когда это совсем не нужно (если кто-то знает, как можно отключить эту функцию, напишите, пожалуйста, в комментариях).

Почти одновременно с SearchGPT они выпустили возможность дистиллировать модели. То есть сначала можно отвечать моделью вроде o1 либо 4o, а потом дистиллировать их ответы для вашего конкретного юзкейса в модель поменьше, например 4o-mini. Чтобы вы могли оценить, насколько хорошо это работает, добавили возможность создавать собственные методы оценки моделей. Цены соответствуют стандартным для файнтюнинга.

Ещё случайно сделали доступной полноценную o1 на пару часов - видимо релиз близко. В добавок к возможности загружать файлы и картинки, она заметно умнее o1-preview - та заметно проседает в математике и кодинге и отстаёт в этом даже от o1-mini. Кстати не первый раз случайно дают не те права доступа к модели, но раньше это было с внутренними моделями для тестирования. Интересно, GPT-5 так утечёт?

Anthropic выпустили приложение Claude для Mac и Windows — в принципе, похоже на мобильное, возможно, готовятся к релизу функции computer use для подписчиков. Ну и глобальный шортакт для вызова клода удобный.

Кроме того, теперь Claude может понимать изображения в PDF. Однако контекст для обычных пользователей всё ещё ограничен 200к токенами (против 500к у корпоративных пользователей), поэтому пользоваться, не выходя за пределы контекста, сложно.

Google добавили Grounding для Gemini в AI Studio и API. Теперь запросы к LLM можно привязывать к результатам поиска. Стоимость — $35 за тысячу запросов.

Чем из этого вы уже пользовались? Как вам?

@ai_newz
Нейродайджест за неделю (#42)

Робототехника
- CoTracker3 — новая модель для трекинга точек от исследователей из Meta. Как минимум это полезно для обучения роботов и контролируемой генерации видео.
- Как научить роборуку играть в дженгу за 1 час — пособие для начинающих. Все благодаря тому, что демонстрации человека и исправление ошибок встроены прямо в RL-пайплайн.

ЛЛМ
- MoE улучшает память больше, чем reasoning — статья пытается ответить, почему MoE показывает хорошие результаты по World Knowledge, но уступает в математике и логических рассуждениях по сравнению с плотной моделью.
- YandexGPT 4 — звёзд с неба не хватает, но и прогресс есть.
- Github Copilot на подъёме — новые фичи и поддержка актуальных LLM. Наконец-то достойный конкурент Cursor.
- Дайджест по LLM провайдерам — вышло много обновлений, собрал все в одном посте. Даже случайно слили o1 (уже не превью), OpenAI дали общий доступ на пару часов, лол.

Генеративные модели
- Recraft.ai — «Тёмная Лошадка» обошла Flux на арене. Респект ребятам!
- Adobe Max — большой дайджест по презентации Adobe, где показали много реально полезных инструментов. Must-read для дизайнеров.

Прочее
- О ценности PhD — так что, ребят, продолжаем рисерчить.
- Ещё -1 в OpenAI — Chief Research Officer Боб МакГрю ушёл в безвеременный отпуск. Денег он уже набрал достаточно и вертел всю эту «Игру престолов». Коллективно понимаем...

> Читать дайджест #42

#дайджест
@ai_newz
Media is too big
VIEW IN TELEGRAM
Super Sonic sound special effects с контролем голосом от Adobe (из анонса в этом посте).

Видали прикол? Кричишь в микрофон, а на выходе — рык дракона. txt2sfx от Eleven Labs конечно прикольно генерит, но таким образом тяжело попасть в динамику движений в кадре.

Больше всего завирусился отрывок генерации по голосу, но оказывается, модель умеет генерить ещё и по движению на футаже. Более того, можно сегментировать кадр и делать озвучку только для какой-то отдельной его части (см. видео с примером НЛО). Пока генерация чисто по видео работает не очень хорошо в сложных сценах, так что SFX-еры ещё успеют наиграться с этой тулзой, ведь она даёт наибольший контроль над динамикой и характером звука. Кстати, в кино много эффектов делают именно голосом с жирной пост-обработкой — это база.

Подобные решения уже появлялись на рынке, но без возможности описывать сам звук текстом. Можно было, например, напеть мелодию, и она переводилась в мелодию на гитаре. Хотя чего-то реально юзабельного не было. Интересно, как SuperSonic проявит себя на этом поприще.

@ai_newz
Anthropic наконец-то релизнули API Claude 3.5 Haiku

Результаты SWE Bench выше чем у июльского Sonnet 3.5. Cutoff данных тренировки - июль 2024.

Этого мало чтобы перекрыть минусы - цена выросла в 4 раза по сравнению с 3.0, а изображения в качестве инпута модель на старте просто не поддерживает. Кажется Anthropic, которые изначально и начали гонку дешёвых моделей, решили просто заняться рекламой GPT 4o-mini и Gemini Flash.

Я совсем не понимаю зачем использовать эту модель, а что думаете вы?

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Marimo - как Jupyter, только лучше

Огромная часть кода для ИИ пишется и запускается в Jupyter ноутбуках, как локально так и в колабах. Но они не идеальны - дефолтно редактировать код там не очень удобно, часто можно наворотить такого, что решается лишь перезапуском ноутбука. Marimo решает заметную часть проблем Jupyter, при этом привнося кучу новых фич:

Реактивность - при изменении ячейки, зависящие от неё ячейки тоже автоматически пересчитываются (смотреть гифку). Если пересчитывать половину ноутбука при каждом изменении не хочется, то можно включить lazy mode, который будет всего лишь помечать ячейки устаревшими.

Отсутствие "hidden state" - переменная из удалённого когда-то куска кода теперь никак не будет влиять на код текущий, рандомных перезапусков теперь будет поменьше.

Поддержка ИИ ассистентов - как автокомплиты Copilot и Codeium, так и API больших моделей (OpenAI, Anthropic, Google).

Интеграция с пакетными менеджерами - можно указать зависимости для конкретного ноутбука, Поддерживаются все популярные пакетные менеджеры для Python, за исключением Conda.

Интерактивность - использовать местные виджеты куда проще чем в Jupyter так как не нужно использовать колбеки.

Ноутбуки хранятся в обычных питон файлах, так что их куда проще хранить в гит репозиториях и запускать как скрипты.

Основной минус - неполная поддержка LSP, так что об ошибках типизации узнаёшь только когда код запускается. Отсутствие LSP в Jupyter Notebooks - одна из причин почему может быть не очень удобно использовать Cursor (Microsoft блокирует использование Pylance в Cursor, а Jedi не поддерживает Jupyter). Да и работает пока что только в браузере, но надеюсь мы получим и расширение для VS Code.

Хоть тула ещё и в альфе и не всё идеально, то что есть подаёт надежду и ощущается заметно лучше Jupyter, по крайней мере после нескольких часов которые я им пользовался.

Попробовать можно вот так:
pip install marimo && marimo tutorial intro


Github

@ai_newz
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

@ai_newzэйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

@seeallochnayaСиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

@gonzo_MLgonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

@rybolos_channelKali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

@boris_againБорис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

@tech_priestessТехножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

@dealerAIDealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

@sysblokСистемный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Media is too big
VIEW IN TELEGRAM
Капчи для LLM - Anthropic провели хакатон в Сан-Франциско

Собралось более двухсот человек, было немало интересных проектов.

🥇 Первое место заняла команда, которая дала Claude мануал по использованию робота, и при помощи Computer Use Claude смог управлять роботом и выполнять инструкции (хотя с заметными задержками). Задача была достаточно простой, и хотя скорость работы Claude оставляет желать лучшего, сам факт того, что это работает, впечатляет.

🥈 Второе место заняла капча, которую сложно обойти современным LLM с Computer Use. Участники показали несколько способов поймать Claude: Логические задачки — LLM всё ещё часто ошибаются на таких. Анимированные паттерны, которые видны обычному пользователю, но не видны LLM, ориентирующейся по скриншотам. Ловушки — задачи на время, которые человек просто не успеет решить, а LLM справится без вопросов. Конечно, эти решения сложно масштабировать, но задача важная и её нужно как-то решать.

🥉 Третье место занял проект по улучшению ТЗ через обсуждение несколькими агентами.

Причин использовать Haiku 3.5, участники хакатона не придумали.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Physical Intelligence подняли $400M при оценке в $2 миллиарда.

Чуваки планируют создать foundation model для роботов всех мастей. Чтобы вот воткнул софтинку в машину, а она резко адаптировалась и подстроилась под существующую механику. Похоже, нас ждут «мозги по API»! Но надеюсь, к тому времени научатся считать всё локально.

Главными инвесторами стали Amazon, фонды Thrive и Lux Capital, ну и OpenAI — куда же без них.

Стартап не совсем с голой жопой. Если не считать топовый состав ко-фаундеров, в который входят Mr. Hausman, в прошлом robotics scientist в Google; Sergey Levine, профессор в Беркли, преподаёт computer science, но сам дико угарает по обучению агентов и RL (кстати, я лично с ним знаком, и вот ещё пост про воркшоп с его участием); и Lachy Groom, бывший executive в Stripe (сейчас все зарубежные подписки оплачиваются через него), так что бизнес он вести умеет. Чуваки недавно опубликовали пейпер, где представили свою первую модель pi0 (они кстати процитировали нашу Movie Gen, кек). Научили две роборуки разным приколам типа складывания одежды и уборки. Всё это мы уже видели тут, тут и тут, ну а главные в этом 1X . Да и вообще, вот есть набор «сделай сам» для точно таких же механических рук — здесь (вместе с тренировкой и записью датасета).

Но это только начало, у Physical Intelligence цель в другом. Не просто научить машину в какой-то конкретной конфигурации выполнять команды, а научить вообще всех ботов всему, в том числе саморепродукции и захвату человечества. По факту, есть закос на general purpose модель, и вот в этом и заключается наибольшая проблема - совсем непонятно смогут ли они перегнать general purpose модели от Anthropic или тех же OpenAI, которые всё лучше и лучше справляются с контролем роботов.

Источник
Пейпер

@ai_newz
🔥FLUX1.1 [pro] Ultra and Raw Modes

Новый релиз от Black Forest Labs! 4k 4Mp (примерно 2k) изображения и более реалистичный режим!

1. FLUX1.1 [pro] Ultra - теперь можно генерить картинки в 2k x 2k разрешении! Причем довольно быстро - за 10 сек.

$0.06 за картинку

2. FLUX1.1 [pro] Raw - режим, который передает подлинное ощущение спонтанной фотографии. Генерит изображения с менее синтетической, более естественной эстетикой. Он значительно увеличивает разнообразие человеческих образов и улучшает реализм

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM