FSCP
17.3K subscribers
30.5K photos
3.56K videos
862 files
78K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Дешёвые, как грязь, LLM

API-провайдеры невероятно быстро снижают стоимость использования своих LLM. При отсутствии ярко выраженного лидера по качеству моделей, главным аргументом становится цена.

Google с 12 августа дропает цены на Gemini Flash на 80%. Вот и реакция на GPT-4o mini, спустя две недели после релиза. Вот бы то же самое сделали с Pro 1.5.

Новая версия GPT-4o упала в цене до $2.5 input/$10 output за миллион токенов, прошлые версии стоили $5 input/$15 output за миллион токенов. Последний месяц Claude 3.5 Sonnet и Llama 3.1 405B сильно поджимали OpenAI по цене, пришлось отвечать.

Deepseek релизит обещанный месяц назад Context Caching. Цены поражают: стоимость токенов при попадании в кэш падает не в 2x, как у гугла, а в 10x, при этом с бесплатным хранением. DeepSeek V2 и так произвёл эффект разорвавшейся бомбы на китайском рынке три месяца назад: модель была в разы дешевле конкурентов, при лучшем качестве. А сейчас нанесли добивающий удар.

С такими темпами цена за миллион токенов станет меньше цента менее чем через год. И будем мы мерять цены в долларах за миллиард токенов.

А помните, цены на GPT-4 доходили до $60 input/$120 output?
_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Сверхзвуковые LLM https://t.iss.one/ai_newz/3169

Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B

Сделал это стартап Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq.

Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например Sohu. Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно?

Попробовать можно тут.
_______
Источник | #ai_newz
@F_S_C_P

Генерируй картинки с ⛵️MIDJOURNEY в Telegram
Как LLM хранят факты?

Принес вам на вечер субботы отличный ролик от 3blue1brown. На этот раз гений интуитивного обучения расскажет про то, как LLM запоминает факты.

Это видео для полных новичков, объясняющее роль многоуровневого перцептрона (MLP/FFN) в LLM. Это третье и последний эпизод в серии о работе LLM. D первых двух объяснялось как работают эмбеддинги и как работает механизм внимания. Эта серия - лучшее объяснение для непрограммистов о том, как работают LLM, с кучей хороших визуализаций.

www.youtube.com

Смотрим здесь.
_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Reflection 70B - дообученная Llama 3.1, обгоняющая все GPT-4o

Модель была дообучена на синтетических данных (созданных другой нейросетью) и по бенчмаркам обходит GPT-4o, а в скором времени обещают выпуск модели на 405B параметров.

Особенность модели - она проверяет сама себя и исправляет, перед тем как дать финальный ответ. Из-за этого время генерации ответа увеличивается, но и улучшается качество ответа.

Модель доступна в для загрузки, но даже квантованная до 4-bit GGUF версия требует 42.5 Гигабайта видео или оперативной памяти, а версия квантованная до 2-bit - 29.4 Gb.

Тем не менее, протестировать ее можно тут: Reflection 70B Playground, но из-за большой нагрузки сайт периодически ложится

#llm #ai #chatgpt

_______
Источник | #neurogen_news
@F_S_C_P

-------
Секретики!
-------
Media is too big
VIEW IN TELEGRAM
Если вам когда-либо было интересно, как получить мегакластер GPU, то вот вам подробный гайд от Ларри Эллисона, фаундера того самого Оракла. Челу 80, кстати, похоже, он всё-таки нашёл эликсир вечной молодости.

Ну так вот, записываем:
1) Приходим на ужин к Дженсену Хуангу.
2) Вместе с Маском умоляем Кожанку взять ваши миллиарды.
3) Поздравляю, если вам повезёт, то партию свеженьких GPU не задержат.

Теперь повторяем😂

Кроме шуток, Oracle – одна из немногих компаний, которая смогла заполучить контракт на более чем 100.000 видеокарт NVIDIA Blackwell (это GB200, например). Они уже строят огромный кластер, который заработает в первой половине 2025. А сбоку еще планируют пристроить 3 маленьких атомных реактора на ~1000 MW, чтобы все это дело запитывать электроэнергией.

Короче, если GPU - это новая нефть, то AI – это новый автомобиль.
_______
Источник | #ai_newz
@F_S_C_P

-------
Секретики!
-------
А вот ещё примеры генерации нашей модели вам на обозрение.

Те примеры, где показано маленькое фото в правом верхнем углу – это результат персонализированной генерации с заданным лицом (Personalized Movie Gen).

Переходим на качественно новый уровень!

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
О компенсации в FAANG+ (часть 1)

В MAANG и прочих Биг-Техах существует четкая иерархия инженерных уровней, которая определяет ваш карьерный рост и компенсацию. Подробнее о левелах от L3 до L8 и различиях между ними я писал в . Сейчас же поговорим про компенсацию (зп в простонародии) и из чего она обычно состоит.

Зп как правило зависит от грейда, но грейды в FAANG не 1 к 1 совпадают между компаниями, ну и компенсация тоже может варьироваться. Как вы видите на картинке с levels.fyi, есть различия между фирмами, например Senior - это L5 в Мете, L6 в Амазоне и L4 в Эппл. Поэтому в этом посте мы рассмотрим линейку грейдов Гугла/Меты как хрестоматийную, от нее и будем отталкиваться.

Total comp (полная компенсация) в FAANG обычно состоит из базовой компенсации (кеш), equity (стоков) и бонусов.

- Base (кеш) - это то, что вы получаете на свою банковский счет ежемесячно. Кешевые вилки обычно строго определены для каждого уровня. Эти деньги вы получаете всегда, независимо от вашего перформанса. Обычно указывется как Gross (до налогов) в год.
- Еquity - это как правило частичка компании в виде акций (stocks) или опционов, которые вам выдают как часть компенсации. Обычно пакет акций выделяется на 4 года, и они попадают вам в руки (vesting) раз в квартал – вы получаете в полное владение 1/16 от общего числа акций и можете с ними делать, что хотите. Это делается для того, чтобы замотивировать сотрудника (а) остаться подольше (б) хорошо работать, чтобы компания росла в цене.
- Refreshers - это дополнительные небольшие пакеты акций, которые вы получаете раз в год по итогам вашего перформанса. Они тоже вестятся в течение 4-х лет. Таким образом за несколько лет работы в одной компании у вас накапливается несколько пакетов акций, из каждого из которых раз в квартал вы получаете 1/16. Кумулятивный эффект может быть весьма заметным, значительно увеличивая ваш total comp.
- Бонусы - это % от Base, который вам дается по итогам перформанса за год. Размер бонуса (в % ) зависит от вашей синьорности и коэффициентов, которые высчитываются из вашего перформанса и успехов компании за год. Для L3 это обычно 10%, для L4 и L5 - 15%, для L6 - 20%.
- Sign-on bonus - разовая бонусная выплата в начале работы на новой месте. Часто используется чтобы компенсировать упущенную выгоду при смене работы кандидатом либо для покрытия расходов на переезд. Обычно от $10,000 до $100,000. У меня некоторые знакомые, с помощью таких сайн-онов закрывали долги за обучение и спокойно уезжали работать.

Размер Equity, Refreshers и бонусов сильно зависит от вашего уровня и того, насколько вы востребованный специалист. Например, Base компенсация у SWE и AI Researcher-ов не отличается, а вот размер пакета акций и сайн-он бонуса может быть совсем разным для рядового SWE и для AI Research Scientist / AI Engineer, который прям очень нужен компании.

Медианная total comp у SWE (Software Engineer) в США по статистике с Glassdoor на сентябрь 2024 - $181,000/год. Но это число может быть слегка завышено.

В FAANG+ же зарплаты стартуют от $150к для джунов и до $550к для синьоров. А грейды Staff+ могут зарабатывать от $600к до нескольких миллионов.

В Европе везде в среднем платят значительно ниже чем в США, кроме Швейцарии (там заработок +- как в США), и Англии (там выше чем в остальной Европе, но ниже чем в Швейцарии). Но все равно FAANG+ далеко в лидерах по total comp, а довольно высокий уровень жизни в Европе будет обходиться сильно дешевле чем в США или Швейцарии.

Если вы сейчас планируете сделать рывок в своей Total comp, то я как раз скоро буду в первый раз проводить интенсив по подготовке к собесам на AI/ML роли в FAANG+. Будут фишки и best practices как готовиться и чего ожидать. По {...продолжить в источнике}

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
Треним Лоры для Flux 1.0 [dev] бесплатно

Люблю опенсорс. А ещё больше нонпрофит проекты, основанные на опенсорсе (да, OpenAI?).

Ежедневно выходит куча проектов с исходным кодом, о которых я даже не успеваю писать, но ведь, кроме обзора статей, хочется ещё и потыкаться самостоятельно. А установка у таких проектов обычно муторная — кто-то всё ещё с сетапом Comfy мучается.

Так вот, Tost.AI — сайт, на котором можно потыкать новые модельки и пайплайны по типу Live Portrait, до которого у меня так и не дошли руки.

Там же можно натренировать свою LoRa и делать всякие ништяки. Кстати, LoRa на Flux выходят бомбические. По набору из 6 фотографий можно консистентно генерить один и тот же объект. Детали реального объекта передаются настолько точно, что сохраняется даже текст (салют креативным фотографам).

Можно, например, по фотографиям из white бокса сделать фото продукта с моделью (или на модели), или красивую картинку где-то в необычной локации и пр.

Тут стоит отметить, что, хоть веса под non-profit лицензией, вы полностью владеете картинками, которые генерит Flux:
d. Outputs. We claim no ownership rights in and to the Outputs. You are solely responsible for the Outputs you generate and their subsequent uses in accordance with this License. You may use Output for any purpose (including for commercial purposes), except as expressly prohibited herein. You may not use the Output to train, fine-tune or distill a model that is competitive with the FLUX.1 [dev] Model.


Делаем так (см. видос):
1. Заходим, регистрируемся на tost.ai
2. В первой плашке выбираем Train Lora
3. Придумываем триггер-ворд
4. Подгружаем файлы через кнопку Add
5. Жмём Enter и ждём минут 30
6. Качаем файл safetensor
LoRa готова, теперь можно генерить!

Для этого:
1. В первой плашке идём в Text to Image, во второй — Flux 1 Dev. Custom Lora
2. Загружаем файл LoRa, ждём, пока обновится ссылка
3. Далее всё как обычно, главное не забыть триггер-ворд

Жду ваши тесты в комментариях!

UPD: Добавили Flux.1 Dev - ControlNet inpating

Tost.ai
Лицензия FLUX.1 [Dev]

#tutorial
@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
This media is not supported in your browser
VIEW IN TELEGRAM
Авторы Chatbot Arena выпустили расширение для VS Code для оценки моделей для кодинга. По сути, это бесплатный копайлот, где предлагают выбирать из нескольких вариантов, сгенеренных разными моделями. Это должно позитивно повлиять на оценку моделей для кода, ведь именно автодополнение никто больше не бенчит. Отдельная арена тут может помочь до какой-то степени, пока разработчики на неё не оверфитнулись. А дальше придётся придумывать новые бенчи.

Если хотите попользоваться, учтите, что ваш код будут отправлять хостерам моделек на арене, что допустимо для опенсорс разработок и каких-то личных проектов. А вот для коммерческой разработки, конечно же, такое использовать не стоит.

Скачать

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Запускаем Voice Mode ChatGPT если вы не из США 😆

и устанавливаем официальную апку на андройд.

Недавно интернет заполонили тесты новой фичи OpenAI, которую (наконец-то!) раскатили для всех платных подписчиков аккурат перед презентацией Meta, ведь там показали тоже показали голосовой режим.

Но потестить новый функционал в OpenAI удалось далеко не всем, потому что большинство русскоговорящих пользователей используют чат в браузере, где Voice Mode не работает, а приложения в плейсторе нет.

#гайд ChatGPT из Play Market и как пользоваться им без VPN.
Шаг 1. Самый муторный.
Меняем страну аккаунта Google на США.

(Можно попытаться пропустить этот шаг и скачать apk с какого-нибудь зеркала, но, скорее всего, это не сработает)

1.1 Открываем payments.google.com > Настройки.

1.2 Создаём новый платёжный профиль в США. Жмём на карандаш рядом с пунктом «Страна», см. скрин.

1.3 Переходим на сайт bestrandoms.com и генерируем американский адрес.
(Желательно в Аляске — если вдруг что-то будете оплачивать с карты US, не будет налога. Аналогично можно сгенерировать адрес для других стран и карт)

1.4 Для надёжности можно удалить старый non-US профиль.

1.5 Заходим в Google Play (Play Market) > Настройки > Общие > Настройки аккаунта и устройства. В разделе «Страна и профили» меняем страну на США.

Плеймаркет обновится не сразу, так что если не получилось с первого раза, подождите ещё суток, и приложение появится. (По крайней мере вышло именно, так когда мы тестировали)


Шаг 2. Кайфовый.
Включаем Private DNS.

2.1 Открываем настройки устройства, вводим в поиске «Private DNS» и вписываем туда адрес сервиса DoT от Comss (подробнее здесь).

2.2 Идём в Настройки > Подключение и общий доступ > Частный DNS сервер и вставляем туда адрес: comss.dns.controld.com.

2.3 Всё! Теперь ChatGPT (а также Bing, Bard и Claude) будет работать без VPN. К тому же, это избавит от большей части рекламы на сайтах и в приложениях, ещё и повысит безопасность сети.

Шаг 3. Финальный.
Устанавливаем приложение ChatGPT из Google Play.

3.1 Установили.

3.2 Вошли.

Готово! Если у вас есть подписка, то Voice Mode уже должен быть доступен. Делитесь своими экспериментами в комментах.

Источник 4PDA
_______
Источник | #ai_newz
#полезности
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Новый Sonnet и Haiku от Anthropic!
www.anthropic.com
Claude 3.5 Sonnet сильно прокачали по всем фронтам, особенно в кодинге (где дальше o1 обошли). А маленький Claude 3.5 Haiku теперь на уровне прошлой большой модели, в том числе в кодинге и размышлениях, при этом стоит копейки.

Плюс сделали фичу Computer Use - www.anthropic.com
Теперь можно попросить модель "использовать компьютер за вас": двигать мышкой, кликать, вводить. Пока только для разработчиков и работает нестабильно, но выглядит круто. RPA-провайдеры нервно закурили

Смотрите крутой видос - youtu.be

_______
Источник | #ai_product
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Скорость Llama 3.1 70B выросла в 4 раза

Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.

Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.

Попробовать можно тут.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
Github Copilot начинает серьёзно конкурировать с Cursor

На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.

Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.

Наконец-то добавили multi-file editing.

Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.

Copilot теперь доступен в Xcode и Windows Terminal.

Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.

Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.

Большая часть показаных фич уже доступна, правда некоторые лишь в превью.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Уже пару недель прошло с выставки Adobe MAX, а только сейчас дошли руки посмотреть, что там они наворотили. Все потому, что презентация шла аж три дня, и новости поступали постепенно. Причем нигде нет какого-то списка нововведений, поэтому я собрал свой дайджест новых фич с упором на GenAI, чтобы убедиться, что вы ничего не пропустили.


Photoshop

1. Firefly 3. Генерит картинки получше. Юзается в Generative Fill и почти во всем, что идет далее.

2. Project Clean Machine. Чистит картинки от всех артефактов и мусора (включая людей). Выделяет мусор автоматически.

3. Harmonize. По сути, релайт, но удобно встроенный в Photoshop. Теперь композить ничего не стоит.

4. Substance 3D. Можно открывать 3D-файлы, крутить их, вращать и менять как материалы, так и освещение. Кроме того, Adobe научили Photoshop генерить гауссиан сплаты, которые потом можно апгрейдить до юзабельного состояния через встроенный img2img рефайнер.

5. Generative Work Space. Встроенный интерфейс Midjourney. Можно генерить картиночки. Из приколов — знакомый нам IP Adapter на стиль и новый Composition Reference, ну и всякие пресетики для ньюбисов.

6. Project Concept. Прикольный поисковик референсов на основе ИИ. Мудборды теперь делаем только там. Кроме того, можно мешать картинки по целому списку параметров: стиль, фон, цвет, освещение и объект. Можно указать, что тебе нравится на референс-картинке, а потом еще и удобным ползунком их смешать. Там же — realtime генерация с перемещением картинок как в Krea. Короче, упор не в промптинг, а в смешивание картинок через img2img или IP-адаптеры всех мастей.


Premiere Pro / After Effects

7. Firefly Video и Generative Extend. Можно продолжить клип на пару секунд. Зачем? Ну, наверное, спасти всратый футаж, ну и видосики генерить.

8. Project Super Sonic. Такого мы еще не видели. Генерирует аудиоэффекты на основе голосового наброска. Короче, рычишь в микрофон своим тоненьким голоском, а на выходе получаешь рык дракона. Весело будет поиграться. (Демо как раз показано на видео в этом посте)

9. Также улучшили выделение объектов по типу как в Segment Anything Video. (Гринскрин больше не нужен). А вот про трекинг новостей вроде бы не было.


Illustrator

10. Gen Shape Fill. Generative Fill для Illustrator. Делаешь набросок формы, а оно его закрашивает и добавляет деталей. И все это вектор. Наверное, лучший txt2svg, но нужно тестить.

11. Rotatable Vectors. Немного ломает мозг — SVG-шки (2D-векторы) крутятся! Зачем — хз, сразу норм нарисовать, не? Хотя выглядит клево.

12. Layout Variations. Мало того, что сам постер нарисовали со скетча от руки, так потом еще и дергают его во все стороны, меняя соотношение сторон, а постер сам подстраивается. Удобно!

Ну и вишенка на торте для тех, кто все еще переживает за авторские права: все это абсолютно легализовано и лицензировано. Так что вот, наслаждаемся.Часть инструментов уже доступна на сайте Adobe, но большинство непонятно когда выпустят.

В целом довольно интересно. Часть решений, конечно, уже год валялись в опенсорсе, но здесь заметен скачок в качестве (всё-таки есть и данные, и железо), и даже показали пару новых фич.


P.S. Примеры смотрим в комментариях.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Super Sonic sound special effects с контролем голосом от Adobe (из анонса в этом посте).

Видали прикол? Кричишь в микрофон, а на выходе — рык дракона. txt2sfx от Eleven Labs конечно прикольно генерит, но таким образом тяжело попасть в динамику движений в кадре.

Больше всего завирусился отрывок генерации по голосу, но оказывается, модель умеет генерить ещё и по движению на футаже. Более того, можно сегментировать кадр и делать озвучку только для какой-то отдельной его части (см. видео с примером НЛО). Пока генерация чисто по видео работает не очень хорошо в сложных сценах, так что SFX-еры ещё успеют наиграться с этой тулзой, ведь она даёт наибольший контроль над динамикой и характером звука. Кстати, в кино много эффектов делают именно голосом с жирной пост-обработкой — это база.

Подобные решения уже появлялись на рынке, но без возможности описывать сам звук текстом. Можно было, например, напеть мелодию, и она переводилась в мелодию на гитаре. Хотя чего-то реально юзабельного не было. Интересно, как SuperSonic проявит себя на этом поприще.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
Риалтайм предсказание положения тела по одной ego-камере

Одна шакальная камера на голове, о качестве можете судить сами в правом верхнем углу. В середине — предсказанное положение тела и облако из SLAM-точек. + можете сравнить с тем, что было на самом деле. https://t.iss.one/ai_newz/3427

Одна из главных проблем всех этих ваших виаров и эйаров заключается в том, что нужно раскидать камеры по всей комнате для трекинга положения тела. Я тоже решал эту проблему, когда работал в Reality Labs - мы предложили диффузионную модель AGRoL, которая по трекингу рук и головы синтезирует движение всего тела в 3D. Теперь зацените свежачок от интернов из Meta Reality Labs.

Тут пошли еще дальше и используют только одну RGB камеру на голове (которая итак стоит во всех VR/AR очках), они смогли в реальном времени (70FPS на A100) с задержкой всего 0.17 секунд отследить положение всех конечностей, даже если они не попадают в кадр.

Ребята решили взять максимум из того, что есть: они скормили диффузионке данные о положении головы, цветную картинку и набор SLAM-точек (думайте об этом как о гауссовских сплатах на минималках). Кроме того, добавили CLIP-эмбеддинг для извлечения семантической информации (что находится в кадре). Всё это обучили на 200 часах видеоконтента с данными от motion capture костюма для захвата движений.

В результате получилась модель, которая не только лучше предшественников, но и работает супербыстро, что позволяет использовать её для онлайн-процессинга. Правда, пока SLAM работает только в статике — если, например, передвинуть стол, модель этого не заметит.

Очевидно, бенефициар этой технологии — это AR и VR. Игрушки выйдут топовые, хоть на поле 100 на 100 игроков устраивай, как это показывал Snapchat на последней презентации своих очков. Нужно только рядом кластер с хотябы 1xA100 на человека поставить 😁.

Помимо игр, технология пригодилась бы в робототехнике, в частности, для обучения робогуманоидов нормально ходить и ориентироваться в пространстве. Такие данные сложно получить сразу в большом объёме, поэтому сейчас, например, используют imitation learning, как в этом посте про живую сталь.

Пейпер
Код (скоро)
Project page

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс

Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.

По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.

Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.

Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.

Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.

chat.deepseek.com

_______
Источник | #ai_newz
@F_S_C_P

-------
Секретики!
-------
Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
А вот и несколько задачек из ARC-AGI, на которых валится o3, даже в high-compute режиме (где на одну задачу уходят десятки миллионов токенов, стоимостью в несколько тысяч долларов).

Самим порешать эти головоломки можно здесь. Задачи со скринов: 1, 2, 3. За сколько времени у вас их выйдет решить?

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиард активных параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2, а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

_______
Источник | #ai_newz
@F_S_C_P

-------
Секретики!
-------