FSCP
16.4K subscribers
31K photos
3.69K videos
863 files
79.2K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Запускаем Voice Mode ChatGPT если вы не из США 😆

и устанавливаем официальную апку на андройд.

Недавно интернет заполонили тесты новой фичи OpenAI, которую (наконец-то!) раскатили для всех платных подписчиков аккурат перед презентацией Meta, ведь там показали тоже показали голосовой режим.

Но потестить новый функционал в OpenAI удалось далеко не всем, потому что большинство русскоговорящих пользователей используют чат в браузере, где Voice Mode не работает, а приложения в плейсторе нет.

#гайд ChatGPT из Play Market и как пользоваться им без VPN.
Шаг 1. Самый муторный.
Меняем страну аккаунта Google на США.

(Можно попытаться пропустить этот шаг и скачать apk с какого-нибудь зеркала, но, скорее всего, это не сработает)

1.1 Открываем payments.google.com > Настройки.

1.2 Создаём новый платёжный профиль в США. Жмём на карандаш рядом с пунктом «Страна», см. скрин.

1.3 Переходим на сайт bestrandoms.com и генерируем американский адрес.
(Желательно в Аляске — если вдруг что-то будете оплачивать с карты US, не будет налога. Аналогично можно сгенерировать адрес для других стран и карт)

1.4 Для надёжности можно удалить старый non-US профиль.

1.5 Заходим в Google Play (Play Market) > Настройки > Общие > Настройки аккаунта и устройства. В разделе «Страна и профили» меняем страну на США.

Плеймаркет обновится не сразу, так что если не получилось с первого раза, подождите ещё суток, и приложение появится. (По крайней мере вышло именно, так когда мы тестировали)


Шаг 2. Кайфовый.
Включаем Private DNS.

2.1 Открываем настройки устройства, вводим в поиске «Private DNS» и вписываем туда адрес сервиса DoT от Comss (подробнее здесь).

2.2 Идём в Настройки > Подключение и общий доступ > Частный DNS сервер и вставляем туда адрес: comss.dns.controld.com.

2.3 Всё! Теперь ChatGPT (а также Bing, Bard и Claude) будет работать без VPN. К тому же, это избавит от большей части рекламы на сайтах и в приложениях, ещё и повысит безопасность сети.

Шаг 3. Финальный.
Устанавливаем приложение ChatGPT из Google Play.

3.1 Установили.

3.2 Вошли.

Готово! Если у вас есть подписка, то Voice Mode уже должен быть доступен. Делитесь своими экспериментами в комментах.

Источник 4PDA
_______
Источник | #ai_newz
#полезности
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
October 18, 2024
Скорость Llama 3.1 70B выросла в 4 раза

Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.

Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.

Попробовать можно тут.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
October 27, 2024
Github Copilot начинает серьёзно конкурировать с Cursor

На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.

Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.

Наконец-то добавили multi-file editing.

Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.

Copilot теперь доступен в Xcode и Windows Terminal.

Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.

Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.

Большая часть показаных фич уже доступна, правда некоторые лишь в превью.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
October 31, 2024
Уже пару недель прошло с выставки Adobe MAX, а только сейчас дошли руки посмотреть, что там они наворотили. Все потому, что презентация шла аж три дня, и новости поступали постепенно. Причем нигде нет какого-то списка нововведений, поэтому я собрал свой дайджест новых фич с упором на GenAI, чтобы убедиться, что вы ничего не пропустили.


Photoshop

1. Firefly 3. Генерит картинки получше. Юзается в Generative Fill и почти во всем, что идет далее.

2. Project Clean Machine. Чистит картинки от всех артефактов и мусора (включая людей). Выделяет мусор автоматически.

3. Harmonize. По сути, релайт, но удобно встроенный в Photoshop. Теперь композить ничего не стоит.

4. Substance 3D. Можно открывать 3D-файлы, крутить их, вращать и менять как материалы, так и освещение. Кроме того, Adobe научили Photoshop генерить гауссиан сплаты, которые потом можно апгрейдить до юзабельного состояния через встроенный img2img рефайнер.

5. Generative Work Space. Встроенный интерфейс Midjourney. Можно генерить картиночки. Из приколов — знакомый нам IP Adapter на стиль и новый Composition Reference, ну и всякие пресетики для ньюбисов.

6. Project Concept. Прикольный поисковик референсов на основе ИИ. Мудборды теперь делаем только там. Кроме того, можно мешать картинки по целому списку параметров: стиль, фон, цвет, освещение и объект. Можно указать, что тебе нравится на референс-картинке, а потом еще и удобным ползунком их смешать. Там же — realtime генерация с перемещением картинок как в Krea. Короче, упор не в промптинг, а в смешивание картинок через img2img или IP-адаптеры всех мастей.


Premiere Pro / After Effects

7. Firefly Video и Generative Extend. Можно продолжить клип на пару секунд. Зачем? Ну, наверное, спасти всратый футаж, ну и видосики генерить.

8. Project Super Sonic. Такого мы еще не видели. Генерирует аудиоэффекты на основе голосового наброска. Короче, рычишь в микрофон своим тоненьким голоском, а на выходе получаешь рык дракона. Весело будет поиграться. (Демо как раз показано на видео в этом посте)

9. Также улучшили выделение объектов по типу как в Segment Anything Video. (Гринскрин больше не нужен). А вот про трекинг новостей вроде бы не было.


Illustrator

10. Gen Shape Fill. Generative Fill для Illustrator. Делаешь набросок формы, а оно его закрашивает и добавляет деталей. И все это вектор. Наверное, лучший txt2svg, но нужно тестить.

11. Rotatable Vectors. Немного ломает мозг — SVG-шки (2D-векторы) крутятся! Зачем — хз, сразу норм нарисовать, не? Хотя выглядит клево.

12. Layout Variations. Мало того, что сам постер нарисовали со скетча от руки, так потом еще и дергают его во все стороны, меняя соотношение сторон, а постер сам подстраивается. Удобно!

Ну и вишенка на торте для тех, кто все еще переживает за авторские права: все это абсолютно легализовано и лицензировано. Так что вот, наслаждаемся.Часть инструментов уже доступна на сайте Adobe, но большинство непонятно когда выпустят.

В целом довольно интересно. Часть решений, конечно, уже год валялись в опенсорсе, но здесь заметен скачок в качестве (всё-таки есть и данные, и железо), и даже показали пару новых фич.


P.S. Примеры смотрим в комментариях.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
November 2, 2024
Super Sonic sound special effects с контролем голосом от Adobe (из анонса в этом посте).

Видали прикол? Кричишь в микрофон, а на выходе — рык дракона. txt2sfx от Eleven Labs конечно прикольно генерит, но таким образом тяжело попасть в динамику движений в кадре.

Больше всего завирусился отрывок генерации по голосу, но оказывается, модель умеет генерить ещё и по движению на футаже. Более того, можно сегментировать кадр и делать озвучку только для какой-то отдельной его части (см. видео с примером НЛО). Пока генерация чисто по видео работает не очень хорошо в сложных сценах, так что SFX-еры ещё успеют наиграться с этой тулзой, ведь она даёт наибольший контроль над динамикой и характером звука. Кстати, в кино много эффектов делают именно голосом с жирной пост-обработкой — это база.

Подобные решения уже появлялись на рынке, но без возможности описывать сам звук текстом. Можно было, например, напеть мелодию, и она переводилась в мелодию на гитаре. Хотя чего-то реально юзабельного не было. Интересно, как SuperSonic проявит себя на этом поприще.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
November 5, 2024
Риалтайм предсказание положения тела по одной ego-камере

Одна шакальная камера на голове, о качестве можете судить сами в правом верхнем углу. В середине — предсказанное положение тела и облако из SLAM-точек. + можете сравнить с тем, что было на самом деле. https://t.iss.one/ai_newz/3427

Одна из главных проблем всех этих ваших виаров и эйаров заключается в том, что нужно раскидать камеры по всей комнате для трекинга положения тела. Я тоже решал эту проблему, когда работал в Reality Labs - мы предложили диффузионную модель AGRoL, которая по трекингу рук и головы синтезирует движение всего тела в 3D. Теперь зацените свежачок от интернов из Meta Reality Labs.

Тут пошли еще дальше и используют только одну RGB камеру на голове (которая итак стоит во всех VR/AR очках), они смогли в реальном времени (70FPS на A100) с задержкой всего 0.17 секунд отследить положение всех конечностей, даже если они не попадают в кадр.

Ребята решили взять максимум из того, что есть: они скормили диффузионке данные о положении головы, цветную картинку и набор SLAM-точек (думайте об этом как о гауссовских сплатах на минималках). Кроме того, добавили CLIP-эмбеддинг для извлечения семантической информации (что находится в кадре). Всё это обучили на 200 часах видеоконтента с данными от motion capture костюма для захвата движений.

В результате получилась модель, которая не только лучше предшественников, но и работает супербыстро, что позволяет использовать её для онлайн-процессинга. Правда, пока SLAM работает только в статике — если, например, передвинуть стол, модель этого не заметит.

Очевидно, бенефициар этой технологии — это AR и VR. Игрушки выйдут топовые, хоть на поле 100 на 100 игроков устраивай, как это показывал Snapchat на последней презентации своих очков. Нужно только рядом кластер с хотябы 1xA100 на человека поставить 😁.

Помимо игр, технология пригодилась бы в робототехнике, в частности, для обучения робогуманоидов нормально ходить и ориентироваться в пространстве. Такие данные сложно получить сразу в большом объёме, поэтому сейчас, например, используют imitation learning, как в этом посте про живую сталь.

Пейпер
Код (скоро)
Project page

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
November 16, 2024
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс

Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.

По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.

Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.

Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.

Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.

chat.deepseek.com

_______
Источник | #ai_newz
@F_S_C_P

-------
Секретики!
-------
November 20, 2024
Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
November 26, 2024
December 21, 2024
DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиард активных параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2, а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

_______
Источник | #ai_newz
@F_S_C_P

-------
Секретики!
-------
December 26, 2024
Убийца Mac Mini от Nvidia – Digits

Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!

— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.

На такой машинке можно инференсить модели вплоть до 200 млрд параметров. Можно соединить две такие малышки и запускать уже 405B модель.

Обещают выпустить в мае, цена вопроса - $3000.

Хочу себе такую домой! 🥺

_______
Источник | #ai_newz

___________________________

Nvidia официально представила новую линейку видеокарт RTX 50-й серии на архитектуре Blackwell. Анонсированы четыре модели: RTX 5090 за $1,999, RTX 5080 за $999, RTX 5070 Ti за $749 и RTX 5070 за $549. RTX 5090 и 5080 поступят в продажу 30 января, а 5070 Ti и 5070 — в феврале.

Интересно, что флагманская RTX 5090 получилась компактнее предшественницы и занимает всего два слота. При этом она оснащена 32 ГБ памяти GDDR7, имеет 21,760 CUDA-ядер и обещает двукратный прирост производительности по сравнению с RTX 4090. Правда, и энергопотребление выросло до 575 Вт (рекомендуется блок питания на 1000 Вт). Младшая же RTX 5070, по обещаниям компании, соответствует мощности нынешнего флагмана RTX 4090 — при в разы меньшей цене.

Ноутбучные версии RTX 50-й серии появятся в марте. RTX 5090 для ноутбуков получит 24 ГБ памяти GDDR7, RTX 5080 — 16 ГБ, RTX 5070 Ti — 12 ГБ, а RTX 5070 — 8 ГБ.

www.theverge.com

_______
Источник | #blognot


___________________________

RTX 5090 за $2000 - Nvidia показала 5000 серию видеокарт

Хуанг с барского плеча закинул в 5090 32 гигабайта видеопамяти с 1.8TB/s пропускной способности. По остальным характеристикам она в 1.5x-3x быстрее чем 4090.

Не забыли и про сегменты подешевле - в RTX 5070 обещают уровень производительности 4090, при этом новые видяхи стоят дешевле 4000 серии.

У новых GPU гора новых фич для геймеров - DLSS 4 теперь работает на основе трансформера, а не CNN, генерация кадров теперь генерит три промежуточных кадра вместо одного. Текстуры и материалы теперь сжимаются при помощи нейронок - и они потребляют вплоть до 3x меньше памяти.

Нужно ждать независимых обзоров, но пока что поколение выглядит очень интересно. Ждём релиза 30 января.
_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
January 7
🔥DeepSeek R1 - уровень o1 бесплатно

Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.

Веса R1
Пейпер
Код


Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.

Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces).

Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления.

Интеллект для всех, даром, и пусть никто не уйдёт обиженный!

Qwen 1.5B
Qwen 7B
Llama 8B
Qwen 14B
Qwen 32B
Llama 70B

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
January 20
Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в AI studio не всегда понятно, когда именно модель пользуется поиском или исполнением кода,

Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный "small model smell". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1).

Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг.

Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
January 24
Пока DeepSeek лагает под нагрузкой, давайте поговорим про Qwen

У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё

Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).

Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.

Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.

Веса Qwen-2.5-VL
Веса Qwen-2.5-1M

chat.qwenlm.ai

Источник: https://t.iss.one/ai_newz/3644

________________________
ДипСик, который рвет инфопространство, роняет акции Нвидия, вызывает панические атаки в Метачке, взял и бахнул генератор картинок!!

Не диффузия - Janus-Pro - это новая авторегрессионная модель, унифицированная MLLM которая разделяет visual encoding for multimodal understanding and generation.
Janus-Pro построен на базе DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base.

Идем тестировать, это все OPEN SOURCE!!!

huggingface.co
https://github.com/deepseek-ai/Janus


Источник: https://t.iss.one/cgevent/10937

_________________________
Perplexity добавили Reasoning в Pro Search

Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.

R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.

Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.

perplexity.ai
_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
January 28
🖱 Режим глубоких рассуждений в Perplexity

Кто не знает о Perplexity - срочно это исправлять, вот посты про эту нейросеть и, а заодно и про новый поисковик и его сравнение с ChatGPT, и какую подписку за 20$ выбрать: Perplexity или ChatGPT

Вслед за 📱 ChatGPT, Perplexity выкатили Deep Research - для более осмысленных ответов. Думает прилично - у меня заняло 4 минуты на одну из задач, на другую 2 минуты. Бесплатно можно делать 5 запросов, читай исследований, в день. Против 10 запросов в месяц в режиме Deep Research в ChatGPT, причем платно за 20$/месяц. А с подпиской Pro в Perplexity за $20 вообще безлимит.

🌸 Я протестила Perplexity Deep Research на двух разных задачах, результаты моете посмотреть в видео. Скажу вкратце, мне понравилось, структурно и четко.

Как работает 🔡

🌸 Исследование с рассуждением - в режиме глубокого исследования Perplexity ищет, читает документы и рассуждает о том, что делать дальше. По мере того, как Perplexity узнает больше о предмете исследования, нейросеть может усовершенствовать свой план исследования. В принципе как и человек, по мере того, как узнает больше нюансов, начинает все лучше и лучше разбираться в теме, и совершенствуется на протяжении всего учебного процесса.
🌸 Составление отчета. После того как исходные материалы полностью изучены, агент обобщает все результаты исследования в четкий и полный отчет.
🌸 Экспорт и публикация. Затем вы можете экспортировать итоговый отчет в PDF-файл или документ, либо преобразовать его в Perplexity Page и поделиться им с коллегами или др

Что крутого 🔡

🔴 Заявлено, что при анализе информации задействует до 100 источников. По факту на мой запрос “расскажи, что я должна знать о том, как делаются reels на миллионы просмотров-инструменты, тренды, сервисы?”, Perplexity задействовал 101 ресурс! Тогда как ChatGPT задействует в 5 раз меньше источников и сайтов.

🟡 Готовый доклад, исследование, анализ можно экспортировать в формате PDF. Я попросила проанализировать, как менялся курс доллара к рублю с 1924 года, и какие события к тому привели - за 2 минуты получила готовое исследование, которое экспортировалось в PDF на 4 листах

🟣 93,9% правильных ответов в SimpleQA, который определяет фактическую точность ответов

🔴 Для работы не нужен телепорт, работать можно и на сайте, и в приложении

_______
Источник | #NeuralProfit

__________________________
Бесплатный Deep Research от Perplexity

Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.

Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.
perplexity.ai

_______
Источник | #ai_newz
February 15
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель

Похоже, это та самая загадочная модель которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нету нескольких сильных конкурентов, вроде Veo 3 от гугла. Больше бенчей никаких нету, так что ждём полноценного техрепорта и, тем временем, вайбчекаем модель по генерациям). По ним, к примеру, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.

Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.

Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.

Веса
Код
wanxai.com

@ai_newz

_______
Источник | #ai_newz
February 25
Сейчас все вычисления производятся на серверах и ваш лаптоп служит вам только для того чтобы подключиться к машине с по ssh, локально почти никто ничего уже не запускает. Вот и тулы для программистов переезжают в клауд. Нактнулся на такую штуковину – SourceCraft. Это новая платформа для командной разработки от Yandex B2B Tech. Она поддерживает полный цикл разработки от постановки задачи до деплоя в облаке. Там много приблуд, которые спасают от рутины, например – быстрая навигация по коду, гибкая система CI/CD и др.

А самое главное — это встроенный редактор кода прямо в браузере, который позволяет легкую навигацию по всей кодбазе, что сильно выделяет SourceCraft на фоне конкурентов. В редактор встроен Code Assistant — AI-ассистент понимающий более 30 языков программирования. Ассистент доступен и как отдельный плагин для VSCode и IDE JetBrains, поэтому ломать привычки не придётся.

Для тех, кто держит код строго на своих серверах, в будущем обещают on-premise версию. Судя по отзывам первых пользователей, инструмент действительно стоящий — за полгода внутренние метрики удовлетворённости пользователя выросли более чем на 30%.
_______
Источник | #ai_newz
———
помните что облако это просто чужой компьютер...
———
#хроникицифровизации

_______
Источник | #F_S_C_P
@F_S_C_P

⚙️ Разработка ботов Telegram от 5000 руб
March 4
«Сильнейшая нейросетевая модель на русском языке» — так Сбер позиционирует свой новый GigaChat 2.0 в версии MAX. Сегодня в релиз также вышли облегчённые версии Pro и Lite, по производительности они заявлены на уровне MAX и Pro прошлого поколения.

GigaChat 2.0 MAX занял первое место по данным бенчмарка MERA для русского языка. По результатам тестов формата MMLU (RU / EN) модель находится на одном уровне с DeepSeek-V3, Qwen2.5 (версия Qwen-2.5-75b), GPT4o и LLaMA 70B, а где-то их даже превосходит.

В Сбере сообщили, что теперь модели обрабатывают в четыре раза больше контекста, в два раза точнее следуют инструкциям пользователя и на 25% лучше отвечают на вопросы.

✔️ Ещё один интересный акцент — на агентский потенциал моделей. Для разработки агентов на Python и JS на базе GigaChat 2.0 можно использовать популярный SDK LangChain, с которым линейка полностью совместима. Пакеты совместимости — в публичном репозитории GigaChain.

Прошлись по модели MAX с нашими стандартными вопросами: сколько понедельников / суббот было в один из месяцев, сколько нулей в полумиллионе и букв r в слове strawberry — задачи, с которыми семейство YandexGPT 4 справиться не смогло (хотя в версии 5 Pro таких проблем с календарём и числами уже нет)

Каков результат? Модель Сбера не путается в нулях, но вот справиться с календарём и буквами GigaChat 2.0 до конца не может. При вопросе о субботах в ноябре 2024 года он почему-то думает, что месяц начался со среды, а не в пятницу.

При изначально ошибочной предпосылке дальнейшая логика с подсчётами дней не помогает. А что касается букв... Как мы помним, это болезнь архитектуры и деления слов на токены. Хотя вот ChatGPT с активированным «Обоснуй» с подсчётом букв и календарём сейчас всё же справляется.

Протестировать новые модели уже может любой желающий. Для этого достаточно зарегистрироваться на платформе Studio, создать новый проект с GigaChat API и перейти в режим Playground. Развлекайтесь!

_______
Источник | #anti_agi

_____________________________________

Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro.

Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы повех тренить что-то свое) и продолжили претрейн на русском языке.

Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100.

По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) оюбещают рассказать в следующем посте.

ТехРепорт на хабре
_______
Источник | #ai_newz

_____________________
@F_S_C_P

Стань спонсором!
March 13
RIP Photoshop (нет) https://t.iss.one/ai_newz/3740

Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи. 

Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.

Другие юзкейсы: 

- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы. 
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой. 
И т.д.

Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.

Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o

Попробовать можно в ai studio.

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
March 16