эйай ньюз
77.3K subscribers
1.72K photos
890 videos
7 files
2.03K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Нейродайджест за неделю (#48)
Новогодние подарки продолжают сыпаться, приобретая лавинный характер...

LLM
- DeepSeek 2.5 — хороший буст в качестве + завезли поиск, который ощущается лучше, чем у OpenAI.
- Canvas (2?) — тулзу внутри ChatGPT знатно прокачали и добавили несколько очень нужных Quality of Life улучшений.
- T-Lite и T-Pro в опенсорсе — отличные результаты! Хитрый финт с файнтюном и дополнительным предобучением дает свои плоды. По бенчмаркам модель занимает топ-1 на русском языке.
- Streaming API — Gemini теперь в реальном времени понимает одновременно и аудио, и видео: как с камеры, так и со стрима экрана.
- Advanced Voice Mode + Video — OpenAI сразу же отвечают, хотя функционал немного ограничен. Но зато модель умнее, чем Gemini Flash, которая используется в Streaming API.
- ChatGPT Projects — наконец-то файлы и чаты можно разложить по папкам и навести порядок во всем этом хаосе.

Генеративные модели
- Aurora — авторегрессионная txt2img модель от xAI. У команды свой уникальный путь со своими плюсами и минусами.
- Pika 2.0 — завезли IP-Adapter для видео. Работает хорошо, но пока не хватает «короля» над картинкой.

Sora
- Утечка SORA — незадолго до релиза произошел слив, прогрев? Еще появилась первая страничка SORA, а затем уже релиз.
- SORA в общем доступе! — теперь все пользователи могут генерировать свои 10-секундные видосики. Революции не случилось, так как за год многие конкуренты уже догнали OpenAI.
- Обзор на SORA от Marques Brownlee — крупнейший техноблогер ютуба выложил обзор на SORA за пару часов до официального анонса и релиза OpenAI.
- Тесты SORA — смотрим на ваши тесты в комментариях.

Прочее
- Месть или победа любой ценой? — история о том, как обиженный саботёр получил Best Paper Award.
- XLand-MiniGrid — среда для тренировки агентов на GPU. Аналог закрытого XLand от Google.

Техника
- Android XR — новая ОС Google для AR/VR-девайсов. Google готовят базу для всех умных очков.

Читать дайджест #47

#дайджест
@ai_newz
🔥39👍19131😁1
После релиза подписки от OpenAI за $200 баксов, сразу нашлись желающие сделать подписку за $500. Столько берут за Devin - ИИ агента, который должен быть "ещё одним джуном в команде, на которого можно скидывать мелкие задачи". Взаимодействие идёт прямо через Slack или Github, причём за одну подписку доступ даётся сразу всей тиме.

За эти $500, в месяц дают 250 ACU - в лучшем случае это чуть больше 60 часов работы агента. Съесть их можно довольно быстро - Devin может делать несколько задач одновременно, а на отдельную задачу может спокойно уйти 3-5 часов (без гарантии успеха). После того как кредиты закончились, их, разумеется, можно докупать.

Отзывы пользователей так себе - хоть какие-то простые задачи он может делать, но кроме того что на задачи уходит куча времени, у него есть ещё и привычка застревать на середине. Есть и юзеры у которых за $500 Devin смог сделать лишь два изменения в документации.

За неполную неделю после релиза, Devin попал и в небольшой скандал с кибербезопасностью - прямо на стриме популярнейшего стримера Primagen, в Devin нашли неприятную уязвимость. При использовании одной из фич, в ссылке, которую видно в адресной строке браузере, был ключ, позволяющий получить доступ ко всему к чему имеет доступ Devin. То есть, кто угодно кому вы демонстрируете экран мог случайно получить доступ к куче приватной инфы. Вроде мелочь, но сама манера такого обращения с секретами настораживает. Интересно, виноват ли в ошибке сам Devin, или накосячил кто-то из кожаных мешков.

С такими результатами, вопрос, выйдет ли у Cognition, авторов Devin, оправдать свою оценку в два лярда пока у них не закончатся деньги. А ведь конкуренты не спят - Cursor недавно выпустили своего агента - он, конечно, попроще, но и стоит $20 в месяц, плюс это IDE, в которой с AI проще работать совместно. Google на днях тоже запустил превью кодинг агента Jules, основанного на Gemini 2.0. В недрах других бигтех компаний работы тоже явно ведутся.

Несмотря на огромный прогресс в LLM и агентах за последние пару лет, AI всё ещё не может полностью заменить программиста, даже джуна.

@ai_newz
93👍50😁17🔥13🤯8😱7❤‍🔥1🤩1🦄1
В ChatGPT улучшили поиск

Парад трансляций продолжается, 8 позади, 4 осталось.

🔎 Теперь поиск доступен бесплатным пользователям

🔎 В Advanced Voice Mode теперь есть поиск

🔎 Качество поиска в целом апгрейднули

Стоит ли дальше писать про такие минорные апдейты, или только про что-то важное?

@ai_newz
👍408💯72🫡2113🔥12🦄4😁1
Veo 2 — новая SOTA видео-генерация?!

Google стратегически дождались релиза Sora от OpenAI, чтобы сразу представить свою ответку. По их внутренним тестам, Veo 2 заметно опережает конкурентов. Правда, я бы не стал слепо доверять их тестам, согласно которым клинг чуть ли не лучше MovieGen и Sora.

Однако, черрипики на сайте выглядят впечатляюще. Как минимум, фламинго не путает передние и задние ноги и Veo 2 почти безошибочно справился с фигуристкой. Но с более динамичными сценами пока есть трудности, о чём сами признаются в DeepMind — см. пример со скейтбордистом.

Технических деталей немного, кроме того, что модель на релизе выдаёт разрешение 720p с возможностью дойти до 4К! Длина видео — 8 секунд, золотая середина между 5-ю и 10-ю секундами, где уже чаще возникают артефакты. Картинки на вход, вроде бы, пока не принимает.

Есть даже регистрация в вейтлист, правда чтобы туда добавили просят заполнить небольшую анкету, да и сколько ждать — неизвестно. Надеюсь, гугл не будет опять годами держать модель за семью печатями.

@ai_newz
🔥86👍37184🤯2😁1🤩1
Сбер выпустил в опенсорс три модели для русского языка

Они все довольно небольшие и для их запуска не нужен сервер за сотни тысяч долларов, да и по качеству там всё в порядке.

GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.

GigaEmbeddings - 2.5B Dense модель для эмбеддингов, которая бьёт даже 7B модели по качеству.

GigaAMv2 - модель для распознавания речи, заточенная под русский, на бенчах лучше последних версий Whisper. Это важно, потому что в последних версиях, Whisper всё больше и больше тюнят чисто под английский, обделяя другие языки вниманием, хорошо иметь альтернативу.

Большой плюс этих моделей - они натренированы изначально под русский, а не тюны моделей с других языков. Из-за этого срываться на английский и китайский они не будут, чем часто грешат другие модели, особенно квантизированные.

@ai_newz
🔥192😁59👍3817🦄9🫡7❤‍🔥1🤩1🙏1
9 стрим OpenAI - апдейты API

⭐️ Запустили полноценное API для o1: добавили structured outputs, картинки на вход, вызов функций и developer messages (дополнительный промпт по силе между системным и юзер промптом). Ко всему этому o1 можно теперь указать насколько сильно модель должна думать над проблемой, что крайней полезно. Ещё хвастаются что полноценная o1 использует на 60% меньше токенов чем o1-preview. Ждём файнтюнов o1 и o1-pro в API.

Цену риалтайм API дропнули на 60% для обычной GPT-4o, но теперь риалтайм режим будет и у 4o-mini! Ещё в realtime режим API добавили поддержку WebRTC, должно улучшить стабильность и качество связи, плюс интегрировать будет куда проще.

🪛 Добавили preference finetuning в API для GPT-4o, 4o-mini обещают скоро.

@ai_newz
🔥104👍3720🦄3😱2
Тут по интернету пронеслась новость о том, что ключевой свидетель в деле против OpenAI о нарушении авторского права и бывший сотрудник все той же компании был найден мертвым у себя дома (совпадение?).

Конечно же, бравые СМИ недвусмысленно прогремели тревогу, мол, смотрите, корпорация зла наняла хитмэна, чтобы сделать всё "чисто".

Кмк, что это всё байт на классы: никто никого в таком деле не стал бы убивать. Ведь всем и так понятно, что данные OpenAI парсят со всего интернета. Вопрос лишь в том, является ли это fair use или нет.

Пока никакого четкого закона на этот счёт нет, и, надеюсь, не будет, потому что запретить парсить интернет — значит убить всю индустрию AI в своей стране. Никакие "пруфы" от инсайдера о том, что OpenAI крадёт чужие работы, этого не изменят.

Его главный довод из интервью с NYT:

The outputs aren’t exact copies of the inputs, but they are also not fundamentally novel.


Но разве хоть кто-то когда-либо писал что-то совершенно новое?

Семье погибшего — мои соболезнования.

@ai_newz
👍82🤯39🫡23😁1511😱11🦄8💯3🔥1
10 стрим OpenAI - ChatGPT теперь можно позвонить по телефону

Пока только в США, остальные регионы могут писать ChatGPT через WhatsApp. Зачем?????????????????🤯

+1-800-242-8478

@ai_newz
🤯115😁94🫡16👍6❤‍🔥5🦄5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодняшняя презентация OpenAI in a nutshell

@ai_newz
😁245🔥36💯13❤‍🔥73😱2
🤩 GitHub Copilot теперь бесплатный

Всем пользователям GitHub, при использовании VS Code, даётся 2000 дополнений кода в месяц и 50 сообщений к GPT-4o и Sonnet 3.5. Pro подписка за $10 всё ещё даёт сильно большие лимиты и доступ к o1-preview/o1-mini.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
149🔥74👍29🤯12😁5🙏3🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ElevenLabs Flash 2.5

Звук генерится всего за 75 миллисекунд, предназначено это для риалтайм разговоров с ИИ. Доступно только по API, а жаль, локальный хостинг позволил бы срезать несколько десятков миллисекунд сетевой задержки.

Хоть задержка у сетапа на основе такой модельки будет заметно побольше (но не факт), чем у омни-моделей вроде GPT-4o или Gemini 2.0 Flash, но тут больше и контроля - одни кастомные голоса чего стоят.

@ai_newz
👍116🔥44🤯1211
This media is not supported in your browser
VIEW IN TELEGRAM
Pika 2.0 теперь можно попробовать бесплатно

Такой аттракцион будет продолжаться ещё 66 часов. В теории лимитов нету и доступны даже ингредиенты, но видосы генерятся часами. Обещают докинуть ещё серваков чтобы попробовать смогло больше людей.

pika.art

@ai_newz
🔥57👍1513😁7