VAI – Telegram

VAI

Пока все отходят от новой Sora 2 😁. Давайте поговорим на другую достаточно интересную тему.

Я думаю, многие слышали про Perplexity - это поисковик на основе ИИ. Достаточно неплохой, который включает в себя разные последние модели.

Я долго ждал выхода нормального ИИ-браузера для автоматизации и параллельно следил за Comet. Вставал в вэйт-лист, но доступа так и не дали. А на про-аккаунт за 100$ было жалко денег. По итогу его выкатили без крупных новостей для бесплатных пользователей (по крайней мере мне доступ дали). Зашел на днях в поисковик, и там появилась кнопка "Скачать новый браузер". На радостях сразу скачал.
Несколько дней смотрел, изучал.

Могу сказать, что браузеры выходят на новый уровень. 😱

Я периодически пишу в основных постах про новые ИИ-системы, и Comet как раз является такой. Да, подобные решения уже были и у Microsoft, и у Opera, но отличие Comet в том, что за привычной браузерной структурой (схожей с Firefox/Chrome) скрывается агентная прослойка. Она позволяет мгновенно выполнять не только стандартные команды, но и сложные автоматизации на сайтах, с файлами, сервисами - как будто у вас под рукой всегда личный умный ассистент.

● хотите отправить письмо? Просто пишите в чате "отправь письмо тому-то, прикрепи такой-то файл". И письмо отправляется. Конечно же перед этим надо дать доступы к почте.
● хотите забронировать столик? Пишите, где и как, и он сам бронирует столик.
● мне нужно было найти шарф, и я попросил найти все решения в Яндекс.Маркете по определённым характеристикам и цене. 2 минуты, и можно заказывать, не тратя время на поиски.
● нужно изменить, структуризировать Google Таблицу? Просто скидываете ссылку и описываете, что нужно сделать. Я сидел и смотрел, как ассистент меняет таблицу по моим требованиям. Как будто сидишь в машине с автопаркингом.

Это только малое количество того, что можно реализовать через агентскую систему.

Круто, что это всё делается прямо в браузере.

Конечно же, скорее всего, есть и минусы, но пока я их не обнаружил.

Кто-то знает подобные решения в браузерах?

Я знаю про плагины типа Cursor и т.д. Также знаю, что в LLM можно искать информацию и использовать частично как поисковик, а также структуризировать, но это всё идёт как отдельные решения, а тут всё сложилось в одну среду.

0 рекламы. Как обычно, просто делюсь интересными решениями в области ИИ.

В общем, я пока под впечатлением! 😎

P.S. Также ниже проведу опрос про агентов.

@VAI_ART
#VAI_General

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3❤1

1.45K viewsedited 06:42

VAI

Вы пользуетесь агентами? Если да, расскажите, для чего именно и какие используете.

Anonymous Poll

Лех, опять какие то опросы! Делом лучше займись!

109 voters1.45K views06:42

VAI

Короткая рубрика: в этот раз новостей за неделю немного.

🔹 Sora 2 вышла. Одна из значимых новостей недели. Всю неделю все говорили только про неё.
Кстати, получить код доступа можно очень легко. Сейчас в группах их раздают просто так. Так как 1 код можно использовать до 4 пользователей. Если нужно скину ссылки групп, где можно взять себе код для использования Sora 2.
В общем OpenAI открыли свой тик ток. С кучей вирусных и залипательных роликов. Sora по одному короткому запросу делает готовый контент, с монтажом, озвучкой, логикой.
Много интересного видел, обучали ее скорее всего вообще на всем, что есть в интернете, так как она знает практически все.
Пока, лично для, меня это больше для развлечения и все внутри там сделано так, чтобы люди сидели генерировали и скролили залипательные видео. Конечно энтузиасты нашли сразу и практические применения. Но, с виду, OpenAI делали ставку именно на вирусный контент.
Конечно при правильном развитии, это все может стать очень крутым инструментов в будущем, но тут главный вопрос - хочет ли этого OpenAI.
Также уже появилась про версия с 1080p и с увеличенным таймингом до 15 секунд.

🔹 Claude Sonnet 4.5 - это новая версия искусственного интеллекта от Anthropic, созданная для разговоров, письма и анализа. Он стал быстрее, точнее и умнее предыдущих моделей, лучше понимает контекст, может писать тексты, код, резюмировать документы и рассуждать сложнее, чем раньше. Работает плавно, отвечает естественно и максимально приближен к человеческому стилю общения. Писал тут. Видно, что обходит почти все существующие модели по многим параметрам. Как мне написал в комментариях, можно опробовать в Perplexity.

🔹 Ну и сразу в продолжение. Perplexity выпустили в общий доступ свой браузер Comet. Вижу, что многие не заценил, но это пока). Писал тут.

Видимо, остальные компании на этой неделе решили не лезть под каток Sora 2 и отложили свои релизы на более спокойное время - поэтому интересных новостей оказалось не так много.

@VAI_ART
#VAI_News

👍9❤3

1.48K viewsedited 12:28

VAI

Все ещё разгребаю задачи - совсем нет времени что-то писать, но я обязательно вернусь💪! Череда очень большого количества релизов, которые нужно закрыть.

В последнее время, как и говорил, активно внедрил ИИ в рабочие процессы. Есть много интересного, что хочу рассказать, как хорошего, так и не очень.
Спасибо, что всё ещё здесь ❤️

Конец недели - а значит, время для нашей традиционной рубрики новостей!

🔹 От OpenAI еще немного релизов. Например они выпустили Agent Kit. Это инструмент от OpenAI, который помогает разработчикам создавать «агентов» - программы, которые могут не просто отвечать на вопросы, но и автоматически выполнять задачи, работать с внешними инструментами и координировать сложные сценарии

🔹 Также OpenAI открыли доступ по API (то есть можно подключить функции напрямую в свои приложения или сайты) для Sora 2 и GPT-5 Pro. Также OpenAI подключают крупных партнеров для создания контента текстовыми командами. Одни из Figma и Canva. Figma, кстати, так же на неделе подключила r себе в среду Nanobanana.

🔹 Gemini 2.5 Computer Use - новая модель от Google, способная управлять веб-браузером как человек: заполнять формы, кликать кнопки, прокручивать страницы и работать внутри интерфейсов, где нет API.
Она доступна через Gemini API / Vertex AI и позиционируется как инструмент для создания агентов, которые взаимодействуют с UI напрямую, а не через код.

🔹 Veo 3.1 - грядущее обновление модели генерации видео от Google, замеченное в коде Vertex AI и в листах ожидания Higgsfield AI.
Оно обещает улучшенную согласованность персонажей, длительность роликов до минуты и новые кинематографические пресеты, что считается попыткой конкурировать с Sora от OpenAI. Презентация в комментариях.

🔹 Вышел Grok Imagine 0.9 - это обновлённая версия инструмента от xAI, который превращает текстовые запросы или изображения в анимированные видеоклипы (обычно до 6–15 секунд) с синхронизированным звуком и визуальными эффектами. Есть бесплатные генерации.

🔹 Ну и как писал уже череда редакторов, которых после NanoBanana появилось уже много. DreamOmni2 - это новая модель, которая понимает и обрабатывает и изображения, и текстовые инструкции одновременно, чтобы делать две вещи: редактировать изображение по указаниям + образцу и генерировать новые изображения, ориентируясь как на текст, так и на визуальный пример. Опенсорс, тут можно найти исходники. А тут можно протестировать. Презентация в комментариях.

🔹 В NanoBanana наконец то подвезли аспетрейшен (разные соотношение сторон). Ну и Google написали, что теперь модель работает еще лучше и качественней. Сами признались, что в начале были проблемы. Много сейчас в ней делаю, и есть о чём рассказать. Доберусь - обязательно напишу.

🔹 Не про ИИ, но тоже про технологии. Вышел новый гуманоид для дома, офиса и вообще куда угодно - Figure 03. Универсальный бытовой гуманоид, который способен выполнять множество задач в доме, что делает его более амбициозным, чем большинство предшественников.
В общем, теперь покупаем не робот-пылесос, а гуманоидного помощника, который и посуду помоет, и пропылесосит, и пыль протрёт.
Видео - в комментариях

Вообще, по ощущениям, всё очень сильно ускоряется. До конца года ходят слухи и о выпуске Sora 3, и Nanobanana 2, и многое другое.
Большие корпорации выходят на сверхзвуковые скорости, стараясь захватить как можно больше рынка - от этого уже начинает кружиться голова.
Если раньше между крупными релизами проходило полгода или год, то теперь все намного быстрее.
Похоже, ставки в конкурентной гонке растут, и компании ускоряются, пока кто-нибудь не сорвётся, а победитель не займёт хорошую нишу.
В общем, до конца года, будет еще очень и очень много всего интересного. Ждем…

@VAI_ART
#VAI_News

👍5❤3

1.38K viewsedited 15:37

VAI

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Нашёл интересное видео на просторах интернета - перенос стиля и повышения детализации через Wan 2.2.

А у нас как раз сейчас есть задача, где нужно подобное решение. Вовремя!

@VAI_ART
#VAI_Notes

👍12❤3🤮1

1.51K viewsedited 10:43

VAI

Я догораю на работе, но уже виден просвет. Еще 1-2 недели и я снова с вами, в строю. Посты продолжатся в ближайшее время🤓. Для затравки: за 1,5 месяца в планах было сделать 3 играбельных прототипа для наших новых режимов и игр-ещё не всё успели, но уже сделали большую часть. Глаз дергается, но я сам, честно, в “лёгком” афиге от того, что сейчас это вообще возможно.

В этом мире изменчиво всё, кроме одного-рубрики новостей про ИИ здесь. Быстро пробежимся.

🔹 Google интегрировала Nano Banana в Google Search и NotebookLM. Теперь ИИ-генератор изображений доступен не только в Gemini.
NotebookLM-бесплатный AI-помощник на базе Gemini, который работает с вашими файлами (до 50 источников: PDF, Docs, YouTube, ссылки), анализирует их, делает краткие пересказы, FAQ, ментальные карты и даже аудиоподкасты-всегда с точными ссылками на оригиналы.

🔹 Gemini 3 скоро (в октябре). Это один из релизов, который до конца года еще много шумихи наделает. Она создана как часть семейства Gemini, которое объединяет самые современные AI-технологии компании, включая мультимодальные возможности. Если простым языком, то это LLM модель от Google, которая объединяет все их ИИ сервисы. Та же Nano Banana работает на базе 2.5 Gemini. Представляете, что будет в третьей версии? Слухов очень много о ее возможностях. Один из скинул в комментарии.

🔹 Вышла Veo 3.1. Обновленная версия модели генерации видео от Google, теперь поддерживает ввод текста, изображений и даже видео-кадров, генерирует ролики высокой чёткости (до 1080 p) длительностью до~1 минуты и включает улучшенное управление сценой, персонажами и аудио. Доступна на всех агрегаторах по-типу Krea или Weavy

🔹 OpenAI, выпустили Sora Storyboard-это функция в видеоредакторе Sora 2 от OpenAI, которая превращает вашу видео-генерацию в понятную панельную систему: вы задаёте отдельные сценыт или кадры, настраиваете время и переходы, и инструмент собирает их в единую историю. Попытка сделать генерацию более управляемой и гибкой. Доступна только на тарифе Pro для бояр.

🔹 RunWay решила сосредоточиться на создании приложений, которые упаковывают ключевые рабочие процессы в готовые решения под конкретные задачи пользователей. Все приложения уже доступны в веб-версии, и компания обещает, что коллекция будет пополняться каждую неделю-превращая Runway в полноценную платформу для быстрой и интуитивной генерации визуального контента. Презентация в комментариях.

🔹 Anthropic выпустили Claude Haiku 4.5.Мини-версия Claude в новом поколении. Не самая мощная, но при этом даже побивает GPT-5 по некоторым характеристикам.
Alibaba также строчит свои модели чуть ли не каждую неделю и на этой выпустили. Небольшую модель на 4B и 8B параметров. Модели можно легко запустить локально на компьютере и до обучить. А по характеристикам они уже близки к их флагманской модели Qwen2.5-VL-72B.
Тут больше новость про то, что технологии развиваются, и находятся всё новые способы обучения и упаковки моделей. Это позволяет создавать их дешевле и быстрее.

🔹 Manus 1.5 теперь делает задачи почти в 4 раза быстрее-в среднем за 4 минуты вместо 15. Качество выросло примерно на 15%, а пользователи стали довольнее. Добавили безлимитный контекст, возможность работать вместе в одной сессии и общее хранилище файлов. Самое интересное-агент теперь может по одному запросу собрать и запустить полноценное веб-приложение с сервером, базой данных, авторизацией, аналитикой и встроенным ИИ. Если не врут, то тут даже есть бесплатный триал.

🔹 В обновлении Windows 11 появился встроенный ИИ-помощник Copilot. Теперь его можно вызвать голосом или через панель задач. Он умеет искать файлы, запускать программы, отвечать на вопросы по содержимому экрана и даже выполнять различные действия. Microsoft сделала Copilot частью системы, чтобы управлять компьютером можно было просто с помощью запросов.

🔹Google наконец-то добавил в свой поисковик ИИ-режим. Под капотом работает их флагманская модель Gemini 2.5, которая анализирует запрос, разбивает его на подтемы и выдаёт готовые, понятные ответы вместо простого списка ссылок.

@VAI_ART
#VAI_News

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5

1.33K viewsedited 17:09

VAI

Новости предыдущей недели, немного с запозданием. Кратенько.

🔹OpenAI выпустили свой браузер Atlas. Не везде они впереди, а во многих направлениях в догоняющих. Ничего нового они не показали. Тот же Comet как по мне лучше. И да, пока только для Macos.

🔹 Hailuo Minimax 2.3. Сам сайт. Обновлённая модель генерации видео, которая лучше удерживает стиль и композицию исходного кадра, естественнее передаёт мимику и крупные планы, и даёт выбор между качественным и быстрым режимами для разных задач, вроде рекламных роликов и продуктовых демо с реалистичным светом, панорамами и глубиной резкости. Должен выйти со дня на день. Пример в комментариях.

🔹 Hitem3D. Один из лучших 3d генераторов обновился до версии v1.5_1536 Pro. Пишут что Print-ready. Не успел протестировать.Если тестировали, то скиньте в комментарии посмотреть.

🔹 Magnific. Апсейкейлер обновился до 2-ой версии. По примерам, которые видел очень неплохо достает детализацию в изображениях.

🔹 Писал в прошлый раз про RunWay , то, что они начали упаковывать ключевые рабочие процессы в готовые решения под конкретные задачи пользователей. Сейчас представили функционал формирования рабочих процессов на борде. Пока только для бояр, которые платят много денег. Чуть позже обещают на всех раскатать.Пример в комментариях.

🔹 Suno. Один из лучших генераторов музыки. Выпустили новую версию, которую открыли для всех, даже для бесплатных пользователей. Есть дневные ограничения. Кто не пробовал, самое время. Версия v4.5-all. Презентация в комментариях.

🔹 Krea Realtime 14B - это новое «реалтайм» видео‑ядро на 14 млрд параметров: генерирует дольше и стабильнее, держит поток с меньшим дрейфом, быстрее выводит первый кадр и кадры в секунду, поддерживает живой рестайл/правки «на лету», и открыто распространяется с репозиторием для локального запуска; в сравнении с ранними реалтайм‑версами Krea, где были меньшие модели и короткие, менее стабильные клипы, новая даёт более детальную картинку, устойчивые длинные шоты и управляемость в режиме стрима. Пример в комментариях.

🔹 Вышла DeepSeek - OCR - это современная нейросеть для распознавания текста, которая может считывать и переводить печатные или рукописные слова с фотографий, сканов и картинок. Она работает быстро и довольно точно, умеет находить текст даже на сложных или криво снятых изображениях, поддерживает много языков, а также может извлекать текст из документов, квитанций, книг и вывесок. Всё делается автоматически: просто загружаешь картинку, а на выходе получаешь чистый текст. Доступна в основной модели. Нужно только обновиться.

Всем крутой недели! 💪 А мой марафон подходит к концу. Со следующей недели возвращаюсь!

@VAI_ART
#VAI_News

👍8❤6

1.07K views07:08

VAI

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

Прошла конференция «Adobe Max», на которой показали много интересного. Радует, что хоть кто-то из старожилов нормально включается в гонку ИИ. Большинство до сих пор делает вид, что ничего не происходит.

Кратко пройдемся по новинкам.

1️⃣ Персональные Firefly
Теперь можно обучить Firefly под свой фирменный стиль — даже для компаний и брендов.
2️⃣ Другие ИИ напрямую в Adobe
Generative Fill теперь может рисовать через Firefly, Google Gemini Flash Image (NanoBanana), FLUX Kontext и т.д. — выбирайте любой стиль генерации.
3️⃣ Firefly 5 — новое поколение генерации картинок!
Теперь ИИ-арт не только мегадетализированный и фотореалистичный, но и «послойный»: можно сразу по слоям двигать, менять и тонко редактировать. Всё в 4Мп!
4️⃣ Видео:
В Premiere Pro — магия с масками: ИИ сам отслеживает нужный объект и даёт применять эффекты за пару кликов. Появились автоформаты для YouTube Shorts с эффектами.
5️⃣ AI-ассистенты в Photoshop и Express
Больше не ищем вручную инструменты — пишем или говорим: «Сделай ярче», «Замени фон», «Подбери шрифт» — ассистент сам всё делает как надо!
6️⃣ Фото:
В Lightroom автоотбор лучших кадров; в Photoshop — умная гармонизация вставленных объектов (чтобы «вписался»), генеративное до-восстановление деталей и апскейл до 4K/56Мп. Интеграция с топовыми моделями от Topaz Labs.
7️⃣ Firefly теперь озвучит и озвучку и музыку
ИИ пишет музыкальные треки под видео (темп, настроение, длительность — всё сам), а ещё переводит текст в речь с реалистичными голосами.

Из больших минусов, что все это не работает на пиратских версиях 😁.

@VAI_ART
#VAI_News

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2❤1

1.11K viewsedited 15:32

VAI

Сегодня промт, который делает из любого объекта сложенную из бумаги фигурку.

[Объект] masterfully portrayed through avant-garde minimalist origami paper folding art; the entire form meticulously crafted from a single, vibrant [цвет] sheet of premium paper, intricately folded into elegant, angular geometries that balance precision with artistic flair against a pristine white backdrop. The interplay of sharp creases and flawless edges embodies pure simplicity and meticulous craftsmanship, while nuanced shadows cast by ambient lighting introduce layers of depth and lifelike realism to the sculpted object. The composition strategically employs expansive negative space, enhancing the minimalist aesthetic and allowing the origami creation to breathe and stand out with understated grace. Innovative design elements, such as subtle gradients and delicate paper textures, accentuate the sophistication of the origami technique, highlighting the harmonious fusion of form and function. The overall visual narrative exudes a refined, geometric elegance and a sense of contemporary sophistication, celebrating the timeless artistry of paper folding while embracing modern minimalist sensibilities. This presentation not only showcases the intricate beauty of origami but also conveys a profound appreciation for the art of simplicity, where every fold and angle contributes to a harmonious and visually captivating masterpiece.

На самом деле план был намного круче. Я хотел еще сделать GPTs, который по загруженной картинке объясняет, как можно сложить фигурку самостоятельно. Но не получилось. Поэтому просто наслаждайтесь картинками. 😁

Всех с наступающими длинными выходными (у кого они будут). А я наконец-то почти освободился.

Хорошего дня! ❤️

@VAI_ART
#VAI_Gallery

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3🔥3😁1

940 views09:08

VAI

Forwarded from Data Secrets

HuggingFace релизнули замечательную свежую книгу про обучение LLM

200+ страниц, 7 больших глав. Содержание примерно следующее:

– Архитектуры, их особенности и оптимизация гиперпараметров
– Работа с данными
– Предобучение и какие в нем есть подводные камни
– Пост-трейнинг: все современные подходы и как их применять
– Инфраструктура, как ее правильно строить и оптимизировать

По сути, это готовое хардовое пособие по тому, как с нуля обучить и захостить LLM.

Написано все на довольно простом английском и читается легко + есть куча схем и примеров. В общем, выглядит годно.

huggingface.co/spaces/HuggingFaceTB/smol-training-playbook

🔥3👍2😁2❤1

1.11K views10:09

VAI

Новости недели. Давайте кратко пробежимся.

Для начала небольшое отступление. Лично для меня эта неделя значима тем, что два достаточно крупных игрока - Adobe и Figma - основательно занялись ИИ. Первые создали целую экосистему (о которой писал ранее), а вторые купили агрегатор Weavy (достаточно неплохой).
А это значит, что старички понемногу пробуждаются. Из интересного — и те, и другие делают большую ставку на нодовые системы (а-ля ConfUI). К чему это приведёт, увидим позже. Но специалисты, разбирающиеся в нодах, похоже, сейчас будут на волне.

Погнали. 💪

🔹 Minimax Speech 2.6 - это новая версия ИИ-сервиса от MiniMax для преобразования текста в речь. Улучшили качество голоса - он стал ещё естественнее и похож на живой, добавили больше вариантов интонации и стиля (можно делать речь дружелюбной, нейтральной, эмоциональной), ускорили генерацию озвучки и расширили поддержку языков, так что теперь сервис озвучивает тексты быстро, красиво и подходит для любых задач.

🔹 Вышло обновление функции Cameo в Sora 2. Можно добавлять разных персонажей для анимации, а не только себя. Доступно в приложении для IOS и браузере. Презентация в комментариях.

🔹 Gemini Canvas - это новая онлайн-площадка от Google для работы с разными ИИ-моделями. Здесь можно генерировать картинки, текст, видео и презентации, также использовать несколько моделей одновременно.

🔹 Minimax M2 - в компактном размере самой модели: она значительно легче и быстрее большинства аналогов, но при этом сохраняет высокое качество генерации текста, изображений и видео. Благодаря небольшому весу и оптимизации M2 можно запускать даже на обычных компьютерах и облачных сервисах без топовой “железки”, а скорость ответа и обработки заметно выше — это отличный вариант для массового бизнеса, быстрого прототипирования и тех, кто ищет универсальный ИИ без космических затрат на ресурсы. В комментарии закинул график.

🔹 Google запустил Pomelli. Теперь бренды могут просто дать Pomelli ссылку на свой сайт, и система сама проанализирует его: создаст пачку брендированного контента, объединённого творческой идеей для рекламной кампании, всё сразу готово для соцсетей, рекламы и презентаций. Pomelli мгновенно подбирает стиль, музыку, делает видео-нарезки и добавляет нужные эффекты под любую площадку — всё просто, масштабируемо и автоматизировано, без сложных настроек и ручной работы. Презентация в комментариях.

🔹 Вышел Cursor 2.0. Получил собственную агентную модель Composer и новые способы программирования: теперь можно управлять сразу несколькими ИИ-агентами с помощью браузера и голосовых команд, а не только текстом; Composer делает ставку на интерактивность и скорость (обычно решает задачи меньше чем за 30 секунд благодаря быстрому прохождению токенов и параллельным вызовам инструментов). Доступна демо версия редактора. Презентация в комментариях.

🔹 Canva сделала Affinity полностью бесплатным. Весь пакет графических редакторов (аналоги Illustrator, Photoshop и InDesign) теперь доступны всем. Скачать можно тут.

@VAI_ART
#VAI_News

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥1

1.19K views13:43

VAI

Forwarded from CGIT_Vines (Marvin Heemeyer)