InNeuralNetwork
5.12K subscribers
126 photos
46 videos
141 links
ChatGPT, нейросети и опыт их использования.

Для связи: @biblik
Download Telegram
😳 Еще раз спасибо голосу Дениса на новой модели Elevenlabs v3. А сейчас про промптинг и особенности для генерации войсов

Я давно использую генерацию голосов, но во многом качество упиралось в разумное ограничение — если нужно сделать как у человека, то надо делать до 4 секунд. В ином случае будет монотонно, «палевно». А поскольку я еще делаю делаю это через API, то также делал фоновый шум, добавление пауз и кучу сложно-кастыльных вещей, чтобы получалось ок. Как же я рад, что теперь это можно удалить.

Теперь можно без ограничений по длине ставить генерацию. Но не кул, что переписать логику запросов. Раньше для запроса надо было написать текст, то сейчас надо подстроить к нему еще [теги], чтобы добавить эти самые эмоции в голос. То есть, надо написать предложение, а затем проставить теги в нем еще. Прикрепленный войс сделан так:

Привет! [sarcastic laughs] Сори за войс. [exited] Но новая генерилка голосов Elevenlabs это что-то невероятное и [curious] клевое по эмоциям. Дальше в тексте, поберегу ваши уши. [whispers] И кстати, это звучал сгенерированный голос какого-то Дениса, а не мой.


Огорчает, что голос даже в статусе Natural может чуть отличаться, но не критично. Помимо этого, есть еще Creative, который также подходит для обычного использования, там эмоции прям норм скачут как при записи в маршрутке на повороте — меняет звучание, добавляет даже всхлипы и глотания слюну на удержание с эмм аа. А вот Robust, честно, совсем не понял, но услышал тот самый роботизированный голос.

Также в режиме можно делать диалоги между двумя разными людьми, получается здорово, но это не супер мой режим.

Если желаете опробовать, то переходите на ElevenLabs и готовьте от 5$ в месяц — бесплатно не распространяется. Также это пока preview, поэтому через месяц другой станет еще лучше

P.S. Здесь еще клево написано про промптинг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍185
Forwarded from we all design 👑
Тут была презентация от Neuralink. Это компания Маска, которая делает имплант, вживляемый в мозг. Он распознаёт сигналы и даёт возможность, например, управлять компьютером одной только силой мысли.

У них, конечно, какие-то невероятные прогнозы. И нет, не как обычно «через 20 лет..». Они говорят о таймлайне 1–3 года.

Уже через несколько месяцев начинают тестировать воспроизведение речи с людьми, которые потеряли речь или никогда не говорили. В 2026 начинают клиническое испытание BlindSight для людей с полной потерей зрения (те, кто родился слепым или потерял глаза). Они снова смогут видеть. Сначала в низком разрешении, потом в очень высоком, с возможностью видеть в инфракрасном, ультрафиолете и других длинах волн. Буквально еще через год решения психиатрических заболеваний, парализованные смогут управлять всем своим телом.

Говорят, можно будет ставить несколько имплантов одновременно: моторика, речь, зрение. Появится возможность хранить всю нашу память с возможностью обращаться к ней в любой момент, с помощью ai.

Возможность управления на другом уровне. Можно будет не только управлять роботизированной рукой или ногой, а полноценным большим роботом, как Optimus от Tesla. Тоже силой мысли.

Маск давно топит, что не будет противостояния человека и ai, а скорее люди станут киборгами. Мы и сейчас вроде как уже ими являемся, с телефонами и chatGPT. А импланты neuralink дадут супервидение, суперпамять, суперинтеллект и невероятные физические возможности (в теле робота, например).

Короче, будем дарить на дни рождения не iphone, а суперспособности. Подписку на ночное зрение, суперобоняние, или «знание японского» 💁‍♀️

P.S. как обычно, привет Черное Зеркало “Common People”

@wealldesigners
🔥19🗿52👍1
Хотел похоже написать, но Саша хорошо это сделала. Кстати, еще и много прикольно исследовательских штук с ai в дизайне, гляньте у нее в канале
2
Только спустя несколько месяцев плотной работы с Deep Research от разных моделей я выработал для себя схему, которой полностью доволен.

И основную роль в ней играет Perplexity (годовая подписка на которую всё ещё стоит несколько баксов). Опишу свои кейсы:

Моя базовая модель для Deep Research — Gemini (тут писал почему), но основная работа с отчётом начинается уже после того, как тебе выдаётся PDF-ка в десятки, а иногда и сотню страниц. Нужно проверить результат и провести фактчекинг. Поэтому я вставляю получившийся текст или PDF в Perplexity и прошу его проверить каждое утверждение.

Мой промт к Perplexity немного длиннее, но суть такая:
- «Внимательно прочти документ и выдели основные тезисы/факты, чтобы я видел, не пропустил ли ты чего-нибудь важного»

- «Проверь факты»

- «Оцени каждое утверждение по 10-балльной шкале»

- «Если ты ставишь не 10/10, процитируй фрагмент, объясни, почему это не 10/10, и приведи правильные данные/интерпретацию и т. д.»

- «В конце дай мне краткий обзор достоверности документа»

Это работает довольно круто. Обычно претензии Perplexity (или той модели, что крутится у них в API) к выводу других LLM звучат примерно так: «Фактически верно, НО интерпретация данных не идеальна / слишком категорична».

Второй кейс работает похоже, но решает задачу, когда вы не удовлетворены результатом глубокого исследования.

Загружаете PDF с отчётом в Perplexity и просите «проверить факты», «выставить оценки» — всё как в кейсе выше. А дальше показываете промпт, с которого начинали исследование, и просите внести в него правки, которые помогут избежать выявленных ошибок.
10👍7🔥52🫡1
📺 Для ChatGPT на Mac сделали фичу записи происходящего

Например, вы общаетесь с кем-то оффлайн или онлайн, да даже сами с собой, а наговорённое затем саммаризируется и выводится как план действий с главными мыслями без «слово в слово». Работает хорошо, но на английском. Такой же штукой люблю пользоваться при записи онлайн-встреч через Tactiq, только теперь можно прямо в ChatGPT с такое провернуть

Режим доступен с подписки Plus

🤖 InNeuralNetwork
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
InNeuralNetwork
— Operator у аппарата 📞 OpenAI запустила Operator – первого агента, который может выполнять задачи на ПК за вас. Теперь AI не просто отвечает на вопросы, а реально действует: прокручивает страницы, кликает по кнопкам, заполняет формы и даже заказывает товары.…
Лучше и доступнее управляет комплюктером

Вышел ChatGPT Agent, который позволяет выполнять задачи автономно на компьютере. Забронировать отели, выпустить комит и даже сделать презентацию. Просто пишите промпт, ждете и все готово. Правда качество все также как у начинающего спеца.

OpenAI рекомендуют давать агентам минимальный доступ, необходимый для выполнения задачи, чтобы снизить риски для конфиденциальности и безопасности. Но, поживем и увидим. Кстати, наверное на следующей неделе покажу кое-что от себя по похожей, но чуть более требовательной задаче. (Или нет)

Режим доступен платным подписчикам ChatGPT

🤖 InNeuralNetwork
18🤩1
🚀 Залетел в Comet вместо привычного Perplexity и прямо очень доволен.

Для контекста, это ИИ-браузер на основе Chrome в комбинации с Perplexity. Поэтому каждый запрос заворачивается в отдельную ветку чата, доступны модели, источники и все то, что есть в Perplexity с подпиской Pro. Но дальше – интереснее.

Мощь Comet в режиме Assistant 🇨🇳. Умеет автоматизировать многие задачи прямо в браузере, как сделал бы это сам пользователь. По сути, это агент, который сам кликает по кнопкам и выбирает нужные опции. Иногда он слегка путается, но в целом прекрасно справляется с тем, чтобы сократить простые задачи по брони или даже полностью провести исследование и заполнение форм (хоть последнее с трудом). Например, я поставил задачу найти накопительный счёт с лучшей приветственной ставкой и без странных условий типа «зарплатной карты» или «ограничения на пополнение до 50к». Ассистент сделал всю исследовательскую работу, а когда нашёл лучший вариант, направился открывать счёт. Хотя до конца не довёл дело (не смог ввести ФИО, а номер с почтой получилось). Понимаю, сам иногда путаюсь в формах 😬

Ещё удобна интеграция с Google Календарём и почтой. Можно попросить Comet найти информацию из ветки писем, а затем сразу выполнить нужное действие: создать событие, отправить письмо, и так далее.

Кайфанул с саммаризации текста или видео в одну кнопку без надобности куда-то переходить. А там сразу понятно, на каком моменте стоит сосредоточить внимание, а какое лучше пропустить.

А ещё отдельно помечу, что есть фича по работе с историей поиска. Вместо рытья в прошлых вкладках можно просто описать браузеру, что примерно я раньше и когда искал, и он тут же найдёт нужные страницы или цу. Суперски сработало, чтобы отыскать заброшенную презу, доволен!

Ну это всё хорошее балансирует с ограничениями. Comet пока раздаётся по приглашениям. Другое — нужна подписка на Pro аккаунт в Perplexity. Режим Assistant без неё не работает. Хотя купить подписку на Perplexity можно за несколько сотен рублей, в отличие от нескольких сотен долларов в год.

Самое пылающее, но не радостное, так Comet сделан на базе Chrome. На моем Mac с M4 Pro он прям нормально так температурно нагрузился, будто отрендерил часовое видео в 4K. Хотя он просто попытался разгрести свободные слоты в календаре. Но думаю, ещё оптимизируют (мой календарь).

Короче, Comet – очень крутая штука для тех, кто ценит удобство и хочет сэкономить ещё больше времени, чем с Perplexity. Рекомендую записаться в лист ожидания

🤖 InNeuralNetwork
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍3😁1
GPT-5 выходит сегодня и другие новые фичи ChatGPT

- доступно бесплатно (mini версия, ограничена запросами), в Plus с расширенной квотой и размышлениями, в Pro с Pro версией и безлимитом на обычную версию
- минимальный процент галлюцинаций
- отлично подходит для натуральных текстов, рабочему коду
- прокачали голосовой режим
- можно доработать персону и внешний вид интерфейса ChatGPT
- работает быстрее предыдущих моделей в режиме исследования
- на темы «на грани» будет отвечать безопасно, а не отказывать в выполнении
- со всеми наворотами GPT-5 Pro с Python и интернетом чуть хуже справляется с тестом Last Human Exam, чем Grok 4 Heavy
- с 1 запроса делает красивый результат кода, участилось использование фиолетового
🤩85
Media is too big
VIEW IN TELEGRAM
За 2 запроса в Cursor с GPT-5 получилось собрать простую игру в червячков, логику и архитектуру при этом не прописывая
110
✍️ Первый результат с сервисными агентами вероятно разочарует, так как в задаче нет, что на самом деле надо

Недавно друг попробовал агента в Comet, чтобы автоматизировать задачу, а на деле донять меня вопросами «почему он тупой?». Мол, добавить продукты в корзину для приготовления курицы с картошкой плохо выполнил, не добавив приправы 😵. А по итогу агент выполнил то, что от него просили — с 1 запроса собрал корзину. Причина не в «тупости», а в отсутствии личного контекста. И я думаю, что хорошо бы обозначить, почему происходит подобная халтура и как ее минимизировать

Нужно добавить стоп-факторы автономности, чтобы агент не буквально выполнил задач. Условно, «первоначально сверься, правильно ли ты пойдёшь выполнять задачу» или «Спроси о шаге, если не уверен». Приём очень похож из собеседования по созданию процесса от и до — люди дают задачу общими масками, а задача отвечающего понять, что на самом деле от него ждут, нежели просто отвечать без наводящих вопросов

🦥 Агенты ленятся как мы, когда не нужно заостряться на каждом шаге. Это общая задача или нужно что-то еще? Выбрать первый картофель в выдаче или самый заплюсованный? А курицу надо с учётом персон или веса? Так ещё и про бюджет, и бренд надо не забыть. Если не продумать ответы на эти вопросы, которые мы сами себе молниеносно отвечаем, будет лажа. Агент как соседский сын Вася. Тот пойдёт в магазин по вашему поручению, что-то наберёт, а вы ожидали другого. Вася желал как лучше, а на деле взгляд вины никто не отменял

ℹ️ Про авторизацию молчу, но лучше внести первостепенную информацию о себе. Имя, телефон, почта, а вот пароль лучше не скидывать. Не забываем, мы это передаём как будто бы третьему лицу

🏁 Нужен понятный результат. Не «купи картошку», а «собери корзину во Вкусвилле для приготовления варенной картошки по рецепту»

Недалеко от правды, что указывая детали будто бы проще самому сделать это руками, однако же в менее креативных задачах это не так. Агенты — это не «угадайку». Это исполнители с политикой по умолчанию. Если правил нет, вы получаете буквальный, часто неудобный результат

Навскидку приходит в голову подобный шаблон типовой задачи для сервисного агента:
Задача: <что нужно, для кого, на когда>
Контекст: <что уже есть / чего точно нет>
Ограничения: <бюджет, время, особенности>
Автономность: <буквальный / уточняющий>
Стоп-чеки: <авторизация, лимит цены, подтверждение шагов>
Вывод в одном предложении


В Comet ещё есть шаблоны для задач, чтобы каждый раз не пыхтеть над запросов. Так что один раз как надо сделали, далее пользуемся. И кстати, скидос на годовую подписку агентов в Comet ещё действует за несколько сотен рублей, а не долларов

🤖 InNeuralNetwork
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53