Сергей Булаев AI 🤖
11.4K subscribers
704 photos
630 videos
3 files
712 links
Стартапер, создал в том числе Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде, Бока Ратон. Тружусь над агентом по созданию контента на основе оцифрованной памяти человека: https://co.actor

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Да! Фотографии на 16-м получаются просто взрыв мозга! И кнопка очень удобна, но с регулировкой зума у меня пока не очень, но надо научиться.

А ещё, я очень рад, что наконец могу снимать spatial video, которые так сильно меня впечатлили в Apple Vision Pro (и которые мы пока можем смотреть на нашем Meta Quest 3)

Сергей Булаев AI 🤖 - об AI и не только
1374
This media is not supported in your browser
VIEW IN TELEGRAM
Так ну что! Я всё утро утро учился общаться с расширенным голосовым режимом ChatGPT. Это выглядело примерно вот так...

Пользование им ограничено, я думаю вышло примерно около 1 часа (может поменьше). За 15 минут до окончания выдал предупреждение.

Сейчас напишу свои мысли (и не только не мои)

Сергей Булаев AI 🤖 - об AI и не только
17931
This media is not supported in your browser
VIEW IN TELEGRAM
Мои мысли после первого дня использования продвинутого голосового режима ChatGPT.

Плюсы:

- Разговоры проходят плавно и естественно, почти как с реальным человеком. Небольшие сбои случаются: иногда долго включается или прерывается.

- Память о предыдущих беседах. Круто, что есть память, и она используется — это делает общение более связным и интересным с самого начала.

- Удобство фонового использования. Очень полезно иметь возможность просто говорить вслух, пока ассистент работает на заднем плане, даже с заблокированным экраном.

- Альтернатива набору текста. Разговор с языковой моделью — действительно достойная альтернатива набору текста. Это провоцирует более живой диалог.

- Умный и терпеливый слушатель. Хотя не всегда терпеливый 😁. Говорить вслух становится продуктивнее, когда у тебя есть внимательный и понимающий собеседник.

- Будущее общения. Возможно, в ближайшие три года мы будем больше общаться с голосовыми агентами, чем с реальными людьми.

- Дизрапция изучения языков. Ведение диалога значительно улучшает обучение языкам. Это точно будет востребовано.


Минусы:

Его сильно урезали!

Раньше он мог искать информацию онлайн, но сейчас эта функция отсутствует.

Нельзя использовать пользовательские GPT, что ограничивает персонализацию и адаптацию под индивидуальные потребности.

Отсутствует возможность создания изображений. Раньше можно было генерировать изображения, теперь эта возможность исчезла.

Нельзя показывать изображения. Это снижает интерактивность и ограничивает сценарии использования.

Ограниченное распознавание эмоций. Ассистент может различать эмоции, но в основном опирается на слова, а не на интонацию или тон голоса.

Лимиты по времени использования. В настоящее время есть ограничение около 1 часа в день, которое сбрасывается каждые 24 часа. Это мало! Надеюсь, не надолго!

Технические сбои. При высокой нагрузке возникают задержки и обрывы звука, что напоминает потерю связи в телефонном разговоре. Это раздражает (хоть и нечасто).

Строгие правила модерации. Если ассистент считает, что нарушает правила, он резко прерывает разговор и извиняется, что может сбивать с толку. Сталкивался с этим несколько раз на пустом месте.


На видео парень общается с ChatGPT во время разработки. Я примерно так же взаимодействовал, обсуждая функционал различных проектов.

Мы с нуля придумали проект и долго его обсуждали. Затем я перешёл в текстовый режим и попросил создать .md файлы с документацией (в голосовом он это не может!).

Мне понравилось — было классно обсудить проект короткими предложениями и постепенно обрисовать его в диалоге, по сравнению с текстом.

Жду когда это всё будет в курсоре!

Сергей Булаев AI 🤖 - об AI и не только
31761
Я не знаю была ли она раньше, но сегодня обнаружил факу по Advanced Voice Mode.

Вот 10 советов на основе неё:

1. Предотвращение прерываний: Используйте наушники и включите режим "Voice Isolation" на iPhone для улучшения качества звука и уменьшения фонового шума.

2. Управление ежедневными лимитами: Следите за временем использования продвинутого голосового режима и обращайте внимание на уведомления о приближении к лимиту.

3. Фоновый режим: Продолжайте голосовую беседу в фоновом режиме или при заблокированном экране, включив опцию "Фоновые беседы" в настройках.

4. Выбор голоса: Настройте голосовой ответ, выбрав один из девяти доступных голосов с уникальным тоном и характером.

5. Приватность данных: Управляйте своими данными в разделе "Контроль данных". Аудиозаписи хранятся вместе с транскрипциями и удаляются при удалении чата.

6. Обучение моделей: Ваши аудиозаписи не будут использоваться для обучения моделей без вашего согласия. Вы можете включить или отключить эту опцию в настройках.

7. Ограничения контента: Генерация музыкального контента, включая пение, недоступна. Если ChatGPT отказывается обсуждать тему, это связано с мерами безопасности.

8. История чатов: После голосовой беседы транскрипция сохраняется в вашей истории чатов, где вы можете ее просмотреть.

9. Один чат одновременно: Учтите, что вы можете вести только одну голосовую беседу одновременно.

10. Продвинутый голосовой режим доступен только для пользователей ChatGPT Plus и Team и недоступен в некоторых регионах (в Европе)

На видео рассказы про юзкейсы, голоса и кастомные инструкции для ChatGPT.

Сергей Булаев AI 🤖 - об AI и не только
1144
Media is too big
VIEW IN TELEGRAM
Дэн Шиппер (Every) показывает как он делает приложение для разъяснения сложных понятий из книги через SMS (пользователь отправляет фото страницы, получает объяснения) всего за 60 минут на Cursor (по-старинке, без Composer)

оригинал на YouTube

Сергей Булаев AI 🤖 - об AI и не только
1653
Snap неделю назад представила 5-ю версию своих очков дополненной реальности Spectacles.

1. Вес и автономность: Очки весят всего 226 граммов, что менее половины веса типичной VR-гарнитуры. При этом они способны работать автономно до 45 минут без подзарядки.

2. Оптическая система: Spectacles используют микропроекторы LCoS (Liquid Crystal on Silicon) и волноводы с миллиардами наноструктур для создания четкого AR-изображения. Поле зрения составляет 46 градусов по диагонали с разрешением 37 пикселей на градус.

3. Процессоры и охлаждение: В очках используется двойная архитектура системы на чипе с двумя процессорами Snapdragon от Qualcomm. Для улучшения теплоотвода применяются титановые паровые камеры.

4. Взаимодействие: Операционная система Snap OS позволяет управлять очками с помощью рук и голоса. Главное меню всегда находится на ладони пользователя.

5. Партнерство с
OpenAI: Snap сотрудничает с OpenAI, чтобы интегрировать облачные мультимодальные AI-модели в Spectacles. Это позволит разработчикам создавать более контекстно-зависимые приложения, реагирующие на то, что пользователь видит, говорит или слышит.

Разработчикам предлагают вступать в программу разработки всего за $99.

Сергей Булаев AI 🤖 - об AI и не только
1073
Раньше, если вы настолько же стары, как я, почти 20 лет назад у нас была "эпоха" web 2.0. Тогда появился Gmail, который годами оставался в beta версии. Сегодня, с каждым днём, всё более очевидно, что мы живём в "превью эру". Лидирующие компании релизят (или часто даже не релизят, а просто рассказывают про) не просто неготовые продукты, а прототипы и идеи.

Сегодня очередное подтверждение - Meta представила свои первые очки дополненной реальности, Орион. Они не планируют их продавать. Слишком дорогие. Просто показывают, куда идут, и где оно - наше очковое будущее.

Комплект Orion состоит из собственно очков, ремешка, который по мио сигналам считывает действия пальцев (клик указательным и большим, меню - средний + большой, скроллинг большим пальцем по сжатому кулаку), и внешнего блока, где ведутся основные расчеты. Примерно 70 градусов вида - это немало (но, к примеру, у Quest 3 - 110), система трекинга зрачков. 7 встроенных камер.

Будущее выглядит достойно (мне по крайней мере нравится больше, чем последний релиз Snap, неделю назад, но я знаю, что в Snap я не ЦА). Жалко только то, что оно всё ещё только будущее.

Сергей Булаев AI 🤖 - об AI и не только
1784
Media is too big
VIEW IN TELEGRAM
Сегодня у нас новый выпуск короткого подкаста, который я решил переименовать в #ИскуственныйПодкаст.

Понятное дело, речь пойдёт об уходе Миры Муратти из OpenAI. В этот раз я собрал в один документ письмо Миры, реакцию Сэма, а так же ещё несколько реакций из твиттера (и даже добавил немножко своего мнения). Отдал всё это PDF2Audio и получил вот эту запись.

Мне продолжает нравится. Когда будет время - попробую сделать тоже самое на ElevenLabs и интересно ещё реальных виртуальныё ведущих сделать и прикрутить лип синк. Понимаю что это всё реально и может получиться очень даже потребляемо.

P.S. Есть версия на моём новом, новичковском YouTube канале (подпишись, поставь лайк). Там кстати уже выложен мой длинный стрим о том как я делал О***енные истории. Над вресией во ВКонтакте работаю.

P.S.S. Просто аудио версию добавлю в комментариях

Сергей Булаев AI 🤖 - об AI и не только
1853👎1
Media is too big
VIEW IN TELEGRAM
The Verge опубликовал подробную статью с рассказом Алекса Хита о том как он два часа пользовался Орионом и играл в настольный теннис с Цукербергом. Это интересно. Сделал перевод. Оригинальное видео в статье.

Сергей Булаев AI 🤖 - об AI и не только
1273
Ещё несколько новинок от Meta, озвученных на недавней презентации, кроме очков дополненной реальности Орион.

1. Общение с Meta AI голосом (будет доступно в США, Канаде, Австралии и Новой Зеландии в течении месяца)

2. Теперь Meta AI можно будет отправлять фотографии/изображение, он сможет их "видеть", а так же работать с ними (убрать шапку, поменять фон, итп)

3. Выкатываются эксперементальные ИИ фичи для рилсов - автомотическое дублирование на другие языки вместе с липсинком.

4. Мета тестируют фичу "придумано для тебя", ИИ контент специально созданный под задачи конкретного пользователя, который можно будет шарить в ленту.

5. Так же представлены новые модели Llama 3.2:
- Две средних размеров мультимодальные модели (11 млрд и 90 млрд параметров), которые конкурентоспособны с Claude 3 Haiku и GPT4-mini в распознавании изображений
- Две легковесные модели, работающие только с текстом (1 млрд и 3 млрд параметров), которые подходят для использования на мобильных устройствах, поддерживают контекст в 128 тысяч токенов и являются передовыми для многих сценариев использования на устройствах.

6. Meta также продолжает внедрять ИИ для очков Ray-Ban Meta! Основные моменты:
- Могут запоминать то, что вы видите, и устанавливать напоминания
- Мультимодальны и теперь могут сканировать QR-коды
- Могут видеть то, что вы делаете в реальном времени через видео (!)
- Переводят в реальном времени

Согласно Meta, запуск моделей локально может сделать запросы и ответы "мгновенными", так как обработка происходит на самом устройстве. Но что наиболее важно, поскольку обработка выполняется локально, ваши данные остаются на вашем устройстве и сохраняют конфиденциальность. Налицо прямая конкуренция с Apple, который до сих пор не может выпустить обещанный Apple Intellegence.

Сергей Булаев AI 🤖 - об AI и не только
186