местный датасасер ☮️
2.01K subscribers
1.01K photos
58 videos
7 files
655 links
Пишу всякое о технологиях и моих проектах, @egorvoron
Download Telegram
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
🔉 Мимо всех прошёл новый генератор ультра-реалистичной речи — Cartesia озвучивает любой текст на 14 языках быстрее, чем Elevenlabs! Русский поддерживается.

Сервис клонирует любой голос за 15 секунд для озвучки или дубляжа контента. Можно выбрать язык, уже готовый голос, скорость, акценты и даже эмоции. Бесплатно дают озвучку 10,000 знаков.

У Elevenlabs мощный конкурент — тут.

@notboring_tech
что если бы весь контент на реддите был сгенерирован, и все юзеры были ботами?
посмотрите https://deaddit.xyz/
когда уже все в интернете будет завалено сгенеренным контентом, и сюда можно будет перестать заходить?
Forwarded from Сиолошная
Вчера увидел, что мой твит с комментарием по уходу из OpenAI Bob McGrew, VP of Research, лайкнул сам Bob. А потом случайно на ютубе наткнулся на его интервью годовой давности, и решил послушать между делом.

В целом не так много интересного, если активно следите за AI, но решил пересказать одну часть с историей про появление ChatGPT (вот таймкод):

— к середине осени 2022-го уже была натренирована GPT-4 (по официальным данным, тренировка закончилась в августе); в компании знали, что если они смогут придумать, как использовать модель на полную, то это будет невероятно. Вся компания пыталась придумать, что же с ней делать.
— John Shulman, глава команды, занимавшейся Reinforcement Learning (ныне ушёл в Anthropic), предложил сделать модель «разговорчивой», чтобы она могла вести диалог; для тех, кто не застал 2020-2022 годы в LLM: тогда модели просто дописывали текст по шаблону. В 2022м году их уже можно было промптить, давая какую-то задачу, примеры, но и всё.
— ещё до этого было ясно, что в будущем роль AI можно будет описать как «ассистент», но казалось, что модели ещё не достигли нужного уровня, чтобы помогать реальным людям в реальных задачах; поэтому даже не думали о подобном. К тому моменту GPT-3.5 уже около полугода была доступна в публичном API, и никто не сделал прото-ChatGPT.
— John сказал: «да, модели неидеальны, и мы знаем, что GPT-4 будет лучше, но давайте попробуем просто взять, обучить и выложить диалоговую модель в интернет. Может мы наберём хотя бы 10000 пользователей, и они помогут нам понять, где LLM плоха, и мы сможем начать итерироваться и улучшать её»
— Команда немного подумала, так как казалось, что это требует большого количества работы, но в итоге решили сделать и уложиться в НЕДЕЛЮ (ранее об этом писали, кажется, в WSJ, но ссылку за декабрь 22-го не буду искать). По сути, это был сайд-проект компании, они называли его «low key research preview», не было никакого медиа-освещения, не было рекламы. Были минимальные ожидания.
— Но по итогу всё полетело, и через 2 месяца ChatGPT оказался самым быстрорастущим продуктом из всех, достигнув планки в 100 миллионов пользователей. В это время многие сотрудники вообще другим занимались, но пришлось активно впрягаться и поддерживать проект; особенно активными были следующие 6 месяцев.

Вот такой вот урок по истории получился 🤓
🥸

===

Сделать ChatGPT с нуля: неделя
Добавить поиск по чатам: 2 года 😦
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Я сначала увидел в твиттере и не поверил, подумал, что это шутка.

В США с 2000-го года существует United States–China Economic and Security Review Commission. В комиссии 12 членов, сама комиссия подчиняется только Конгрессу и не является частью никакого агентства или департамента. Каждый год до 1-го декабря комиссия публикует отчёт, в котором в том числе даёт рекомендации Конгрессу.

Свежий отчёт опубликовали час назад, и в нём первым пунктом в блоке ключевых рекомендаций идёт...

«Учредить и профинансировать программу, подобную Манхэттенскому проекту, направленную на разработку и использование возможностей искусственного интеллекта общего назначения (AGI)»

😐😐😐

===

Спросил у ChatGPT, насколько важна эта Комиссия и как часто Конгресс прислушивается к рекомендациям. Не ручаюсь за правильность оценки, но нейронка сказала, что в целом к рекомендациям прислушиваются, хоть и не все исполняют.

Идём перечитывать SITUATIONAL AWARENESS и/или пересматривать интервью с Leopold'ом из OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
а может уже нормальный поиск по тексту завезете?
Forwarded from addmeto (Grigory Bakunov)
Google официально анонсировали Gemini 2.0, это попытка конкурировать с OpenAI, причем судя по первым тестам на арене - весьма неплохая. Обратите внимание на людей, которые официально пишут пост в этот блог гугла. Тема гонки AI настолько важна, что пишет сам Сундар Пичай, а дополняют оба руководителя Google DeepMind.

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message
Друзья, всех с наступающим! 🎉🎄
Forwarded from эйай ньюз
OpenAI показали Operator - своего первого агента

Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д. Выглядит это как отдельный сайт на поддомене чатгпт, где к обычному интерфейсу прилепили окно браузера, которое стримится одновременно и пользователю и оператору. Пользователь в любой момент может перехватить контроль, более того, для чувствительных действий, вроде платежей, вмешательство пользователя необходимо.

Это всё напоминает мне про стартап Mighty, который создавал облачный браузер, но пивотнулся в генерацию изображений пару лет назад (теперь они Playground). Он проходил Y Combinator как раз когда Альтман ещё был там главой совета директоров, возможно OpenAI выкупили IP.

Работает это всё на основе CUA (Computer-Using Agent), нового тюна GPT-4o, который совмещает ризонинг с пониманием изображений. Она бьёт Sonnet 3.6 (2024-10-22) по computer use, с аналогичной моделью Google не сравнивают - там разрыв куда меньше и доступа публичного пока что нету. Заметьте, как OpenAI всё больше и больше в презентациях похожи на Apple - в табличке упоминают модель как "Previous SOTA", а то что это Sonnet 3.6 можно узнать только из сносок.

Anthropic и Google показывали демки и запускали API на несколько месяцев раньше, но OpenAI всё равно первыми запустили консьюмерский продукт, что показывает разницу приоритетов. Operator уже раскатывают на пользователей Pro подписки (кстати, а вы знали что она убыточна?), через подписку Plus и API оно будет доступно через несколько недель.

operator.chatgpt.com (доступно Pro пользователям из США, под впном пускает)

@ai_newz
Forwarded from Futuris (Anton)
DeepSeek наносит ответный удар, за сегодня американский айти рынок уже потерял 1 трлн долларов и начал DDOS атаку на дипсик, а тут от них новая модель генерации картинок Janus-Pro-7B, которая бьёт DALL-E 3 и Stable Diffusion 🤯

https://huggingface.co/deepseek-ai/Janus-Pro-7B
еще 1000 tiktoks, остальное верно
Forwarded from Сиолошная
Пост с выжимкой трансляции:

— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.

UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.

Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)

UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
Forwarded from Борис опять
https://www.docker.com/blog/introducing-docker-model-runner/

Docker сделал llama.cpp + хранилище моделей в Docker Hub + OpenAI API из коробки, в общем докеризация моделей от докера
Forwarded from эйай ньюз
Релиз Gemini 2.5 Flash

Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).

Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.

Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.

@ai_newz
Forwarded from ML physicist (Алексей Маметьев)
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT