Forwarded from Tensor Banana
This media is not supported in your browser
VIEW IN TELEGRAM
Прикрутил потоковый режим для vibeVoice-7b в комфи
vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные.
Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется.
Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался.
vibeVoice-7b практически идеально ставит ударения в русской речи.
vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно.
Скорость vibeVoice-7b на 3090:
для генерации длинного аудио длиной 30 секунд:
- 53 секунда - без стриминга
- 36 секунд со стримингом, до воспроизведения и буфером 20s
для генерации короткого аудио длиной 15 секунд:
- 27 секунд - без стриминга
- 19 секунд со стримингом, до воспроизведения и буфером 10s
Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса.
Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце.
Требования:
Для 7b:
в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB.
На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил).
Для 1.5b:
1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16.
Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый).
В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце.
Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF.
воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json
мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI
мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip
vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные.
Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется.
Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался.
vibeVoice-7b практически идеально ставит ударения в русской речи.
vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно.
Скорость vibeVoice-7b на 3090:
для генерации длинного аудио длиной 30 секунд:
- 53 секунда - без стриминга
- 36 секунд со стримингом, до воспроизведения и буфером 20s
для генерации короткого аудио длиной 15 секунд:
- 27 секунд - без стриминга
- 19 секунд со стримингом, до воспроизведения и буфером 10s
Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса.
Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце.
Требования:
Для 7b:
в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB.
На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил).
Для 1.5b:
1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16.
Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый).
В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце.
Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF.
воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json
мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI
мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip
Forwarded from DeepSchool
Краткая история механизма внимания в NLP
Механизм внимания — один из ключевых компонентов современных нейросетей, позволяющий моделям концентрироваться на важных фрагментах данных. Это повлияло на улучшения в разных областях: NLP, Robotics и GenAI. В новой статье рассказываем историю появления и развития механизма внимания👨🏼💻
Из этой статьи вы узнаете:
- какие были предпосылки появления механизма внимания
- какие основные принципы работы self-attention, cross-attention и multi-head self-attention
- и как работает позиционное кодирование и маскирование
Читайте статью по ссылке! 👈
Механизм внимания — один из ключевых компонентов современных нейросетей, позволяющий моделям концентрироваться на важных фрагментах данных. Это повлияло на улучшения в разных областях: NLP, Robotics и GenAI. В новой статье рассказываем историю появления и развития механизма внимания👨🏼💻
Из этой статьи вы узнаете:
- какие были предпосылки появления механизма внимания
- какие основные принципы работы self-attention, cross-attention и multi-head self-attention
- и как работает позиционное кодирование и маскирование
Читайте статью по ссылке! 👈
DeepSchool
Краткая история механизма внимания в NLP - DeepSchool
Рассказываем краткую историю появления и развития механизма внимания.
Forwarded from Korenev AI - GPT в тапочках🩴
Сейчас читаю книгу Криса Восса «Договориться не проблема».
Восс больше 20 лет работал в ФБР и специализировался на переговорах с террористами, особенно когда заложниками были дети. Сегодня он обучает переговорам в бизнесе и жизни.
Его техники одинаково хорошо работают как с дядьками с автоматами, так и с дядьками с дипломатами.
Главный инсайт Восса: решения принимают не логикой, а эмоциями. Факты не убеждают, пока человек не почувствует, что его понимают. Это касается не только переговоров в бизнесе, но и повседневных диалогов - будь то спор с подростком, просьба к супругу или разговор с чиновником.
Я обсудил одну свою жизненную ситуацию с Клодом и попросил его ответить, используя знания Восса. Получился отличный набор промптов, но в этот раз не для ИИ, а для для кожаных: что спросить, что сказать, как выстроить диалог.
Зацените иронию:
ИИ пишет промпт, чтобы человек показал лучший результат
Для получения ответа я использовал эту инструкцию:
Ты - специалист по переговорам. Используя знания Крисса Восса в целом, и книги "Договориться не проблема" в частности.
Дай мне рекомендации по моей ситуации. При необходимости задай до 10 вопросов, чтобы лучше понять происходящее. [опиши свою ситуацию]
Но я не остановился на этом и сделал бесплатного Телеграм-бота с GPT-5 под капотом, который по методике Восса помогает выстроить диалог в любой сфере: от бизнеса и работы - до семьи, друзей и случайных споров.
Можно даже не печатать, а надиктовывать голосом.
Кто в каментах оставит по боту обратную связь - у того скилл по переговорам вырастет сразу на 3 пункта!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from TechSparks
С Днем знаний, дорогие читатели! Хочется надеяться, что если вы читаете этот канал, то знания вам небезразличны:)
Первого сентября хочется поделиться полезным и для тех, кто учит, и для тех, кто учится. Ну, и актуальным, естественно, про ИИшечку.
У Anthropic есть немало курсов для технарей, но я бы посоветовал на странице по ссылке обратить внимание на:
- AI Fluency: Framework & Foundations
- AI Fluency for Educators
- AI Fluency for Students
- Teaching AI Fluency
(по-русски мы обычно говорим «ИИ-грамотность», но fluency подразумевает чуть большее и тем мне больше нравится)
Курсы бесплатны, но получше многих платных;)
https://anthropic.skilljar.com
Первого сентября хочется поделиться полезным и для тех, кто учит, и для тех, кто учится. Ну, и актуальным, естественно, про ИИшечку.
У Anthropic есть немало курсов для технарей, но я бы посоветовал на странице по ссылке обратить внимание на:
- AI Fluency: Framework & Foundations
- AI Fluency for Educators
- AI Fluency for Students
- Teaching AI Fluency
(по-русски мы обычно говорим «ИИ-грамотность», но fluency подразумевает чуть большее и тем мне больше нравится)
Курсы бесплатны, но получше многих платных;)
https://anthropic.skilljar.com
Anthropic Courses
Learn to build with Claude AI
through Anthropic's comprehensive courses and training programs.
through Anthropic's comprehensive courses and training programs.
Forwarded from Refat Talks: Tech & AI
This media is not supported in your browser
VIEW IN TELEGRAM
AI Creative Tools: State of Play - чудесная презентация-шпаргалка от партнера a16z
Партнер a16z Justine Moore тратит большую часть дня на тестирование последних AI-моделей и воркфлоу для всех форм креативного контента - изображения, видео, аудио, 3D. И собрала все это в красивейшую презентацию + с примерами и промптами - все как мы любим. Увидел там много интересного, уверен вам тоже зайдет - делюсь.
Это выжимка от человека, который тестирует эту дичь каждый день и отобрал только топ на сегодняшний день:
- Какие модели решили проблему консистентности персонажей (с конкретными примерами как это делать)
- Что использовать для каждой задачи: Veo 3 для общей генерации, Hailuo 2.0 для физики, Seedance Pro для монтажа
- Почему про-криейторы юзают Krea для тестирования промптов на куче моделей одновременно
- Какие фичи уже есть vs что еще в разработке (спойлер: больше рабочего, чем кажется)
Преза тут: https://www.canva.com/design/DAGw9BX8VoE/J2aeyzKKZobzCWR9hsZsBQ/edit
P.S. Кто такие a16z я писал и у них кстати на днях вышел свежий The Top 100 Gen AI Consumer Apps с их топом и аналитикой, зацените тоже.
Сохраняйте и репостните если было полезно!
🔥➕🔁
Партнер a16z Justine Moore тратит большую часть дня на тестирование последних AI-моделей и воркфлоу для всех форм креативного контента - изображения, видео, аудио, 3D. И собрала все это в красивейшую презентацию + с примерами и промптами - все как мы любим. Увидел там много интересного, уверен вам тоже зайдет - делюсь.
Это выжимка от человека, который тестирует эту дичь каждый день и отобрал только топ на сегодняшний день:
- Какие модели решили проблему консистентности персонажей (с конкретными примерами как это делать)
- Что использовать для каждой задачи: Veo 3 для общей генерации, Hailuo 2.0 для физики, Seedance Pro для монтажа
- Почему про-криейторы юзают Krea для тестирования промптов на куче моделей одновременно
- Какие фичи уже есть vs что еще в разработке (спойлер: больше рабочего, чем кажется)
Преза тут: https://www.canva.com/design/DAGw9BX8VoE/J2aeyzKKZobzCWR9hsZsBQ/edit
P.S. Кто такие a16z я писал и у них кстати на днях вышел свежий The Top 100 Gen AI Consumer Apps с их топом и аналитикой, зацените тоже.
Сохраняйте и репостните если было полезно!
🔥➕🔁
Forwarded from Daniel Dhawan l founder blog
Как мы стали #2 App Store US с Rork iOS аппом, который превращает любую идею в приложения
Rork – это самый быстрый способ принести свою идею в ваш телефон. Вы пишете какое приложение вам нужно, Rork делает его с помощью AI, и вы сразу можете пользоваться им внутри Rork аппа хоть каждый день, или скинуть ссылку друзьям. Никаких танцев с бубном с TestFlight и App Store!
Приложения получаются как настоящие и могут использовать AI (делать чатботов, анализировать аудио и картинки, и даже генерить картинки с NanoBanana), а также почти все нативные iOS функции: камеру, вибрации, и тп
Пока мы делаем простые аппы и игры без бэкэнда, но самый интересный learning был в том, что оказывается многим этого уже достаточно
В мире куча людей, у которых есть уникальный инсайт/доменная область и очень маленькая проблема, с которой они встречаются каждый день, но о которой никто из стартаперов или разработчиков в жизни бы никогда не узнал.
Хороший пример: российский доктор из клиники по лечению рака, который сделал для себя приложение, чтобы рассчитывать дозу химиютерапии на ходу, вместе с AI библиотекой с советами и рекомендациями.
Им нужно очень простое приложение, которое решает их маленькую боль. Часто они понимают, что они не единственные в мире, кто имеет эту проблему, и решают запуститься в App Store, начать принимать платежи и создают свой маленький бизнес.
Все как завещал PG – лучшая идея для стартапа, это проблема, которая есть у тебя.
История
Последние 6 месяцев мы успешно растили веб версией Rork, которая растет быстрее 99% SaaS бизнесов пред AI эпохи, и уже достигла несколько миллионов ARR.
У Левана давно была идея – а что если добавить AI агент Rork в мобильное приложение, которое будет сразу принимать форму приложения, которое вы попросили? Такой универсальный апп делающий другие аппы и позволяющий их пошерить с друзьями
Потом пришли конкуренты Vibecodeapp, которые начали активно копировать Rork, но чтобы дифференцироваться запустили свое мобильное приложение.
Запуск у них не пошел несмотря на хайповое название, помощь Nikita Bier, кофаундер-инфлюенсера с 100к подписчиками и раунд в $9M – работает сильно хуже, и людям все равно хочется публиковать аппы в Апп Стор, поэтому им пришлось копировать нашу веб-версию.
Но там у нас давно полная доминация, где мы по SimilarWeb скоро обгоним Bolt в категории мобильных приложений.
При этом мы времени не теряли, и параллельно сделали свой iOS апп, который благодаря гениальности Левана и нашей маленькой команды получился в разы лучше, чем все что было на рынке.
Так, Rork в день запуска вышел в глобальный топ App Store в Developer Tools, обогнав Replit, Github, других конкурентов, а в каких-то странах даже TestFlight. От чего все конкуренты в Твиттере жестко испугались и резко активизировались
Вывод тут классический. Good distribution + great product >> great distribution + bad/mediocre product
Хотя, конечно, это и не end game – посмотрим, чем закончится!
Как мы запустились?
Так как веб версия Rork.com уже почти обогнал Bolt в мобильных приложениях, нам достаточно было добавить ссылку на App Store на сайт чтобы выйти в #2 App Store in Dev Tools и топ 1-10 в мире
В честь запуска, ну и просто чтобы проверить насколько сильно разойдется вайбкодинг, мы сделали iOS приложение Rork полностью бесплатным.
По традиции запускаемся на Product Hunt, поддержите пожалуйста апвоутом и комментом
P.S. Спасибо Серафиму что закрафтил нам UI и анимации в приложении!!!
Rork – это самый быстрый способ принести свою идею в ваш телефон. Вы пишете какое приложение вам нужно, Rork делает его с помощью AI, и вы сразу можете пользоваться им внутри Rork аппа хоть каждый день, или скинуть ссылку друзьям. Никаких танцев с бубном с TestFlight и App Store!
Приложения получаются как настоящие и могут использовать AI (делать чатботов, анализировать аудио и картинки, и даже генерить картинки с NanoBanana), а также почти все нативные iOS функции: камеру, вибрации, и тп
Пока мы делаем простые аппы и игры без бэкэнда, но самый интересный learning был в том, что оказывается многим этого уже достаточно
В мире куча людей, у которых есть уникальный инсайт/доменная область и очень маленькая проблема, с которой они встречаются каждый день, но о которой никто из стартаперов или разработчиков в жизни бы никогда не узнал.
Хороший пример: российский доктор из клиники по лечению рака, который сделал для себя приложение, чтобы рассчитывать дозу химиютерапии на ходу, вместе с AI библиотекой с советами и рекомендациями.
Им нужно очень простое приложение, которое решает их маленькую боль. Часто они понимают, что они не единственные в мире, кто имеет эту проблему, и решают запуститься в App Store, начать принимать платежи и создают свой маленький бизнес.
Все как завещал PG – лучшая идея для стартапа, это проблема, которая есть у тебя.
История
Последние 6 месяцев мы успешно растили веб версией Rork, которая растет быстрее 99% SaaS бизнесов пред AI эпохи, и уже достигла несколько миллионов ARR.
У Левана давно была идея – а что если добавить AI агент Rork в мобильное приложение, которое будет сразу принимать форму приложения, которое вы попросили? Такой универсальный апп делающий другие аппы и позволяющий их пошерить с друзьями
Потом пришли конкуренты Vibecodeapp, которые начали активно копировать Rork, но чтобы дифференцироваться запустили свое мобильное приложение.
Запуск у них не пошел несмотря на хайповое название, помощь Nikita Bier, кофаундер-инфлюенсера с 100к подписчиками и раунд в $9M – работает сильно хуже, и людям все равно хочется публиковать аппы в Апп Стор, поэтому им пришлось копировать нашу веб-версию.
Но там у нас давно полная доминация, где мы по SimilarWeb скоро обгоним Bolt в категории мобильных приложений.
При этом мы времени не теряли, и параллельно сделали свой iOS апп, который благодаря гениальности Левана и нашей маленькой команды получился в разы лучше, чем все что было на рынке.
Так, Rork в день запуска вышел в глобальный топ App Store в Developer Tools, обогнав Replit, Github, других конкурентов, а в каких-то странах даже TestFlight. От чего все конкуренты в Твиттере жестко испугались и резко активизировались
Вывод тут классический. Good distribution + great product >> great distribution + bad/mediocre product
Хотя, конечно, это и не end game – посмотрим, чем закончится!
Как мы запустились?
Так как веб версия Rork.com уже почти обогнал Bolt в мобильных приложениях, нам достаточно было добавить ссылку на App Store на сайт чтобы выйти в #2 App Store in Dev Tools и топ 1-10 в мире
В честь запуска, ну и просто чтобы проверить насколько сильно разойдется вайбкодинг, мы сделали iOS приложение Rork полностью бесплатным.
По традиции запускаемся на Product Hunt, поддержите пожалуйста апвоутом и комментом
P.S. Спасибо Серафиму что закрафтил нам UI и анимации в приложении!!!
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
ML Training HSE TS.pdf
6.2 MB
В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.
Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab
Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab
Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
Forwarded from Aspiring Data Science (Anatoly Alekseev)
#trading
Если интересно про фьючи (а затем и опционы) узнать, вот лучший в стране лектор рассказывает.
https://www.youtube.com/watch?v=7XBoISgP0t4
Если интересно про фьючи (а затем и опционы) узнать, вот лучший в стране лектор рассказывает.
https://www.youtube.com/watch?v=7XBoISgP0t4
YouTube
Опционы. Срочный рынок и его особенности. Фьючерсы. Основные понятия. Сергей Плешков
Автор курса ПЛЕШКОВ СЕРГЕЙ https://teletype.in/@cmd_trading/options
.............................................................................................
Обязательно посетите наши ресурсы для ознакомления с полезной информацией 🙂
Tелеграмм https…
.............................................................................................
Обязательно посетите наши ресурсы для ознакомления с полезной информацией 🙂
Tелеграмм https…
Forwarded from Ebout Data Science | Дима Савелко
LLM на стероидах: Что такое ReAct и почему он опускает обычный RAG?Представим, что у нас есть чат-бот, который отвечает на вопросы по загруженной базе документов (RAG чат-бот). Вроде круто, но что если нам нужно, чтобы он не просто в документах копался, а еще и как-то с внешним миром взаимодействовал?
Например, мог:
Обычная LLMка либо рассуждает и отвечает на основе текста, либо вызывает какой-то один инструмент, например, RAG. Она не может делать и то, и другое одновременно.
И вот тут на сцену врывается с двух ног ReAct-архитектура (Reason + Act). Такой агент - настоящий гигачад, потому что он умеет чередовать рассуждения с действиями (вызовами функций, или Tools) для взаимодействия с миром.
Агент анализирует запрос пользователя и сам решает, что делать дальше:
Структура ReAct Agent
Как это работает на практике?
Допустим, мы спрашиваем: «Хочу сделать додеп на 100 баксов в слоты, есть какие-нибудь бонусы?»
После согласия пользователя агент может инициировать транзакцию через API платёжного шлюза.
Итог:
ReAct Agent превращает LLMку из обычного генератора текста в полноценного ассистента, который умеет взаимодействовать с внешним миром и реально решать задачи, а не просто болтать. Короче, это база!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
Топ лучших LLM для кода и как их оценивают😁
Какие бенчмарки используют для проверки и что они все таки проверяют
Если простым языком, то бенчмарк - экзамен для LLM в разных областях. Существует много разных видов, которые оценивают способность модели к мышлению(GPQA-bench) или к математики, но все-таки для нас более важна оценка в программировании и как ее получили:
1️⃣ HumanEval — набор ~160 ручных Python-задач, где оценивают функциональную корректность (генерируемая функция должна проходить тесты),метрика
2️⃣ APPS — большой набор (~10k задач) разной сложности, включая алгоритмические и конкурсы; проверка — прогон тестов на корректность. Нужен для оценки способности решать «серьёзные» задачи.
3️⃣ CodeXGLUE / Code-benchmarks — набор задач разного типа (completion, summarization, clone detection), чтобы оценивать разные сценарии кода, не только решение задачи.
4️⃣ SWE-bench — модель не просто генерирует функцию, а получает репозиторий + описание и должна подготовить патч, который исправит проблему и пройдёт тесты в изолированном окружении(агентский бенчмарк).
В чем проблема этих бенчмарков
1️⃣ Бенчмарки проверяют отдельные функции, но на моем опыте основная проблема в интеграциях и правильной архитектуре
2️⃣ Некоторые компании сами натаскивают LLM, чтобы на лидерборде она была выше
3️⃣ Зачастую нам не говорят, на какой температуре проверялась LLM, включен ли был reasoning и так далее, хотя это напрямую влияет на качество ответа
4️⃣ Автоматические метрики (BLEU, CodeBLEU и др.) дают число, но оно не всегда отражает читаемость, безопасность, оптимальность или пригодность решения в проекте.
Сам топ
1️⃣ Anthropic — Claude (Opus 4 / Opus 4.1) — очень сильна в «реальном» кодинге, хороша для больших, долгих сессий и отладочных диалогов; лидирует в ряде современных SWE-bench и задач на инженерию ПО.
2️⃣ OpenAI — GPT-5 — топ по общей мощности и часто отлично показывает себя в автоматических бенчмарках по коду; сильна в генерации, пояснениях и отладке. Но уже сейчас отмечают разницу ожиданий и поведения.
3️⃣ Google — Gemini (2.x / 2.5 Pro и выше) —хорош в больших контекстах и full-stack задачах; сильна при комбинировании поиска и кода.
4️⃣ xAI — Grok (серии 3/4) - для меня все еще лучший бесплатный игрок, может спокойно написать 200-300 строк кода, но при этом сильно проигрывает своим платным конкурентам.
Интересные сайты, которые я нашел при подготовке поста
Базовая база
Оценка именно кодовых ответов LLM
Очень красивые графики по разным бенчмаркам + доп информация по стоимости, контекстному окну и выдаче токенов
Как вам такой пост?) Обязательно ставьте реакции и пишите комментарии💗
Какие бенчмарки используют для проверки и что они все таки проверяют
Если простым языком, то бенчмарк - экзамен для LLM в разных областях. Существует много разных видов, которые оценивают способность модели к мышлению(GPQA-bench) или к математики, но все-таки для нас более важна оценка в программировании и как ее получили:
pass@k.В чем проблема этих бенчмарков
Сам топ
Интересные сайты, которые я нашел при подготовке поста
Базовая база
Оценка именно кодовых ответов LLM
Очень красивые графики по разным бенчмаркам + доп информация по стоимости, контекстному окну и выдаче токенов
Как вам такой пост?) Обязательно ставьте реакции и пишите комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets | Карьера
Нашли книжку, которая идеально подойдет для подготовки к собеседованиям или предстоящих экзаменов или контрольных, ведь сентябрь уже не за горами.
Так что же внутри?
➖ Разобранные проблемы из самых разных областей ИИ. Не просто сухие ответы, а глубокие объяснения;
➖ Фокус на ключевые темы: от основ ML до сложных архитектур;
➖ Задачи, которые точно встретятся на собесах.
Эту книгу часто советуют для прокачки навыков — поэтому и мы рекомендуем.
Так что же внутри?
Эту книгу часто советуют для прокачки навыков — поэтому и мы рекомендуем.
Please open Telegram to view this post
VIEW IN TELEGRAM