Технозаметки Малышева

да.. огонь.

https://groq.com/

Асики под LLM - следующие единороги

#Groq

118 viewsedited 10:59

This media is not supported in your browser

Groq уже разместил у себя Deepseek-R1-Distill-Llama-70b

Как вам модель с рассуждениями, которая генерит ответ со скоростью 275 токенов в секунду :)

Вот это реально ниша, которая может подвинуть акции NVidia на пару пунктов вниз. ИИ асики. Тема!
Ну или NVidia начнёт их выпускать сами.
Думаю они даже могли бы купить Groq, чтобы не мучаться.

#Groq #DeepSeek
———
@tsingular

🔥13

1.11K views05:40

Технозаметки Малышева

☏ Phonely: ИИ-агенты достигли 99% точности — клиенты не отличают их от людей

Партнёрство Phonely, Maitai и Groq решило главную проблему разговорных ИИ — странные паузы, которые мгновенно выдают машину.

Технические детали:
- Время ответа сократилось на 70%+ (с 661 до 176 мс)
- Точность выросла с 81.5% до 99.2% (лучше, чем GPT-4o на 4.5%)
- 70% звонящих не могут отличить ИИ от человека

Секрет успеха — "zero-latency LoRA hotswapping":
Groq научился мгновенно переключаться между специализированными моделями без потери производительности, а Maitai создал систему оркестрации, которая автоматически оптимизирует каждый запрос.

Бизнес-эффект:
- один из клиентов заменяет 350 операторов в этом месяце
- рост квалифицированных лидов на 32%
- развертывание за 1 день

Архитектура:
От универсальных моделей к специализированным системам: Groq's LPU чипы + Maitai's proxy-слой = мультимодельная архитектура с нулевой латентностью.

Посмотрите в окно - мы проезжаем эффект зловещей долины.
Скоро даже специалисты не смогут отличить подделку голоса, а уж обычные люди и подавно.

#Phonely #VoiceAI #Groq #CallCenter
———
@tsingular

⚡7🔥2❤1😢1👾1

2.59K views06:46

Технозаметки Малышева

Hugging Face добавила Groq для молниеносного запуска AI моделей

Hugging Face интегрировала Groq в свою платформу для сверхбыстрого inference AI моделей.

Вместо обычных GPU, Groq использует специальные чипы Language Processing Unit (LPU), созданные именно для трансформеров.
Результат - мгновенный отклик и высокая производительность.

Теперь разработчики получили доступ к популярным open-source моделям вроде Llama 4 и QwQ-32B через инфраструктуру Groq прямо в Hugging Face.

Интеграция работает с Python и JavaScript библиотеками, поддерживает личные API ключи или консолидированную оплату через Hugging Face.

Интересно что по стоимости выйдет в сравнении с арендой GPU мощностей.
Ну, т.е. LPU это х10 к скорости, но будет ли это в 10 раз дешевле на круг, - не факт.

#HuggingFace #Groq
———
@tsingular

✍4🔥2⚡1🤔1

2.59K views19:13

About

Blog

Apps

Platform