📈 ТехноТренды: Технологии, Тренды, IT
1.03K subscribers
122 photos
23 videos
7 files
223 links
Канал "ТехноТренды". Разбор технологий, технологических трендов и инноваций в различных сферах бизнеса и жизни: IT, производство и др.
Download Telegram
Инференс LLM и рост потребления GPU

Большие языковые модели (#LLM) и средства генерации с дополненной выборкой (Retrieval-Augmented Generation, #RAG) на наших глазах меняют технологический ландшафт. Требования к вычислительным мощностям растут. В результате прогресс программных средств (нейросетей) тесно смыкается с проблемой насыщения рынка продвинутым «железом».

Особую актуальность приобретают (второй раз после бума биткойнов) графические процессоры — #GPU. Еще недавно видеокарта была необязательным приложением к компьютеру, всех больше интересовали возможности центрального процессора (CPU). Теперь именно видеочипы — основной драйвер развития технологий.

На картинке — график роста размеров больших языковых моделей за последние шесть лет. Как откликаются на это производители чипов?

Подробности читайте в нашем обзоре
Почему G, а не C?
Многие уже давно в курсе, но здесь важно лишний раз подчеркнуть. GPU это не только «про картинку». Сильная сторона GPU — способность к параллельной обработке нескольких массивов данных в реальном времени. Их память имеет в сотни раз более высокую пропускную способность, чем у CPU. Это делает видеокарты несравнимо более эффективными при обсчете сложных задач.

Именно использование графических чипов революционизирует развитие генеративных нейросетей. При обучении и эксплуатации искусственного интеллекта GPU обеспечивают лучший инференс, т.е. скорость обработки запросов и формулирования ответов на естественных языках.

👉 Интересная статья по теме

Новый рынок вычислений и роль GPU
Развитие LLM и RAG привело к росту спроса на видеочипы. Для растущей индустрии их требуются буквально миллионы. Например, кластер для обучения искусственного интеллекта GROK 3, построенный Илоном Маском, включает в себя 100 тыс. чипов H100 от Nvidia. Это, конечно, случай исключительный, но, к примеру, средний GPU-сервер имеет 8 слотов под видеочипы, и они сейчас продаются в массовых количествах.

ИИ-революция заставляет многие компании кардинально пересматривать архитектуру своих систем хранения и обработки данных, и инвестировать в их модернизацию.

Ожидается, что мировой рынок ИИ будет расти в среднем на 37% в год, и к 2030 году достигнет объема в $1 847,5 млрд. Параллельно лидеры рынка видеокарт по экспоненте наращивают как производство, так и мощность чипов. Так, производительность чипа H100 в 16 раз выше, чем у A100, выпущенного двумя годами ранее. В 2023 году Nvidia выпустила 500 тыс. H100, а за 2024 год более чем утроила их производство плюс запустила новую модель — H200.

👉 Интересная статья по теме (🇬🇧 англ).

Облачные сервисы: GPU в аренду (Cloud GPU)
Один чип H100 стоит $30000 — не каждому по карману. Но чтобы разработать и использовать продвинутый ИИ с RAG, не обязательно строить собственный дата-центр. Кластер GPU можно арендовать. Тот же Маск сначала арендовал чипы Nvidia для обучения LLM GROK 2 у Oracle.

Серверы с GPU для «тяжелых» технических задач пользуются всё большим спросом на рынке облачных услуг. Например, в России доля аренды таких серверов для обучения LLM в 2023 году составила 5,4% рынка, а общая выручка операторов сервисов — почти 6,6 млрд руб. (рост в 44% по сравнению с 2022 г.). По прогнозам, к 2030 году доля аренды на рынке GPU-серверов удвоится, а выручка их владельцев достигнет 50,3 млрд руб.

👉 Интересная статья по теме
👉 Еще одна

Open Source LLM
Параллельно растет и предложение Open Source LLM, их порой выпускается по несколько в неделю. Из «горячих» недавних примеров — пресловутый DeepSeek R1 или грядущие европейские аналоги.

Открытые версии больших языковых моделей дают возможность их масштабирования и модификации. Например, PyTorch выпустил библиотеку torchchat, предназначенную для локального инференса LLM. Инструменты типа LangChain и HuggingFace позволяют бесплатно реализовать RAG, предоставив LLM доступ к локальной базе данных пользователя.

Такие системы тоже требуют довольно продвинутых локальных машин, оснащенных новейшими GPU. Хотя некоторые модели работают и на CPU, инференс получается существенно ниже. Так что спрос на GPU в ближайшее время будет расти среди как корпоративных, так и частных пользователей.

#LLM #RAG #GPU

🚀 Подписывайтесь на ТехноТренды — самый экспертный канал об AI, IT и роботизации!
🇷🇺 В Сколково прошла презентация тренд-репорта «Рынок GenAI в 2025: что нужно знать бизнесу» (🎦Youtube, Rutube). Эксперты проанализировали и обобщили
● состояние рынка GenAI в мире и в России,
● технологические и пользовательские тренды генеративного ИИ в 2025 году,
● ситуацию на рынке труда на фоне широкого внедрения GenAI-моделей.

Скачать документ в формате PDF можно по ссылке. Некоторые ключевые тезисы:

🔸 Ожидаемый среднегодовой темп роста рынка GenAI на 2024–2030 гг. оценивается в 46,48%. К 2030 году его объем увеличится в 10 раз, достигнув $356,1 млрд. Ключевую роль в развитии рынка будут играть США, Европа и Азия, но и наша страна имеет достаточный потенциал для появления собственных «единорогов» (стартапов-миллиардеров).

🔸 Объем рынка GenAI в России прогнозируется на уровне $4,15 млрд, со среднегодовым ростом 25%. К 2030 году правительство планирует выделить $0,3 млрд на развитие AI. Вложения из внебюджетных источников, таких как Сбер и РФПИ, могут составить $1,16 млрд. Технология набирает популярность как в бизнесе, так и среди частных пользователей.

🔸Развитие AI-систем движется в сторону агентного подхода: автономные AI-агенты, мультиагентные системы (MAS) и агенты пользовательского интерфейса. Подобная модульность создает предпосылки для формирования композитных AI — мета-структур, которые преодолевают ограничения традиционных LLM за счет интеграции различных технологий в единый комплекс.

🔸Технология RAG (Retrieval-Augmented Generation) становится базово применимой концепцией для LLM
и продолжает эволюционировать
, расширяя разнообразие архитектур. Так же активно идет развитие Vision-Language Models (VLM) — продвинутых AI-моделей, работающих одновременно с текстом и изображениями.

🔸Еще один тренд — на развитие SLM (Small Language Models), компактных нейросетей, оптимизированных для узкоспециальных задач. По прогнозу Gartner, к 2027 году более 50% моделей GenAI, используемых в бизнесе, будут адаптированы под конкретные отрасли или бизнес-функции.

🔸Также нас ожидает массовое внедрение AI-агентов и копилотов в физические устройства (дальнейшее развитие «интернета вещей») и переход LM-систем от вопросно-ответных датасетов к рассуждающим моделям.

🔸Что касается перемен на рынке труда, то прогноз позитивный.
Несмотря на автоматизацию, безработица не должна вырасти, так как появляются новые профессии. Однако большинство специальностей потребуется адаптировать, а сотрудников — обучать работе в среде с AI-агентами.

☝️ AI-агент не заменяет человека, но дополняет его. Конкуренция возникает не между людьми и машинами, а между теми, кто эффективно использует AI, и теми, кто этого не делает. Часть задач передается ботам, что меняет структуру труда и перераспределяет работу. Появляются новые требования к сотрудникам, AI-навыки становятся ценным преимуществом.

«AI — не очередной хайп. Это следующий технологический цикл, который приведет к масштабным изменениям и долгосрочному обновлению бизнес-процессов».

#аналитика #AI #LLM #SLM #ИИ #RAG

🚀 Подписывайтесь на ТехноТренды — самый экспертный канал об AI, IT и роботизации!
Ненадолго отвлечемся от темы AI-ускорителей — у нас экстренное включение 🔥⚡️😉

Сайт Technology Radar от международной консалтинговой компании ThoughtWorks выпустил свой очередной «opinionated guide» по современному технологическому ландшафту. В свежем выпуске собраны самые актуальные тренды и рекомендации для профессионалов IT-индустрии.

Главные темы «Радара» за 2 апреля 2025:

👉 Один из новых трендов — всплеск интереса к инструментам для мониторинга и оценки производительности LLM, таким как Weights & Biases Weave, Arize Phoenix, Helicone и HumanLoop.
Еще одна тенденция — использование ИИ для улучшения анализа и получения более полной информации. Растет распространение OpenTelemetry (ее теперь поддерживают многие ведущие инструменты, включая Alloy, Tempo и Loki), что способствует более стандартизированному подходу к наблюдаемости, позволяя командам не зависеть от поставщиков и быть более гибкими в выборе инструментов.

👉 Отмечаются новые подходы к CI/CD, автоматизации тестирования и управлению качеством кода. Быстро растут возможности AI-ассистентов. Современные инструменты позволяют разработчикам управлять реализацией непосредственно из AI-чата в своей IDE. Лидеры в сфере IDE-интегрированных приложений — Cursor, Cline и Windsurf, развивается также GitHub Copilot.
Другой яркий пример — «агентные» помощники (напр., aider, goose и Claude Code), по сути, настоящие ИИ-программисты, которые выполняют многоэтапные задачи на основе подсказок высокого уровня. Они научились анализировать и изменять код, обновлять тесты, выполнять команды и даже активно исправлять ошибки компоновки и компиляции.

Однако есть и риски. LLM продолжают галлюцинировать, а разработчики впадают в самоуверенность, пристрастившись к генерации кода путем голосовых команд. «Радар» рекомендует проявлять ответственность и бдительность при работе с искусственным интеллектом.

👉 Рост популярности решений с использованием #RAG (retrieval-augmented generation). Одно из ключевых взаимодействий с «черным ящиком» LLM — настройка входных данных для создания релевантных и полезных ответов.
Команда «Радара» анализирует новые инструменты поиска:
   • Corrective RAG, который динамически корректирует ответы на основе обратной связи или эвристики;
   • Fusion-RAG, который объединяет несколько источников и стратегий поиска;
   • Self-RAG, который полностью исключает этап поиска, извлекая данные по запросу;
   • FastGraphRAG, который упрощает понимание за счет создания графиков, удобных для восприятия человеком.

👉 ИИ до сих пор не решил некоторые из самых больших повседневных проблем — например, постоянные сбои в работе кроссплатформенных фреймворков. Но и здесь идет прогресс. «Радар» рассматривает как свежие разработки, так и привычные инструменты, позволяющие создавать гибкие и масштабируемые приложения.

Например, интерфейсы командной строки (CLI) процветают даже с появлением графических интерфейсов, AI-чатов и автоматизации проверки кода. Причина — в скорости работы, контроле и прозрачности. Новое поколение инструментов CLI, такие как uv и MarkItDown, доказывают адаптивность старых технологий в меняющемся мире.

👉 Интересные изменения происходят и в языках программирования. Набирают популярность новые языки, такие как Gleam. Другие, такие как Swift, расширяют сферу своего применения далеко за пределы изначальных экосистем. В частности, Swift играет важную роль в средах с ограниченными ресурсами, где производительность, надежность и безопасность памяти важны как никогда.

👉 Особый раздел посвящен технологиям, которые имеют большой потенциал, но еще требуют глубокого изучения. «Радар» на своей знаменитой круговой диаграмме оценивает продукты по четырем категориям:
Adopt: проверенные решения, можно смело внедрять.
Trial: успешно прошло пилотное тестирование, заслуживает внимания.
Assess: стоит присмотреться, но нужны дополнительные проверки и эксперименты.
Hold: не спешите — технология слишком сырая либо устарела.
Таким образом, можно быстро узнать, на чем сфокусироваться, а что не стоит внимания.

#дайджест #TechnologyRadar
👍1
Продолжаем знакомить вас с отчетом AI Index Report 2025 (начало: 1, 2, 3). Глава «Responsible AI» рассматривает проблему ответственного ИИ (RAI).

Контекст

Число сообщений об ошибках, предвзятости и злоупотреблениях с участием ИИ растет. В 2024 году количество инцидентов выросло до 233 (+56,4% по сравнению с 2023 годом). Связанные с этим риски и вызовы регулярно обсуждаются на конференциях — например, в Эр-Рияде и Москве.

Многие компании осознают существование проблемы, но далеко не все принимают активные меры для ее решения. Среди главных опасений — неточность результатов (64% опрошенных), несоблюдение нормативных требований (63%) и угрозы кибербезопасности (60%).

Ключевые проблемы

1️⃣ Безопасность и защита личных данных (об актуальности проблемы в опенсорсных моделях мы писали). Обсуждается проблема утечки персональных данных и злоупотребления информацией:
• Использование ИИ для имитации личности умерших людей и связанные с этим этические скандалы.
• Нарушение конфиденциальности при использовании медицинских данных.

2️⃣ Манипуляция информацией. ИИ используется для распространения дезинформации и недобросовестного влияния на общественное мнение:
• Генерация поддельных новостей.
• Создание deepfake-видео, аудио и текстов.

3️⃣ Прозрачность работы и объяснимость ответов. Не всегда понятно, как формируются решения ИИ, особенно в таких чувствительных областях, как здравоохранение и финансы.
• Средний уровень прозрачности ключевых базовых моделей на май 2024 года составлял 58% — явно недостаточно.
• Не решена проблема галлюцинаций. Даже самые продвинутые модели генерируют уверенные, но ложные ответы, особенно при работе с малоизвестными темами или неполной информацией.
🎯 Предлагаемые методы решения:
• Применение #RAG (Retrieval-Augmented Generation) для улучшения интерпретируемости. Этой технологии у нас посвящена большая статья.
• Совершенствование метрик, направленных на проверку фактической точности и правдивости ИИ-моделей.

4️⃣ Предвзятость и дискриминация, систематически проскакивающая в языковых моделях. Американские исследователи озабочены проявлениями гендерных, расовых или этнических стереотипов.

5️⃣ Особые темы, которые требуют междисциплинарного подхода:
• Этические проблемы в медицине (например, выработка рекомендаций по лечению).
• Использование ИИ в судебной системе.
• Культурные различия в восприятии ИИ в разных странах.

Тренды

Выработка программных методов обеспечения RAI
. Этот аспект становится неотъемлемой частью развития технологий. Уже существуют метрики тестирования моделей на соответствие принципам ответственности. Примеры таких бенчмарков: FACTS, SimpleQA, MixEval. Наиболее точной моделью в тестах FACTS признана Gemini-2.0-Flash-Exp (83.6% успеха). Но подчеркивается необходимость создания более сложных и реалистичных тестов.

Международная кооперация.
В 2024 году усилилась работа над согласованием принципов ответственного использования. Несколько крупных организаций — включая ОЭСР, Европейский союз, ООН и Африканский союз — представили рамочные документы, направленные на формулировку ключевых аспектов RAI.

Сокращение данных — негативный тренд, обратная сторона борьбы за безопасность. Ради сохранения конфиденциальности пользователей интернета всё больше сайтов внедряют ограничения. В активных доменах из набора данных C4 доля ограниченных токенов выросла с 5–7% до 20–33%. Это сокращает разнообразие данных для обучения моделей.

Выводы

Чем больше искусственный интеллект охватывает различные сферы жизни, тем важнее вопрос его ответственности. Для обеспечения доверия к ИИ необходимы дополнительные усилия в плане стандартизации, прозрачности и контроля:
• выработка единых этических стандартов ответственного развития и использования технологий
• повышение прозрачности и объяснимости в обучении и работе моделей;
• расширение регуляторной базы;
• интеграция RAI в образование и бизнес-процессы.

👉 Продолжение следует...

#AI #RAI #тренды #аналитика #тесты #AI_index_report_2025

🚀 ©ТехноТренды
🔥1