Технозаметки Малышева
5.54K subscribers
2.79K photos
927 videos
38 files
3.06K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Создание AI чат-бота на домашнем ПК с новой моделью LLaMA

Большие языковые модели (LLM) открывают двери для создания человекоподобных текстов.
LangChain - это инструментарий для разработки AI приложений, включая чат-ботов.
LLaMA от Meta AI устанавливается локально и обеспечивает обработку языка на процессорах обычных компьютеров.
Использование квантования позволяет моделям LLM функционировать на менее мощной технике.
Через фреймворк LangChain и Streamlit реализуется интерфейс для диалоговых ботов с интуитивной работой с текстами.

Детальный гайд по установке AI помощника на локальном ПК.

#LangChain #LLaMA #AI
Llama-3-8B с увеличенным контекстом

Gradient AI представила модель Llama-3-8B-Instruct-262k, увеличивающую длину контекста до 160k токенов. 🦙
Обучение велось на расширенных данных SlimPajama с использованием EasyContext Blockwise RingAttention. 🧩

Предобучение Llama 3 проводилось на 15 триллионах токенов из открытых источников. 📚

Локальную Лламу 3 на 8B c 160K контекстного окна не хотите?

#Llama #Gradient
-------
@tsingular
1-4.gif
10.9 MB
MiniCPM-Llama3-V 2.5: GPT-4V уровня на телефоне, переплюнул проприетарных конкурентов

OpenBMB представляет MiniCPM-Llama3-V 2.5 (8B) и MiniCPM-V 2.0 (2B) - мультимодальные языковые модели для понимания изображений и текста.
MiniCPM-Llama3-V 2.5 превосходит GPT-4V, Gemini Pro и Claude 3 по общей производительности и эффективно разворачивается на мобильных устройствах.
Модель обладает продвинутым OCR, обработкой изображений до 1,8 млн пикселей, поддержкой 30+ языков и низким уровнем галлюцинаций.
MiniCPM-V 2.0 обходит Yi-VL 34B, CogVLM-Chat 17B и Qwen-VL-Chat 10B, имея всего 2B параметров.
Эта модель также поддерживает обработку картинок высокого разрешения и двуязычные мультимодальные возможности (английский, китайский).

Интересное кино. Смотрим тесты, качаем, проверяем.
Локальное WebUI демо:
https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo


#OpenBMB #multimodal #Llama
-------
@tsingular
Разработка приложений с LLM: практическое введение

Этот курс охватывает ключевые термины и концепции разработки приложений с большими языковыми моделями (LLM).
Рассматриваются варианты запуска моделей, форматы, квантование, fine-tuning.
Особое внимание уделяется llama.cpp и llama-cpp-python как инструментам для изучения.
Описывается создание чат-бота с использованием Chat Completions, ролей и системных запросов.
Приводятся примеры кода и идеи для экспериментов.

Хороший старт для тех, кто хочет погрузиться в разработку с LLM. 🚀

#LLM #ChatCompletions #llama
-------
@tsingular
AWS запускает Llama 3.1 на новых чипах Trainium и Inferentia

AWS анонсировала поддержку моделей Llama 3.1 на своих специализированных AI-чипах.
Семейство включает многоязычные модели размером 8B, 70B и 405B с контекстом до 128k токенов.
Llama 3.1 405B - крупнейшая публично доступная открытая LLM.
Доступна в Amazon Bedrock, EC2, SageMaker и Hugging Face.
Для файн-тюнинга предлагается библиотека NeuronX Distributed.
Развертывание возможно с использованием vLLM на Trainium/Inferentia.

Одновременно о поддержке Llama 3.1 объявил и Google:

Google Cloud добавляет семейство моделей Llama 3.1 от Meta в Vertex AI Model Garden.
Пользователи могут дообучать модели на собственных данных.
Платформа обеспечивает автоматическое масштабирование и оплату по мере использования.
Поддерживаются Llama Guard и встроенные меры безопасности Google Cloud.

#AWS #Google #Llama
-------
@tsingular
И еще в копилку разбора Llama 3.1 иллюстрация от Daniel Han из unsloth.ai:

1. 15.6T tokens, Tools & Multilingual
2. Llama arch + new RoPE
3. fp16 & static fp8 quant for 405b
4. Dedicated pad token
5. <|python_tag|><|eom_id|> for tools?
6. Roberta to classify good quality data
7. 6 staged 800B tokens long context expansion


1. Новый метод расширения RoPE.
Использует интересный низкий и высокий коэффициент масштабирования и масштабирует вектор inv_freq — его можно вычислить за 1 проход, поэтому нет необходимости в динамических повторных вычислениях. Использовался 6-этапный подход к увеличению количества токенов с 8 000 до 128 000 с использованием токенов 800B.

2. Обучение
От 38% до 43% MFU с использованием bfloat16. Используется конвейерный параллелизм + FSDP. Усреднение модели для этапов RM, SFT и DPO.

3. Смесь данных
50% общие знания
25% математика и рассуждения
17% кодируют данные и задачи
8% многоязычных данных

4. Этапы предварительной обработки
Использует Roberta, DistilRoberta, fasttext для фильтрации данных хорошего качества. Множество средств дедупликации и эвристики для удаления неверных данных.

5. Квантование с fp8
Квантует веса до fp8 и ввод до fp8, затем умножает на коэффициенты масштабирования. fp8 x fp8, тогда выход будет bf16. Быстрее для вывода и меньше использования VRAM.

6. Эксперименты со зрением и речью
Команда Llama 3.1 также обучила адаптеры зрения и речи — правда, не выпущенные, но очень крутые!

#llama #unsloth
———
@tsingular
Forwarded from Machinelearning
🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-версии Llama-3.1-405B-Instruct со статическим и динамическим методом квантования.

Компания Neural Magic представила две квантованные FP8-версии модели Meta's Llama 3.1 405B Instruct:

🟢Meta-Llama-3.1-405B-Instruct-FP8-dynamic
🟢Meta-Llama-3.1-405B-Instruct-FP8

Примененная оптимизация уменьшает количество бит на параметр с 16 до 8, сокращая требования к VRAM примерно на 50 %. FP8-модель может быть развернута помощью одного узла 8xH100 GPU.

Процесс квантования применялся исключительно к весам и активациям линейных операторов внутри блоков трансформеров. Использовалось симметричное поканальное квантование, которое включает линейное масштабирование по выходному измерению для отображения представлений FP8 квантованных весов и активаций.
Кроме того, активации квантованы динамически на основе каждого токена.
Для квантования использовалась библиотека оптимизации LLM Compressor с набором 512 последовательностей UltraChat.

Обе FP8 модели сохраняют архитектуру Meta-Llama-3.1 и могут быть запущены на бэкенде vLLM.

В бенчмарке OpenLLM версия FP8-dynamic получила средний балл 86,55. Это максимально близко к результату оригинальной модели - 86,63 (99,91%).

🟡Модель FP8-dynamic на HF
🟡Модель FP8 на HF


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
SambaNova бьёт рекорды скорости с Llama 3.1

Компания SambaNova Systems установила рекорд производительности на модели Llama 3.1 405B, достигнув 123 токенов в секунду.

Это в 4 раза быстрее ближайших конкурентов благодаря инновационному ASIC-чипу SN40L.

На Llama 3.1 8B система генерирует свыше 1000 токенов в секунду.

Платформа предлагает корпорациям возможность развертывания приватных GPT-моделей с раз дешевле.

https://fast.snova.ai/

Интересный конкурент Groq.
У Groq, кстати 405B пока нет.
API, правда по запросу.

Headquartered in Palo Alto, California, SambaNova Systems was founded in 2017 by industry luminaries, and hardware and software design experts from Sun/Oracle and Stanford University.

Investors include SoftBank Vision Fund 2, funds and accounts managed by BlackRock, Intel Capital, GV, Walden International, Temasek, GIC, Redline Capital, Atlantic Bridge Ventures, Celesta, and several others.

#SambaNova #Llama #ASIC
👍2
You.com добавил Llama 3.1 405B
Бесплатно без VPN

#youcom #Llama
------
@tsingular
🔥1
NVIDIA допилили Llama: выпустили Nemotron-51B

NVIDIA представила Llama 3.1-Nemotron-51B - оптимизированную версию Llama-3.1-70B.

Новый подход - Neural Architecture Search (NAS) позволил создать модель, обеспечивающую в 2.2 раза более быстрый инференс.

Меньше жрёт память, что позволяет запускать в 4 раза больше задач на одном GPU (рекомендован H100 80Gb).

Есть версия Llama-3.1-Nemotron-40B-Instruct для диалогов.

Попробовать можно тут:
https://build.nvidia.com/nvidia/llama-3_1-nemotron-51b-instruct

В этот раз ставка сделана на скорость, при сохранении результата. Даже в части тестов получается на 1-2% слабее Llama 3.1 70B.
Ну и H100 80Gb не в каждом гараже, конечно, есть пока.

#NVIDIA #Llama #Nemotron
-------
@tsingular
Meta* разрешила военное применение Llama моделей в США

Корпорация Meta* радикально изменила политику использования своих ИИ-моделей, открыв доступ оборонному сектору США.
К проекту присоединились AWS, Microsoft, IBM, Lockheed Martin, Oracle, Palantir и другие федеральные подрядчики.
Технологии планируется задействовать для диагностики военной техники, планирования операций, кибербезопасности и борьбы с терроризмом.
Стратегическая цель - укрепление технологического превосходства США в сфере ИИ-разработок.

Документация приводится к соответствию с реалиями. Вполне предсказуемо.

Meta* - запрещенная на территории Российской Федерации организация.

#Meta #Llama #Military
-------
@tsingular
3
This media is not supported in your browser
VIEW IN TELEGRAM
Ollama добавила визуальную модель Llama 3.2!

Фреймворк Ollama интегрировал мультимодальную Llama 3.2 Vision в две конфигурации.

Компактная версия 11B функционирует на видеокартах от 8GB VRAM, мощная 90B требует 64GB видеопамяти (чёрно завидуем Маководам!).

Аллилуйя!! Убежал тестировать.
11b-instruct-fp16 - 21GB
90b-instruct-q4_K_M 55GB
90b-instruct-fp16 177GB!!!

В общем, если у вас 24Гига - берите llava34b все-таки.
если меньше - llama 3.2-vision:11b

#Ollama #Llama #Vision
———
@tsingular
👍6
🦙 Как приручить Llama: Используем LLM для поиска критичных данных в коде

Интересный разбор на ХАКЕРе о том, как заставить open-source LLM следить за утечкой чувствительных данных в микросервисах.

Суть проблемы: в больших проектах сложно уследить, где и какие критичные данные (паспорта, СНИЛС, финансы) обрабатываются. А знать надо — чтобы сфокусировать защиту на важных сервисах.

Что придумали:
1. Научились извлекать структуры данных из Swagger, Protobuf и SQL-схем
2. Сначала пытались искать по ключевым словам — но это "в лоб" и можно пропустить новые типы данных
3. Попробовали ChatGPT — отлично справился, но дорого и небезопасно отправлять схемы "наружу"
4. Нашли решение: локальная Llama 2 (3B или 8B параметров)

Технические детали:
- 3B-модель отрабатывает за 10 секунд, но иногда тупит
- 8B думает 30 секунд, но точнее определяет критичные поля
- На CPU без GPU модели работают медленно, но жить можно
- Для продакшена рекомендуют GPU + кэширование моделей в памяти

Практическое применение:
- Можно встроить в CI/CD для автоматического обнаружения новых критичных данных
- Выгружать результаты в DefectDojo и отслеживать как уязвимости
- Использовать для аудита legacy-кодовой базы

Интересно, что опенсорсная Llama на обычном железе справляется с задачей почти как ChatGPT. Конечно, думает подольше, но зато бесплатно, локально и безопасно 😎

Пришло время обновить подписку на ксакеп. :) (у них там сейчас скидка 60%, кстати)
Снова годные статьи в выпусках.

#Security #Llama #xakep
———
@tsingular
👍8🤝31
🔥 Llama 4: Meta* выпускает новое поколение ИИ и готовит двухтриллионного монстра

Пока вышли две первые модели нового поколения — Scout и Maverick.

Обе используют архитектуру (MoE)

Llama 4 Scout:
- 17 млрд активных параметров (109 млрд всего)
- 16 экспертов
- Контекстное окно в 10 миллионов токенов (!)
- Работает даже на одном GPU H100

"Scout — наша самая эффективная модель в своем классе. Она превосходит Llama 3, оставаясь более масштабируемой"

Llama 4 Maverick:
- Те же 17 млрд активных параметров, но уже с 128 "экспертами"
- 400 млрд параметров всего
- Эффективно работает с мультимодальными задачами

Бенчмарки на платформе LMArena зафиксировали рейтинг Elo 1417 для чат версии Maverick

Получается открытая модель на 2м месте в мире.

Самое интересное — третья модель семейства, условно названная "Behemoth" (Бегемот), всё ещё находится в разработке, и именно она должна стать настоящим прорывом
- 288 млрд активных параметров,
- 16 экспертов
- 2T параметров!!!

По внутренним тестам Behemoth уже превосходит GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Pro (хотя пока и уступает Gemini 2.5 Pro) в задачах, связанных с математикой и научными дисциплинами

Новые модели уже доступны через:
Официальный сайт Llama.com
Платформу Hugging Face
В качестве ассистента Meta AI в WhatsApp, Messenger, Instagram в 40 странах.

29 апреля Meta проведёт свою первую конференцию LlamaCon по искусственному интеллекту, - может будет больше новостей про Бегемота.

(*Meta - запрещённая в РФ организация)

#Meta #Llama
———
@tsingular
🔥62🤩21👍1
Llama-4 - манипуляции с бенчмарками

Вокруг новой модели Llama-4 разгорается серьезный спор: оказывается, для тестирования в сервисе LMArena использовалась специально оптимизированная версия, существенно отличающаяся от той, что доступна пользователям.

Технические подробности обмана
В документации к моделям нашлась пометка мелким шрифтом, что на LMArena загружена "экспериментальная версия", специально "оптимизированная для разговорности" (optimized for conversationality). Именно эта версия взлетела на второе место рейтинга, впечатляюще обойдя GPT-4o с ELO-рейтингом 1417.

Исследователи, изучившие модель, обнаружили серьёзные отличия между публично доступной версией и той, что тестировалась на бенчмарке.

Версия на LMArena использует множество эмодзи и генерирует неоправданно длинные ответы — её поведение описывают как "ювенильное" и неестественное.

Реакция индустрии
Ахмад Аль-Дахле, вице-президент по генеративному ИИ компании-разработчика, отверг обвинения в намеренном обмане. По его словам, распространившиеся слухи о том, что модели обучались на тестовых наборах (что может искусственно завышать результаты), "просто неправда".

Платформа LMArena также отреагировала на скандал, заявив: "Интерпретация нашей политики разработчиками не соответствует тому, что мы ожидаем от поставщиков моделей". В результате инцидента они обновляют правила своего рейтинга, чтобы "усилить приверженность честным, воспроизводимым оценкам".

From whom from whom... но от лидеров рынка такого не ожидаешь, конечно.

#benchmarks #Llama
———
@tsingular
😁91🤣1👻1