Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.06K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Opera интегрирует локальные LLM

Компания Opera добавляет возможность загружать и использовать модели (LLMs) локально.
Доступ к функции получат пользователи Opera One, с выбором из 150 моделей среди 50 семейств.
Для запуска LLM Opera использует Ollama - открытую библиотеку.
Учтите, каждая модель 'съедает' более 2 ГБ (4+ для 7B ) на диске.
Начиная с прошлого года, Opera активно интегрирует AI в свои продукты, включая голосового помощника Aria и разработку браузера на собственном движке для iOS.

В следующий раз, когда браузер закачает обновление для нескольких моделей на 100ГБ, - не удивляйтесь.

#Opera #LLM #Ollama
-------
@tsingular
Разработка приложений с LLM: практическое введение

Этот курс охватывает ключевые термины и концепции разработки приложений с большими языковыми моделями (LLM).
Рассматриваются варианты запуска моделей, форматы, квантование, fine-tuning.
Особое внимание уделяется llama.cpp и llama-cpp-python как инструментам для изучения.
Описывается создание чат-бота с использованием Chat Completions, ролей и системных запросов.
Приводятся примеры кода и идеи для экспериментов.

Хороший старт для тех, кто хочет погрузиться в разработку с LLM. 🚀

#LLM #ChatCompletions #llama
-------
@tsingular
Уязвимость в Ollama: необходимо срочное обновление

В Ollama выявлена критическая уязвимость (CVE-2024-37032), допускающая удаленное выполнение кода.
Проблема вызвана недостаточной проверкой в REST API сервера.
Эксплуатация осуществляется через специальный HTTP-запрос.
Особо опасна для Docker-установок с root-правами.
Свыше 1000 уязвимых серверов все еще доступны из интернета.
Рекомендации: обновиться до версии 0.1.34+, использовать аутентификацию, прокси и брандмауэры.
Аналогичные уязвимости обнаружены в TorchServe и Ray Anyscale.

Текущая версия 0.1.45, но если кто-то застрял на 1.34- - обновляемся.

#Ollama #cybersecurity #vulnerabilities
-------
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
Ollama добавила визуальную модель Llama 3.2!

Фреймворк Ollama интегрировал мультимодальную Llama 3.2 Vision в две конфигурации.

Компактная версия 11B функционирует на видеокартах от 8GB VRAM, мощная 90B требует 64GB видеопамяти (чёрно завидуем Маководам!).

Аллилуйя!! Убежал тестировать.
11b-instruct-fp16 - 21GB
90b-instruct-q4_K_M 55GB
90b-instruct-fp16 177GB!!!

В общем, если у вас 24Гига - берите llava34b все-таки.
если меньше - llama 3.2-vision:11b

#Ollama #Llama #Vision
———
@tsingular
👍6
Загнал в бесплатного бота @ai_gptfreebot
ollama llama 3.3 70B 42Gb версию.

Пришлось ради этого выключить генератор картинок.
Поиск оставил.

Но зато все могут попробовать новую модель на 2х4090.

В понедельник верну картинки и переключу обратно на gemma2:27b

А пока, - развлекайтесь :)

#llama3-3 #ollama #freeGPTbot
———
@tsingular
👍5😐4
Семейство самых мощных рассуждающих открыток появилось в ollama

https://ollama.com/library/deepseek-r1

В нарезке на любой выбор.
1.5, 7, 8, 14, 32, 70 и 671 млрд. для гурманов :)
(671B Q4_K_M 404GB)

Качаем

#ollama #Китай
———
@tsingular
👍5🤩3
This media is not supported in your browser
VIEW IN TELEGRAM
В порядке PoC сделал плагин для Excel, который работает локально с ollama для ответов на вопросы по таблицам.

Чисто технически это позволяет сделать вообще любые ИИ интеграции в офисные продукты без необходимости в Копайлотах и VPN.

Точно так же можно сделать и для R7, например.

Кому нужен исходник, - нажимайте 🌟

#ollama #Excel #office #PoC
———
@tsingular
2🔥11👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Gemma Developer Day

Уже через пару часов, в 12:30 по CET, Google DeepMind откроет конференцию Gemma Developer Day in Paris.

Очень ждём Gemma 3, конечно, судя по тому что есть в программе:

1. Архитектурные изменения - Alek Andreev и команда расскажут о дизайн-решениях, которые легли в основу новой модели. Судя по докладу "Understanding Gemma architecture choices", Google серьезно переработал внутренности.

2. Многоязычность - Adi Mayrav Gilady поделится стратегиями обучения, которые делают Gemma многоязычной. Отличная новость для интернациональных проектов и локализации! (В Gemma2 до сих пор русский лучше всего работает)

3. PaliGemma - Модель получила "глаза" через SigLIP-энкодер. Особенно круто, что она предобучена на задачах распознавания объектов и сегментации, а не только на подписях к картинкам.

4. Мобильность и десктоп - Модель будет работать на Mac и Windows через Ollama. А раздел "Gemma on mobile and web" обещает интеграцию через MediaPipe и LiteRT.

5. Безопасность - ShieldGemma на базе Gemma 2 будет выявлять потенциально вредоносный контент, а SynthID добавит водяные знаки для идентификации ИИ-сгенерированного текста. (это она получается и генерить картинки что-ли будет? )

- Доклад про "Building intelligent agents with Gemma" расскажет о function calling, планировании ответов и рассуждениях.

- Поддержка на Jetson устройствах от NVIDIA (доклад Asier Arranz) открывает возможности для edge-вычислений в промышленности и роботах.

Так же расскажут про файнтюнинг и дистилляцию.

#gemma #google #ollama
———
@tsingular
👍7
в ollama вышла granite 3.3 от IBM

https://ollama.com/library/granite3.3

Capabilities

Thinking
Summarization
Text classification
Text extraction
Question-answering
Retrieval Augmented Generation (RAG)
Code related tasks
Function-calling tasks
Multilingual dialog use cases
Fill-in-the-middle
Long-context tasks including long document/meeting summarization, long document QA, etc.

с размышлениями.

#granite #IBM #ollama
———
@tsingular
4👍1
Сделал парсер для PDF файлов с Ollama глазками на базе gemma3:27b-it-qat

Вдруг кому полезно будет.
GitHub

На вход подаёте любой PDF - не важно что там сканы или текст.
Вытаскивается и текст и каждая страница сохраняется как изображение и отдаётся в ollama gemma3 на анализ.
Результат объединяется и для каждой страницы у вас будет 2 текстовых описания, которые дальше уже можно как удобно обрабатывать.

Модели можно подставлять любые - вызывается через url.

Размер файла тоже не ограничен.
Автоперевод на любой язык (указывается в настройках)
Страницы можно перерабатывать поштучно, указывая их в командной строке.
В случае остановки - продолжает с последней распознанной страницы.
Для каждой страницы сохраняются промежуточные результаты и потом объединяются в общий итоговый файл.
Дальше можно передавать в RAG цепочку.

#dev #PDF #ollama #gemma #OCR
———
@tsingular
🔥15115👍31🤯1
Ollama выпустила новый движок с поддержкой мультимодальных моделей

📊 Поддерживаемые модели:
- Llama 4 (включая Scout – 109B параметров, модель типа MoE)
- Google Gemma 3
- Qwen 2.5 VL
- Mistral Small 3.1
и другие модели с поддержкой зрения

💡 Ключевые возможности:
Llama 4 Scout – анализ локаций и контекста изображений:

- Распознает достопримечательности (например, башню с часами в Сан-Франциско)
- Отвечает на вопросы о расстояниях между объектами на фото и реальными местами
- Предлагает маршруты и способы добраться до нужных локаций

Gemma 3 – работа с несколькими изображениями одновременно:
- Находит общие элементы на разных фотографиях
- Анализирует взаимосвязи между объектами на изображениях
- Делает выводы о вероятных исходах ситуаций на сюжетной серии картинок

Qwen 2.5 VL – распознавание текста и документов:
- OCR (оптическое распознавание символов)
- Перевод вертикальных китайских надписей на английский
- Анализ документов и структурированной информации

⚙️ Техническая начинка нового движка:
Модульность моделей: каждая модель теперь полностью автономна и использует собственный проекционный слой, что улучшает стабильность и упрощает интеграцию
Повышенная точность: правильная обработка больших изображений с учетом границ батчей и позиционной информации

Оптимизация памяти:
Кэширование изображений для ускорения последующих запросов
Настройка причинного внимания (causal attention) на уровне отдельных моделей
Оптимизации KV-кэша для эффективного использования памяти

🔮 Будущие обновления:

- Поддержка более длинных контекстов
- Улучшенное мышление/рассуждение
- Вызов инструментов со стриминговыми ответами
- Расширенные возможности использования компьютера

🛠 Практическое применение:
- Разработчикам: создание приложений с локальным распознаванием изображений без API
- Исследователям: анализ документов и текстов на разных языках без подключения к интернету
- Контент-креаторам: быстрый анализ визуальных материалов без передачи данных третьим сторонам

Классное обновление. Не хватает еще TTS и STT для полноты мультимодальной картины.

#Ollama #Multimodal
———
@tsingular
4🔥311