🛠 В блоге Anthropic вышел разбор того, как они создают инструменты для агентов, которые помогают улучшать процесс написания текста.
В статье описываются подходы к построению таких тулов, их интеграция в пайплайн, а также примеры использования для редактирования, анализа и структурирования текста. Фактически это набор "помощников", которые делают агента более продуктивным и гибким при работе с длинными документами.
https://www.anthropic.com/engineering/writing-tools-for-agents
👉 @bigdata_1
В статье описываются подходы к построению таких тулов, их интеграция в пайплайн, а также примеры использования для редактирования, анализа и структурирования текста. Фактически это набор "помощников", которые делают агента более продуктивным и гибким при работе с длинными документами.
https://www.anthropic.com/engineering/writing-tools-for-agents
👉 @bigdata_1
👍1
Media is too big
VIEW IN TELEGRAM
Проект Paper2Agent — это инструмент, который превращает научные статьи в работающие AI-агенты. Он использует LLM для анализа PDF-документов и автоматически извлекает оттуда алгоритмы, описания и эксперименты, превращая их в исполняемый код.
Идея в том, чтобы сократить разрыв между теорией и практикой: вместо того чтобы вручную вникать в детали статьи и переписывать код, Paper2Agent позволяет быстро получить прототип агента, основанный на описанном методе.
Поддерживаются:
- Разбор PDF статей с извлечением ключевых компонентов
- Автоматическая генерация кода для AI-агентов
- Возможность тестирования и доработки полученного результата
Полезно для исследователей, инженеров и разработчиков, которые хотят быстрее экспериментировать с новыми идеями из научных публикаций.
https://github.com/jmiao24/Paper2Agent
👉 @bigdata_1
Идея в том, чтобы сократить разрыв между теорией и практикой: вместо того чтобы вручную вникать в детали статьи и переписывать код, Paper2Agent позволяет быстро получить прототип агента, основанный на описанном методе.
Поддерживаются:
- Разбор PDF статей с извлечением ключевых компонентов
- Автоматическая генерация кода для AI-агентов
- Возможность тестирования и доработки полученного результата
Полезно для исследователей, инженеров и разработчиков, которые хотят быстрее экспериментировать с новыми идеями из научных публикаций.
https://github.com/jmiao24/Paper2Agent
👉 @bigdata_1
😨3👍2
DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.
Как это работает
Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.
Архитектура
Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.
Под капотом — SAM + CLIP:
- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.
Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.
- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%
После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.
DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.
Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.
На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.
Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR
👉 @bigdata_1
Как это работает
Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.
Архитектура
Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.
Под капотом — SAM + CLIP:
- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.
Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.
- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%
После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.
DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.
Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.
На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.
Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR
👉 @bigdata_1
👍3
Media is too big
VIEW IN TELEGRAM
Glyph: масштабирование контекстных окон через визуально-текстовую компрессию
Это фреймворк, предназначенный для увеличения длины контекста с помощью визуально-текстовой компрессии. Вместо расширения контекстных окон, основанных на токенах, Glyph преобразует длинные текстовые последовательности в изображения и обрабатывает их с помощью vision–language моделей (VLMs). Такой подход превращает задачу моделирования длинного контекста в мультимодальную проблему, значительно снижая вычислительные и память-затраты при сохранении семантической информации.
https://github.com/thu-coai/Glyph
👉 @bigdata_1
Это фреймворк, предназначенный для увеличения длины контекста с помощью визуально-текстовой компрессии. Вместо расширения контекстных окон, основанных на токенах, Glyph преобразует длинные текстовые последовательности в изображения и обрабатывает их с помощью vision–language моделей (VLMs). Такой подход превращает задачу моделирования длинного контекста в мультимодальную проблему, значительно снижая вычислительные и память-затраты при сохранении семантической информации.
https://github.com/thu-coai/Glyph
👉 @bigdata_1
👍1
Трехслойная нейронная сеть. Она состоит из трех основных слоев: входного, скрытого и выходного. Каждый слой включает несколько нейронов, которые соединены между собой с помощью весов (обозначены как W).
Основные элементы сети:
- Входной слой: Принимает входные данные P и передает их на первый скрытый слой.
- Скрытый слой: Выполняет обработку данных с использованием весов W1 и смещений b1. Результат обработки передается на второй скрытый слой.
- Выходной слой: Генерирует итоговый результат, используя веса W3 и смещения b3.
Формулы:
1. Для первого слоя: a1 = f1(W1p + b1).
2. Для второго слоя: a2 = f2(W2a1 + b2).
3. Для третьего слоя: a3 = f3(W3a2 + b3).
Обозначения:
- P — входные данные.
- W1, W2, W3 — матрицы весов для каждого слоя.
- b1, b2, b3 — смещения для каждого слоя.
- f1, f2, f3 — функции активации.
👉 @bigdata_1
Основные элементы сети:
- Входной слой: Принимает входные данные P и передает их на первый скрытый слой.
- Скрытый слой: Выполняет обработку данных с использованием весов W1 и смещений b1. Результат обработки передается на второй скрытый слой.
- Выходной слой: Генерирует итоговый результат, используя веса W3 и смещения b3.
Формулы:
1. Для первого слоя: a1 = f1(W1p + b1).
2. Для второго слоя: a2 = f2(W2a1 + b2).
3. Для третьего слоя: a3 = f3(W3a2 + b3).
Обозначения:
- P — входные данные.
- W1, W2, W3 — матрицы весов для каждого слоя.
- b1, b2, b3 — смещения для каждого слоя.
- f1, f2, f3 — функции активации.
👉 @bigdata_1
👍4💩2
👑 Baidu выкатила ERNIE 4.5 VL. Новый король мультимодалок?
Подвиньтесь, OpenAI и Google. Baidu утверждает, что их новая флагманская MLLM (мультимодальная модель) ERNIE 4.5 VL задает новый стандарт.
Что в ней такого (по заявлениям):
- Убийца гигантов: Модель, как говорят, обходит GPT-4o, GPT-4V и Gemini 1.5 Pro на 23 (!!!) основных мультимодальных бенчмарках.
- Видит, читает, смотрит: Понимает не только текст и картинки по отдельности, но и их связки, а также видео.
- Внимательна к мелочам: Особенно сильна в "fine-grained" (мелкодетальном) распознавании. Не просто "собака", а "золотистый ретривер с красным мячиком".
- Понимает длиннопост: Заявлена поддержка "экстремально длинного" текста.
- Полиглот: Имеет сильные показатели в задачах на китайском языке.
Это пока "бумажный" SOTA. Сами веса модели (чекпоинты) на Hugging Face пока недоступны. Так что ждем, когда Baidu позволит "пощупать" этого зверя в деле.
https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
👉 @bigdata_1
Подвиньтесь, OpenAI и Google. Baidu утверждает, что их новая флагманская MLLM (мультимодальная модель) ERNIE 4.5 VL задает новый стандарт.
Что в ней такого (по заявлениям):
- Убийца гигантов: Модель, как говорят, обходит GPT-4o, GPT-4V и Gemini 1.5 Pro на 23 (!!!) основных мультимодальных бенчмарках.
- Видит, читает, смотрит: Понимает не только текст и картинки по отдельности, но и их связки, а также видео.
- Внимательна к мелочам: Особенно сильна в "fine-grained" (мелкодетальном) распознавании. Не просто "собака", а "золотистый ретривер с красным мячиком".
- Понимает длиннопост: Заявлена поддержка "экстремально длинного" текста.
- Полиглот: Имеет сильные показатели в задачах на китайском языке.
Это пока "бумажный" SOTA. Сами веса модели (чекпоинты) на Hugging Face пока недоступны. Так что ждем, когда Baidu позволит "пощупать" этого зверя в деле.
https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
👉 @bigdata_1
❤2👍1
XLTable - OLAP Cервер для нового стека данных
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.
Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.
📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке
🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов
⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования
Хочешь получить бесплатную пробную версию на 30 дней?
👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой
Контакт: https://t.iss.one/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.
Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.
📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке
🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов
⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования
Хочешь получить бесплатную пробную версию на 30 дней?
👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой
Контакт: https://t.iss.one/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
🔥8👍5⚡4
1. Machine Learning Models (Модели машинного обучения)
- Описание: учатся на размеченных или неразмеченных данных для выявления закономерностей, классификации или прогнозирования результатов. Включают подходы с учителем, без учителя и с частичным обучением.
- Примеры: деревья решений, Random Forest, SVM, XGBoost (с учителем); K-Means, DBSCAN, PCA (без учителя); Label Propagation, Semi-Supervised SVM (с частичным обучением).
- Рабочий процесс: сбор размеченных данных → очистка и предобработка → выбор алгоритма ML → обучение модели → мониторинг и обновление → прогнозирование на новых данных → настройка гиперпараметров → проверка производительности.
2. Deep Learning Models (Модели глубокого обучения)
- Описание: используют многослойные нейронные сети для изучения сложных иерархических паттернов, особенно эффективны для неструктурированных данных (изображения, аудио, текст).
- Примеры: CNN (для изображений), RNN, LSTM (для последовательностей), трансформеры, автоэнкодеры.
- Рабочий процесс: сбор больших объёмов данных → нормализация входных данных → построение нейронной сети → передача входных данных → вычисление ошибки предсказания → повторение циклов обучения → обновление весов → обратное распространение градиентов.
3. Generative Models (Генеративные модели)
- Описание: изучают распределение данных и генерируют новые данные, имитирующие исходные. Применяются для создания контента, синтеза изображений и генерации текста.
- Примеры: GPT-4 (текст), DALL·E, MidJourney (изображения), MusicLM (аудио), StyleGAN (лица), AlphaCode (код).
- Рабочий процесс: обучение на датасете → изучение паттернов данных → получение пользовательского ввода → обработка через модель → вывод сгенерированного медиа → уточнение с помощью обратной связи → генерация нового контента → выборка из выходных данных.
4. Hybrid Models (Гибридные модели)
- Описание: комбинируют несколько техник ИИ (например, правила + нейронные сети) для использования преимуществ каждой. Применяются там, где важны точность и контроль.
- Примеры: RAG (LLM + поиск), ML + боты на основе правил, AutoGPT с инструментами, чат-боты с API.
- Рабочий процесс: объединение типов моделей → обучение компонентов отдельно → построение логической связи → ввод через конвейер → получение конечного результата → разрешение конфликтов → агрегация выходных данных → маршрутизация на основе логики.
5. NLP Models (Модели обработки естественного языка)
- Описание: обрабатывают и понимают человеческий язык. Используются в чат-ботах, переводчиках, сумматорах и виртуальных ассистентах.
- Примеры: BERT, GPT-3.5 / GPT-4, T5, RoBERTa, Claude.
- Рабочий процесс: очистка необработанного текста → токенизация предложений → встраивание слов → применение слоёв внимания → генерация финального текста → постобработка результата → декодирование или классификация → передача в модель.
6. Computer Vision Models (Модели компьютерного зрения)
- Описание: интерпретируют визуальное содержимое, выявляя паттерны и особенности в изображениях или видео. Применяются в распознавании лиц, медицинской визуализации и др.
- Примеры: ResNet, YOLO, VGGNet, EfficientNet, Mask R-CNN.
- Рабочий процесс: загрузка данных изображений → изменение размера и нормализация → извлечение пиксельных признаков → применение слоёв CNN → вывод меток/коробок → постобработка результатов → классификация или локализация → обнаружение пространственных паттернов.
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2