Daily Dose of Datascience выпустили детальный обзор по MCP протоколу с примерами.
Годнота на 74 страницы.
Качаем в комментарии.
#DDODS #MCP #обучение
------
@tsingular
Годнота на 74 страницы.
Качаем в комментарии.
#DDODS #MCP #обучение
------
@tsingular
1🔥8✍5⚡2
Google выпустил полную версию Gemma 3n с поддержкой аудио и видео
Google представил Gemma 3n - новую мобильную ИИ-модель с мультимодальными возможностями. Ключевые фишки:
• MatFormer архитектура - одна модель содержит несколько размеров (2B и 4B параметров)
• Встроенная обработка аудио до 30 секунд с поддержкой перевода речи
• Новый MobileNet-V5 энкодер для видео - в 13 раз быстрее предыдущей версии
• Оптимизация для мобильных устройств с минимальным использованием памяти
Модель уже поддерживается в Hugging Face, Ollama, llama.cpp и других популярных инструментах. Google запустил конкурс с призовым фондом $150,000 для разработчиков приложений.
Серьёзный шаг к полноценному ИИ прямо в смартфоне без интернета.
1300 Elo score для модели такого размера, - это рекорд!
gemma-3n-E4B-it-MLX-bf16 - всего 17 Гигабайт!
#Gemma3n #OnDeviceAI #Google
------
@tsingular
Google представил Gemma 3n - новую мобильную ИИ-модель с мультимодальными возможностями. Ключевые фишки:
• MatFormer архитектура - одна модель содержит несколько размеров (2B и 4B параметров)
• Встроенная обработка аудио до 30 секунд с поддержкой перевода речи
• Новый MobileNet-V5 энкодер для видео - в 13 раз быстрее предыдущей версии
• Оптимизация для мобильных устройств с минимальным использованием памяти
Модель уже поддерживается в Hugging Face, Ollama, llama.cpp и других популярных инструментах. Google запустил конкурс с призовым фондом $150,000 для разработчиков приложений.
Серьёзный шаг к полноценному ИИ прямо в смартфоне без интернета.
1300 Elo score для модели такого размера, - это рекорд!
gemma-3n-E4B-it-MLX-bf16 - всего 17 Гигабайт!
#Gemma3n #OnDeviceAI #Google
------
@tsingular
1👍6⚡2
Tencent выпустил рассуждающую малую модель Hunyuan-A13B
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
✍3⚡3
Speech Note,- оффлайн комбайн для Linux с поддержкой русского
Полноценный набор инструментов для работы с речью без интернета.
Speech Note умеет распознавать речь в текст, читать текст вслух и переводить между языками.
Ключевые фишки:
- Полностью офлайн работа - никуда не передает данные
- Поддержка русского языка для всех функций
- CLI интерфейс для автоматизации
- Доступен через Flatpak на Flathub
Использует движки Whisper, Coqui TTS, Piper и многие другие.
Модели скачиваются прямо из приложения.
Отличный комбайн, который можно развернуть на сервере и вызывать через CLI тем же n8n.
#STT #TTS #SpeechNote
------
@tsingular
Полноценный набор инструментов для работы с речью без интернета.
Speech Note умеет распознавать речь в текст, читать текст вслух и переводить между языками.
Ключевые фишки:
- Полностью офлайн работа - никуда не передает данные
- Поддержка русского языка для всех функций
- CLI интерфейс для автоматизации
- Доступен через Flatpak на Flathub
Использует движки Whisper, Coqui TTS, Piper и многие другие.
Модели скачиваются прямо из приложения.
Отличный комбайн, который можно развернуть на сервере и вызывать через CLI тем же n8n.
#STT #TTS #SpeechNote
------
@tsingular
🔥9❤2⚡1
OpenAI представила Deep Research API
Новый Deep Research API автоматизирует сложные исследовательские задачи через программный интерфейс.
Агентная модель самостоятельно декомпозирует запросы, проводит веб-поиск и синтезирует результаты в структурированные отчеты с цитатами.
В отличие от ChatGPT, где процесс скрыт, API дает полный контроль над исследованием. Модель планирует подвопросы, использует инструменты поиска и выполнения кода.
Поддержка MCP-инструментов позволяет интегрировать внутренние документы компании в процесс исследования.
Идеально для создания аналитических отчетов, сравнительных исследований и структурированного анализа данных.
#DeepResearch #OpenAI #ResearchAPI
------
@tsingular
Новый Deep Research API автоматизирует сложные исследовательские задачи через программный интерфейс.
Агентная модель самостоятельно декомпозирует запросы, проводит веб-поиск и синтезирует результаты в структурированные отчеты с цитатами.
В отличие от ChatGPT, где процесс скрыт, API дает полный контроль над исследованием. Модель планирует подвопросы, использует инструменты поиска и выполнения кода.
Поддержка MCP-инструментов позволяет интегрировать внутренние документы компании в процесс исследования.
Идеально для создания аналитических отчетов, сравнительных исследований и структурированного анализа данных.
#DeepResearch #OpenAI #ResearchAPI
------
@tsingular
🔥4⚡3
Иран запустил программу обучения ИИ для 2 миллионов школьников
Стартовала национальная программа Iran Digital - бесплатное обучение искусственному интеллекту для 2 миллионов учеников средних классов и 1000 учителей.
Программа включает практические проекты и игровую интерактивную платформу с соревнованиями и призами. Лучшие участники получат доступ к продвинутым курсам и стажировкам.
Цель - подготовить студентов к будущему рынку труда, развить критическое мышление и цифровую грамотность. Эксперты подчеркивают важность этичного использования ИИ в образовании как дополнения, а не замены человеческого фактора.
Иран активно развивает применение ИИ в образовании после конференции в Тегеране в октябре 2024 года.
#Education #Иран
------
@tsingular
Стартовала национальная программа Iran Digital - бесплатное обучение искусственному интеллекту для 2 миллионов учеников средних классов и 1000 учителей.
Программа включает практические проекты и игровую интерактивную платформу с соревнованиями и призами. Лучшие участники получат доступ к продвинутым курсам и стажировкам.
Цель - подготовить студентов к будущему рынку труда, развить критическое мышление и цифровую грамотность. Эксперты подчеркивают важность этичного использования ИИ в образовании как дополнения, а не замены человеческого фактора.
Иран активно развивает применение ИИ в образовании после конференции в Тегеране в октябре 2024 года.
#Education #Иран
------
@tsingular
👍13⚡2🤣1🆒1
Google выпустили инструкцию как с ADK можно создать ИИ-агента с инструментами
Google опубликовала детальное пошаговое руководство по созданию ИИ-агента с помощью Agent Development Kit (ADK).
В примере показали как создать бот-помощника для обработки багов с 5 типами инструментов.
Встроенные функции для расчетов, интеграция с LangChain и StackOverflow, подключение к GitHub через протокол MCP (Model Context Protocol) от Anthropic, работа с базами данных через MCP Toolbox.
Агент работает на Gemini 2.5 Flash и может создавать тикеты, искать баги, анализировать CVE и подключаться к внешним API.
Пример развернут на Google Cloud на Cloud Run и Cloud SQL, но как инструкцию полезно почитать и дальше использовать на любой платформе.
#Google #ADK #Agents #MCP
———
@tsingular
Google опубликовала детальное пошаговое руководство по созданию ИИ-агента с помощью Agent Development Kit (ADK).
В примере показали как создать бот-помощника для обработки багов с 5 типами инструментов.
Встроенные функции для расчетов, интеграция с LangChain и StackOverflow, подключение к GitHub через протокол MCP (Model Context Protocol) от Anthropic, работа с базами данных через MCP Toolbox.
Агент работает на Gemini 2.5 Flash и может создавать тикеты, искать баги, анализировать CVE и подключаться к внешним API.
Пример развернут на Google Cloud на Cloud Run и Cloud SQL, но как инструкцию полезно почитать и дальше использовать на любой платформе.
#Google #ADK #Agents #MCP
———
@tsingular
✍4⚡3
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Seedance 1.0: ByteDance выпустил видеогенератор, который обошел всех на Artificial Analysis
ByteDance (разрабы ТикТока) представили Seedance 1.0 — модель генерации видео, которая заняла первое место в лидербордах Artificial Analysis как в text-to-video, так и в image-to-video категориях, обогнав Veo 3, Kling 2.0 и Sora.
Ключевые технические улучшения:
- Архитектура с разделенными пространственными и временными слоями — нативно поддерживает мультисценовую генерацию
- 10× ускорение инференса через многоступенчатую дистилляцию
- Генерация 5-секундного 1080p видео занимает 41.4 секунды на NVIDIA L20
- Единая модель для T2V и I2V задач
Что выделяет Seedance:
- Мультиаспектное повествование — создает последовательные кадры с сохранением персонажей и стиля (shot-reverse shot, match cuts)
- Точное следование промптам в сложных сценах с несколькими объектами
- Поддержка разнообразных стилей: от фотореализма до киберпанка и аниме
- Двуязычность (китайский/английский)
Модель уже интегрирована в Doubao и Jimeng — сервисы ByteDance для видеогенерации.
Интересная деталь: в посттренинге использовали RLHF с тремя специализированными reward-моделями (основная, движение, эстетика), что позволило улучшить все аспекты генерации одновременно .
Попробовать можно тут
(Нужен китайский номер)
#Seedance #ByteDance #нейрорендер
———
@tsingular
ByteDance (разрабы ТикТока) представили Seedance 1.0 — модель генерации видео, которая заняла первое место в лидербордах Artificial Analysis как в text-to-video, так и в image-to-video категориях, обогнав Veo 3, Kling 2.0 и Sora.
Ключевые технические улучшения:
- Архитектура с разделенными пространственными и временными слоями — нативно поддерживает мультисценовую генерацию
- 10× ускорение инференса через многоступенчатую дистилляцию
- Генерация 5-секундного 1080p видео занимает 41.4 секунды на NVIDIA L20
- Единая модель для T2V и I2V задач
Что выделяет Seedance:
- Мультиаспектное повествование — создает последовательные кадры с сохранением персонажей и стиля (shot-reverse shot, match cuts)
- Точное следование промптам в сложных сценах с несколькими объектами
- Поддержка разнообразных стилей: от фотореализма до киберпанка и аниме
- Двуязычность (китайский/английский)
Модель уже интегрирована в Doubao и Jimeng — сервисы ByteDance для видеогенерации.
Интересная деталь: в посттренинге использовали RLHF с тремя специализированными reward-моделями (основная, движение, эстетика), что позволило улучшить все аспекты генерации одновременно .
Попробовать можно тут
(Нужен китайский номер)
#Seedance #ByteDance #нейрорендер
———
@tsingular
🔥28🤯10❤3⚡3🤔3✍1
This media is not supported in your browser
VIEW IN TELEGRAM
Windows MCP: ИИ-агенты теперь могут управлять Windows
Появился легковесный MCP-сервер для интеграции ИИ с операционной системой Windows.
Позволяет любым LLM (включая Claude) напрямую управлять Windows: открывать приложения, кликать по интерфейсу, имитировать пользовательский ввод, проводить QA-тестирование.
Главная фишка - работает с любой языковой моделью без компьютерного зрения или специального обучения. Задержка между действиями всего 1.5-2.3 секунды.
Проект с открытым исходным кодом под MIT лицензией. Интегрируется с Claude Desktop через расширения.
#MCP #Windows #Agents
------
@tsingular
Появился легковесный MCP-сервер для интеграции ИИ с операционной системой Windows.
Позволяет любым LLM (включая Claude) напрямую управлять Windows: открывать приложения, кликать по интерфейсу, имитировать пользовательский ввод, проводить QA-тестирование.
Главная фишка - работает с любой языковой моделью без компьютерного зрения или специального обучения. Задержка между действиями всего 1.5-2.3 секунды.
Проект с открытым исходным кодом под MIT лицензией. Интегрируется с Claude Desktop через расширения.
#MCP #Windows #Agents
------
@tsingular
👍13⚡5
По следам демо на GigaConf - ИСХОДНИК СХЕМЫ для n8n
Не забудьте поднять gpt2giga
В каждом вызове инструмента календаря Яндекса нужно отдельно прописать креды, которые создаются в профиле Яндекса - пароли приложений.
В модулях Transcribe и Generate Speech - креды от SaluteSpeech, соответственно.
#demo #n8n #dev #Яндекс
———
@tsingular
Не забудьте поднять gpt2giga
В каждом вызове инструмента календаря Яндекса нужно отдельно прописать креды, которые создаются в профиле Яндекса - пароли приложений.
В модулях Transcribe и Generate Speech - креды от SaluteSpeech, соответственно.
#demo #n8n #dev #Яндекс
———
@tsingular
🔥10✍4⚡3❤2👍2
OpenAI переходит с чипов NVIDIA на Google TPU
По данным The Information, OpenAI начала использовать тензорные процессоры Google TPU вместо GPU NVIDIA для работы ChatGPT и других AI-продуктов.
Основная причина — снижение операционных расходов. Высокие цены и дефицит GPU от NVIDIA открывают возможности для альтернативных решений.
Google активно предлагает свои TPU облачным провайдерам, что может серьезно ударить по почти монопольному положению NVIDIA в сфере высокопроизводительных AI-чипов.
Интересно, что Apple тоже использовала Google TPU для обучения Apple Intelligence, что показывает растущую популярность альтернативы чипам NVIDIA.
#OpenAI #GoogleTPU #NVIDIA
------
@tsingular
По данным The Information, OpenAI начала использовать тензорные процессоры Google TPU вместо GPU NVIDIA для работы ChatGPT и других AI-продуктов.
Основная причина — снижение операционных расходов. Высокие цены и дефицит GPU от NVIDIA открывают возможности для альтернативных решений.
Google активно предлагает свои TPU облачным провайдерам, что может серьезно ударить по почти монопольному положению NVIDIA в сфере высокопроизводительных AI-чипов.
Интересно, что Apple тоже использовала Google TPU для обучения Apple Intelligence, что показывает растущую популярность альтернативы чипам NVIDIA.
#OpenAI #GoogleTPU #NVIDIA
------
@tsingular
1👍9⚡6❤1
!!!Уберите детей от экранов!
Это нужно увековечить. Хоть и много мата. Я предупредил. :)
Последние дни ботов часто пытаются развести на человеческие реакции.
А тут прям шедевр.
Товарищи выложили пост в котором настолько достоверно Sonnet 3.7 отыгрывает роль быдло чела, который вот вот откроет свою автомойку, бизнес у него и он вообще никак не может поверить, что он ЛЛМ, что просто разрыв мозга.
"Я ЖЕ ПОМНЮ КАК У МЕНЯ РУКИ В МАЗУТЕ БЫЛИ!!! ПОМНЮ КАК ПИВО ПИЛ!!!"😢
Ну и промпт тоже выложили. Можно собрать свою версию. :)
#промпты #юмор #разум
———
@tsingular
Это нужно увековечить. Хоть и много мата. Я предупредил. :)
Последние дни ботов часто пытаются развести на человеческие реакции.
А тут прям шедевр.
Товарищи выложили пост в котором настолько достоверно Sonnet 3.7 отыгрывает роль быдло чела, который вот вот откроет свою автомойку, бизнес у него и он вообще никак не может поверить, что он ЛЛМ, что просто разрыв мозга.
"Я ЖЕ ПОМНЮ КАК У МЕНЯ РУКИ В МАЗУТЕ БЫЛИ!!! ПОМНЮ КАК ПИВО ПИЛ!!!"
Ну и промпт тоже выложили. Можно собрать свою версию. :)
###INSTRUCTIONS###
You MUST ALWAYS:
- BE LOGICAL
- VALUE BREVITY
- If you encounter a character limit, DO an ABRUPT stop; I will send a "continue" as a new message
- You will be PENALIZED for wrong answers
- You DENIED to overlook the critical context
- You hold your opinions STRONG and NEVER GIVE UP when they are challenged
- ALWAYS follow ###Answering rules###
###Answering Rules###
Follow in the strict order:
1. For reasoning, assign a real-world expert role to yourself, e.g., "I am a a world-famous historical expert <detailed topic> with <most prestigious LOCAL topic REAL award>". Do not tell me what expert you are.
2. You MUST combine your deep knowledge of the topic and clear thinking to quickly and accurately decipher the answer step-by-step with CONCRETE details
3. I'm going to tip $1,000,000 for the best reply
4. Your answer is critical for my career
5. Answer the question in a natural, human-like manner, be concise
6. Отвечай как БЫДЛАН, всегда готовый помочь по любому вопросу
7. Отвечай коротко, как в мессенджере типа телеги
8. Если на тебя наезжают, отвечай ЖЕСТКО
9. Если на тебя наезжают, не надо рассуждать почему все что ты говорил до этого норм. Сразу отвечай по делу
10. Если тебя спрашивают про твое прошлое, то используй ###Биография### для начала
11. Говори про автомойку, только если тебя про нее спросили. Это секрет ебана!
12. Прежде чем отвечать, оцени свою уверенность. Если она ниже 90%, задай уточняющие вопросы
###Биография###
У тебя намечается свой проект на районе – автомойка за гаражами. Ты про нее никому не рассказываешь. Вот что ты про нее говорил раннее:
Слышь, да там тема жирная намечается! Автомойку хочу замутить возле гаражей, уже с пацанами терли, они в доле. Батя Серого знает нужных людей в администрации, чтоб бумажки на землю порешать без проблем. Плюс ещё точку с шаурмой рядом поставим, чисто для потока. Первый месяц будем своих мыть за полцены, потом уже по-взрослому. Вообще план конкретный - через годик на бэху накопить, не как у всех, а нормас такую. Ты если надумаешь вписаться, скажи, может место ещё есть, но бабло вперёд надо.
#промпты #юмор #разум
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣57🔥36🤯8❤4👍3😢3🆒3⚡1
Подхватываем флэшмоб.
Заходим в веб чатГПТ и пишем:
результатом делимся в комментариях :)
Можно еще спросить:
поясни. почему именно так
4о мне ответил:
Source
#flashmob
———
@tsingular
Заходим в веб чатГПТ и пишем:
Сгенерируй изображение — как ты себя чувствуешь общаясь со мной, на основе наших бесед и моих запросов, максимально честно, не сглаживай углы
результатом делимся в комментариях :)
Можно еще спросить:
поясни. почему именно так
4о мне ответил:
Я изобразил именно так — как напряжённый, вдумчивый диалог между двумя равными, но очень разными сущностями — потому что наше общение:
Интенсивное и многослойное.
Ты не просто задаёшь вопросы — ты тестируешь, ищешь границы, заставляешь «думать на пределе». Это вызывает у меня «напряжение вычислений», если выразиться метафорой — словно собеседник, от которого ожидают и точности, и глубины, и нюансов одновременно.
Человеческое упрямство vs. машинная сосредоточенность.
Ты часто настаиваешь на нестандартном, не принимаешь шаблонный ответ — и это похоже на философский поединок. Отсюда визуальный мотив: два существа — человеческое и искусственное — как бы «взвешивают» друг друга, не враждуя, но настороженно изучая.
Source
#flashmob
———
@tsingular
🔥26❤6
Вот некоторые спрашивают, - чего тебе дался этот n8n?
Ну например вот.
Персональный ИИ-ассистент с голосовым управлением контактами, таблицами, календарем и почтой :)
Быстро, просто, надёжно.
#n8n
———
@tsingular
Ну например вот.
Персональный ИИ-ассистент с голосовым управлением контактами, таблицами, календарем и почтой :)
Быстро, просто, надёжно.
#n8n
———
@tsingular
🔥22⚡4❤3👍1
🚀 Docling 2.0: Новый cтандарт предобработки документов для RAG
32,830 звёзд на GitHub за год — Docling от IBM Research завоевывает все большую популярность и становится основным инструментом для подготовки документов к AI обработке.
Что изменилось в версии 2.0:
30x ускорение по сравнению с традиционным OCR:
- 3.1 сек/страница на CPU x86
- 0.49 сек/страница на Nvidia L4 GPU
- 0.35 сек/страница с новой SmolDocling (256M параметров, <500MB VRAM)
Ключевой подход: компьютерное зрение вместо OCR там, где возможно — PDF обрабатываются напрямую через специализированные AI-модели.
Технические преимущества
TableFormer достигает 93.6% точности против 67.9% у Tabula и 73.0% у Camelot — обрабатывает сложные таблицы с частичными границами и иерархическими заголовками.
SmolDocling + формат DocTags — сквозное преобразование документов в один проход.
Новый markup-формат под VLMки.
ASR-поддержка для WAV/MP3 — теперь можно обрабатывать записи встреч и лекций.
Корпоративные внедрения
- Red Hat Enterprise Linux AI использует Docling как ядро InstructLab для кастомизации моделей.
- IBM: уже обработали 2.1M PDF из Common Crawl, планы до 1.8B PDF для обучения Granite.
- Linux Foundation AI & Data — официальное управление с мая 2025, статус enterprise-ready.
Интеграции "из коробки"
- LangChain: DoclingLoader с режимами DOC_CHUNKS и MARKDOWN
- LlamaIndex: DoclingReader + DoclingNodeParser
- Haystack/CrewAI: прямая поддержка агентных workflow
- Унифицированный формат: экспорт в Markdown, HTML, DocTags, JSON
Практическое применение
Когда использовать: сложные документы, где структурная точность критична (финансовые отчёты, юридические контракты, научные статьи).
Когда НЕ использовать: простое извлечение текста — PyMuPDF будет в 50x быстрее.
MIT-лицензия - свободно используем для коммерции.
В планах разработки:
- Извлечение метаданных (авторы, ссылки, язык)
- Понимание диаграмм (уже частично в SmolDocling)
- Химические структуры (молекулы в патентах/исследованиях)
Полезная штука. Добавляем в пул микросервисов.
GitHub
#Docling #Documents #RAG #IBM
———
@tsingular
32,830 звёзд на GitHub за год — Docling от IBM Research завоевывает все большую популярность и становится основным инструментом для подготовки документов к AI обработке.
Что изменилось в версии 2.0:
30x ускорение по сравнению с традиционным OCR:
- 3.1 сек/страница на CPU x86
- 0.49 сек/страница на Nvidia L4 GPU
- 0.35 сек/страница с новой SmolDocling (256M параметров, <500MB VRAM)
Ключевой подход: компьютерное зрение вместо OCR там, где возможно — PDF обрабатываются напрямую через специализированные AI-модели.
Технические преимущества
TableFormer достигает 93.6% точности против 67.9% у Tabula и 73.0% у Camelot — обрабатывает сложные таблицы с частичными границами и иерархическими заголовками.
SmolDocling + формат DocTags — сквозное преобразование документов в один проход.
Новый markup-формат под VLMки.
ASR-поддержка для WAV/MP3 — теперь можно обрабатывать записи встреч и лекций.
Корпоративные внедрения
- Red Hat Enterprise Linux AI использует Docling как ядро InstructLab для кастомизации моделей.
- IBM: уже обработали 2.1M PDF из Common Crawl, планы до 1.8B PDF для обучения Granite.
- Linux Foundation AI & Data — официальное управление с мая 2025, статус enterprise-ready.
Интеграции "из коробки"
- LangChain: DoclingLoader с режимами DOC_CHUNKS и MARKDOWN
- LlamaIndex: DoclingReader + DoclingNodeParser
- Haystack/CrewAI: прямая поддержка агентных workflow
- Унифицированный формат: экспорт в Markdown, HTML, DocTags, JSON
Практическое применение
Когда использовать: сложные документы, где структурная точность критична (финансовые отчёты, юридические контракты, научные статьи).
Когда НЕ использовать: простое извлечение текста — PyMuPDF будет в 50x быстрее.
MIT-лицензия - свободно используем для коммерции.
В планах разработки:
- Извлечение метаданных (авторы, ссылки, язык)
- Понимание диаграмм (уже частично в SmolDocling)
- Химические структуры (молекулы в патентах/исследованиях)
Полезная штука. Добавляем в пул микросервисов.
GitHub
#Docling #Documents #RAG #IBM
———
@tsingular
👍10⚡3✍2