GitHub Разработчика – Telegram

GitHub Разработчика

17.2K subscribers

611 photos

350 videos

2 files

947 links

Здесь ты найдешь полезные репозитории с GitHub

Связь: @devmangx

РКН: https://clck.ru/3FocDP

Download Telegram

About

Blog

Apps

Platform

GitHub Разработчика

17.2K subscribers

GitHub Разработчика

voicelive-api-salescoach

В продажах часто одно и то же: читаешь теорию, смотришь кейсы, а в реальной беседе с клиентом теряешься. Нет нормальной практики с живым диалогом, где можно набить руку.

На GitHub попался проект Voice Live API Sales Coach. Это open-source инструмент, который через голосовой диалог на базе ИИ симулирует реальные продажи и дает возможность тренироваться хоть каждый день.

Сделан на Azure Real-Time Speech API в связке с GPT-4o. Выбираешь индустрию, заходишь в сцену — и виртуальный клиент говорит как живой. Ты отвечаешь голосом, он сразу реагирует, без задержек и роботских интонаций.

После диалога система выдает разбор: тон, содержание, насколько правильно вытащил потребности, как справился с возражениями, где провалился по аргументации. Плюс проверяет четкость речи и дает баллы по метрикам.

Есть кнопка для деплоя прямо в Azure, но и локально поднять можно, если настроить ключи и нужные сервисы. Получается удобный тренажер для тех, кто хочет не просто «знать теорию», а уметь разговаривать с клиентом уверенно.

📁 Language: #Python 57.3%

⭐️ Stars: 80

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥5

3.14K views06:07

GitHub Разработчика

ClickClickClick

Хочется, чтобы телефон или комп сам разбирался с рутиной, но обычно для этого надо городить скрипты и ковыряться в автоматизации. Для новичков порог высокий.

На GitHub наткнулся на проект ClickClickClick — опенсорс, который использует визуальные возможности LLM и позволяет автоматизировать управление Android и macOS.

Не нужно выписывать жёсткие координаты и клики. Просто говоришь обычным языком, типа: «открой Gmail и отправь письмо» или «найди автобусные остановки на карте», и ИИ сам проходит интерфейс.

Поддерживает OpenAI, Claude, Gemini и локальные модели через Ollama. Конфиденциальность под контролем, достаточно настроить ADB и можно управлять андроид-устройством.

Подходит, если хочется попробовать, как ИИ может “по кликам” проходить приложения, гонять тесты или автоматизировать бытовую рутину. Нормальная экспериментальная база для таких задач.

📁 Language: #Python 100.0%

⭐️ Stars: 563

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

3.25K views06:07

GitHub Разработчика

LifeTrace

Каждый день работаешь за компом, используешь кучу софта, делаешь миллион задач, а через пару дней уже не вспомнишь, куда ушло время и что именно делал. Не говоря уже о деталях за несколько месяцев.

На GitHub попался проект LifeTrace — open source тулза, которая с помощью автоскриншотов, OCR и умного поиска фиксирует и восстанавливает твою активность.

Она по расписанию делает скриншоты экрана, вытаскивает текст через OCR, группирует всё по контексту в “события” и строит график распределения времени за 24 часа.

Кроме фиксации, есть поиск — векторный и мультимодальный. Можно быстро найти нужный кусок информации за конкретный день или момент.

Разворачивается через Docker или обычную установку, работает на Windows и macOS.

Если хочется вести свой рабочий “след”, отслеживать, чем реально занят, или разбирать, куда утекает время — инструмент стоит попробовать.

📁 Language: #Python 53.9%

⭐️ Stars: 1.5k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥4👍2🌚1

3.07K views06:07

GitHub Разработчика

Guardian

При проведении пентеста или security-оценки больше всего бесит не нехватка инструментов, а их разрозненность.

Приходится постоянно прыгать между Nmap, SQLMap, Nuclei, плюс вручную разбирать тонны результатов сканирования. Эффективность падает в ноль.

Недавно на GitHub попался open-source фреймворк Guardian с довольно интересной идеей: к классическим security-инструментам прикрутили AI-мозг.

По сути, это автоматизированная платформа для пентеста на базе Google Gemini.

Она объединяет Nmap, Nuclei, SQLMap и ещё около 15 популярных security-тулзов, а AI занимается интеллектуальным планированием атак.

Фреймворк автоматически проходит весь пайплайн — от порт-сканирования и веб-разведки до валидации уязвимостей, и даже умеет динамически менять стратегию тестирования на основе полученных результатов.

Есть Docker-образ из коробки со всеми предустановленными инструментами, также поддерживается локальный деплой с кастомной конфигурацией. Потребуется только API-ключ Google Gemini.

📁 Language: #Python 97.8%

⭐️ Stars: 219

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍3❤2

3.01K views16:07

GitHub Разработчика

llm-madness

Обучение больших языковых моделей — это обычно целая цепочка из настройки окружения, подбора гиперпараметров и трекинга экспериментов. Процесс громоздкий, легко накосячить, а быстро проверить идею или разобраться в принципах работы — то ещё удовольствие.

И тут как раз попался open-source проект llm-madness на GitHub. Это лёгкий end-to-end пайплайн для обучения LLM с визуальным интерфейсом.

Он закрывает весь цикл: от сборки токенизатора и подготовки датасета до обучения GPT-модели. Плюс через веб-интерфейс можно в реальном времени смотреть, как меняется loss и какие сэмплы генерирует модель.

Внутри — реализация Transformer в GPT-стиле с возможностью кастомизировать архитектуру: количество слоёв, число attention-голов, размер эмбеддингов и т.д. Есть живые графики лосса, генерация примеров и визуализация attention.

Также встроено обучение BPE-токенизатора, что позволяет подгонять токенизацию под конкретный домен — код, математику, медицину и прочие специализированные корпуса.

Если хочется быстро проверить идеи по архитектуре модели или глубже понять, как устроен Transformer изнутри, без поднятия тяжёлого тренировочного стека — проект точно стоит посмотреть.

📁 Language: #Python 50.2%

⭐️ Stars: 88

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

2.94K views06:07

GitHub Разработчика

Fincept Terminal

Занимаясь финансовым анализом или инвестиционными исследованиями, больше всего напрягает не нехватка данных, а то, что они размазаны по разным платформам, а инструменты анализа живут каждый сам по себе. Связать данные по цепочкам поставок с инвестиционным портфелем и нормально это проанализировать — та еще боль.

Недавно на GitHub наткнулся на Fincept Terminal — open-source платформу для финансового анализа, которая объединяет инструменты уровня CFA, ИИ-автоматизацию и кросс-доменную интеграцию данных.

Внутри есть полноценные аналитические модули по программе CFA: оптимизация портфеля, оценка по DCF, ценообразование опционов и другие профессиональные инструменты. Плюс интегрированы аналитические стили более чем 20 инвестиционных мастеров — стратегии Баффета, Далио, Сороса можно вызывать напрямую.

Самое интересное — кросс-доменная работа с данными. Поддерживается более 100 коннекторов к источникам данных: можно связать данные по морским перевозкам с прогнозом ВВП и затем спроецировать это на позиции по акциям, либо напрямую связать геополитические события с валютной волатильностью и стратегиями хеджирования через опционы, собирая собственные аналитические метрики.

Также есть визуальный редактор рабочих процессов: аналитические пайплайны собираются перетаскиванием нод. В том числе поддерживается 3D-глобус с отслеживанием в реальном времени маршрутов судов, самолетов и спутников.

Если ты ищешь инструмент для финансовых исследований без жестких ограничений по данным, с возможностью свободно комбинировать логику анализа, или если тебя уже достал классический формат финансовых терминалов с их «островками данных», на этот проект точно стоит посмотреть.

📁 Language: #Python 53.0%

⭐️ Stars: 992

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍6

2.99K views06:07

GitHub Разработчика

Maigret

Хочешь по одному юзернейму собрать след человека по сети, но руками лезть на каждый сервис долго, муторно и все равно что-то упустишь.

На GitHub нашел Maigret — опенсорс инструмент для OSINT по юзернеймам. Вводишь имя, а он сам пробегается по 3000+ сервисам и ищет совпадающие аккаунты.

Основан на проекте Sherlock, но прокачан: не просто находит аккаунт, а еще парсит профиль, вытаскивает инфу, и если по дороге всплывают альтернативные никнеймы, может рекурсивно пройтись по ним и связать цепочку.

Можно фильтровать по тегам — например, искать только фотосервисы или сайты конкретной страны. Есть обработка капч и ограничений доступа. Итоговый отчёт можно выгрузить в HTML, PDF, mind map и другие форматы, плюс есть веб-интерфейс.

Варианты использования широкие: standalone для Windows, Docker образ, Telegram-бот, или можно запускать в облаке без установки на локалку.

Если тебе близки security research, digital forensics или OSINT, инструмент точно стоит держать под рукой.

📁 Language: #Python 66.1%

⭐️ Stars: 18.6k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍7❤3

2.98K views06:07

GitHub Разработчика

icloud_photos_downloader

Хочется слить на локальный диск пару тысяч фоток из iCloud, а через веб или приложение это только руками, муторно и долго.

На GitHub случайно попался опенсорсный icloud_photos_downloader — консольный тул, который позволяет скриптом выкачать весь iCloud Photo Library на локалку.

Написан на Python, логинитcя с двухфакторкой, и одной простой командой забирает фотки и видео пачками в выбранную директорию.

Умеет докачивать с места остановки, уже скачанные файлы пропускает, можно фильтровать по дате, альбомам и даже по альбомам из face recognition.

После скачивания файлы можно раскидать по год/месяц/день и сохранить оригинальные метаданные.

Если прикрутить cron или другой планировщик, можно получить автоматический локальный бэкап из iCloud. Есть и Docker-образ, подойдет для долгой работы на сервере.

📁 Language: #Python 93.7%

⭐️ Stars: 9.7k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤2

2.81K views06:07

GitHub Разработчика

voice-pro

Бывает нужно озвучить видео на разных языках или клонировать конкретный голос, а на рынке полно сервисов, которые берут деньги за каждый символ. В долгую это выходит больно дорого.

Недавно наткнулся на Voice-Pro. Раньше это было платное приложение, а сейчас разработчик полностью открыл исходники и сделал его бесплатным. По сути, сильно упростили вход в тему видео-перевода и голосового клонирования.

Внутри собран полный пайплайн: скачивание видео с YouTube, разделение голоса и фоновой дорожки, распознавание речи, перевод и финальный дубляж. Есть поддержка WhisperX для точных субтитров, плюс можно сделать zero-shot клонирование голоса через F5-TTS и CosyVoice.

Сейчас основная поддержка под Windows с NVIDIA GPU. Есть скрипт для авто-инсталла, который сам настроит окружение, так что не нужно возиться с Python и зависимостями.

По ощущениям, это почти как локальный бесплатный ElevenLabs. Если нужно делать мультиязычные ролики или выходить на зарубежные площадки, штука прям сильно экономит бюджет.

📁 Language: #Python 93.9%

⭐️ Stars: 5.5k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍14❤5🔥5

2.86K views16:07

GitHub Разработчика

Constrict

Хочешь скинуть другу видос или залить вложение где-нибудь, а платформа выдает “файл слишком большой”. Приходится искать софт, ковырять настройки и сжимать вручную.

На GitHub как раз попался Constrict — маленький опенсорс-инструмент, заточенный под одну конкретную задачу: ужать видео до нужного размера.

Не нужно возиться с кучей параметров. Просто задаешь целевой размер, а дальше он сам рассчитывает и подбирает битрейт, разрешение и FPS, чтобы ужать ролик максимально точно.

Поддерживаются популярные кодеки вроде H.264, HEVC и AV1. Вся обработка делается локально, без загрузки в облако, так что и приватность сохраняется, и ждать ничего не нужно.

Есть готовые инсталляторы, интерфейс простой и понятный. Если тебе часто нужно ужимать видео под конкретный размер и неохота каждый раз вручную крутить параметры — инструмент прям годный для закладок.

📁 Language: #Python 94.2%

⭐️ Stars: 507

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🏆2🔥1

2.5K views06:07

GitHub Разработчика

paperetl

Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.

Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.

Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.

Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.

По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.

Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.

📁 Language: #Python 96.2%

⭐️ Stars: 490

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2

2.56K views16:07

GitHub Разработчика

NoLanguageLeftWaiting

Если хочется делать стриминговый перевод для трансляций или прям настоящий синхрон, быстро упираешься в тупняк классических офлайн-моделей: они часто ждут, пока человек договорит фразу целиком, и из-за этого появляется заметная задержка.

На GitHub нашелся опенсорсный проект NoLanguageLeftWaiting. Ребята взяли офлайн-переводчик Meta NLLB и переделали его в режим реального синхронного перевода: модель может переводить на лету, не дожидаясь конца предложения.

Плюс они закрывают типичные боли “псевдо-синхрона”: когда пунктуация вставляется криво, а работа с префиксами и контекстом превращается в кашу.

Что по возможностям:

* перевод между ~200 языками
* два варианта бэкенда: HuggingFace и CTranslate2
* внутри сразу два размера модели: 600M и 1.3B

Сейчас они ещё пилят speculative decoding (спекулятивное декодирование), чтобы ускорить вывод. Идея: часть гипотез быстро “пробрасывать” и потом частично валидировать, чтобы не тормозить на каждом шаге. По их замерам валидация занимает примерно 0.15 секунды.

Если делаешь голосовой перевод, субтитры для стрима или любой кросс-языковой созвон, где задержка решает, проект прям стоит потыкать.

📁 Language: #Python 100.0%

⭐️ Stars: 41

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍1🔥1

2.58K views06:07

GitHub Разработчика

local_ai_ocr

Если нужно вытаскивать текст из документов или PDF, загружать файлы в онлайн-конвертеры всегда как-то стрёмно. А у многих локальных тулов то распознавание так себе, то форматирование превращается в кашу.

Случайно наткнулся на GitHub на open-source проект local_ai_ocr: он собран на модели DeepSeek-OCR и заточен под локальное офлайн-распознавание текста на Windows.

Он умеет с GPU-ускорением обрабатывать картинки и PDF: не просто точно вытягивает текст, но и может сразу экспортировать в Markdown, чтобы сохранить сложные таблицы и верстку.

Работает полностью офлайн: ничего не нужно отправлять в облако. Скачал, распаковал, запустил init-скрипт и можно пользоваться, без сложной настройки окружения.

Если для тебя критична приватность данных или нужна максимально точная “реконструкция” форматирования документа, штука точно стоит того, чтобы попробовать.

📁 Language: #Python 67%

⭐️ Stars: 493

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2

2.77K views16:07

GitHub Разработчика

FastScheduler

Писать планировщик задач на Python через стандартную библиотеку хоть и просто, но возможностей там немного. Как только появляются асинхронные задачи, работа с таймзонами, ретраи при фейлах и похожие кейсы, становится тяжко.

На GitHub нашел FastScheduler, это опенсорсный легковесный таск-планировщик для Python. Поддерживает async, таймзоны, Cron-выражения и еще имеет визуальную панель.

За счет очень аккуратного синтаксиса на декораторах задачу можно описать одной строкой. Есть разные варианты расписаний: интервалы, конкретное время, Cron и т.д. Асинхронные функции работают из коробки.

Установка через pip в один шаг, а для персистентности доступны разные хранилища вроде SQLite и PostgreSQL. После рестарта сервиса состояние задач не теряется.

📁 Language: #Python 79.5%

⭐️ Stars: 319

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

2.48K views16:07

GitHub Разработчика

Anubis

Преподавателю на computer science в универе, помимо подготовки занятий, ещё приходится проверять домашки, разбирать отправленные решения и админить студенческие репозитории с кодом. Всё это довольно выматывает.

А университетские LMS обычно старые, обновляются медленно, поэтому нормально автоматизировать проверку программных заданий там ещё сложнее.

И вот на GitHub попался Anubis LMS, опенсорсная система управления обучением, заточенная именно под курсы по программированию. Её уже используют в Нью-Йоркском университете несколько семестров подряд.

У каждого студента отдельный GitHub-репозиторий. После пуша система автоматически прогоняет тесты и сразу возвращает фидбек. До дедлайна студент может отправлять решения сколько угодно раз и смотреть результаты тестов.

Плюс там есть облачная IDE, запускается в один клик: в браузере студент получает заранее настроенное Linux-окружение, без возни с локальной установкой и конфигами.

Система также умеет на основе таймстемпов коммитов и результатов тестов строить визуальную аналитику по обучению, чтобы преподаватель видел, как у студентов с усвоением конкретных тем.

Если ты ведёшь курс по программированию или недоволен автоматизацией в обычных LMS, проект точно стоит попробовать.

📁 Language: #Python 61.5%

⭐️ Stars: 366

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍1

2.48K views06:07

GitHub Разработчика

This media is not supported in your browser

VIEW IN TELEGRAM

Ciphey

Наткнулся на кусок зашифрованного текста, а что за шифр, непонятно. Вручную перебирать способы расшифровки слишком долго.

На GitHub как раз попался Ciphey, это инструмент для автоматической расшифровки: закидываешь шифртекст, он сам пытается определить тип шифрования/кодировки и расшифровать, чаще всего укладывается в 3 секунды.

Он опирается на кастомный AI-модуль и NLP, чтобы автоматически угадывать метод и распознавать осмысленный plaintext, без того чтобы заранее знать какие-то параметры шифрования.

Поддерживает больше 50 вариантов шифров и кодировок: бинарь, азбука Морзе, Base64, шифр Цезаря, Виженер, XOR и другие классические и современные варианты, плюс умеет распознавать хэши.

Внутри много написано на C++, поэтому работает быстро. Есть CLI, а также можно подключать как Python-библиотеку в свой проект. Поддерживаются Windows, Linux и macOS.

📁 Language: #Python 100.0%

⭐️ Stars: 20.8k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5🔥3

2.41K views06:07

GitHub Разработчика

DocStrange

Когда делаешь RAG или “скармливаешь” ИИ свои материалы, самая больная тема это таблицы внутри PDF и картинок. Текст из них вытаскивается криво: формат плывет, особенно на сложных макетах, и в таком виде это почти невозможно нормально использовать.

На GitHub как раз нашелся опенсорсный проект DocStrange, который целится ровно в эту проблему: превращать документы в данные без боли.

Он умеет довольно точно конвертировать разные форматы в то, что любят большие модели: Markdown или структурированный JSON.

Поддерживаются PDF, изображения, офисные документы и даже ссылки на веб-страницы. В основе OCR плюс анализ верстки, то есть он не просто распознает текст, а пытается понять структуру документа.

Фишка в том, что он может восстанавливать сложные таблицы, а еще по заданным полям или Schema сразу вытаскивать структурированный JSON.

Есть готовый локальный веб-интерфейс: закинул файл drag-and-drop и получил результат. Плюс поддерживается локальное ускорение на GPU, все крутится у тебя на машине, данные никуда не уезжают, с приватностью спокойнее.

Лучше всего зайдет тем, кто собирает RAG-базу знаний или кому нужно пачками разбирать сканы, счета, инвойсы и другой неструктурированный хлам.

📁 Language: #Python 85.4%

⭐️ Stars: 1.3k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.8K views06:07

GitHub Разработчика

plexe

Чтобы натренировать ML-модель, обычно надо шарить в алгоритмах, писать код и бесконечно тюнить гиперпараметры. Для большинства это входной барьер, который сразу отбивает желание.

На GitHub есть Plexe, опенсорсный проект, который сильно снижает порог: ты описываешь задачу обычным языком, а он автоматически собирает машинное обучение под это.

Достаточно по-человечески объяснить, что именно хочешь предсказать, какие данные на входе и что должно быть на выходе. Дальше система через связку нескольких агентов сама проходит весь пайплайн: анализ данных, план решения, генерация кода, тесты и оценка качества.

Поддерживает разных провайдеров LLM: OpenAI, Anthropic, Ollama и другие. Плюс умеет автоматически выводить структуру данных или даже генерировать синтетический датасет.

Еще внутри есть распределенное обучение на Ray: можно параллельно прогонять несколько вариантов моделей и сильно ускоряться.

Если тебе нужно быстро проверить ML-идею или дать возможность строить модели не технарям, штука выглядит реально полезной.

📁 Language: #Python 92.0%

⭐️ Stars: 2.3k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥3❤2

1.71K views16:07

GitHub Разработчика

ai-data-science-team

Когда делаешь проекты по Data Science, львиная доля времени обычно уходит на чистку данных и однотипный код для графиков, а на реальный тюнинг моделей сил остается совсем мало.

Случайно наткнулся на GitHub на проект ai-data-science-team, который по сути собирает тебе универсальную виртуальную команду дата-сайентистов.

Он дает визуальный workflow-инструмент: через интерфейс и в связке с AI можно прогнать весь пайплайн от загрузки данных, очистки и EDA до моделинга.

Внутри несколько специализированных агентов, которые делят работу и берут на себя рутину: автоматом разбираются с пропусками, генерят код для feature engineering, а также могут напрямую дергать H2O и MLflow для обучения и оценки моделей.

Можно подключить OpenAI или локальные модели через Ollama, так что с приватностью данных проще, и все это сделано на Streamlit, в Python ставится и запускается довольно быстро.

Проект сейчас активно пилится и обновляется, так что подойдет тем, кто хочет отдать муторную предобработку AI и больше фокусироваться на бизнес-логике.

📁 Language: #Python 100.0%

⭐️ Stars: 4.6k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

1.57K views06:07

GitHub Разработчика

PaddleOCR-VL-1.5.

Только что Baidu мощно опенсорснули новое поколение модели для парсинга документов: PaddleOCR-VL-1.5.

Всего 0.9B параметров, и она заняла первое место в глобальном рейтинге OmniDocBench V1.5. По совокупной производительности обходит Gemini-3-Pro, DeepSeek-OCR-2 и GPT-5.2.

В повседневной работе и жизни фото контрактов или счетов, снятые на телефон, часто получаются с перекосом, изгибом или деформацией.

Если распознавать такое классическими OCR-инструментами, нередко бывает пропуск контента или вообще полный провал распознавания.

С PaddleOCR-VL-1.5 эти проблемы решаются.

Это первая в мире OCR-модель, которая поддерживает “позиционирование по нестандартным рамкам”. Она точно распознаёт трапециевидные, сложенные, изогнутые и другие нерегулярные формы документов.

Даже если документ смяли или он сильно исказился из-за угла съёмки, модель может восстановить структуру таблиц и текста “ячейка за ячейкой” с точностью, близкой к сканеру.

Плюс добавили распознавание печатей и автосклейку таблиц, которые идут на нескольких страницах. Ещё отдельно прокачали редкие иероглифы, древние тексты и 109 языков, чтобы заметно повысить стабильность в сложных рабочих сценариях.

За последние полгода OCR-гонка реально стала очень жёсткой: крупные компании активно выкатывают новые модели и пытаются занять нишу документ-парсинга.

А релиз Baidu PaddleOCR-VL-1.5 попал ровно в боль разработчиков: распознавание “нестандартных документов”, которые обычно хуже всего даются.

То есть OCR перестаёт быть штукой только для идеальных сканов и начинает нормально работать в сложных бизнес-сценариях.

Сейчас веса модели полностью открыты. Разработчики могут скачать или протестировать онлайн на Hugging Face.

Онлайн демо, Скачать модель

📁 Language: #Python 76.3%

⭐️ Stars: 61.9k

➡️

Cсылка на GitHub

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

1.48K views16:07