GitHub Разработчика

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤2

2.75K views06:07

voice-pro

Бывает нужно озвучить видео на разных языках или клонировать конкретный голос, а на рынке полно сервисов, которые берут деньги за каждый символ. В долгую это выходит больно дорого.

Недавно наткнулся на Voice-Pro. Раньше это было платное приложение, а сейчас разработчик полностью открыл исходники и сделал его бесплатным. По сути, сильно упростили вход в тему видео-перевода и голосового клонирования.

Внутри собран полный пайплайн: скачивание видео с YouTube, разделение голоса и фоновой дорожки, распознавание речи, перевод и финальный дубляж. Есть поддержка WhisperX для точных субтитров, плюс можно сделать zero-shot клонирование голоса через F5-TTS и CosyVoice.

Сейчас основная поддержка под Windows с NVIDIA GPU. Есть скрипт для авто-инсталла, который сам настроит окружение, так что не нужно возиться с Python и зависимостями.

По ощущениям, это почти как локальный бесплатный ElevenLabs. Если нужно делать мультиязычные ролики или выходить на зарубежные площадки, штука прям сильно экономит бюджет.

📁 Language: #Python 93.9%

⭐️ Stars: 5.5k

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14🔥5❤4

2.79K views16:07

Constrict

Хочешь скинуть другу видос или залить вложение где-нибудь, а платформа выдает “файл слишком большой”. Приходится искать софт, ковырять настройки и сжимать вручную.

На GitHub как раз попался Constrict — маленький опенсорс-инструмент, заточенный под одну конкретную задачу: ужать видео до нужного размера.

Не нужно возиться с кучей параметров. Просто задаешь целевой размер, а дальше он сам рассчитывает и подбирает битрейт, разрешение и FPS, чтобы ужать ролик максимально точно.

Поддерживаются популярные кодеки вроде H.264, HEVC и AV1. Вся обработка делается локально, без загрузки в облако, так что и приватность сохраняется, и ждать ничего не нужно.

Есть готовые инсталляторы, интерфейс простой и понятный. Если тебе часто нужно ужимать видео под конкретный размер и неохота каждый раз вручную крутить параметры — инструмент прям годный для закладок.

📁 Language: #Python 94.2%

⭐️ Stars: 507

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🏆2🔥1

2.44K views06:07

paperetl

Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.

Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.

Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.

Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.

По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.

Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.

📁 Language: #Python 96.2%

⭐️ Stars: 490

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2

2.48K views16:07

NoLanguageLeftWaiting

Если хочется делать стриминговый перевод для трансляций или прям настоящий синхрон, быстро упираешься в тупняк классических офлайн-моделей: они часто ждут, пока человек договорит фразу целиком, и из-за этого появляется заметная задержка.

На GitHub нашелся опенсорсный проект NoLanguageLeftWaiting. Ребята взяли офлайн-переводчик Meta NLLB и переделали его в режим реального синхронного перевода: модель может переводить на лету, не дожидаясь конца предложения.

Плюс они закрывают типичные боли “псевдо-синхрона”: когда пунктуация вставляется криво, а работа с префиксами и контекстом превращается в кашу.

Что по возможностям:

* перевод между ~200 языками
* два варианта бэкенда: HuggingFace и CTranslate2
* внутри сразу два размера модели: 600M и 1.3B

Сейчас они ещё пилят speculative decoding (спекулятивное декодирование), чтобы ускорить вывод. Идея: часть гипотез быстро “пробрасывать” и потом частично валидировать, чтобы не тормозить на каждом шаге. По их замерам валидация занимает примерно 0.15 секунды.

Если делаешь голосовой перевод, субтитры для стрима или любой кросс-языковой созвон, где задержка решает, проект прям стоит потыкать.

📁 Language: #Python 100.0%

⭐️ Stars: 41

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍1🔥1

2.47K views06:07

local_ai_ocr

Если нужно вытаскивать текст из документов или PDF, загружать файлы в онлайн-конвертеры всегда как-то стрёмно. А у многих локальных тулов то распознавание так себе, то форматирование превращается в кашу.

Случайно наткнулся на GitHub на open-source проект local_ai_ocr: он собран на модели DeepSeek-OCR и заточен под локальное офлайн-распознавание текста на Windows.

Он умеет с GPU-ускорением обрабатывать картинки и PDF: не просто точно вытягивает текст, но и может сразу экспортировать в Markdown, чтобы сохранить сложные таблицы и верстку.

Работает полностью офлайн: ничего не нужно отправлять в облако. Скачал, распаковал, запустил init-скрипт и можно пользоваться, без сложной настройки окружения.

Если для тебя критична приватность данных или нужна максимально точная “реконструкция” форматирования документа, штука точно стоит того, чтобы попробовать.

📁 Language: #Python 67%

⭐️ Stars: 493

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2

2.67K views16:07

FastScheduler

Писать планировщик задач на Python через стандартную библиотеку хоть и просто, но возможностей там немного. Как только появляются асинхронные задачи, работа с таймзонами, ретраи при фейлах и похожие кейсы, становится тяжко.

На GitHub нашел FastScheduler, это опенсорсный легковесный таск-планировщик для Python. Поддерживает async, таймзоны, Cron-выражения и еще имеет визуальную панель.

За счет очень аккуратного синтаксиса на декораторах задачу можно описать одной строкой. Есть разные варианты расписаний: интервалы, конкретное время, Cron и т.д. Асинхронные функции работают из коробки.

Установка через pip в один шаг, а для персистентности доступны разные хранилища вроде SQLite и PostgreSQL. После рестарта сервиса состояние задач не теряется.

📁 Language: #Python 79.5%

⭐️ Stars: 319

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

2.32K views16:07

Anubis

Преподавателю на computer science в универе, помимо подготовки занятий, ещё приходится проверять домашки, разбирать отправленные решения и админить студенческие репозитории с кодом. Всё это довольно выматывает.

А университетские LMS обычно старые, обновляются медленно, поэтому нормально автоматизировать проверку программных заданий там ещё сложнее.

И вот на GitHub попался Anubis LMS, опенсорсная система управления обучением, заточенная именно под курсы по программированию. Её уже используют в Нью-Йоркском университете несколько семестров подряд.

У каждого студента отдельный GitHub-репозиторий. После пуша система автоматически прогоняет тесты и сразу возвращает фидбек. До дедлайна студент может отправлять решения сколько угодно раз и смотреть результаты тестов.

Плюс там есть облачная IDE, запускается в один клик: в браузере студент получает заранее настроенное Linux-окружение, без возни с локальной установкой и конфигами.

Система также умеет на основе таймстемпов коммитов и результатов тестов строить визуальную аналитику по обучению, чтобы преподаватель видел, как у студентов с усвоением конкретных тем.

Если ты ведёшь курс по программированию или недоволен автоматизацией в обычных LMS, проект точно стоит попробовать.

📁 Language: #Python 61.5%

⭐️ Stars: 366

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍1

2.04K views06:07

This media is not supported in your browser

0:05

VIEW IN TELEGRAM

Ciphey

Наткнулся на кусок зашифрованного текста, а что за шифр, непонятно. Вручную перебирать способы расшифровки слишком долго.

На GitHub как раз попался Ciphey, это инструмент для автоматической расшифровки: закидываешь шифртекст, он сам пытается определить тип шифрования/кодировки и расшифровать, чаще всего укладывается в 3 секунды.

Он опирается на кастомный AI-модуль и NLP, чтобы автоматически угадывать метод и распознавать осмысленный plaintext, без того чтобы заранее знать какие-то параметры шифрования.

Поддерживает больше 50 вариантов шифров и кодировок: бинарь, азбука Морзе, Base64, шифр Цезаря, Виженер, XOR и другие классические и современные варианты, плюс умеет распознавать хэши.

Внутри много написано на C++, поэтому работает быстро. Есть CLI, а также можно подключать как Python-библиотеку в свой проект. Поддерживаются Windows, Linux и macOS.

📁 Language: #Python 100.0%

⭐️ Stars: 20.8k

➡️

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5🔥3

1.91K views06:07

DocStrange

Когда делаешь RAG или “скармливаешь” ИИ свои материалы, самая больная тема это таблицы внутри PDF и картинок. Текст из них вытаскивается криво: формат плывет, особенно на сложных макетах, и в таком виде это почти невозможно нормально использовать.

На GitHub как раз нашелся опенсорсный проект DocStrange, который целится ровно в эту проблему: превращать документы в данные без боли.

Он умеет довольно точно конвертировать разные форматы в то, что любят большие модели: Markdown или структурированный JSON.

Поддерживаются PDF, изображения, офисные документы и даже ссылки на веб-страницы. В основе OCR плюс анализ верстки, то есть он не просто распознает текст, а пытается понять структуру документа.

Фишка в том, что он может восстанавливать сложные таблицы, а еще по заданным полям или Schema сразу вытаскивать структурированный JSON.

Есть готовый локальный веб-интерфейс: закинул файл drag-and-drop и получил результат. Плюс поддерживается локальное ускорение на GPU, все крутится у тебя на машине, данные никуда не уезжают, с приватностью спокойнее.

Лучше всего зайдет тем, кто собирает RAG-базу знаний или кому нужно пачками разбирать сканы, счета, инвойсы и другой неструктурированный хлам.

📁 Language: #Python 85.4%

⭐️ Stars: 1.3k

➡️

📱