Интересное что-то – Telegram

Интересное что-то

517 subscribers

2.72K photos

253 videos

138 files

4.51K links

Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

517 subscribers

Интересное что-то

Forwarded from Pavel Zloi

img2md VLM OCR - AI-powered document analysis and text extraction with layout preservation

Про OCR при помощи VLM

Опубликовал свой новый проект img2md-vlm-ocr, в нём я экспериментирую с использованием Vision-Language моделей (VLM) в роли OCR-движка.

На идею меня подтолкнули публикации Валерия Ковальского (раз, два) про распознавание текста с картинок при помощи сегментатора YOLOv8 заточенного под документы и VLM модели qwen2.5vl (7b, так как 72b дюже большая) запущенной на моей домашней ollama в качестве OCR.

Что умеет система:

- Можно закинуть одну или несколько картинок.
- Система выделяет bounding box при помощи сегментатора и достаёт текст через OCR.
- Вырезает отдельные куски если это не текст, а картинка или график.
- Возвращает результат в формате Markdown.
- Можно скачать итог в виде ZIP-архива (вырезки + распознанный текст).

Где посмотреть:

- Сервис: https://img2md.rpa.icu/
- API-документация: https://img2md.rpa.icu/docs/
- Репозиторий: https://github.com/EvilFreelancer/img2md-vlm-ocr

Дополнительно:

В проекте есть скрипты на Python, которые позволяют массово обрабатывать PDF-файлы и автоматически сшивать полученные Markdown воедино. Это удобно, если нужно конвертировать целые документы и получить структурированный текстовый результат.

PS. Буду рад обратной связи!

90 views12:46

Интересное что-то

#ml #algo #courses

90 views16:49

Интересное что-то

Forwarded from Young&&Yandex

🏁

Готовимся к забегу по алгоритмам и ML: что точно пригодится

Перед тем как приступить к тренировкам, захвати свой стартовый пакет. Внутри — полезные материалы:

ML:

🔘Прошлые запуски: первые (основы), вторые (NLP), третьи (CV), а также текстовые разборы некоторых лекций
🔘 Заметки Евгения Соколова с курса Машинного обучения на ФКН ВШЭ
🔘 Блог Александра Дьяконова «Анализ малых данных»
🔘Учебник по ML от ШАД Яндекса
🔘 Книга Mathematics for Machine Learning
🔘 Сайт по RL от одного из сотрудников OpenAI

Алгоритмы:

1. Тестирование
Теория: https://youtube.com/live/c67zB3FWLOs
Практика:https://contest.yandex.ru/contest/66792

2. Множества и словари
Теория: https://youtube.com/live/jQOnYzW8ZOE?feature=share
Практика: https://contest.yandex.ru/contest/59541

3. Одномерное динамическое программирование
Теория: https://www.youtube.com/watch?v=H7lu6h8H9-4
Практика: https://contest.yandex.ru/contest/45469/enter/ и https://contest.yandex.ru/contest/45468/enter/

4. Двумерное динамическое программирование
Теория: https://www.youtube.com/live/U8gzm92fprI
Практика: https://contest.yandex.ru/contest/45469/enter/ и https://contest.yandex.ru/contest/45468/enter/

5. Деревья
Теория: https://youtube.com/live/O9ffppQ05-c?feature=share
Практика: https://contest.yandex.ru/contest/66795

6. Бинарный поиск
Теория: https://youtube.com/live/-B6xvDeGyPg?feature=share
Практика: https://contest.yandex.ru/contest/59542

7. Префиксные суммы, два указателя
Теория: https://youtube.com/live/B4uP6igiVNU?feature=share
Практика: https://contest.yandex.ru/contest/66793

8. Сортировка событий
Теория: https://www.youtube.com/watch?v=hGixDBO-p6Q&t=1s
Практика:https://contest.yandex.ru/contest/27883/enter/

Старт совсем скоро: yandex.ru/yaintern/training

Подписывайся
@Young_and_Yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

101 views16:49

Интересное что-то

97 views18:13

Интересное что-то

Forwarded from Maxim.ML - канал

Спонсор вайба на выходных - Илон Маск, а с меня - свежий лайфхак для vibe-кодинга

Начну сразу с главного: два дня тестирую новую Grok Code Fast 1 (xAI), которую сейчас бесплатно раздают в Cursor (аж до 2 сентября, вы тоже успеете потестировать), но все таки, пока что личный фаворит - это Claude 4 Sonnet

Grok Code Fast 1 генерирует код с какой-то нечеловеческой скоростью (авторы заявляют 160 tokens per second). Я с ним за час набросал ядро сложного мультимодального RAG-поиска. А потом пришло время все это собирать воедино с основным сервисом. И пошли проблемы. Ассистент, пытаясь исправить одну ошибку, создавал три новых. Думаю эта ситуация знакома многим

И вот мой лайфхак, который спасает 90% времени и нервов - это тесты с подробными логами. Это ваш единственный объективный критерий того, что все работает как надо

Этот подход можно разбить на две части

Допустим, мы только что собрали мультимодальный RAG-поиск. Мой промпт будет выглядеть так (обычно пишу на английском - субъективно работает лучше и дешевле):

🟡Пишем тесты:

Here is the python module with multi-modal RAG logic [code]. Your job is write an extensive tests for it using pytest. I need at least 20 tests covering huge bunch of cases: from file uploads to API responses and edge cases like empty inputs and hard cases with different input combinations.

Обычно в момент написания все тесты проходят без проблем, но это только пока мы не насоздавали еще десятки зависимостей

🟡А если зависимости все ломают, то дебажим при помощи тестов:

Okay, look. Here is the output of the tests we wrote before. [вставляю лог с ошибками]. 4 / 20 tests failed. Your changes broke the critical functionality. Your one and only goal right now is to fix the code so that all 20 tests pass again. start fixing all failed tests.

И это отлично работает! Особенно когда приходится переключаться между чатами с потерей контекста

Что касается моих впечатлений от Grok Code Fast 1 - модель быстрая, но сыровата, хотя метрики на SWE bench могут впечатлить. Для большинства практических задач связка Claude 4 Sonnet с описанной выше методологией пока остается непревзойденной. Я потратил час на написание фичи с Grok, а потом еще 30 минут дебажил результат с помощью Claude и тестов..

Всем вайбовых выходных!

💃

#vibe_coding@ml_maxim

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

104 views18:13

Интересное что-то

93 views18:32

Интересное что-то

Forwarded from .ml

Почему LLM без Alignment — это риск?

Обучение на миллиардах токенов даёт языковой модели грамотность, но не гарантирует адекватность. Без Alignment она может:

📌 выдавать логически неверные ответы,
📌 генерировать небезопасный контент,
📌 игнорировать бизнес-ограничения.

Что такое Alignment? Это дообучение с учётом предпочтений и ограничений, которое делает модель предсказуемой и управляемой.
Написали статью на Хабр, в которой разбираем:

📝 Методы Alignment: от PPO (Proximal Policy Optimization) до новых подходов DPO и KTO.
📝 Наш опыт: как мы в Точка Банк настроили LLM под конкретные сценарии, обучили модель наград и сократили затраты по сравнению с классическим RLHF.
📝 Грабли и лайфхаки: как работать с несбалансированным датасетом и не дать модели обмануть функцию награды.
📝 Где применять Alignment за пределами LLM: от cost-sensitive классификации до vision-language моделей.

Точно будет полезно, если строите собственную LLM — читайте и задавайте вопросы в комментариях!

LLM на прокачку: практический гайд по Alignment

Мы в Точка Банке делаем свою LLM. Чтобы она работала хорошо, недостаточно просто обучить её на куче текстов. Для получения осмысленного и предсказуемого поведения модели, нужен Alignment — дообучение...

104 views18:32

Интересное что-то

#systemdesign #courses

https://www.youtube.com/@ByteMonk/playlists

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

110 views13:06

Интересное что-то

96 views11:40

Интересное что-то

Forwarded from Институт AIRI

Все лекции и семинары «Лето с AIRI 2025» теперь в открытом доступе 🔥

Собрали для вас записи выступлений ведущих исследователей и экспертов — от фундаментальных вопросов искусственного интеллекта до практических примеров его применения в науке и индустрии.

📎

Сохраняйте ссылки на плейлисты: VK Видео, YouTube

Please open Telegram to view this post

VIEW IN TELEGRAM

82 views11:40

Интересное что-то

#dl #cv #courses

89 views11:53

Интересное что-то

Forwarded from max.sh

Обновленная версия CS231N

🔥

У легендарного курса появилось обновление. Стэнфорд выложил все лекции CS231N про DL для задач Компьютерного Зрения на ютуб.

Ссылка на плейлист

Прошлая версия датирована 2017 годом и у меня от тех лекций только самые приятные воспоминания. Неоднократно прибегал к ним, чтобы разобраться в базовой теории.

Часть лекторов сохранилась. Fei-Fei Li мелькает только во введении (оно и понятно, у нее теперь стартап про World Models), Andrej Karpathy не замечен, а вот Justin Johnson ведет несколько блоков. Так же стало больше приглашенных лекторов.

Несмотря на упор в CV, курс является отличным введением в DL. Здесь и про базу нейронных сетей, и разные архитектуры, и методы обучения.

В частности, программу проапгрейдили на актуальные свежие темы, например:

- Vision Language Models ( VLM )
- Обучение роботов
- Large Scale Distributed Training

⚡️Налетаем смотреть

Happy Learning!

#образование

Please open Telegram to view this post

VIEW IN TELEGRAM

82 views11:53

Интересное что-то

#gan #petproject

71 views18:01

Интересное что-то

Forwarded from Tensor Banana

Media is too big

VIEW IN TELEGRAM

Нейро-Эмма - Моя любовь чат джипити (infiniteTalk)

слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание

gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.

Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.

Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan

Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).

Робот танцует через vace video2video с dwpose.

infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.

Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.

infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements

wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.

Сделал все за 3 вечера.

Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json

79 views18:01

Интересное что-то

#audio #petproject

61 views18:02

Интересное что-то

Forwarded from Tensor Banana

This media is not supported in your browser

VIEW IN TELEGRAM

Прикрутил потоковый режим для vibeVoice-7b в комфи

vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные.

Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется.

Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался.

vibeVoice-7b практически идеально ставит ударения в русской речи.
vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно.

Скорость vibeVoice-7b на 3090:
для генерации длинного аудио длиной 30 секунд:
- 53 секунда - без стриминга
- 36 секунд со стримингом, до воспроизведения и буфером 20s

для генерации короткого аудио длиной 15 секунд:
- 27 секунд - без стриминга
- 19 секунд со стримингом, до воспроизведения и буфером 10s

Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса.

Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце.

Требования:
Для 7b:
в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB.
На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил).

Для 1.5b:
1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16.

Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый).
В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце.

Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF.

воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json

мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI

мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip

70 views18:02

Интересное что-то

68 views18:07

Интересное что-то

Forwarded from DeepSchool

Краткая история механизма внимания в NLP

Механизм внимания — один из ключевых компонентов современных нейросетей, позволяющий моделям концентрироваться на важных фрагментах данных. Это повлияло на улучшения в разных областях: NLP, Robotics и GenAI. В новой статье рассказываем историю появления и развития механизма внимания👨🏼‍💻

Из этой статьи вы узнаете:
- какие были предпосылки появления механизма внимания
- какие основные принципы работы self-attention, cross-attention и multi-head self-attention
- и как работает позиционное кодирование и маскирование

Читайте статью по ссылке! 👈

Краткая история механизма внимания в NLP - DeepSchool

Рассказываем краткую историю появления и развития механизма внимания.

73 views18:07

Интересное что-то

#prompt #petproject

72 views18:52