Промахнулся сегодня кнопкой в Яндекс Маркете и с удивлением обнаружил, что они ИИ-агента встроили.
Блин, а прикольно: я ему скинул фотографию платы Мешастика и попросил подобрать антенный переходник. Он распознал изображение, понял, какой нужен переходник, и вывел в чате ссылки на товары и названия. Следующим сообщением попросил оставить только те, что доставят в течении недели - тоже справился.
Видимо, они в RAG загнали все товары с маркетплейса и отзывы к ним, так как ориентируется ИИ-агент в них довольно шустро. Реально удобная фича, особенно с моим СДВГ, когда я могу описать, что мне нужно, но не могу вспомнить конкретное название товара.
Блин, а прикольно: я ему скинул фотографию платы Мешастика и попросил подобрать антенный переходник. Он распознал изображение, понял, какой нужен переходник, и вывел в чате ссылки на товары и названия. Следующим сообщением попросил оставить только те, что доставят в течении недели - тоже справился.
Видимо, они в RAG загнали все товары с маркетплейса и отзывы к ним, так как ориентируется ИИ-агент в них довольно шустро. Реально удобная фича, особенно с моим СДВГ, когда я могу описать, что мне нужно, но не могу вспомнить конкретное название товара.
👍53🔥13❤12✍2🤯2⚡1👏1🙏1🤗1🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
На этом видео молодой Ян Лекун (Yann LeCun) демонстрирует работу свёрточных нейросетей, при помощи которых его стартап LeNet создал решение для US Postal Service по распознаванию рукописных почтовых индексов. И это 1988 год.
Поэтому когда мне говорят: «Наша компания одна из первых стала внедрять нейросети ещё в 2022 году», — я очень громко смеюсь. Простите, с пятницей!
Поэтому когда мне говорят: «Наша компания одна из первых стала внедрять нейросети ещё в 2022 году», — я очень громко смеюсь. Простите, с пятницей!
❤68😁47👍20🔥11👏5⚡2🤯2💯2🤣2🙏1
Я надеюсь, вы уже снарядили Perplexity искать вам скидки на ИИ-сервисы в честь Чёрной пятницы (Black Friday). Я всегда начинаю с прочёсывания Reddit, в настройках указываю источник «Social» и примерно такой промпт:
Потом можно уже в вебе искать, главное - задавайте побольше ограничений (2025 год, конкретные ИИ-сервисы). Или можно просто поискать на Plati.Market - там тоже некоторые продавцы делают скидки на Чёрную пятницу. Вот Gemini Pro (выбирайте 6 месяцев) или Perplexity.
«Найди свежие обсуждения скидок на ИИ-сервисы в Black Friday 2025 и выведи мне таблицей: сервис, скидка, код, ссылка».
Потом можно уже в вебе искать, главное - задавайте побольше ограничений (2025 год, конкретные ИИ-сервисы). Или можно просто поискать на Plati.Market - там тоже некоторые продавцы делают скидки на Чёрную пятницу. Вот Gemini Pro (выбирайте 6 месяцев) или Perplexity.
❤32👍15✍6🔥2👏1🤗1
Помните, я вам рассказывал, как на OpenRouter искать модели, которые дают бесплатные токены?
— В узле OpenRouter в n8n введите «free» в поиске моделей
— Или перейдите на openrouter.ai/models и отфильтруйте по цене «FREE»
Например, сегодня там можно получить Grok 4.1 с контекстом в 2 млн токенов совершенно бесплатно. Так что если у вас есть какие-то задачи, на которые было жалко токенов, - не упустите возможность.
— В узле OpenRouter в n8n введите «free» в поиске моделей
— Или перейдите на openrouter.ai/models и отфильтруйте по цене «FREE»
Например, сегодня там можно получить Grok 4.1 с контекстом в 2 млн токенов совершенно бесплатно. Так что если у вас есть какие-то задачи, на которые было жалко токенов, - не упустите возможность.
1🔥34❤9✍7⚡1🤗1😘1
Громче всего про искусственный интеллект кричат две категории людей: Скептики, которые считают, что LLM - это тупик, а весь ИИ - просто раздутый пузырь и фанатики, уверенные, что все необходимые компоненты у нас уже есть и суперинтеллект (AGI) вот-вот появится.
Но если почитать, что на самом деле говорят исследователи, можно обнаружить удивительное единодушие по ключевым вопросам:
1. Текущей парадигмы, скорее всего, достаточно для колоссального экономического и социального влияния, даже если новых научных прорывов больше не случится
2. Новые прорывы всё же нужны для достижения AGI. (Исследователи чаще всего указывают на проблемы непрерывного обучения и эффективности использования данных
3. Люди, вероятно, решат эти задачи в ближайшие 20 лет
Вот прогнозы ключевых фигур:
⁃ Демис Хассабис (DeepMind): 5–10 лет
⁃ Франсуа Шолле (Google): недавно говорил о 5 годах
⁃ Сэм Альтман (OpenAI): ASI возможен через «несколько тысяч дней»
⁃ Ян Лекун (Meta): около 10 лет
⁃ Илья Суцкевер (SSI): 5–20 лет
⁃ Дарио Амодей (Anthropic): самый оптимистичный прогноз - возможно, уже через 2 года
Но никто из них не говорит, что суперинтеллект - это фантастика или что до него ещё 100 с лишним лет.
Основные разногласия касаются того, какими именно будут эти прорывы и как быстро они произойдут.
Но если почитать, что на самом деле говорят исследователи, можно обнаружить удивительное единодушие по ключевым вопросам:
1. Текущей парадигмы, скорее всего, достаточно для колоссального экономического и социального влияния, даже если новых научных прорывов больше не случится
2. Новые прорывы всё же нужны для достижения AGI. (Исследователи чаще всего указывают на проблемы непрерывного обучения и эффективности использования данных
3. Люди, вероятно, решат эти задачи в ближайшие 20 лет
Вот прогнозы ключевых фигур:
⁃ Демис Хассабис (DeepMind): 5–10 лет
⁃ Франсуа Шолле (Google): недавно говорил о 5 годах
⁃ Сэм Альтман (OpenAI): ASI возможен через «несколько тысяч дней»
⁃ Ян Лекун (Meta): около 10 лет
⁃ Илья Суцкевер (SSI): 5–20 лет
⁃ Дарио Амодей (Anthropic): самый оптимистичный прогноз - возможно, уже через 2 года
Но никто из них не говорит, что суперинтеллект - это фантастика или что до него ещё 100 с лишним лет.
Основные разногласия касаются того, какими именно будут эти прорывы и как быстро они произойдут.
1❤37🔥20👍7👏6🤣6⚡2💯2
Офигеть, ChatGPT исполняется три года. А я этот день как вчера помню. Сначала доступ был только по API, а когда дали веб-интерфейс - нужно было индийский номер нарулить, и еще какие-то постоянно проблемы возникали. Помню, как ChatGPT не работал сколько-то дней из-за того, что чуваки на Reddit’е стали форсить инструкции из него о том, как полезно питаться битым стеклом. А потом началась цензура… а через пару месяцев и этот канал появился (на фото февральская обложка TIME)
1❤38😁8🔥4👍3💯3⚡2😍1
Видимо, первым крупным блогером, который отхватит за использование Nano Banana, станет ютубер Курт Кэз (Kurt Caz).
Он модифицировал тамбнейл (обложку) своего видео о Лондоне, чтобы привлечь больше внимания, но, похоже, всё вышло из-под контроля. На него полился хейт как в Твиттере, так и на Реддите.
И, видимо, скоро YouTube будет детектить ИИ не только в видео, но и в загружаемых превьюшках. Ну а пока есть возможность по полной отрываться в Banana, я нашёл для вас крутую подборку промптов на GitHub.
Он модифицировал тамбнейл (обложку) своего видео о Лондоне, чтобы привлечь больше внимания, но, похоже, всё вышло из-под контроля. На него полился хейт как в Твиттере, так и на Реддите.
И, видимо, скоро YouTube будет детектить ИИ не только в видео, но и в загружаемых превьюшках. Ну а пока есть возможность по полной отрываться в Banana, я нашёл для вас крутую подборку промптов на GitHub.
🤣21❤10👍4🔥2😁2💯1🍌1😐1🤗1
Про ИИ-Автоматизаторов
Знаете, чем отличаются рабочие ИИ-автоматизации от нерабочих? Про первые мало кто знает. Ну а какой смысл делиться этими кейсами, если можно ходить по рынку и внедрять эти решения всем игрокам? Да и нет времени у таких автоматизаторов пиариться - работать нужно.
Но когда эти ребята попадают ко мне, я за них зубами цепляюсь и все детали выспрашиваю. Вообще у меня в последнее время такой прикольный социальный хаб сформировался: одни приходят, кейсы рассказывают, другие болями делятся, а третьи просто адекватных исполнителей ищут. Уже давно думаю, как из этого какую-то коллективную пользу извлечь, так как рассказывать про большинство проектов мне не разрешают.
Но вот про этот кейс мне рассказать разрешили. Поэтому с радостью делюсь:
Есть одна крупная сеть ресторанов суши, а так как компания работает в разных городах, то и цены у нее разбиты на региональные кластеры. Ни для кого же не секрет, что стоимость сета «Филадельфия» в Глазове и Москве сильно отличается. Короче, цены везде разные, а дизайнеры, которые верстают буклеты и сидят в центральном офисе, одни.
И ничто человеческое им не чуждо: например, забыть поменять в макете 399 на 499 рублей. Для компании цена такой ошибки - это либо перепечатка всего тиража, либо, если буклет оказался у клиента, - обязанность продать по заявленной цене. Короче, убытки, как ни посмотри. Поэтому большую часть времени маркетологи проводят за рутинной задачей - сверяя каждую цифру на макете с Excel-таблицей утвержденных цен.
Решение:
Разработан Telegram-бот "ИИ-Валидатор", который выполняет роль автоматического корректора.
Технический стек: Python, Telegram Bot API, OpenRouter (Google Gemini 2.0 Flash), Pandas, RapidFuzz.
Как это работает:
1) Загрузка: Маркетолог кидает PDF-макет в бота. Бот сам определяет кластер (регион) по имени файла (например, ..._K2.pdf).
2) AI Vision (Зрение): Скрипт нарезает PDF на картинки и отправляет их в Gemini 2.0 Flash.
- Почему Vision? Обычный парсер текста не понимает визуальный контекст. AI видит, какая цена актуальная (крупная), а какая зачеркнутая (старая цена), видит состав и граммовки.
3) Умное сопоставление (Fuzzy Logic): Бот берет эталонный Excel («Меню для проверок»), нормализует данные и с помощью нечеткого поиска (rapidfuzz) находит нужную позицию, даже если в макете написано «Фила», а в базе — «Ролл Филадельфия».
4) Сверка и Отчет: Скрипт сравнивает каждую цифру (РЦ, АЦ, Вес, Ккал, Шт).
Результат: Бот возвращает HTML-файл, где красным подсвечены все расхождения.
Экономика:
Затраты на ИИ: Использование Gemini 2.0 Flash через OpenRouter экстремально дешево. Обработка одного буклета (10 страниц) стоит меньше $0.01.
Скорость: Проверка макета занимает 30-60 секунд вместо 1-2 часов ручной вычитки.
Вот такие кейсы мне нравятся - они простые и реально работают. Ссылки никакие не публикую, но если нужен контакт автоматизатора, можете мне написать, я поделюсь.
Знаете, чем отличаются рабочие ИИ-автоматизации от нерабочих? Про первые мало кто знает. Ну а какой смысл делиться этими кейсами, если можно ходить по рынку и внедрять эти решения всем игрокам? Да и нет времени у таких автоматизаторов пиариться - работать нужно.
Но когда эти ребята попадают ко мне, я за них зубами цепляюсь и все детали выспрашиваю. Вообще у меня в последнее время такой прикольный социальный хаб сформировался: одни приходят, кейсы рассказывают, другие болями делятся, а третьи просто адекватных исполнителей ищут. Уже давно думаю, как из этого какую-то коллективную пользу извлечь, так как рассказывать про большинство проектов мне не разрешают.
Но вот про этот кейс мне рассказать разрешили. Поэтому с радостью делюсь:
Есть одна крупная сеть ресторанов суши, а так как компания работает в разных городах, то и цены у нее разбиты на региональные кластеры. Ни для кого же не секрет, что стоимость сета «Филадельфия» в Глазове и Москве сильно отличается. Короче, цены везде разные, а дизайнеры, которые верстают буклеты и сидят в центральном офисе, одни.
И ничто человеческое им не чуждо: например, забыть поменять в макете 399 на 499 рублей. Для компании цена такой ошибки - это либо перепечатка всего тиража, либо, если буклет оказался у клиента, - обязанность продать по заявленной цене. Короче, убытки, как ни посмотри. Поэтому большую часть времени маркетологи проводят за рутинной задачей - сверяя каждую цифру на макете с Excel-таблицей утвержденных цен.
Решение:
Разработан Telegram-бот "ИИ-Валидатор", который выполняет роль автоматического корректора.
Технический стек: Python, Telegram Bot API, OpenRouter (Google Gemini 2.0 Flash), Pandas, RapidFuzz.
Как это работает:
1) Загрузка: Маркетолог кидает PDF-макет в бота. Бот сам определяет кластер (регион) по имени файла (например, ..._K2.pdf).
2) AI Vision (Зрение): Скрипт нарезает PDF на картинки и отправляет их в Gemini 2.0 Flash.
- Почему Vision? Обычный парсер текста не понимает визуальный контекст. AI видит, какая цена актуальная (крупная), а какая зачеркнутая (старая цена), видит состав и граммовки.
3) Умное сопоставление (Fuzzy Logic): Бот берет эталонный Excel («Меню для проверок»), нормализует данные и с помощью нечеткого поиска (rapidfuzz) находит нужную позицию, даже если в макете написано «Фила», а в базе — «Ролл Филадельфия».
4) Сверка и Отчет: Скрипт сравнивает каждую цифру (РЦ, АЦ, Вес, Ккал, Шт).
Результат: Бот возвращает HTML-файл, где красным подсвечены все расхождения.
Экономика:
Затраты на ИИ: Использование Gemini 2.0 Flash через OpenRouter экстремально дешево. Обработка одного буклета (10 страниц) стоит меньше $0.01.
Скорость: Проверка макета занимает 30-60 секунд вместо 1-2 часов ручной вычитки.
Вот такие кейсы мне нравятся - они простые и реально работают. Ссылки никакие не публикую, но если нужен контакт автоматизатора, можете мне написать, я поделюсь.
2❤89👍48🔥26👎3✍2👏2💯2🤗2🤓1
А мне понравилось кейсы публиковать - такие сразу жаркие обсуждения начинаются в нашем чате @prompt_chat
🔥16💯6⚡3❤2👍1👏1🤣1
Меньше месяца до Нового года, и многие ИИ-компании начинают радовать нас подарками.
Например, Google запустила свой адвент-календарь по ИИ-агентам: теперь каждый день с 1 по 25 декабря будет выходить один урок о том, как создать и где применить своего агента.
Два урока уже доступны: https://adventofagents.com/
Например, Google запустила свой адвент-календарь по ИИ-агентам: теперь каждый день с 1 по 25 декабря будет выходить один урок о том, как создать и где применить своего агента.
Два урока уже доступны: https://adventofagents.com/
5🔥50❤16👍6🤗5✍3🙏3⚡2
Мне нравится подход Google к корпоративным задачам: они стараются адаптировать старые, давно зарекомендовавшие себя инструменты под новые решения.
Например, сегодня они добавили в Workspace возможность создавать ИИ-агентов. Самое интересное, что в презентации основной упор сделан именно на то, что не нужны никакие технические навыки или знания кода. Главное - это понимание процессов и того, что вы хотите получить в результате.
В общем, благодаря тому, что агенты глубоко интегрированы с приложениями Workspace, такими как Gmail, Диск и Чат, они понимают полный контекст вашей работы. Вы можете просто создать шаблон задачи или написать промпт в формате: «Если письмо содержит вопрос ко мне, пометь его тегом "Ответить" и пингани меня в чате».
И Gemini автоматически создаст Gem-агента под эту задачу.
Ещё мне понравился кейс компании Kärcher, которая развернула виртуальную команду агентов, созданных в Studio. Теперь, когда в чате предлагается идея новой функции:
1. Gem для мозгового штурма оценивает ее достоинства.
2. Технический Gem проверяет ее на реализуемость.
3. UX Gem описывает возможный пользовательский путь (user flow).
4. Финальный Gem составляет полноценную пользовательскую историю (user story) для рассмотрения командой, основываясь на результатах предыдущих шагов.
Пишут, что это сократило время на составление документации на 90%, превратив часы ручного сведения данных в готовый к проверке план всего за две минуты.
Так что, если вы используете Gmail на своем домене и оплачиваете подписку на Workspace — можно уже пользоваться.
Например, сегодня они добавили в Workspace возможность создавать ИИ-агентов. Самое интересное, что в презентации основной упор сделан именно на то, что не нужны никакие технические навыки или знания кода. Главное - это понимание процессов и того, что вы хотите получить в результате.
В общем, благодаря тому, что агенты глубоко интегрированы с приложениями Workspace, такими как Gmail, Диск и Чат, они понимают полный контекст вашей работы. Вы можете просто создать шаблон задачи или написать промпт в формате: «Если письмо содержит вопрос ко мне, пометь его тегом "Ответить" и пингани меня в чате».
И Gemini автоматически создаст Gem-агента под эту задачу.
Ещё мне понравился кейс компании Kärcher, которая развернула виртуальную команду агентов, созданных в Studio. Теперь, когда в чате предлагается идея новой функции:
1. Gem для мозгового штурма оценивает ее достоинства.
2. Технический Gem проверяет ее на реализуемость.
3. UX Gem описывает возможный пользовательский путь (user flow).
4. Финальный Gem составляет полноценную пользовательскую историю (user story) для рассмотрения командой, основываясь на результатах предыдущих шагов.
Пишут, что это сократило время на составление документации на 90%, превратив часы ручного сведения данных в готовый к проверке план всего за две минуты.
Так что, если вы используете Gmail на своем домене и оплачиваете подписку на Workspace — можно уже пользоваться.
👍49🔥21❤7😍2💯2⚡1✍1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Это я жду, когда нейросети и интернет заработают. С пятницей!
❤24💯12🤣11🔥6⚡3👍3😍2😁1
Видимо AGI ближе, чем мы думаем: Google представила «Titans» - новую архитектуру, способную обучаться в реальном времени и обладающую бесконечной памятью. В отличии от DeepSeek OCR которые придумали, как сжимать информацию в десять раз, используя визуальные токены вместо текстовых, эта архитектура активно учится и обновляет свои собственные параметры по мере поступления потока данных.
Короче, это не просто очередное расширение контекстного окна, а реальный сдвиг от статичных моделей к агентам, которые могут обучаться непрерывно, обновляя свои веса прямо во время инференса (работы модели).
Как она понимает, что запомнить?
Модель не пытается запомнить всё подряд. Она использует механизм «сюрприза» (на основе градиентов):
- Если следующее слово предсказуемо (например, после «Мама мыла...» идет «раму»), модель не тратит ресурс памяти.
- Если происходит что-то неожиданное или важное, модель получает сигнал «surprise metric» и обновляет свои веса, чтобы сохранить этот факт в долговременной памяти.
Этот формат очень похож на тот, что описывал в своей книге «1000 мозгов. Новая теория интеллекта», Джефф Хокинс (чувак создавший кпк Palm). Он пишет о том, что только, когда привычные вещи меняются - наш мозг из «спящего» состояния переходит в «активное», чтобы проанализировать обстановку и поменять программу. Очень рекомендую его почитать.
Короче, это не просто очередное расширение контекстного окна, а реальный сдвиг от статичных моделей к агентам, которые могут обучаться непрерывно, обновляя свои веса прямо во время инференса (работы модели).
Как она понимает, что запомнить?
Модель не пытается запомнить всё подряд. Она использует механизм «сюрприза» (на основе градиентов):
- Если следующее слово предсказуемо (например, после «Мама мыла...» идет «раму»), модель не тратит ресурс памяти.
- Если происходит что-то неожиданное или важное, модель получает сигнал «surprise metric» и обновляет свои веса, чтобы сохранить этот факт в долговременной памяти.
Этот формат очень похож на тот, что описывал в своей книге «1000 мозгов. Новая теория интеллекта», Джефф Хокинс (чувак создавший кпк Palm). Он пишет о том, что только, когда привычные вещи меняются - наш мозг из «спящего» состояния переходит в «активное», чтобы проанализировать обстановку и поменять программу. Очень рекомендую его почитать.
✍57❤27🔥26👍11🤯4⚡2👏1🤔1💯1🤗1 1
В последнее время вижу много ИИ-автоматизаций и просто проектов на базе OCR моделей, но почему-то в том же N8N ставят Deepseek OCR или Qwen3-VL, а чаще просто закидывают по API в Gemini. Но хороших OCR моделей очень много появилось, да и кто-то про локальные спрашивал. Так что я вам список закину, который в этом году собрал, может, что-то пригодится:
Специализированные OCR и Парсеры документов
Лучше всего подходят для PDF, таблиц, сканов и сложной верстки.
1. GOT-OCR
Unified end-to-end модель. Умеет выдавать результат сразу в HTML с сохранением форматирования (таблицы, заголовки). Отлично подходит для веб-рендеринга сканов.
2. granite-docling-258m
Экстремальная компактность (258M параметров). Создана специально для библиотеки Docling. Идеальна для локального CPU-парсинга документов, где не нужны "умные" рассуждения, а только структура.
3. MinerU 2.5
Ориентирована на качественную конвертацию PDF в Markdown. Хорошо справляется с академическими статьями и сложной версткой.
4. OCRFlux
3B модель. Специализируется на "чистке" и восстановлении текста из шумных или поврежденных документов.
5. RolmOCR
Решение, заточенное под бизнес-документы (инвойсы, чеки, формы) и точное извлечение полей.
6. Nanonets OCR
Модель, оптимизированная для извлечения данных из структурированных финансовых и юридических документов.
7. Deepseek OCR
Специализированное решение от DeepSeek. Высокая точность на многоязычных текстах и коде внутри скриншотов.
8. dots OCR
Современная OCR модель для точного распознавания текста и точечных структур.
9. olmocr 2
Наследник одной из лучших открытых моделей для парсинга PDF. 7B — это уже "тяжелый" вес для чистого OCR, но дает высочайшее качество на сложных данных.
-
Мощные мультимодальные модели (VLM)
Для задач, требующих понимания смысла, анализа диаграмм и работы с рукописным вводом.
10. Qwen3-VL (Qwen3-VL-2B / 4B / 30B / 32B / 235B)
Один из лидеров (SOTA) на 2025 год. Версии 30B+ и 235B подходят для самых сложных задач (рукописный текст, сложные схемы, reasoning), а мелкие (2B/4B) — для локального запуска.
11. GLM-4.1V-9B
Модель с "мышлением" (Thinking). Может рассуждать над изображением перед ответом. Полезна, если нужно не просто OCR, а анализ содержимого (например, "какой тренд на этом графике?").
12. InternVL3_5
Известна своей сильной архитектурой (похожа на InternImage). Отлично работает с мелкими деталями и "плотным" текстом (Dense Text).
4B: https://huggingface.co/OpenGVLab/InternVL3_5-4B
8B: https://huggingface.co/OpenGVLab/InternVL3_5-8B
13. AIDC-AI/Ovis2.5
Использует новую архитектуру визуального энкодера, которая сохраняет нативное разрешение изображений. Это критично для чтения мелкого текста (Legal contracts, medicine instructions).
2B: https://huggingface.co/AIDC-AI/Ovis2.5-2B
9B: https://huggingface.co/AIDC-AI/Ovis2.5-9B
14. MiniCPM-V-4_5
Очень эффективная модель для своего размера (обычно около 8-9B). Хорошо работает на потребительских GPU, сохраняя высокий уровень понимания контекста.
-
Эффективные / Edge модели
Оптимизированы для скорости и работы на ноутбуках (в т.ч. Apple Silicon).
15. FastVLM
Оптимизированы Apple. Версии 0.5B и 1.5B летают на макбуках и айфонах. Хороший выбор, если вы разрабатываете iOS/macOS приложение с оффлайн-OCR.
15.5B: https://huggingface.co/apple/FastVLM-0.5B
1.5B: https://huggingface.co/apple/FastVLM-1.5B
7B: https://huggingface.co/apple/FastVLM-7B
16. MonkeyOCR-pro
Использует парадигму "Structure-Recognition-Relation". Версия 1.2B очень быстрая и подходит для массовой обработки документов.
1.2B: https://huggingface.co/echo840/MonkeyOCR-pro-1.2B
3B: https://huggingface.co/echo840/MonkeyOCR-pro-3B
17. Dolphin
Компактная мультимодальная модель от ByteDance, ориентированная на эффективное понимание контента.
Специализированные OCR и Парсеры документов
Лучше всего подходят для PDF, таблиц, сканов и сложной верстки.
1. GOT-OCR
Unified end-to-end модель. Умеет выдавать результат сразу в HTML с сохранением форматирования (таблицы, заголовки). Отлично подходит для веб-рендеринга сканов.
2. granite-docling-258m
Экстремальная компактность (258M параметров). Создана специально для библиотеки Docling. Идеальна для локального CPU-парсинга документов, где не нужны "умные" рассуждения, а только структура.
3. MinerU 2.5
Ориентирована на качественную конвертацию PDF в Markdown. Хорошо справляется с академическими статьями и сложной версткой.
4. OCRFlux
3B модель. Специализируется на "чистке" и восстановлении текста из шумных или поврежденных документов.
5. RolmOCR
Решение, заточенное под бизнес-документы (инвойсы, чеки, формы) и точное извлечение полей.
6. Nanonets OCR
Модель, оптимизированная для извлечения данных из структурированных финансовых и юридических документов.
7. Deepseek OCR
Специализированное решение от DeepSeek. Высокая точность на многоязычных текстах и коде внутри скриншотов.
8. dots OCR
Современная OCR модель для точного распознавания текста и точечных структур.
9. olmocr 2
Наследник одной из лучших открытых моделей для парсинга PDF. 7B — это уже "тяжелый" вес для чистого OCR, но дает высочайшее качество на сложных данных.
-
Мощные мультимодальные модели (VLM)
Для задач, требующих понимания смысла, анализа диаграмм и работы с рукописным вводом.
10. Qwen3-VL (Qwen3-VL-2B / 4B / 30B / 32B / 235B)
Один из лидеров (SOTA) на 2025 год. Версии 30B+ и 235B подходят для самых сложных задач (рукописный текст, сложные схемы, reasoning), а мелкие (2B/4B) — для локального запуска.
11. GLM-4.1V-9B
Модель с "мышлением" (Thinking). Может рассуждать над изображением перед ответом. Полезна, если нужно не просто OCR, а анализ содержимого (например, "какой тренд на этом графике?").
12. InternVL3_5
Известна своей сильной архитектурой (похожа на InternImage). Отлично работает с мелкими деталями и "плотным" текстом (Dense Text).
4B: https://huggingface.co/OpenGVLab/InternVL3_5-4B
8B: https://huggingface.co/OpenGVLab/InternVL3_5-8B
13. AIDC-AI/Ovis2.5
Использует новую архитектуру визуального энкодера, которая сохраняет нативное разрешение изображений. Это критично для чтения мелкого текста (Legal contracts, medicine instructions).
2B: https://huggingface.co/AIDC-AI/Ovis2.5-2B
9B: https://huggingface.co/AIDC-AI/Ovis2.5-9B
14. MiniCPM-V-4_5
Очень эффективная модель для своего размера (обычно около 8-9B). Хорошо работает на потребительских GPU, сохраняя высокий уровень понимания контекста.
-
Эффективные / Edge модели
Оптимизированы для скорости и работы на ноутбуках (в т.ч. Apple Silicon).
15. FastVLM
Оптимизированы Apple. Версии 0.5B и 1.5B летают на макбуках и айфонах. Хороший выбор, если вы разрабатываете iOS/macOS приложение с оффлайн-OCR.
15.5B: https://huggingface.co/apple/FastVLM-0.5B
1.5B: https://huggingface.co/apple/FastVLM-1.5B
7B: https://huggingface.co/apple/FastVLM-7B
16. MonkeyOCR-pro
Использует парадигму "Structure-Recognition-Relation". Версия 1.2B очень быстрая и подходит для массовой обработки документов.
1.2B: https://huggingface.co/echo840/MonkeyOCR-pro-1.2B
3B: https://huggingface.co/echo840/MonkeyOCR-pro-3B
17. Dolphin
Компактная мультимодальная модель от ByteDance, ориентированная на эффективное понимание контента.
❤41✍19🔥14👍5👏2🤗2🤯1😘1
Силиконовый Мешок
В последнее время вижу много ИИ-автоматизаций и просто проектов на базе OCR моделей, но почему-то в том же N8N ставят Deepseek OCR или Qwen3-VL, а чаще просто закидывают по API в Gemini. Но хороших OCR моделей очень много появилось, да и кто-то про локальные…
Например, можно создать простого тг-бота, в которого вы будете скидывать фото чеков, а он все это аккуратно запишет в табличку.
JSON для N8N можно взять тут: https://gist.github.com/Ishan-sa/c6c1c65827667fb69df5bf2892f09511
А лучше тут, с подробным описанием: https://ishansa.dev/blog/ai-receipt-organizer-n8n
JSON для N8N можно взять тут: https://gist.github.com/Ishan-sa/c6c1c65827667fb69df5bf2892f09511
А лучше тут, с подробным описанием: https://ishansa.dev/blog/ai-receipt-organizer-n8n
🔥34❤17👍7🤗3
🔥Как вывести сайт в Топ-1 Яндекса за 2 недели даже в самой конкурентной нише
Если вы занимаетесь SEO или продвигаете сайты, вы знаете: стандартными методами в 2025 году уже не обойтись. Я.Директ уже давно перегрет — цены на лиды растут каждый месяц.
Когда обычные методы перестают работать, в игру вступает Seopapa — эффективный сервис для продвижения сайтов в топ выдачи Яндекс с помощью поведенческих факторов.
📊 Что получите уже через 14 дней продвижения:
🔹 ТОП-1 по основным целевым запросам - ваш сайт будет выше конкурентов.
🔹 в 3 раза больше заявок от реальных клиентов
🔹 +150-250% целевого трафика с органики по целевым запросам
🔹 Полная безопасность — всё выглядит естественно для Яндекса и Я.Метрики.
Почему выбирают Seopapa:
✅ Бесплатная настройка продвижения под ключ — если не хочется вникать, всё сделают менеджеры. От подбора ключей до стратегии продвижения.
✅ Эффективность — выводит сайты в Топ-1 яндекса даже в конкурентных и перегретых нишах.
✅ Глубокая аналитика продвижения и бесплатный доступ к Топвизору.
🎁 До 15 декабря Seopapa дарит 15 000 ₽ на баланс новым пользователям — чтобы бесплатно получить первые результаты продвижения.
👉 Попробуйте: seopapa.com
#промо
Если вы занимаетесь SEO или продвигаете сайты, вы знаете: стандартными методами в 2025 году уже не обойтись. Я.Директ уже давно перегрет — цены на лиды растут каждый месяц.
Когда обычные методы перестают работать, в игру вступает Seopapa — эффективный сервис для продвижения сайтов в топ выдачи Яндекс с помощью поведенческих факторов.
📊 Что получите уже через 14 дней продвижения:
🔹 ТОП-1 по основным целевым запросам - ваш сайт будет выше конкурентов.
🔹 в 3 раза больше заявок от реальных клиентов
🔹 +150-250% целевого трафика с органики по целевым запросам
🔹 Полная безопасность — всё выглядит естественно для Яндекса и Я.Метрики.
Почему выбирают Seopapa:
✅ Бесплатная настройка продвижения под ключ — если не хочется вникать, всё сделают менеджеры. От подбора ключей до стратегии продвижения.
✅ Эффективность — выводит сайты в Топ-1 яндекса даже в конкурентных и перегретых нишах.
✅ Глубокая аналитика продвижения и бесплатный доступ к Топвизору.
🎁 До 15 декабря Seopapa дарит 15 000 ₽ на баланс новым пользователям — чтобы бесплатно получить первые результаты продвижения.
👉 Попробуйте: seopapa.com
#промо
🤣16👎13🍌5❤2👍1🔥1🌚1👾1
Media is too big
VIEW IN TELEGRAM
Вот что мне нравится в вайбкодинге: пришла какая-то безумная идея (например, видеоперехода), пять минут — и у тебя уже прототип.
Кстати, код закинул в первый комментарий в @prompt_chat - просто файлик браузером открываете, и всё
Кстати, код закинул в первый комментарий в @prompt_chat - просто файлик браузером открываете, и всё
👍19❤6🔥5👏3⚡1🤯1🤗1
На LMArena появилась визуальная модель под кодовым названием «Hazel-gen». Скорей всего это OpenAI закинула свою GPT-IMAGE-2, так что в ближайшее время ждем новости.
Промпт для изображения: «a table with an analogue clock that read 7:24 and a glass of wine with the wine completely full to the brim».
Промпт для изображения: «a table with an analogue clock that read 7:24 and a glass of wine with the wine completely full to the brim».
❤24👍6⚡4🔥2😍1💯1
От_фундаментальных_моделей_кода_к_агентам_и_приложениям_перевод.pdf
11.6 MB
А у нас новый перевод от Сергея, на этот раз топовый документ ноября 2025 - «From Code Foundation Models to Agents and Applications». Это работа группы китайских авторов из Бэйханского университета (Пекинский университет авиации и космонавтики), где они максимально подробно рассказывают про языковые модели и программирование. Двести страниц текста для тех, кто решил чуть глубже занырнуть в вайбкодинг. Добавляем в сохраненки, чтобы не потерять.
2❤44👍17🔥7🤗5❤🔥3🙏2✍1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Долго не мог добиться от Nano Banana Pro нормальной раскадровки в формате: анфас, профиль, со спины и в три четверти для чар-листа (сharacter Sheet).
В итоге получилось через такую инструкцию:
В итоге получилось через такую инструкцию:
Use the uploaded image as the main reference for the character. Recreate the character exactly — same style, proportions, colors, and details.
Generate four images on a solid background:
- Front view
- Right side view
- Back view
- Three-quarter (¾) view
The character must be fully visible, in a neutral pose, without emotions or added elements.
Final output: four images.
🔥36❤17🤣6 6👍3🤗2👎1🦄1