Интересное что-то

Flux Kontext с промптами

1. Колоризация старых фото: colorize this photo
2. Колоризация манги: colorize this manga
3. снять одежду: remove clothes, нужна лора https://huggingface.co/llama-anon/not-flux-kontext-dev-clothes-remover
4. апскейл фото: upscale this image, make it crisp, add details
5. объект с разных ракурсов: Same character but in the 3 positions, front, side and back.
6. real2anime: turn this photo into Ghibli Studio anime
7. anime2real: make it realistic
8. замена текста: Replace text 'BKYCHO - U TO4KA' with text 'BKYC ßAHAHA' Моя русская лора https://civitai.com/models/1056401/russian-text-or-flux , но работает так себе.
9. сменить пол: turn her into a man, but keep facial features the same. big cheekbones
10. перенос объектов с разных фото:

add woman from the right image to the left image. so now they are standing together. make them the same height. right woman has bare feet

11. на обложку журнала: Turn this into VOGUE magazine cover. background is now grey. Add some titles on the cover
12. лего: turn them into Lego style
13. убрать вотермарки: remove watermarks
14. пиксельарт/8bit: turn this into 8-bit NES art

- Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже.
- Лоры от Flux dev работают, но хуже.
- Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд

официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications

воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras

потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev

Если есть еще интересные кейсы - кидайте в комменты.

62 views16:14

Интересное что-то

#graph #courses

45 views08:44

Интересное что-то

Forwarded from 🇻 🇱 🇦 🇩

Trustworthy Graph AI, Rex Ying

https://snap.stanford.edu/class/cs224w-2022/slides/18-trustworthy.pdf

https://www.youtube.com/watch?v=O6eTvxWy07A&list=PLqVcygwp5NynHiFCNI6sicN91goscb9JH&index=10

47 views08:44

Интересное что-то

#llm #gan #papers

45 views08:57

Интересное что-то

Forwarded from CV Time

Что читает команда распознавания текста в VLM: подборка актуальных статей

Инженеры VLM-команды Яндекса поделились статьями, которые они в последнее время читали и обсуждали. В сегодняшней подборке: новые подходы к генерации инфографики, свежие бенчмарки для мультимодальных моделей, работающие пайплайны генерации кода по графику и попытки добавить зрение в диффузионки.

ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation
Статья о том, как сгенерировать около миллиона инфографик. Авторы подробно описали каждую стадию процесса: сбор шаблонов, индексирование описаний, иконок и других элементов для заполнения шаблонов, фильтрацию и проверку качества.

InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts
Авторы собрали новый бенчмарк позволяющий проверить, как VLM-модели понимают инфографику. Для каждой инфографики сделали упрощённую версию в виде обычного графика с теми же данными — модели справляются с таким заметно лучше, чем с визуально перегруженным оригиналом. Также добавили новый тип вопросов по отдельным кропам из изображения инфографики — на понимание мелких визуальных деталей.

ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation
Авторы обучили модель понимать графики: она получает изображение и возвращает код на Python (Matplotlib), чтобы построить такой же график. Для этого использовали стратегию Snippet-of-Thoughts (SoT) — пошаговое рассуждение перед финальной генерацией кода. Взяли LLM, способную писать код, собрали датасет под задачу (160 тысяч картинок, на каждую — один вопрос и ответ). Кратко описали пайплайн его создания. Модель показывает лучшие результаты среди аналогов такого же размера (включая почти самые свежие Qwen и InternVL). В ablation-экспериментах дообучили Qwen на своём датасете — получили прирост; 384 px + Anyres почти хватает для большинства графиков.

Relation-Rich Visual Document Generator for Visual Information Extraction
Статья с CVPR 2025 о генерации синтетических text-rich-документов с логической структурой (таких, как формы). Пайплайн генерации любопытен тем, что в нём сначала генерируют текст с помощью ChatGPT, а уже потом — структуру документа (laytout). Чаще встречается обратный вариант, когда структуру документа заполняют текстом. Авторы показывают, что обучение Qwen2-VL и Llava-NexT-mistral на таких данных улучшает метрики распознавания текста и извлечения информации на публичных бенчмарках.

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
Авторы попытались расширить предобученную текстовую диффузию LLaDA на мультимодальность, добавив визуальный вход через SigLIP2 и MLP-проекцию в языковое пространство. Итоговая модель зафайнтюнена на визуальных и reasoning-focused-инструкциях MAmmoTH-VL и VisualWebInstruct и бьёт автогрессионные и диффузионные бейзлайны по ряду мультидисциплинарных и визуально-математических бенчмарков.

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
Интересная статья, авторы которой подтверждают тезис из названия: SFT хорошо запоминает жёсткие форматы и правила, но плохо справляется с out-of-distribution-задачами. В то же время RL реально улучшает генерализацию и показывает заметный прирост на OOD-случаях. Но SFT всё равно нужен, чтобы RL вообще завёлся. В противном случае модель не умеет нормально реагировать на инструкции или генерирует неконтролируемый выход. RL-обучение не получает положительного сигнала. Это справедливо как для LLM, так и для VLM.

Подборку подготовила ❣ Команда распознавания текста в VLM
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

41 views08:57

Интересное что-то

#llm #rl

41 views10:50

Интересное что-то

Forwarded from Душный NLP

SRPO — альтернатива DPO

Сегодняшняя статья о Self-Improving Robust Preference Optimization (SRPO). Это алгоритм оффлайн-RLHF, подобный DPO, но более подходящий для off-policy датасета ранжирования. Кроме того, SRPO лучше переносится на OOD-задачи.

Основная идея метода заключается в состязательном обучении двух политик: генерирующей и улучшающей. Задача улучшающей политики — на основании запроса и имеющегося ответа создать улучшенную версию этого ответа; задача генерирующей — научиться создавать ответы, которые нельзя значительно улучшить.

Обе политики обучаются на парах предпочтений, полученных от людей. Решение состязательной задачи сводится к минимизации линейной комбинации из двух сонаправленных функций потерь. В работе показано, что оптимальное решение этой задачи не зависит от политики, из которой был собран датасет предпочтений. Благодаря этому SRPO оказывается более устойчивым к изменению в распределении данных.

Метод можно реализовать с помощью одной LLM, которая выступает и в качестве генератора, и в качестве «улучшатора». Обученную модель можно применять итеративно, каждый раз корректируя ответ, полученный на предыдущем шаге, чего не предполагают методы вроде DPO или IPO.

Даже без итераций, SRPO выигрывает у DPO и IPO: на сложных Arena-Hard-промптах метод показывает 56% win-rate. На задаче суммаризации Reddit TL;DR SRPO на 4-й итерации SRPO достигает максимального качества.

Разбор подготовил ❣ Алексей Зотов

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

41 views10:50

Интересное что-то

#ab

41 views10:51

Интересное что-то

Forwarded from Заскуль питона (Data Science)

High Standard Deviation vs Low Standard Deviaton.

(?) without CUPED vs with CUPED. Variance reduction, yes. P-hacking…

📚 Материалы по методам снижения дисперсии
(увеличиваем чувствительность A/B эксперимента и уменьшаем его длительность):

1. VWE (Variance Weighted Estimator)
2. CUPED / CUPED Multiple Covariates
3. CUNOPAC / CUPAC / CUMPED etc.
4. Стратификация / Постстратификация
5. Outlier Capping / Winsorizing
6. ... список могу продолжить еще

😏 Линейная регрессия повсюду, а вообще я хотел просто картиночку смешную прислать.

107 или 115? Кто вы сегодня?

А про то, зачем это нужно, ныряйте в комментарии 🔽

Please open Telegram to view this post

VIEW IN TELEGRAM

42 views10:51

Интересное что-то

#gan

38 views10:54

Интересное что-то

Forwarded from Art, Design & AI (Lena Starkova)

Imagen 4 от Google — бесплатно и уже доступен!

Я знаю, вы устали от сотни платных подписок на нейросети. Так вот Imagen 4 теперь можно попробовать бесплатно прямо в AI Studio

⚡️Что умеет:
• создаёт фотореалистичные и абстрактные картинки
• работает быстро — до 10× быстрее Imagen 3
• хорошо справляется с мелкими деталями
• адекватно рендерит текст на изображении
• понравилось, что есть интеграция с гугл диском

⬆️ Прикладываю пару своих тестов
Хорошая альтернатива Midjourney, особенно если нужно быстро и без подписки.

✔️ Доступен через:
Gemini, Google Workspace (Docs, Slides), Whisk, Vertex AI и AI Studio (бесплатно).

Арт, дизайн и нейросети
@art_design_ai
#imagen@art_design_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

41 views10:54

Интересное что-то

#gan #petproject

41 views10:54

Интересное что-то

Forwarded from Art, Design & AI (Lena Starkova)

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

✴️

Как попробовать Soul от Higgsfield

Если хочется протестировать новую модель от Higgsfield

1. Заходи в higgsfield_ai
2. Нажимай Create Image
3. Выбери модель Higgsfield Soul
4. Подбери один из 50+ пресетов
5. Введи промт и нажми Generate

Арт, дизайн и нейросети
@art_design_ai
#higgsfield@art_design_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

45 views10:54

Интересное что-то

#dl #gpu

44 views11:08

About

Blog

Apps

Platform