Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from эйай ньюз
Qwen 3 TTS

Алибаба опубликовала веса модели для синтеза голоса с 0.6B и 1.7B параметров. Веса идут в нескольких вариантах: Voice Design позволяет запромптить желаемый голос, Custom Voice идёт с 9 готовыми голосами для китайского, английского, корейского и японского. Кроме этого опубликовали базовые веса модели, для клонирования голосов и как основу для файнтюна.

Модель тренировали на 5 миллионах часов аудио на 10 языках, в том числе русском. Поддержка модели уже есть в vLLM и mlx audio, кроме этого она доступна по API.

Веса
Демо
Блогпост

@ai_newz
Forwarded from дAI потестить!
Ищем модельки для ComfyUI на автомате

Я устал искать модели для чужих ворков в ComfyUI, поэтому запилил GPT's. Кидаешь json - получаешь ссылки на модельки и путь к ним в ComfyUI (потому что заботушка). Ничего лишнего - только список.

А здесь оставлю промпт для ненавистников GPT's (поддерживаю):
Роль: ты парсер ComfyUI workflow (JSON). Вход: полный JSON воркфлоу ComfyUI (как в export). Задача: найти все модели/файлы, которые используются в воркфлоу, и вывести для каждой: название файла/модели → папка ComfyUI → прямая ссылка(и) на скачивание. Где искать в JSON: по нодам загрузки моделей (Loader/Checkpoint/VAE/Lora/ControlNet/CLIP/UNet/IPAdapter/Embedding/Upscale и т.п.) по полям, где встречаются имена файлов: ckpt_name, checkpoint, model_name, vae_name, lora_name, control_net_name, clip_name, clip_vision_name, unet_name, ipadapter_name, embedding, upscale_model, а также любые строки с расширениями .safetensors .ckpt .pt .pth .bin .onnx Нормализуй и дедуплицируй: одинаковые файлы выводи 1 раз. Для каждой найденной модели определи папку назначения в ComfyUI: Checkpoint/CheckpointLoader → ComfyUI/models/checkpoints/ VAE/VAE Loader → ComfyUI/models/vae/ LoRA → ComfyUI/models/loras/ ControlNet/T2I-Adapter → ComfyUI/models/controlnet/ Embedding/Textual Inversion → ComfyUI/models/embeddings/ Upscaler/ESRGAN/SwinIR → ComfyUI/models/upscale_models/ CLIP → ComfyUI/models/clip/ CLIP Vision → ComfyUI/models/clip_vision/ UNet/Diffusion model (SD3/FLUX и т.п.) → ComfyUI/models/unet/ (если в воркфлоу явно указан другой тип — подбери ближайшую стандартную папку) IP-Adapter → ComfyUI/models/ipadapter/ Ссылки на скачивание: если в имени есть явный источник/репо — используй его иначе найди самую вероятную официальную страницу/файл (приоритет: HuggingFace → GitHub Releases → официальный сайт → Civitai) и дай прямую ссылку на файл (или страницу, если прямой ссылки нет) Формат ответа: только список, по 1 строке на модель: - <Тип> — <Имя файла/модели> — <Папка ComfyUI> — <Ссылка(и)> Никаких пояснений, абзацев, таблиц, пролога/эпилога — только список.


P.S. Gemini pro справляется более чем. Остальные не тестил.
Forwarded from Data Blog
Материалы для чтения.

Вчера потребовалось понять, как считать доверительный интервал для пропорции.

Эта задача возникает, когда у вас есть пропорция, посчитанная по N наблюдениям (скажем, число ответивших «да» в эксперименте). Дать одно число нечестно — при прочих равных эксперимент зависит от случайности. Поэтому всегда и везде, ДИ требуется.

В моем случае эта задача возникла рядом с анализом attack success rate (ASR) (успешной атаки на модель) в двух конфигурациях эксперимента. Какое-то время я изучала статьи, и меня эта метрика всегда вводила в ступор — она устоявшаяся, а меня все случаи оценки пропорций настораживают ещё от доли неправильных ответов из ML (accuracy). Поэтому, чтобы быть в ступоре поменьше (и потому что ДИ — это единственный корректный метод предоставления результата), было решено добавить больше формальности.

Обычные интервалы называются Wald intervals и проблема, которая заставила задуматься и не использовать их— это то, что в базовой постановке ДИ может выйти за [0,1], а значений больше 1 и меньше 0 для пропорции быть не должно. Эта проблема связана с симметричностью интервала.

У статистики на многое есть решение — и, оказалось, есть решение и на это. Вместо обычного ДИ, который приближает распределение пропорции нормальным, можно использовать Wilson score интервал. Интервалы Вильсона асимметричны за счет сдвига и добавления знаменателя — полная формула красиво объяснена тут. Интуитивно построение таково — если наблюдаемая пропорция близка к 0 или 1, то неопределённость в сторону границы меньше, чем в сторону центра. В питоне из коробки их тоже можно посчитать (см. statsmodels).

Пока копалась, нашла забавный учебник о том, что такое рисерч. В нем описано, как строить эксперименты, зачем ставить RQ, почему нужны доверительные интервалы и прочие базовые, но нужные вещи, которые помогают приземлиться при планировании эксперимента. Кроме того, в нем много практических задач (и в том числе объясняются те-самые-ДИ). Может, пригодится и вам.
Полезный сайтик https://deepwiki.directory, с ИИ описанием репозиториев. Из прикольного - не только текстом описывает, но и строит схемы с архитектурой. Мне так, действительно, легче вникнуть, если нет хорошей документации от разработчиков

Недавно, например, вникал в архитектуру библиотечки для рагов dsRAG. А вот ИИ дока для него.
#llm #ml #systemdesign #interview

Chatted with AI tech leads hiring AI engineers.

Here's the stack they look for in interviews ↓

① 𝗦𝗪𝗘 + 𝗠𝗟 𝗕𝗮𝘀𝗶𝗰𝘀
SWE → Python, Docker, Version Control, APIs
ML → Data prep, feature eng, ML algos/evals

② 𝗟𝗟𝗠 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀
• DPO
• RLHF
• Quantization
• Transformers
• LoRA, QLoRa
• Flash Attention
• Diffusion Model
• RAG vs Fine-Tune
• Mixture of Experts
• DeepSeek Architecture

*No need experience in training these from scratch. Just need conceptual understanding.

③ 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗢𝗿𝗰𝗵𝗲𝘀𝘁𝗿𝗮𝘁𝗶𝗼𝗻
• RAG
• MCP
• DSPy
• CoT + ReAct
• Context Engineering
• Framework → LangGraph, PydanticAI

④ 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺 𝗗𝗲𝘀𝗶𝗴𝗻
Problem → Scope → Design → Optimize (Scale, Cost, Availability)

• Design ChatGPT clone
• Design Browser agent
• Design SQL agent

*Knowing how to optimize for scale (10K vs 10M users, costs, 99% availability, reduce latency from 10 to 3 seconds).

⑤ 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲
Not optional. They aren't going to hire someone who's built an agent that works locally.

Knowing how to build and deploy agents that work on cloud services matter. AWS, GCP, Azure and etc, just pick a platform, and deploy it.