Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from Refat Talks: Tech & AI
This media is not supported in your browser
VIEW IN TELEGRAM
Вы наверное замечали что почти все AI-generated фронтенды выглядят как близнецы.

И тут дело не только в том, что нейросети любят дефолтный Tailwind и ShadCN. Сами промпты редко учитывают дизайн.

Понятно, что ничто не заменит насмотренность и работу профессионального дизайнера. Но есть куча низко-висящих фруктов, которые AI-driven разработчик может сорвать относительно малой кровью и сильно улучшить результат. Давайте посмотрим что можно сделать.

1. Собери референсы и используй reverse-дизайн - я писал об этом подробно, по сути: скриншоты → AI agent → дизайн токены

2. Создай свою цветовую схему через CSS-переменные:
- UI Colors - генерация полных палитр 50-950 из одного цвета
- TweakCN - визуальный редактор ShadCN тем, экспорт CSS-переменных
- Tailwind Color Generator - HSL-совместимые палитры

3. Типографика:
- Fontjoy - автоматический подбор шрифтовой пары
- Font Combinations - проверенные комбинации шрифтов

4. Промптить для лучших результатов надо иначе

"Сделай красиво" заменяется структурированными техническими требованиями с указанием конкретики, референсов и дизайн-компонентов. Несколько простых примеров:

// типографика

Design clear typography hierarchy using modern sans-serif font.
Large heading, medium subheading, readable body text.
Ensure good line spacing and visual rhythm throughout the page.

// UI-компоненты

Create card components with contemporary styling - subtle shadows,
rounded corners, clean white background. Add hover effects
and make them feel interactive and polished.

// цвета

Use professional color palette - primary brand color, neutral grays,
success/error states. Ensure good contrast for accessibility
and maintain consistent color usage across all components.


А вот пример того, что можно добавить в проектные правила (cursor rules, claude md)

## Design Principles
- Generous spacing: Use plenty of whitespace, avoid cramped layouts
- Cards: Subtle elevation, consistent padding, avoid heavy borders
- Modern aesthetics: Subtle shadows, rounded corners, clean typography
- Interactive states: Smooth hover effects, button feedback, loading states
- Visual hierarchy: Clear information structure with proper heading levels
- Accessibility: Good color contrast, readable fonts, proper focus states
- Consistent system: Reusable components, unified spacing scale
- Use consistent spacing units(8px, 16px, 24px, 32px) throughout your design system
- Test colors in both light and dark modes
- Implement consistent iconography from a single icon family


5. Еще несколько полезных ресурсов на тему Tw / ShadCN

- Magic UI - премиум компоненты с анимациями
- Aceternity UI - сложные интерактивные элементы
- Awesome ShadCN - кастомные компоненты, ресурсы, хелперы - 🔥


Подход может быть разный в зависимости от навыков, тут получается интересный парадокс: чем меньше у вас насмотренности в дизайне, тем больше стоит полагаться на качественные готовые блоки и даже шаблоны, которые часто будут круче AI-дефолта, потому что их делали профессиональные дизайнеры с пониманием композиции и визуальной иерархии. Если есть хорошая насмотренность - кастомизируйте глубже через дизайн-токены, экспериментируйте с типографикой, композицией и т.д.

🔥 🔁
Please open Telegram to view this post
VIEW IN TELEGRAM
💛 Идеальная структура промпта по версии Claude (Anthropic)

Команда Anthropic выпустила видео с разбором промпта для конкретной бизнес-задачи - анализа протокола ДТП и определения виновника.

Рекомендую посмотреть тем, кто только начинает внедрять ИИ в бизнес. Показывают, как обогащать контекст и бороться с галлюцинациями.

Anthropic активно продвигает идею использования XML-тегов в промптах. В примере они разбивают задачу на подзадачи через теги, которые ссылаются друг на друга (смотрите на 18-й минуте). Получается сложная вложенная структура:

<task id=3>...
<summary>создай саммари</summary>
<form_details>...</form_details>
</task id=3>

<task id=4>
используй саммари <summary>
</task id=4>


Для повышения качества советуют задавать предварительный ответ, т.е. ты сам начинаешь ответ за ИИ, задавая нужное направление.

В рекомендациях от Антропика есть интересный нюанс - исходные данные у них в начале промпта идут (перед задачей), хотя в основном я встречал рекомендации размещать данные практически в самом конце промпта. Запутали меня этим. Есть кому распутать?


Ссылка на переведенную версию видео (ютуб). 30 минут просмотра и вы - всамделишный промпт-инженер!
Оригинал - для тех, кто хочет стать всамделишным промпт-инженером, но со знанием английского😄
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Бум MCP!

Я немного отвлекся и зазевался, а тут MCP развивается семимильными шагами. Теперь LLM все больше и больше могут взаимодействовать со сторонними сервисами!

Зацените подборку существующих решений https://mcpmarket.com/server и обратите внимание на количество звезд! Звезды - это оценки пользователей на Гитхабе. Чем больше звезд, тем популярнее и круче решение.

Пока копался в этой подборке, в голове вспыхнула куча идей, что с чем можно поженить.

Вообще, я углубился в тему MCP, т.к. возникла очередная острая потребность в фиксации задач. Ну реально надоело, что часть их них пропадает и заветривается.

Сейчас я настроил связку Клод-Asana (трекер задач и сервис для совместной работы). Все заводится без шаманств, т.к. у Клода уже преднастроена интеграция. Теперь Клод за меня управляет задачами: ставит их, дополняет, перемещает по доске. Посмотрим, насколько по факту это окажется рабочей связкой. Может быть придется вытащить Асану в телеграм, чтобы голосовыми кидать задачи без всяких впн.

В ходе ресёча встретил следующие популярные решения, которые попроще Асаны: todoist.com , ticktick.com , weeek.net (РФ) - но интеграция напрямую с Клодом у них отсутствует, надо или свое поднимать, либо на Асане останавливаться.

Делитесь, кто как РЕАЛЬНО облегчает жизнь с MCP!
Please open Telegram to view this post
VIEW IN TELEGRAM
Давно хотел поделиться тем, что происходит под капотом LLM Platform, которую мы строим внутри ТБанка.
Пост на грани NDA.

В какой-то момент мы осознали, что без цельного платформенного слоя любые инициативы с GenAI будут буксовать. На схеме — как раз тот каркас, который у нас сложился и который мы продолжаем развивать.
И если ещё год назад мы спорили об отдельных «кубиках», то сегодня то, что мы строим, — де-факто канонический GenAI-стек. (вот тут ещё интересная статья)

Из чего он состоит на высоком уровне:

LLM API Gateway — единая точка доступа до внутренних (qwen?) и внешних (deepseek?) моделей,
RAG Platform — конвейер для превращения любых данных в пайплайн Retrieval-Augmented Generation,
Observability Platform — прозрачность всех LLM-процессов в реальном времени,
Orchestration & automation — набор инструментов построения произвольных GenAI-пайплайнов с минимум кода,
LLM Sec — модули безопасности, политик и аудирования,
Assistant Runtime Platform — среда выполнения произвольных AI-ассистентов.

И если LLM Gateway — это нифига себе высоконагруженный модуль, на базе которого построены как внутренние, так и внешние продукты, то вот как конкретно построить единый Tools Registry, мы всё ещё размышляем и экспериментируем.
Forwarded from Nikita
Привет! Я накидал библиотеку архитектурных компонентов для Excalidraw, которых мне всегда не хватало. Делюсь, и буду рад обратной связи

https://github.com/DeKinci/sysdeslib
Forwarded from DeepSchool
VLM для детекции объектов на изображении

У традиционных детекторов есть серьёзное ограничение: набор классов определён обучающей выборкой (Closed-set Object Detection). В попытках обойти его, создали новый класс детекторов, Open Vocabulary Object Detection (OVOD), для детекции произвольных объектов. В новой статье мы привели обзор таких OVOD-моделей, основанных на Vision Language Model (VLM).

Из статьи вы узнаете:
- какие есть подходы для применения VLM к задаче Object Detection
- какие результаты сравнения моделей на бенчмарках для Closed-Set и Open Vocabulary детекций
- почему идеи CLIP всё ещё актуальны

Читайте новую статью по ссылке!
Приветствую, дорогие друзья! 👋

Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:

- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (а то иногда без бутылки не разберешься)

Что понравилось?
Да все.

Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.

Словом, категорически агитирую вас к ознакомлению!

Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.

На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Concise Research (Sergey Kastryulin)
Step1X-Edit: A Practical Framework for General Image Editing
[моделька + код, отдельно GEdit бенч]

Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.

Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.

Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.

Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.

Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.

К сожалению, сам датасет не выложили, только код его подготовки.

Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.

Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚

Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
Forwarded from Onigiri
Какими нейросетями я пользуюсь?

Начну с моделей от OpenAI:

gpt-4o - в основном для простых общих вопросов

gpt-4.5 - одна из лучших моделей в для написания красивого текста и переводов на другие языки. 14 июля ее закроют 😒
Говорят, что gemeni 2.5 pro такая же в написании текстов, а может и лучше, но я ей пока не пользовался

gpt-4.1 - использую больше для несложных технических вопросов

o3 - для сложных вопросов. Например, для решения математических задач, для продумывания архитектуры кода, для улучшения и переписывания кода, где я сам не знаю, как это сделать

o4-mini-high - сначала не обращал внимания на эту модель, но в последнее время все чаще использую вместо o3. Работает быстрее, на некоторые вопросы отвечает лучше, но не всегда. Поэтому можно один вопрос отправлять сразу и в o3, и в o4-mini-high, так еще лучше

Картинки:

gpt-image-1
- заменила для меня почти все другие генераторы картинок. Вроде как это и есть gpt-4o, которая благодаря своей мультимодальности делает изображения, но часто ее называют отдельной моделью. Это та, которая генерирует картинки в chatgpt. Но через chatgpt она генерирует их часто по 1 штуке и в неверном соотношении сторон. Гораздо удобнее ей пользоваться через их же отдельный сайт sora.com

Раньше еще пользовался Midjourney и локальным Stable Diffusion, но с появлением gpt-image-1 использую почти только его. Хотя иногда еще пользуюсь:

Photoshop - по текущим меркам встроенная модель уже так себе, но зато ей можно быстро и удобно что-то поправить

Illustartor - да, в нем тоже есть генерация картинок, да еще и векторных, что иногда бывает нужно

Вайбкодинг:

Github copilot - большую часть кода пишет за меня. Начал пользоваться им еще с бета версии и остался на нем. Еще из популярных существуют Cursor и Windsurf, у них даже многие фичи появляются раньше, но в целом, сейчас они довольно похожи.
В самом копайлоте обычно использую claude-4 - это наверно самая оптимальная на данный момент модель для кода. Реже использую gpt-4.1 для простых задач

А какими вы пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM