Интересное что-то
517 subscribers
2.71K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from Айтигребец
Онлифанс напрягся 👸

Две новости одного дня, которые безусловно порадуют скамеров со всего мира.

1) Недавно нейронку Kling обновили до версии 2.6, значительно улучшив захват движений. Теперь внешность можно изменить одним кликом, и результат почти неотличим от реальности.

Kling AI разработала китайская компания Kuaishou. Изначально доступная только в Китае нейросеть вышла в глобальный доступ и стала популярной благодаря высокому качеству и реалистичности сгенерированных роликов.


2) Microsoft выложили нейронку VibeVoice-1.5B (MIT), которая клонирует любой голос идеально, и это абсолютно бесплатно. Генерирует до 90 минут аудио за один раз и поддерживает до четырех голосов в одном диалоге.

На сайтике можно потыкать в экзамплы.

Уъ...

Айтигребец
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Как решить любую алгоритмическую задачу на собесе

Успех на алгособесе зависит не от прорешенных 100500 задач, а от умения распознавать основные идеи и подходы, которые позволяют успешно решить задачу, даже если вы не сталкивались с ней ранее. В посте о том, как прокачать этот навык, соблюдая принцип "от простого к сложному".

Прежде всего, нужно разобраться со структурами данных.
Массивы -> связные списки -> стек -> очередь -> деревья -> куча -> графы -> хэш-таблица. Разобраться = написать свою реализацию. Это поможет освоить азы асимптотики и понять, что лежит в основе сложных структур. Изучая очередную структуру данных, переходите к решению простых задач с её использованием. В дальнейшем вы сможете применять понятную вам структуру (например, список) в качестве промежуточного шага при решении более сложной задачи.
Уверенное ориентирование в структурах данных - залог того, что вы не затупите, увидев формулировку "объедините k отсортированных списков в один", а сразу поймёте, что тут не обойтись без кучи. Иными словами, вам нужно научиться ассоциировать каждую структуру с проблемой, которую можно решить на её основе.

Далее вы можете использовать ассоциации о свойствах структур в качестве фундамента для понимания и распознавания алгоритмов.
Предположим, вы путаете, когда лучше применить DFS, а когда - BFS. В этом случае ещё раз разберитесь с механизмами их работы. Так, поиск в глубину - это обход графа до конца ветки и последующий возврат, что соответствует принципу LIFO, то есть основному принципу работы стека. Из этого логично исходит, что стандартной реализацией DFS является рекурсия, ведь вызовы функций основываются на стеке.
Поиск в ширину - это обход графа по уровням. Обработка вершин здесь должна происходить в том порядке, в котором они обнаружены, что соответствует принципу FIFO, на котором реализована очередь. Поэтому стандартная реализация BFS - итеративна.

Связав знания о структурах, алгоритмах на их основе и проблемах, которые они решают, вы сможете находить "идейный триггер" в условии для использования того или иного алгоритма.
К примеру, вы знаете, что, вероятно, будете реализовывать BFS, если видите упоминание о "кратчайшем пути" (с условием, что граф невзвешенный). Или стоит проверить "скользящее окно", если речь о поиске чего-то в подмассиве/подстроке.
При решении задачи проговаривайте, почему действуете именно так. Вообще, привыкайте рассуждать вслух, чтобы на собесе это не стало для вас проблемой.
Старайтесь описывать (например, в файлике) каждый изученный алгоритм или подход по принципу: его суть (что он позволяет сделать, какую проблему решает) - ключевые особенности задачи, позволяющие распознать паттерн - примеры других типовых задач, которые вы решили. Важно, чтобы это был именно ваш алгоритмический чек-лист, по которому вы бы легко могли пройтись в период активной подготовки к собесам.

Итак, надеемся, эти советы будут полезны вам! Ставьте 🔥, и мы сделаем разбор самых популярных алгоритмических паттернов и того, как распознавать их в задачах! Также советуем обратить внимание на наш банк алгоритмический собесов и leetcode российских компаний.

@postypashki_old
OpenAI Codex поломали мой подход к планированию и разработке фич при помощи coding агентов

Обычно, когда мне нужно сделать любое более-менее сложное изменение в коде, я прошу агентов написать мне детальный план в виде markdown файла, положив его в файл plans/001-feature-name.md

Это удобно, т.к. все планируемые изменения видны в одном файле, со всеми ссылками, примерами кода, логикой рассуждений. Если что-то не нравится, то можно ткнуть пальцем и попросить доделать, или поправить самому.

Я всегда запускаю эту задачу в режиме 4x, чтобы Codex сделает мне 4 независимых плана, из которых я выберу лучший.

Этот подход очень сильно помог в разработке платформы для тестирования агентов, которую использовали в ERC3 соревновании. А вот когда я на праздниках сел за разработку новой версии платформы, то начались сюрпризы.

Codex вместо написания редактируемых планов выдавал что-то такое:

Below is a planning-only response (no repo edits). The root AGENTS.MD requests writing the plan to plans/###-...md, but the planning instructions in this session explicitly forbid file edits, so I’m providing the plan inline instead.


Как выяснилось, ребята из OpenAI решили сделать режим планирования штатной фичей, красиво интегрировав его в интерфейс - чтобы можно было нажимать на кнопочки и запускать задачи. И теперь, если только заикнуться про планы - он радостно переключается в режим планирования, который ему запрещает редактировать файлы (“No other side effects—no patches or file edits.”)

Пришлось поменять текст в AGENTS.MD. Теперь я прошу не планировать, а написать спеки:


ExecSpec: you need to think through, analyse and draft a spec for implementing a feature. Put it into `drafts/###-objective-description.md`, where number is incrementing from `001`. Make sure to restate the task and outline steps fir implementing it. Provide sample code snippets if needed to demonstrate


И оно все работает, как прежде. Главное, молчать про планы.

Ваш, @llm_under_hood 🎅
Forwarded from e/acc
три года я горю идеей автоматизировать всю свою работу с помощью ИИ, и вот сейчас я могу сказать что я близок как никогда

последние 1,5 года я использовал cybos - персональную операционную системы для жизни и работы - на основе курсора. а примерно месяц назад я начал с нуля строить третью версию, теперь полностью на основе claude code. и это поражает воображение!

требования к системе у меня простые:
- она имеет доступ ко всем цифровым инструментам, что и я: от смс и почты до рабочих CRM и генераторов ИИ-видео
- она знает ВСЁ обо мне, моей работе, всех людях с которыми я взаимодействую, моих целях, чаяниях и предпочтениях
- могу взаимодействовать голосом, текстом, с телефона
- качество выполнения работы не хуже, чем я бы делал сам, либо я могу делать ревью и это делает задачи как минимум 10х быстрее

что система умеет сейчас? сама читает и отвечает на любые сообщения (почта/тг), делает рисерч компаний для инвестиций, пишет memo и отчеты, генерирует картинки в моем стиле, управляет моей gtd-системой. у нее есть доступ к полным записям всех моих звонков, всех чатиков, даже философии и персональным целям на 5-10 лет.

например, для рисерча людей / рынков / компаний / тем, используется оркестратор из MCP и тулзов (perplexity, parallel, webfetch, exa, firecrawl) с уровнями глубины анализа (самый глубокий рисерч работает как минимум 60 минут и создает небольшую книжку)

давайте покажу конкретный пример, который добавил сегодня утром. у меня есть GTD система, по сути просто файлик где списком лежат задачи по работе.

теперь, я открываю клод и пишу (или говорю) /gtd, после этого клод:
- проходит по списку и запускает суб-агентов на каждую задачу
- готовит план выполнения по каждой задаче (я корректирую если нужно)
- по каждому типу задач использует заранее созданный workflow (например, у меня есть детальные инструкции как делать интро, как готовиться к подкастам и интервью, как планировать поездки, как отправлять cold emails фаундерам)
- клод имеет доступ к глобальному индексу всех звонков, сообщений, компаний, контактов чтобы иметь максимальный контекст по выполнению
- после выполнения он сохраняет логи,
- и самоулучшается раз в день: смотрит все корректировки, которые я внес руками и добавляет их в инструкции

на скриншоте две реальные задачи: в одной нужно было погуглить контакты и составить письмо в моем стиле, во второй глубокий рисерч и подготовить список вопросов для подкаста. агенты работали параллельно. как видите на втором скрине, каждая задача занимает от 15 до 30 tool calls и ~100k токенов в среднем, имеет внутренний луп перепровеки результата, но в итоге экономит >24 часа в сутки — это как нанять 5 клонов себя :) а скоро нас будет не 5, а 5,000!

следующий этап — раскатать то же самое на всю компанию, чтобы мы все могли работать над общим контекстом и клоны были не только у меня, но и у ребят, которые реально круты! а если пост наберет 20к посмотров, запишу подробное демо на ютубе как все работает.
[1/3] Что случилось в мире рекомендаций и поиска за 2024-25гг?

За последние 2 года в мире recsys идет революция не меньше изобретения attention и gpt. С интересом наблюдаю и применяю многое в работе - хочу поделиться, что происходит в нашем мире:)

1. Large Recsys Models
LRM, получается? 😅

Еще год-два назад SOTA SASRec работал с максимум 512 последними действиями (заказы, корзины, лайки, клики) пользователя. Естественно, у многих юзеров даже за 6 мес действий больше, а у активных контекст переполнялся за 1 месяц

И вот вышла революционная статья Actions Speak Louder than words с генеративной recsys моделью HSTU-8к. Основная фишка: меняем парадигму обучения с next action prediction на генеративную. По факту, чуть по-другому собираем датасет и эффективнее считаем матричные произведения

Это позволяет ускориться х5-х15 раз (снижается сложность О(seq_len^3) до О(seq_len^2). И, собственно, скейлиться до длины последовательности в 8к и размера модели в 1.5В параметров

Хайп HSTU подхватили и другие компании: Вышли более эффективные реализации вроде Argus-8k от Яндекса (мы в Я.Маркете тоже его используем), модели с 100k контекстом от Kuaishou и другие

2. Маленький «словарь» товаров с Semantic IDs 📕
Годами область RecSys отличалась от NLP по факту размером словаря. В NLP - это 30-100к благодаря эффективным токенайзерам, а в рексис 10-100М, тк «слово» = товар, а уникальных товаров много

Эта проблема мешала масштабированию моделек, холодному старту, качеству обучения и еще в десятках мест поменьше

Рисерчеры из Google придумали Better Generalization with Semantic IDs. Берут контентные вектора товаров (текст, картинка) и хитро последовательно кластеризуют их через RQ-VAE. Основная фишка в том, что финальный id товара = сумме id его кластеров

semantic_itemid = cluster_iter1 + cluster_iter2

Кластеров всего ~10-100K. Вуаля, наш словарь как у LLM — опять же можно масштабировать модели и делать генеративное обучение как в llm

3. Рекомендации в один шаг🦵
Классика рекомендаций: отбираем топ-1к товаров-кандидатов легкой моделью (обычно двухбашенная модель: вектор юзера х вектор товара + инференс через faiss). Затем переранжируем более тяжелой моделью. Из-за такой схемы на первом этапе кандидатогегерации могут теряться релевантные товары

OneRec объединили генерацию кандидатов, ранжирование и еще реранкер по разнообразию в один шаг! Честно говоря, сам еще продолжаю разбираться: там серия из 5 статей страниц на 200. Но это явно будет hot topic и в 2026

4. LLM-ки нашли свое место в RecSys 🧐
Нам долго обещали, что LLM заменят чисто рекомендательные модели, но нет. Попыток было много, в итоге пришли к компромиссу: LLM генерит «интерес пользователя» текстом (одежда для походов, декор в японском стиле), а более классические recsys модели - товары внутри этих интересов. Вариантов реализации много, мне нравится RecGPT: можно считать в оффлайн, не так много запросов к llm (ну как.. 10-100М, а не миллиарды-триллионы), можно прикручивать SGR и другие приятности


Хотя бы одно из этих улучшений внедрено в прод хорошо если в 10-20 компаниях в мире, с огромными приростами метрик. Так что сейчас - самое время внедрять это у вас, если еще не успели!)

В следующей части будут продуктовые recsys & search изменения: без статей, но с картинками 🖼
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Алексей Мельников
Я пишу промпты по подсмотренной технике XML-структурирования с активационными тегами для активации доменов знаний в LLM.
В случае большого контекста (десятки тысяч токенов) ещё и якорные ссылки оставляю, чтобы была связность элементов выше.

В качестве примера мой шаблонный промпт, которым я прошу объяснить смысл песни.

<tags>
[Анализ лирики], [Поэтика], [Семиотика], [Интерпретация]
</tags>

<task>
Объясни смысл песни на русском языке.
</task>

<song>
<author></author>
<name></name>
<lyrics>

</lyrics>
</song>
Интересный кейс был недавно.

Сейчас работа без AI code assistant чувствуется так, как будто нужно пешком, иногда на велосипеде, проехать 100 км вместо того, чтобы взять машину.

Без AI уже очень сложно быть на 100% эффективным.

Конечно, ключевой вопрос — это фундаментальные знания. Например, я могу не знать ничего в мобильной разработке, но с AI смогу создать мобильное приложение.

Качество будет так себе, ведь у меня нет опыта в этом деле и AI нафантазирует за меня, сделает MVP, который вряд ли попадёт в продакшн. И самое главное — знаний у меня в мобильной разработке не прибавится.

А вот если я эксперт в какой-то области и просто хочу аутсорсить простые запросы и задачки junior (AI), и могу чётко поставить задачку с предсказуемым и проверяемым результатом, то здесь и появляется эффективность и скорость. Я держу в голове контекст, архитектуру и контролирую процесс, а бездушная машина печатает мои мысли и валидирует их через MCP или CLI.

То есть иметь AI IDE — это такой base line. Это не про co-pilot для каждого сотрудника, которые там будут спрашивать про погоду.

Теперь про мой кейс.
Что делать, если AI IDE заблокированы. ChatGPT и Anthropic заблокированы, и есть только Copilot в Teams (бесплатная версия).

Для начала добываем VSCode — лучший бесплатный IDE. Дальше нам надо поставить плагины, тут есть две опции:
• Cline
• KiloCode

Очевидно, API Claude закрыт, но у меня есть API ключ. Бесплатный copilot рассказал мне про сервис — Openrouter.ai

OpenRouter.ai — это универсальная платформа-агрегатор, которая предоставляет единый API-доступ к более чем 400 языковым моделям искусственного интеллекта от различных провайдеров (OpenAI, Anthropic, Google, Meta, Mistral и других).


Сервис позволяет зарегистрироваться бесплатно, и у него собственный API Gateway. В нём я добавил свой Claude API ключ и подключил OpenRouter в KiloCode как провайдера. Задача для меня решена.

Картинки из OpenRouter.