AI LAB | Лаборатория ИИ
1.69K subscribers
610 photos
428 videos
23 files
882 links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

По всем вопросам 24/7
@arthiteca

Вопросы сотрудничества и соучастия
@j_fede
Download Telegram
Forwarded from Denis Sexy IT 🤖
6 месяцев назад, CEO антропика говорил, что 90% кода будет писаться LLM уже через 6 месяцев

Кажется, не получилось, ждем новых предсказаний ☕️

Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural

VoxHammer от Tencent и Бэйханского университета

Не требующий обучения метод точного и последовательного 3D-редактирования, работающий непосредственно в исходном скрытом 3D-пространстве.

Он гарантирует, что неотредактированные области останутся идеальными, а новые изменения будут легко интегрированы.

https://huggingface.co/papers/2508.19247
👍311
This media is not supported in your browser
VIEW IN TELEGRAM
В этом году я пропустил ИТ-Пикник, но смог внести свою небольшую лепту в это мероприятие - завайбкодил 2D игру для стенда Т-Банка.

Суть игры - продержаться 40 секунд, уворачиваясь от машин, и собрать как можно больше бонусов.

Заказ был срочный, сроки поджимали, дизайн полностью закончили и утвердили кажется дня за 3 до мероприятия.

Пока готовился дизайн, я пробовал разные подходы и инструменты. Начал с harvi.pro, он сделал крутую 3D-версию. Но потом выяснилось что нужно именно 2D. С 2D у меня в Харви не особо получилось, там пока нет возможности загружать ассеты в качестве ресурсов, а также в качестве дополнительного контекста для модели.

Тут я вспомнил как на презентации GPT-5 показывали как она кодит игры, и я решил попробовать. Тут еще оказалось, Cursor дал неделю бесплатного тест-драйва GPT-5. Как раз вовремя.

Я подготовил достаточно подробный промпт, со всеми деталями, уделил ему больше 20 минут (как советовали в курсе от Anthropic). Выбрал в Cursor GPT-5 и режим «Max», чтоб прям как в презентации было.

GPT-5 сделал неплохой бойлерплейт на базе Vite, React, TypeScript, но пришлось множественными итерациями дорабатывать все расстояния и размеры элементов игры, а потом когда дизайн был готов, подстраивать под сетку фона.

Когда вся механика и дизайн были готовы, нужно было добавить в игру управление с помощью USB-контроллеров (3 кнопки на полу). Ни разу этого раньше не делал, но в несколько итераций и тестов GPT-5 сделал все за меня. К слову, теперь я знаю как к браузеру подключить USB-контроллеры.

Последний раз я брал заказы на разработку в году 19-20, когда не было GenAI, а был только коронавирус, и честно, работать с помощью вайб-кодинга отдельное удовольствие!

Вообще все это происходило в отпуске, в дороге, раздавал интернет с телефона и в пути кодил. Последние правки вносил уже в поезде, пока связь совсем не пропала.

После отпуска планирую плотно заняться направлением VCC Education и VCC Agency, готов взять 5 менти и еще несколько таких заказов.

🎚️ @vibe_coding_channel
🎚️ @vibe_coding_community
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍31
#unrealneural
Drawing2CAD

Transformer, преобразующая векторные чертежи (SVG) в последовательность DeepCAD. Использование векторных данных вместо растровых (изображений) повышает точность примерно на 7%.
https://github.com/lllssc/Drawing2CAD
👍31❤‍🔥1🔥1
Forwarded from Институт AIRI
Запускаем рубрику #best_papers, в которой мы будем делиться статьями, отмеченными особым статусом на различных конференциях ⤵️

Сегодня рассказываем про статьи с ACL 2025, соавтором которых выступил руководитель группы «Вычислительная семантика» AIRI и руководитель группы NLP в Сколтехе Александр Панченко:

⚫️Статус Best Resource Paper получила статья BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages. В ней представлен новый датасет с аннотациями эмоций на 28 различных языках.

⚫️В рамках воркшопа SemEval-2025 конференции ACL статус Best Task Award выиграла статья SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection. Её авторы представили задачу по распознаванию эмоций по тексту, охватывающую более 30 языков из семи различных языковых семей.

Сегодня все лайки — поздравления авторам!
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍41
#unrealneural
SAT-SKYLINES

Создание 3D mesh зданий по спутниковым снимкам + грубая геометрия. Cities: Skylines в качестве набора данных.
https://arxiv.org/abs/2508.18531
👍821
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Реалтайм видеогенерация в Krea.ai 😱😱😱
🔥1111
Media is too big
VIEW IN TELEGRAM
#unrealneural
MatchAnything — это мощный фреймворк, который позволяет сопоставлять ключевые точки между сильно различающимися и даже искаженными изображениями, такими как вид карты iPhone и аэрофотоснимки Google или тепловизионные и дневные изображения.
👍31🔥1
#unrealneural
Как новый эволюционный алгоритм Sakana AI создает мощные модели ИИ без дорогостоящего переобучения

Статья посвящена новому эволюционному алгоритму Model Merging of Natural Niches (M2N2), разработанному японской лабораторией Sakana AI. Этот метод позволяет улучшать возможности ИИ-моделей без дорогостоящего переобучения или тонкой настройки. M2N2 объединяет параметры нескольких специализированных моделей в одну, более мощную, сохраняя их сильные стороны. Алгоритм подходит для разных типов моделей, включая большие языковые модели (LLM) и генераторы изображений.
https://venturebeat.com/ai/how-sakana-ais-new-evolutionary-algorithm-builds-powerful-ai-models-without-expensive-retraining/
👍3🔥21
Forwarded from Data Secrets
Журнал TIME опубликовал свой ежегодный список Time 100 AI

Список позиционируется как "100 самых влиятельных людей в сфере искусственного интеллекта". В топе – Альтман, Маск, Хуанг, Принс (CEO CloudFlare), Цукерберг, Амодеи, Веньфень и другие.

Но не все так однозначно: есть, как говорится, нюансы.

Например, вот кого в списке нет:

– Илья Суцкевер
– Джеффри Хинтон
– Демис Хассабис
– Ноам Браун
– Ян Лекун
– Мустафа Сулейман
– Аравинг Шринивас

А вот кто там есть:

– Папа Римский
– Чел из мема про вайбкодинг – Рик Рубин
– Художники, писатели и журналисты

В общем, как-то немного неловко получилось, что-ли 🤡

А ссылка на сам список вот: time.com/collections/time100-ai-2025/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤡21
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #ЛабораторияИИ #AILAB
Туториал 2. Генерация с помощью Nano Banana + KLING 2.1

1. Загружаем исходное изображение
2. Создаем различные ракурсы с помощью Nano Banana
3. Комбинируем ракурсы с помощью KLING 2.1 keyframes
4. Монтируем все вместе
👍541🥱1
Forwarded from Data Secrets
Плохие новости: там Google нашли фундаментальный баг в RAG

TL;DR: оказалось, что всеми любимый и привычный поиск на эмбеддингах может не всё и имеет серьёзный фундаментальный предел. При фиксированной размерности вектора таким подходом просто невозможно находить все релевантные документы из базы. В своей работе Google доказали это и теоретически, и экспериментально.

О чем вообще речь. Современный поиск и RAG часто опираются на single-vector эмбеддинги: у каждого запроса и документа – по одному вектору, похожесть меряем скалярным произведением/косинусом, дальше берем топ-k ближайших.

И тут возникает вопрос: а вообще возможно ли при фиксированной размерности векторов построить такой поиск, который всегда будет возвращать правильные топ-k документов для любых запросов? Ответ – нет. И сбой происходит уже на очень простых примерах.

Интуитивное объяснение, почему так: чем больше база знаний, тем больше разнообразных комбинаций запросов и релевантных документов нам нужно поддерживать. Но пространство поиска всегда ограничено размерностью эмбеддингов. Так вот, начиная с какого-то числа документов, расположить точки в этом пространстве так, чтобы для каждого запроса мы находили правильные доки, просто невозможно.

Математическое объяснение для любителей:
Представим матрицу A, где строки – это запросы, а столбцы – документы, и на пересечении стоит 1, если документ релевантен, и 0 – если нет. Мы хотим, чтобы поиск на эмбеддингах воспроизводил именно такую матрицу «кто кому подходит». Тогда оценки похожести будут матрицей B = UᵀV, где U и V – это векторы запросов и документов в пространстве фиксированной размерности d. Но sign-rank матрицы (2A−1) может оказаться больше d, а это значит, что никакие d-мерные эмбеддинги не смогут построить B с правильными значениями. Формально: если sign-rank(A) > d, то корректное разделение релевантных и нерелевантных пар в таком пространстве просто невозможно, каким бы мегаумным ни был ваш эмбеддер.


То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться.

И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже.

Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!).

Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ.

Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок 😐

Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4😢2🔥1👌1
#unrealneural
CAD-Llama

В последнее время большие языковые модели (LLM) достигли значительного успеха, что вызвало повышенный интерес к расширению их генеративных возможностей за пределы общего текста. В данном исследовании изучается генерация параметрических последовательностей для моделей систем автоматизированного проектирования (САПР) с использованием LLM.
https://arxiv.org/pdf/2505.04481
👍2🔥21
#unrealneural
CAD-GPT

CAD-GPT — метод синтеза САПР с использованием MLLM, улучшенного на основе пространственного мышления, который в качестве входных данных использует либо одно изображение, либо текстовое описание.
https://www.semanticscholar.org/reader/51a8d15cb89f7a754cca514ffc32825ab5e5fa74
21👍1
Forwarded from NN
МГУ открыли факультет искусственного интеллекта — принимать студентов туда должны начать с 2026 года.

Обещают курсы по машинному обучению, компьютерному зрению и обработке естественного языка.

Главное, чтобы до первого выпуска ИИ уже не заменил всех айтишников.
😁7👏2🔥1