Forwarded from Data Secrets
Журнал TIME опубликовал свой ежегодный список Time 100 AI
Список позиционируется как "100 самых влиятельных людей в сфере искусственного интеллекта". В топе – Альтман, Маск, Хуанг, Принс (CEO CloudFlare), Цукерберг, Амодеи, Веньфень и другие.
Но не все так однозначно: есть, как говорится, нюансы.
Например, вот кого в списке нет:
– Илья Суцкевер
– Джеффри Хинтон
– Демис Хассабис
– Ноам Браун
– Ян Лекун
– Мустафа Сулейман
– Аравинг Шринивас
А вот кто там есть:
– Папа Римский
– Чел из мема про вайбкодинг – Рик Рубин
– Художники, писатели и журналисты
В общем, как-то немного неловко получилось, что-ли🤡
А ссылка на сам список вот: time.com/collections/time100-ai-2025/
Список позиционируется как "100 самых влиятельных людей в сфере искусственного интеллекта". В топе – Альтман, Маск, Хуанг, Принс (CEO CloudFlare), Цукерберг, Амодеи, Веньфень и другие.
Но не все так однозначно: есть, как говорится, нюансы.
Например, вот кого в списке нет:
– Илья Суцкевер
– Джеффри Хинтон
– Демис Хассабис
– Ноам Браун
– Ян Лекун
– Мустафа Сулейман
– Аравинг Шринивас
А вот кто там есть:
– Папа Римский
– Чел из мема про вайбкодинг – Рик Рубин
– Художники, писатели и журналисты
В общем, как-то немного неловко получилось, что-ли
А ссылка на сам список вот: time.com/collections/time100-ai-2025/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤡2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #ЛабораторияИИ #AILAB
Туториал 2. Генерация с помощью Nano Banana + KLING 2.1
1. Загружаем исходное изображение
2. Создаем различные ракурсы с помощью Nano Banana
3. Комбинируем ракурсы с помощью KLING 2.1 keyframes
4. Монтируем все вместе
Туториал 2. Генерация с помощью Nano Banana + KLING 2.1
1. Загружаем исходное изображение
2. Создаем различные ракурсы с помощью Nano Banana
3. Комбинируем ракурсы с помощью KLING 2.1 keyframes
4. Монтируем все вместе
👍6❤4⚡1🥱1
Forwarded from Data Secrets
Плохие новости: там Google нашли фундаментальный баг в RAG
TL;DR: оказалось, что всеми любимый и привычный поиск на эмбеддингах может не всё и имеет серьёзный фундаментальный предел. При фиксированной размерности вектора таким подходом просто невозможно находить все релевантные документы из базы. В своей работе Google доказали это и теоретически, и экспериментально.
О чем вообще речь. Современный поиск и RAG часто опираются на single-vector эмбеддинги: у каждого запроса и документа – по одному вектору, похожесть меряем скалярным произведением/косинусом, дальше берем топ-k ближайших.
И тут возникает вопрос: а вообще возможно ли при фиксированной размерности векторов построить такой поиск, который всегда будет возвращать правильные топ-k документов для любых запросов? Ответ – нет. И сбой происходит уже на очень простых примерах.
Интуитивное объяснение, почему так: чем больше база знаний, тем больше разнообразных комбинаций запросов и релевантных документов нам нужно поддерживать. Но пространство поиска всегда ограничено размерностью эмбеддингов. Так вот, начиная с какого-то числа документов, расположить точки в этом пространстве так, чтобы для каждого запроса мы находили правильные доки, просто невозможно.
Математическое объяснение для любителей:
То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться.
И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже.
Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!).
Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ.
Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок😐
Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval
TL;DR: оказалось, что всеми любимый и привычный поиск на эмбеддингах может не всё и имеет серьёзный фундаментальный предел. При фиксированной размерности вектора таким подходом просто невозможно находить все релевантные документы из базы. В своей работе Google доказали это и теоретически, и экспериментально.
О чем вообще речь. Современный поиск и RAG часто опираются на single-vector эмбеддинги: у каждого запроса и документа – по одному вектору, похожесть меряем скалярным произведением/косинусом, дальше берем топ-k ближайших.
И тут возникает вопрос: а вообще возможно ли при фиксированной размерности векторов построить такой поиск, который всегда будет возвращать правильные топ-k документов для любых запросов? Ответ – нет. И сбой происходит уже на очень простых примерах.
Интуитивное объяснение, почему так: чем больше база знаний, тем больше разнообразных комбинаций запросов и релевантных документов нам нужно поддерживать. Но пространство поиска всегда ограничено размерностью эмбеддингов. Так вот, начиная с какого-то числа документов, расположить точки в этом пространстве так, чтобы для каждого запроса мы находили правильные доки, просто невозможно.
Математическое объяснение для любителей:
Представим матрицу A, где строки – это запросы, а столбцы – документы, и на пересечении стоит 1, если документ релевантен, и 0 – если нет. Мы хотим, чтобы поиск на эмбеддингах воспроизводил именно такую матрицу «кто кому подходит». Тогда оценки похожести будут матрицей B = UᵀV, где U и V – это векторы запросов и документов в пространстве фиксированной размерности d. Но sign-rank матрицы (2A−1) может оказаться больше d, а это значит, что никакие d-мерные эмбеддинги не смогут построить B с правильными значениями. Формально: если sign-rank(A) > d, то корректное разделение релевантных и нерелевантных пар в таком пространстве просто невозможно, каким бы мегаумным ни был ваш эмбеддер.
То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться.
И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже.
Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!).
Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ.
Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок
Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4😢2🔥1👌1
#unrealneural
CAD-Llama
В последнее время большие языковые модели (LLM) достигли значительного успеха, что вызвало повышенный интерес к расширению их генеративных возможностей за пределы общего текста. В данном исследовании изучается генерация параметрических последовательностей для моделей систем автоматизированного проектирования (САПР) с использованием LLM.
https://arxiv.org/pdf/2505.04481
CAD-Llama
В последнее время большие языковые модели (LLM) достигли значительного успеха, что вызвало повышенный интерес к расширению их генеративных возможностей за пределы общего текста. В данном исследовании изучается генерация параметрических последовательностей для моделей систем автоматизированного проектирования (САПР) с использованием LLM.
https://arxiv.org/pdf/2505.04481
👍2🔥2❤1⚡1
#unrealneural
CAD-GPT
CAD-GPT — метод синтеза САПР с использованием MLLM, улучшенного на основе пространственного мышления, который в качестве входных данных использует либо одно изображение, либо текстовое описание.
https://www.semanticscholar.org/reader/51a8d15cb89f7a754cca514ffc32825ab5e5fa74
CAD-GPT
CAD-GPT — метод синтеза САПР с использованием MLLM, улучшенного на основе пространственного мышления, который в качестве входных данных использует либо одно изображение, либо текстовое описание.
https://www.semanticscholar.org/reader/51a8d15cb89f7a754cca514ffc32825ab5e5fa74
⚡2❤1👍1
#unrealneural
From text to design
End-to-end проектирование и оптимизация механических компонентов с генерацией кода ИИ в Rhino Grasshopper
https://www.cambridge.org/core/services/aop-cambridge-core/content/view/5BD8D63CFCED28BDD7A01313162FFBE7/S2732527X25102034a.pdf/from_text_to_design_a_framework_to_leverage_llm_agents_for_automated_cad_generation.pdf
From text to design
End-to-end проектирование и оптимизация механических компонентов с генерацией кода ИИ в Rhino Grasshopper
https://www.cambridge.org/core/services/aop-cambridge-core/content/view/5BD8D63CFCED28BDD7A01313162FFBE7/S2732527X25102034a.pdf/from_text_to_design_a_framework_to_leverage_llm_agents_for_automated_cad_generation.pdf
⚡1❤1
Forwarded from БУКВАМИ о ЦИФРЕ
RUTUBE
Лаборатория вдохновения: Интервью с Артуром Ишмаевым (ПИК: Лаборатория ИИ)
Новый выпуск с Артуром Ишмаевым — руководителем направления по искусственному интеллекту в компании ПИК.
💡Что обсудили:
🔵Как происходит внедрение ИИ-решений в крупной компании
🔵Почему открытость к инновациям — ключевой фактор успеха
🔵Какие практические результаты…
💡Что обсудили:
🔵Как происходит внедрение ИИ-решений в крупной компании
🔵Почему открытость к инновациям — ключевой фактор успеха
🔵Какие практические результаты…
В проекте «Лаборатория Вдохновения» нам всегда интересны люди, которые меняют реальность и вдохновляют своим примером!
В новом выпуске Елена Звонарёва обсудила применение ИИ в строительстве с Артуром Ишмаевым — руководителем направления по искусственному интеллекту в компании ПИК.
Узнайте, как технологии меняют одну из самых консервативных отраслей уже сегодня!
#ЛабораторияВдохновения #Буквы_ИИ #ИскусственныйИнтеллект #ПИК
Please open Telegram to view this post
VIEW IN TELEGRAM
5⚡9👍6❤4🔥1👏1