AI LAB | Лаборатория ИИ
1.76K subscribers
634 photos
437 videos
23 files
905 links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

По всем вопросам 24/7
@arthiteca

Вопросы сотрудничества и соучастия
@j_fede
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
#эксперименты
играюсь с генераторами
53👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Новейшая ИИ-модель Claude 3.7 Sonnet может на ходу генерировать игры. Её попросили создать платформер о космосе, и она выдала 3200 строк кода — результат на видео.

Игровые разработчики идут на завод
🤯2😱2
This media is not supported in your browser
VIEW IN TELEGRAM
#эксперименты
делаю генератор планировок вместе с Claude
🐳4🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
#эксперименты
делаю интерактивные эффекты с Claude
4🦄2
Forwarded from NN
Microsoft Copilot открыли для всех пользователей Voice и Think Deeper. Инструменты на базе модели OpenAI o1 теперь бесплатные и вообще без ограничений.

Голосовой режим Voice знает русский язык, можно задавать любые вопросы или использовать для изучения язков.

Think Deeper включает бесконечное размышление — ИИ будет перепроверять ответ на запрос, пока он не станет максимально точным.

Забираем по ссылке.
👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Всего 3 дня с тех пор, как вышел Claude 3.7 Sonnet и уже столько крутых результатов и экспериментов
Вот примеры: симулятор 3D-города
🤯3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Клон minecraft за 1 промт 🤯🤯🤯
🤯4👍1
#вкопилкуэрудита
В архитектуре Transformer к каждому эмбеддингу токена добавляется позиционный эмбеддинг (Positional Embedding) . Это позволяет модели знать позиции токенов в исходном тексте, как абсолютные, так и относительные. Позиции слов играет важную роль при передаче смысла исходного текста. Они имеют ту же размерность что и эмбеддинг токена. Они вычисляются с помощью синусоидальных функций. На рисунке схема, чтобы понять, как это работает.

Почему они вычисляются именно так?

Такое математическое представление позволяет описывать положение элементов оставаясь в пределах значений от -1 до 1 и при этом условно без ограничений максимальной позиции (ограничение все же есть и оно зависит от размерности эмбеддингов).

Пример позиционного кодирования, иллюстрирующий ПОДХОД - двоичная система исчисления, где комбинация символов "0" и "1" могут иллюстрировать уникальные представления.
🤔4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Процесс диффузии в новой моделе LlaDa (первая языковая диффузионная модель)
🔥32
#пытаюсьпонять
Память трансформеров: почему размер имеет значение?
Трансформеры — мощные модели, но их память ограничена. Механизм внимания требует O(n^2)
памяти, где n
— длина текста. Чем длиннее контекст, тем больше ресурсов нужно: для 4096 токенов это уже серьезная нагрузка! А что за пределами? Ничего — классические трансформеры "забывают" все, что не помещается ...
Решения вроде Sparse Attention или внешней памяти спасают ситуацию, но идеала пока нет. С человеком не сравниться...
🤔32
This media is not supported in your browser
VIEW IN TELEGRAM
Появился AI BIM асситсент для Revit - Pele AI

AI помощник понимает инструкции на простом языке.

Pele AI анализирует запрос, определяет необходимые шаги, а затем выполняет задачу в Revit. Если команда неясна или слишком сложна, программное обеспечение попытается выполнить ее повторно. Если он все еще не может выполнить задачу, он уведомит пользователя и предложит, что уточнение ввода может улучшить результаты.
https://www.pele-assistant.online/
3👍3
Media is too big
VIEW IN TELEGRAM
MeshPad
позволяет интерактивно создавать и редактировать mesh геометрию с помощью эскизов
https://derkleineli.github.io/meshpad/
👍4🔥2
Forwarded from Нейросеть
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Google анонсировал "AI Mode" — новую вкладочку в поиске, которая заменит весь Perplexity AI и ChatGPT Search.

Функция одновременно запускает несколько связанных поисков по разным источникам, позволяет задавать сложные многосоставные вопросы и продолжать диалог уточняющими запросами. Работает на специальной версии Gemini 2.0.

По статистике Google, пользователи уже задают запросы вдвое длиннее обычных и в 25% случаев продолжают диалог дополнительными вопросами.
🔥52
This media is not supported in your browser
VIEW IN TELEGRAM
#вкопилкуэрудита
Graphormer и его эмбеддинги.

Graphormer — это архитектура трансформеров, специально адаптированная для работы с графами. В отличие от LLM, таких как GPT, которые обрабатывают последовательности токенов, Graphormer предназначен для обработки графовых структур. А графы очень подходят для описания векторных данных.

Про эмбеддинги граформера.
В отличие от LLM, где эмбеддинги кодируют текстовую информацию и позицию их в контексте, в граформере они представлены в 3 видах:
1. Node embeddings – кодируют каждую вершину графа, тут могут кодироваться характеристики вершин и их атрибуты
2. Edge embeddings – кодируют связи между вершинами, тут может бить тип связи, также атрибудты связи
3. Spatial embeddings – кодируют относительное положение узлов в графе

Помимо этих, в некоторых присутствуют и другие типы эмбеддингов
- Degree Embeddings - кодирует количество соседей у вершины
- Centrality Embeddings - кодирует значимость узлов

Граформер использует Attention Bias — механизм, который добавляет корректирующие коэффициенты в стандартный self-attention
🔥3👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Программисты исчезнут к 2026 году. Глава ИИ-компании Anthropic подарившей нам Claude Дарио Амодей считает, что айтишники вымрут через год, т.к. нейронки будут генерировать весь код.

🤔 — Тревожно / 😁 — Ага, конечно
😁162👍2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Иллюстрация механизма внимания в Transformer. Каждое слово (или токен) может относиться к разным частям последовательности по-разному в зависимости от выбранного измерения
👍4
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
В alphaXiv теперь можно создавать красивые конспекты статей с помощью одной кнопки

Помните, мы рассказывали про то, что в проект AlphaXiv (зеркало архива) добавили бесплатный чат с Gemini 2 Flash, которая объяснит вам любой текст и ответит на вопросы?

Так вот теперь ребята, видимо, решили окончательно захватить нишу и релизнули тулзу для создания полноценных конспектов по статьям с картинками и наглядными объяснениями. При этом о галлюцинациях можно не переживать: для точности обработки изображений прикрутили новый хайповый Mistral OCR, а объянения генерирует свежий Claude 3.7.

Все, что надо сделать – перейти на страницу нужной статьи и нажать "blog". А в чате с ботом-объяснятором, кстати, теперь можно общаться и задавать вопросы голосом 🔥

Пробуйте: www.alphaxiv.org
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
#пытаюсьпонять
Память АИ Агента
Память агента — это контекст, который передаётся в LLM через подсказку (prompt). Она помогает агенту учитывать предыдущие взаимодействия и данные, которые в данный момент недоступны.

Память можно разделить на следующие типы:
1. Эпизодическая память – хранит прошлые взаимодействия и действия агента. После выполнения действия система записывает его в постоянное хранилище (например, векторную базу данных), чтобы в будущем можно было извлечь и использовать этот опыт.
2. Семантическая память – содержит внешнюю информацию, доступную агенту, а также его “внутренние” знания. Это можно представить как контекст в RAG (Retrieval-Augmented Generation): например, справочные данные, документация или специализированные сведения, которые помогают агенту давать точные ответы.
3. Процедурная память – включает системную информацию: структуру системных подсказок (prompts), доступные инструменты, ограничения безопасности и другие настройки работы агента. Обычно она хранится в Git-репозиториях или конфигурационных файлах.
4. Оперативная память – временное хранилище информации, извлекаемой из долговременной памяти, если она нужна для выполнения текущей задачи.
5. Рабочая (кратковременная) память – включает всю информацию, собранную из долговременной и оперативной памяти, которая затем используется для формирования финальной подсказки (prompt) перед отправкой в LLM. Она определяет, какие действия агент выполнит далее.

Обычно эпизодическая, семантическая и процедурная память относятся к долговременной, а рабочая память – к кратковременной.
Обычно эпизодическая, семантическая и процедурная память относятся к долговременной памяти, а оперативная – к кратковременной.

Все зависит от того, как вы спроектируете архитектуру агентной системы. Грамотное управление памятью позволяет агенту лучше планировать и адаптироваться к задачам.
👍31
Forwarded from vc.ru
This media is not supported in your browser
VIEW IN TELEGRAM
Пока в соцсетях обсуждали китайского ИИ-агента Manus, OpenAI выпустила инструменты для создания «самостоятельных» ИИ-помощников на базе Operator и GPT-4o.

В заметке собрали отзывы, инструкции разработчиков и примеры компаний, которые уже запустили своих ИИ-агентов

vc.ru/ai/1862076
👍31
Forwarded from NN
AirPods могут получить функцию синхронного перевода. Можно будет разговаривать с иностранцами на любых языках и понимать их.

В момент разговора понадобятся AirPods и iPhone. Смартфон будет автоматически улавливать речь, переводить ее и отдавать обратно в наушники.

По словам Марка Гурмана, новая функция может появиться уже в конце года, вместе с выходом iOS 19.
👍4👏1