Лаборатория ИИ
2.25K subscribers
876 photos
601 videos
25 files
1.07K links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

По всем вопросам 24/7
@arthiteca
Download Telegram
#unrealneural
AI в 2025 году

Это обзор состояния ИИ в 2025 году: что реально улучшилось в возможностях моделей (особенно в кодинге и агентах) и где прогресс оказался менее впечатляющим, чем ожидалось.
В безопасности картина смешанная: модели лучше следуют инструкциям, становятся честнее и более мониторируемыми, но одновременно растут автономность.

Главный вывод - мы живём в режиме «итеративного выравнивания» без чёткой глобальной стратегии, и уже нельзя просто верить метрикам: баланс между ростом возможностей и реальной безопасностью остаётся принципиально неопределённым.

https://www.lesswrong.com/posts/Q9ewXs8pQSAX5vL7H/ai-in-2025-gestalt
2👍2🔥2
#unrealneural
«Что делает ChatGPT...»

На 2023 год GPT всё ещё слабо решал математические задачи. Качественный скачок произошёл только с первой «моделью рассуждений» o1, которая в гораздо большей степени полагалась на обучение с подкреплением (RL), а не на простое масштабирование пре-тренинга.Это наводит на любопытную мысль: язык по своей природе сильно «размыт», одно и то же место в предложении допускает множество «правдоподобных» слов, и именно эта размытость идеально ложится на вероятностную природу LLM. Математика же гораздо жёстче и однозначнее.Получается, что для успеха в такой «жёсткой» области решающим оказался именно RL-компонент, более близкий к правиловому мышлению. А это, в свою очередь, говорит о том, что формальная математика вычислительно проще, чем мы привыкли считать.

https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
👍2🔥1😁1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
MotionV2V

Редактирование видео с помощью ИИ

https://huggingface.co/papers/2511.20640
👍311
#unrealneural
Paper2Slides теперь с открытым исходным кодом

Преобразование исследовательских работ и технических отчётов в профессиональные презентации одним щелчком мыши ⚡️⚡️⚡️

https://github.com/HKUDS/Paper2Slides
5👍31
#unrealneural
Ждем ⚡️⚡️⚡️
👍1🔥1
#unrealneural
Sketch2BIM

MLLM-агенты пошагово интерпретируют ручной чертёж, формируют JSON-структуру помещений, стен, дверей и окон, а затем автоматически пишут скрипты для создания BIM геометрии.

https://arxiv.org/pdf/2510.20838
👍31
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Этот пример удивителен тем, то создания этого симулятора использовалась связка моделей от Google
1. Nano banana для дизайна ux/ui
2. Gemini 3.0 pro для кода

Выглядит очень хорошо, ищу промты для воспроизведения и скину их в комментарии ⚡️⚡️⚡️
4👍42
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Очень отзывается твит Андрея Карпатого про сущности и симуляции.

Всегда представлял LLM и особенно chatGPT этаким Солярисом, где нет "я", а есть "все мы".

Перевел твит:

Не думайте о LLM как о сущностях, думайте как о симуляторах. Например, при изучении темы не спрашивайте:

«Что ты думаешь про xyz»?

Нет никакого «ты». В следующий раз попробуйте:

«Какая группа людей была бы подходящей для изучения xyz? Что бы они сказали?»

LLM может передавать/симулировать многие точки зрения, но она не «задумывалась» о xyz в течение некоторого времени и с течением времени не сформировала собственное мнение так, как мы привыкли. Если вы заставите ее использовать «ты», он даст вам что-то, приняв вектор личности (personality embedding vector), подразумеваемый статистикой его тонкой настройки (implied by the statistics of its finetuning data), а затем смоделирует это. Это нормально, но в этом гораздо меньше мистики, чем люди наивно приписывают «вопросам к ИИ».


https://x.com/karpathy/status/1997731268969304070

@cgevent
👍411
🕶️ Google готовит умные очки на базе Gemini - запуск в 2026 году.

Компания делает две линейки устройств:

• Первая — аудио-очки с динамиками, микрофонами и камерами.
• Вторая — с дисплеями прямо в линзах: навигация, субтитры, подсказки и другие AR-оверлеи.

Первые модели выйдут в 2026 году в партнёрстве с Samsung, Warby Parker и Gentle Monster.

Очки работают на Android XR — единой системе для очков и шлемов, где Gemini “видит” то же, что и пользователь, и даёт ответы с контекстом, а не просто голосовые команды.

bloomberg.com/news/articles/2025-12-08/google-says-first-ai-glasses-with-gemini-will-arrive-in-2026
4👍1🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Finch3d подружился с Nano banana 🙃🤗
😁4👍21
#unrealneural #ЛабораторияИИ
Gemini 3.0 pro и генерация башни сложной формы

вот промпт
Создай башню в 25 этажей. 
1. 1 этаж прямоугольной формы размером 35 на 50 метров.
2. с 1 по 5 этаж форма плавно превращается в прямоугольный треугольник с катетами 35 на 50 метров
3. 6 этаж равен 5 с вырезанным углом в глубину 5 м
4. с 6 по 15 одинаковые этажи
5. с 15 по 17 глубина выреза увеличивается еще на 2 м
6. с 17 по 25 форма этажа плавно меняется в квадрат со сторонами 15 м на 15 м


В комментариях будет obj файл результата генерации
👍3❤‍🔥1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
MoCA

Новый метод sparse attention для композиционной 3D-генерации

https://github.com/lizhiqi49/MoCA
👍311
Media is too big
VIEW IN TELEGRAM
#unrealneural
Qwen3-Omni-Flash

По описанию есть ряд улучшений, но будем проверять ⚡️⚡️⚡️

1. Взаимодействие с аудио- и видеооборудованием: Значительное улучшение усвоения инструкций. Решает проблему «упрощения» в неформальных чатах, обеспечивая безупречную стабильность.
2. Точный контроль: Усовершенствованная система обеспечивает оперативное соответствие определенным типам пользователей, стилям и продолжительности.
3. Многоязычная поддержка: Исправлена ​​нестабильность переключения языков. Теперь поддерживаются 119 языков текста, 19 для распознавания речи и 10 для генерации речи.
4. Речь, похожая на речь человека: адаптивная скорость и просодия. Больше никакого запаздывания — звучит как речь настоящего человека.

https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
21👍1
Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо многие могли пропустить.

Примерно так:

https://gonzoml.substack.com/p/visualizing-research-how-i-use-gemini
17🔥31
Forwarded from Data Secrets
⚡️ Вышла GPT-5.2

– Модель заметно прокачали в кодинге, математике и работе на длинных контекстах и с изображениями. На AIME 25 у нее теперь 100% (GPT-5.1 била 94), а на SWE-bench Verified – 80% (вместо 76.3 у 5.1).

– По бенчмаркам OpenAI упрямо сравнивает свою модель только с ее же предыдущими версиями, игнорируя конкурентов. Но по уровню выглядит даже чуть лучше Gemini 3 Pro.

– В ChatGPT GPT‑5.2 Instant, Thinking и Pro начнут катать уже сегодня, в API доступ открыт. Цена относительно 5.1 и 5 немного повысилась, см последний скрин.

В целом OpenAI как будто действительно постарались на этот раз. Вот что конкуренция творит!

https://openai.com/index/introducing-gpt-5-2/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21