AI для Всех
12.8K subscribers
1.21K photos
162 videos
11 files
1.41K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Top-10% статьей, которые скачали в 2022 году (в журнале JGR: Solid Earth).

Сегодня получил неожиданную ачивку (особенно учитывая, что на дворе середина 2024 года).

Оказывается, моя статья про разделение сейсмических сигналов вошла в топ 10% самый скачиваемых статьей в журнале JGR: Solid Earth.

Суть статьи заключается в следующем:

Мы адаптировали метод разделения сигналов Dual-Path Recurrent Neural Network (DPRNN), изначально предложенный для обработки речи, для применения к сейсмическим данным.
Обучив нейросеть на датасете STEAD, мы продемонстрировали возможность: (a) очистки сейсмических записей от шума (denoising) (b) разделения нескольких наложенных друг на друга сейсмических сигналов (source separation)
Такое разделение сигналов на одноканальных записях может найти применение во многих задачах сейсмологии - анализе афтершоков, seismo-acoustics, ambient томографии и др.

Мы показали, что машинное обучение способно успешно разделять сигналы даже в случае их значительного перекрытия по времени и частоте, когда традиционные подходы неэффективны.

📖 Статья
🖥 Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Чайник из Юты

Сегодня, хочу вам рассказать про любопытнейший артифакт, который я на днях заметил в Музее Истории Компьютеров (Mountain View, CA).

Чайник из Юты, также известный как чайник Ньюэлла, является важной частью компьютерной графики. Созданный в 1975 году Мартином Ньюэллом, аспирантом из Университета Юты, он послужил универсальной тестовой моделью для ранних алгоритмов рендеринга.

Его выбор был обусловлен геометрической сложностью и узнаваемостью. За годы своего существования "Чайник из Юты" стал символическим эталоном, иллюстрирующим прогресс от простых wireframe моделей до современных сложных, фотореалистичных 3D-рендерингов.

Чайник из Юты до сих пор остается культовой эмблемой в сообществе цифровой визуализации, символизируя пересечение технических инноваций и художественного выражения.

Обязательно сходите в этот музей! Там много всего интересного
Случайно проходил мимо

В окрестностях Open AI - островок нормальности по средине Mission district.

Вайб тут такой. А в нашей реальности происходит мрак.

📍Карта
🎧 Soundtrack
YOLO-World: обнаружение объектов в реальном времени без ограничений по категориям (почти)
 
Уже два месяца, как YOLO-World среди нас, но у меня только сейчас до нее дошли руки.
YOLO знаменитая серия детекторов которым достаточно "взглянуть только один раз", чтобы найти нужный объект. Одно «но» - их надо было обучать и дообучать заранее предопределенным категориям. В Tencent AI Lab объявили, что нашли способ обойти это ограничение.
 
Секрет в RepVL-PAN - перепараметризуемой сети агрегации зрительно-языковых путей для создания пирамиды признаков. Текстовые эмбеддинги могут быть перепараметризованы в веса сверточных или линейных слоев во время деплоймента.
 
Звучит классно, ведь больше не нужно собирать свой датасет. Проверила на рабочих картинках и загрустила: YW не может zero-short обнаружить ничего на лабораторных снимках… И на рентгене не нашла даже костей. Поэтому пока оставлю кастомную YOLOv8.
 
Если вам пригодилось, поделитесь? Может, кто-то, напр, трещины в бетоне детектил

👾Github
📖Paper
🎬Official
🤗Hf
OpenAI только что релизнули старую версию GPT-3.5 на Hugging Face

В Америке сейчас Пасха, и у многих сотрудников отпуска и выходные. OpenAI, видимо в преддверии релиза GPT-5, выложили в открытый доступ веса GPT-3.5. Ждём подробностей от сообщества.

🤗 веса
На канале 3Blue1Brown вышло видео объясняющее что же такое GPT. Очень приятное.
Я выставил в настройках русские субтитры, и мне стало еще понятнее :)

https://www.youtube.com/watch?v=wjZofJX0v4M
Международный онлайн саммит про разработку в сфере ИИ

Лучшие практики для разработчиков, ресерчеров, дата сайентистов, техлидов и фаундеров – от ведущих мировых экспертов из индустрии ИИ.

Выступят спикеры из:
Microsoft (команда PromptFlow)
D-ID
Aisera
Spectrm
Lightricks
Wrike
и других компаний-лидеров, которые прямо сейчас создают будущее искусственного интеллекта.

На саммите обсудят темы:
— How to build scalable GenAI Apps using prompts
— Data-driven approaches to personalizing AI Agents
— Crafting AI agents with a natural user interface
— Building robust & scalable AI-powered chatbots;
— The reality of being an AI Founder in 2024
— How Later Stage Companies Adopted AI
— Creating your own corporate-secured "ChatGPT" with almost zero specific knowledge
— Fine-tuning strategies for adapting pre-trained AI Agents to specific use cases,
и многое другое!

Конференция пройдет в ОНЛАЙН формате 1617 апреля на английском языке 🌎

Участникам будут доступны презентации, материалы воркшопов и записи, а также доступ в нетворкинг-чат.

Скидка 1️⃣0️⃣ % по промо-коду — osHMmof

Регистрация через VPN

#реклама
Друзья, у меня не хватает сил писать прям посты, так что мы временно попробуем формат Just Links 🔗.

Начнем тут:

https://x.com/anthropicai/status/1775979799644934281?s=46&t=LyC3cTf6saYBOGwroEuLcg
​​Астрологи объявили взрывной рост объемов 3D-контента — ситуация стремительно набирает обороты. За конец марта опубликовано 13 статей про генерацию трехмерных объектов из текста и изображений.

SV3D: Stability AI показала новую модель для реконструкции изображения в 3D с высоким разрешением.
LATTE3D от NVIDIA: новый метод преобразования текста в 3D, позволяющий генерировать текстурированные сетки из текста всего за 400 мс.
Isotropic3D: генерация изображения в 3D на основе создания многоракурсных плоских изображений.
MVControl: преобразование текста в 3D с управлением по типу ControlNet (резкость, глубина и т. д.).
Make-Your-3D: преобразование изображения в 3D с возможностью управления генерацией с помощью текстовых подсказок.
MVEdit: поддерживает преобразование текста в 3D, изображения в 3D и 3D в 3D с генерацией текстур.
VFusion3D: преобразование изображения в 3D на базе предварительно обученных моделей видеодиффузии.
GVGEN: преобразование текста в 3D с объемным представлением.
GRM: эффективное преобразование текста в 3D и изображения в 3D за 100 мс.
FDGaussian: преобразование изображения в 3D с предварительной генерацией разных ракурсов в 2D.
Ultraman: преобразование изображения в 3D с упором на человеческие аватары.
Sculpt3D: и снова преобразование текста в 3D.
ComboVerse: преобразование картинок в 3D с комбинированием моделей и созданием сцен.
Не везде доступен код, так что сравнивать сложно, но первые результаты уже есть — пара божественных мезоамериканских нейролягушек.
Как же хочется "анатомически детализированную биомеханическую модель всего тела плодовой мухи Drosophila melanogaster в физическом движке MuJoCo". Держите.

13 ученых (в том числе парочка из ❤️DeepMind❤️) объединились, чтобы собрать "Дрозофила фруктовая"🪰 в Blender, смоделить физику в mujoco, сунуть туда свою модель, подключить нейронки с рлем и заставить реалистично ходить и летать.

Страшно реалистичная Drosophila melanogaster живет тут:

Whole-body simulation of realistic fruit fly locomotion with
deep reinforcement learning

https://www.biorxiv.org/content/10.1101/2024.03.11.584515v1

https://github.com/TuragaLab/flybody
Способность убеждать (ИИ -> человек) масштабируется вместе с размером LLM

Исследователи из Anthropic (создатели Claude), провели исследование, в котором показали что более большие языковые модели намного более способны к тому, что бы с помощью аргументов переубедить человека.

Более того, современные модели справляются с этим примерно так же хорошо, как человек.

Исследование проводили следующим образом:
1. Людям давали какое то утверждение и просили с ним согласиться по некоей бальной шкале (например от 0 до 10).
2. ИИ писал текст, который должен был склонить человека к тому, что бы согласиться с изначальным утверждением
3. Замеряли насколько поменялось мнение человека.

Подробнее в статье
🚨Не учебная тревога, Mistral только что выложили новую модель на торренты!

Файл называется mixtral-8x22b, что позволяет предположить модель MoE (Mixture of Experts) на 176B параметров (если активны все 8 экспертов). Модель весит 281 Гб.

Пока больше никаких подробностей и evals нету. Но в течение следующих суток все узнаем!

X
Forwarded from Neural Shit
Please open Telegram to view this post
VIEW IN TELEGRAM
🥳 У меня сегодня (13 апреля) день рождения

Друзья, сегодня особенный день - мне исполняется 30 лет! И я безумно счастлив встречать этот юбилей, с друзьями и в одном из самых прекрасных мест на Земле - на волшебном острове Мауи (Гавайи)! 🌴🌺

Мы арендовали себе джип, и последние несколько дней катаемся по острову. Мне показалось, что это отличный способ отметить начало нового десятилетия моей жизни! 🚙⛰️

Знаете, я с каждым годом все больше убеждаюсь, что главное - это не только коллекционировать впечатления и расширять горизонты, но и делать это со своим племенем, с близкими по духу людьми. И сегодня, вступая в новую главу своей жизни, я обещаю себе никогда не переставать исследовать этот удивительный мир в компании дорогих мне людей! 🌎🤩

Друзья, я искренне желаю каждому из вас также найти свое вдохновение, свою страсть и наполнять каждый день яркими красками и незабываемыми моментами, где бы вы ни были! 💫 Цените каждое мгновение и помните, что лучшее всегда впереди! 😊

А как вы отмечали свои 30 лет? Делитесь своими историями в комментариях, буду рад почитать! 👇
Шепот на гавайском: языковые модели для улучшения распознавания речи

Знаете ли вы, что слово “wiki”, ставшее символом быстрого доступа к знаниям в интернете, имеет гавайские корни? Оно буквально значит “быстро”. Да, и “Aloha” уже часть мировой культуры. Но носителей гавайского языка становится все меньше, что делает его сохранение важной культурной задачей.

Авторы статьи проверили, можно ли улучшить точность распознавания речи на базе Whisper. Попробовали (не большую) гавайскую языковую модель (RNN с тремя слоями LSTM) для переоценки (rescoring) результатов Whisper.

Они применяли линейную комбинацию логарифмов вероятностей, предсказанных ASR (Whisper) и LM, взвешенных коэффициентом альфа. При применении веса альфа=0,25, результаты показали небольшое (22%->20%), но статистически значимое снижение ошибки распознавания.

Т.е использовать целенаправленно разработанные языковые модели для поддержки малых языков - эффективно. Авторы ожидаемо предлагают проверить трансформеры.

arXiv