This media is not supported in your browser
VIEW IN TELEGRAM
🌆 AI system to generate 3D worlds from a single image. Check out some early results on our site, where you can interact with our scenes directly in the browser!
World Labs aims to address the challenges many creators face with existing genAI models: a lack of control and consistency. Given an input image, our system estimates 3D geometry, fills in unseen parts of the scene, invents new content so you can turn around, and generalizes to a wide variety of scene types and artistic styles.
Most generative models predict pixels. Predicting a 3D scene instead has many benefits: the scene won’t change if you look away and come back, and it obeys the basic physical rules of 3D geometry. The simplest way to visualize the 3D scene is a depth map, where each pixel is colored by its distance to the camera.
https://worldlabs.ai/blog
@opendatascience
World Labs aims to address the challenges many creators face with existing genAI models: a lack of control and consistency. Given an input image, our system estimates 3D geometry, fills in unseen parts of the scene, invents new content so you can turn around, and generalizes to a wide variety of scene types and artistic styles.
Most generative models predict pixels. Predicting a 3D scene instead has many benefits: the scene won’t change if you look away and come back, and it obeys the basic physical rules of 3D geometry. The simplest way to visualize the 3D scene is a depth map, where each pixel is colored by its distance to the camera.
https://worldlabs.ai/blog
@opendatascience
👍8🔥7❤5🥰2
10 лет как Яндекс внедрил нейросети в Поиск — история развития 🔥
> Первые нейронные сети для поиска похожих картинок в декабре 2014
> Применение нейросетей для улучшения поиска по картинкам по текстовым запросам в 2015
> Палех и Королёв для ранжирования текстов в 2016-2017
> Применение нейросети в машинном переводе в 2017
> Тяжёлая нейронная сеть YATI с рекордным улучшением качества в 2020
> Нейро с VLM для работы с текстом и изображениями в 2024
Вообще, первые эксперименты с нейросетями начались с пробок (2012) и речи (2013), а сегодня это основа поисковых технологий 🚀
От экспериментальных решений до технологий, меняющих то, как мы ищем информацию каждый день.
https://habr.com/ru/companies/yandex/news/863768/
@opendatascience
> Первые нейронные сети для поиска похожих картинок в декабре 2014
> Применение нейросетей для улучшения поиска по картинкам по текстовым запросам в 2015
> Палех и Королёв для ранжирования текстов в 2016-2017
> Применение нейросети в машинном переводе в 2017
> Тяжёлая нейронная сеть YATI с рекордным улучшением качества в 2020
> Нейро с VLM для работы с текстом и изображениями в 2024
Вообще, первые эксперименты с нейросетями начались с пробок (2012) и речи (2013), а сегодня это основа поисковых технологий 🚀
От экспериментальных решений до технологий, меняющих то, как мы ищем информацию каждый день.
https://habr.com/ru/companies/yandex/news/863768/
@opendatascience
👍23❤3🤡2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Introducing DeepThought-8B: Transparent reasoning model built on LLaMA-3.1 with test-time compute scaling.
- JSON-structured thought chains & controllable inference paths.
- ~16GB VRAM, competitive w/ 70B models.
- Open model weights, and inference scripts.
https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha
@opendatascience
- JSON-structured thought chains & controllable inference paths.
- ~16GB VRAM, competitive w/ 70B models.
- Open model weights, and inference scripts.
https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha
@opendatascience
🔥8❤5👍5❤🔥2
Forwarded from Научный опенсорс (Nikolay Nikitin)
Мы много рассказываем про свои проекты, связанные с центром ИИ, но вообще в ИТМО довольно много интересного опенсорса и у других подразделений и лабораторий.
Поэтому решили сделать небольшую подборку тематических разделов. В качестве затравки - 10 github-организаций:
1) aimclub - объединение открытых ИИ-инструментов за авторством сообщества AIM Университета ИТМО.
Ссылки: сайт.
Примеры проектов: FEDOT, BAMT, GOLEM, GEFEST, rostok, iOpt.
2) itmo-nss-team - R&D-проекты NSS Lab в области ИИ
Ссылки: сайт, tg, youtube, colab.
Примеры проектов: EPDE, torch_DE_solver.
3) Industrial-AI-Research-Lab - проекты лаборатории промышленного ИИ.
Примеры проектов: rec4u.
4) AI-chem - проекты центра "ИИ в Химии".
Примеры проектов: GEMCODE, Nanomaterial_Morphology_Prediction.
Ссылки: сайт, tg.
5) BE2RLAB - проекты лаборатории биомехатроники и энергоэффективной робототехники.
Примеры проектов: OpenSemanticMapping
6) airalab - проекты лаборатории мультиагентных систем в умных городах и индустрии 4.0.
Примеры проектов: robonomics.
Ссылки: сайт.
7) swarmtronics - проекты лаборатории посвящены моделированию роев, состоящих из простых роботов, способных к самоорганизации и выполнению сложных задач.
Примеры проектов: AMPy, swarmodroid
Ссылки: сайт.
8) СTLab-ITMO и CTLab (старый репозиторий) - проекты учебно-научной лаборатории компьютерных технологий .
Примеры проектов: fgsea, GADMA, samovar, metafast, VGLib.
Ссылки: tg.
9) LISA-ITMO - проекты учебно-научной лаборатории LISA
Примеры проектов: edylytica.
Ссылки: tg.
10) ITMO-MMRM-lab - проекты из области биологии от лаборатории MMRM.
Наверняка про кого-то не знаем, поэтому если владеете информацией - пишите в комментарии.
Поэтому решили сделать небольшую подборку тематических разделов. В качестве затравки - 10 github-организаций:
1) aimclub - объединение открытых ИИ-инструментов за авторством сообщества AIM Университета ИТМО.
Ссылки: сайт.
Примеры проектов: FEDOT, BAMT, GOLEM, GEFEST, rostok, iOpt.
2) itmo-nss-team - R&D-проекты NSS Lab в области ИИ
Ссылки: сайт, tg, youtube, colab.
Примеры проектов: EPDE, torch_DE_solver.
3) Industrial-AI-Research-Lab - проекты лаборатории промышленного ИИ.
Примеры проектов: rec4u.
4) AI-chem - проекты центра "ИИ в Химии".
Примеры проектов: GEMCODE, Nanomaterial_Morphology_Prediction.
Ссылки: сайт, tg.
5) BE2RLAB - проекты лаборатории биомехатроники и энергоэффективной робототехники.
Примеры проектов: OpenSemanticMapping
6) airalab - проекты лаборатории мультиагентных систем в умных городах и индустрии 4.0.
Примеры проектов: robonomics.
Ссылки: сайт.
7) swarmtronics - проекты лаборатории посвящены моделированию роев, состоящих из простых роботов, способных к самоорганизации и выполнению сложных задач.
Примеры проектов: AMPy, swarmodroid
Ссылки: сайт.
8) СTLab-ITMO и CTLab (старый репозиторий) - проекты учебно-научной лаборатории компьютерных технологий .
Примеры проектов: fgsea, GADMA, samovar, metafast, VGLib.
Ссылки: tg.
9) LISA-ITMO - проекты учебно-научной лаборатории LISA
Примеры проектов: edylytica.
Ссылки: tg.
10) ITMO-MMRM-lab - проекты из области биологии от лаборатории MMRM.
Наверняка про кого-то не знаем, поэтому если владеете информацией - пишите в комментарии.
🔥9❤1
Forwarded from Machinelearning
Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.
Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.
Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.
Начальный уровень
Средний уровень
Продвинутый уровень
Приложение: За пределами стандартных подсказок
@ai_machinelearning_big_data
#AI #ML #LLM #Github #Tutorial #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4🔥2
Forwarded from Анализ данных (Data analysis)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤7🍓3
Forwarded from Machinelearning
Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.
Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.
Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.
⚠️ Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только пример инференса на Transformers.
@ai_machinelearning_big_data
#AI #ML #MMLM #Apollo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5❤2
⚡️ Byte Latent Transformer: Patches Scale Better Than Tokens
Byte Latent Transformer architecture (BLTs), a new byte-level LLM architecture that for the first time, matches tokenization-based LLM performance at scale, with significant improvements in inference efficiency and robustness.
BLT encodes bytes into dynamically sized patches, which serve as the primary units of computation. Patches are segmented dynamically based on the entropy of the next byte, allocating more compute and model capacity where there is more data complexity.
The BLT architecture includes new attention mechanisms to maximize the information flow between byte and patch hidden representations and a new type of byte-sequence memory. We present the first scaling study of byte-level models up to 8B parameters and 8T training bytes, showing for the first time that we can train a model end-to-end at scale from bytes with no tokenization or other preprocessing. Scaling trends reveal training and inference efficiency benefits from dynamically selecting very long patches on average, along with qualitative improvements with reasoning and long tail generalization from modeling byte-sequences.
🖥 Github: https://github.com/facebookresearch/blt
📕 Paper: https://arxiv.org/abs/2412.09871v1
🌟 Dataset: https://paperswithcode.com/dataset/mmlu
@opendatascience
Byte Latent Transformer architecture (BLTs), a new byte-level LLM architecture that for the first time, matches tokenization-based LLM performance at scale, with significant improvements in inference efficiency and robustness.
BLT encodes bytes into dynamically sized patches, which serve as the primary units of computation. Patches are segmented dynamically based on the entropy of the next byte, allocating more compute and model capacity where there is more data complexity.
The BLT architecture includes new attention mechanisms to maximize the information flow between byte and patch hidden representations and a new type of byte-sequence memory. We present the first scaling study of byte-level models up to 8B parameters and 8T training bytes, showing for the first time that we can train a model end-to-end at scale from bytes with no tokenization or other preprocessing. Scaling trends reveal training and inference efficiency benefits from dynamically selecting very long patches on average, along with qualitative improvements with reasoning and long tail generalization from modeling byte-sequences.
🌟 Dataset: https://paperswithcode.com/dataset/mmlu
@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2⚡1🔥1
Forwarded from Machinelearning
Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:
Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
@ai_machinelearning_big_data
#AI #ML #FAIR #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6❤5⚡1
YouTube
OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12
Sam Altman, Mark Chen, Hongyu Ren, and special guest Greg Kamradt, President of ARC Prize Foundation, introduce and discuss OpenAI o3, o3-mini, along with a call for safety testing and a new alignment strategy for o-series models.
The final day of the “12 Days of OpenAI” kicks off in just 40 minutes, culminating in an exciting live stream featuring:
> Sam Altman, CEO of OpenAI
> Mark Chen, Head of Frontier Research
> Hongyu Ren, creator of OpenAI o1-mini and a key contributor to GPT-4o mini.
Don’t miss this unique opportunity to learn about the latest advancements and future plans from OpenAI.
📺 Watch the live stream here: https://www.youtube.com/live/SKBG1sqdyIU
@opendatascience
> Sam Altman, CEO of OpenAI
> Mark Chen, Head of Frontier Research
> Hongyu Ren, creator of OpenAI o1-mini and a key contributor to GPT-4o mini.
Don’t miss this unique opportunity to learn about the latest advancements and future plans from OpenAI.
📺 Watch the live stream here: https://www.youtube.com/live/SKBG1sqdyIU
@opendatascience
✍3👍3
New o3 OpenAI model is changing the game!
For a long time, ARC was seen as proof that AI models “can’t think.” The argument went: if they truly could, why do they perform so poorly on this benchmark?
Well, those days are over. The o3 model demonstrates not only the ability to think but also the capability to tackle tasks once considered out of reach.
👀 Check out the full breakdown of this breakthrough: https://arcprize.org/blog/oai-o3-pub-breakthrough
It might be time to rethink what AI can achieve. Looking forward to the release!
@opendatascience
For a long time, ARC was seen as proof that AI models “can’t think.” The argument went: if they truly could, why do they perform so poorly on this benchmark?
Well, those days are over. The o3 model demonstrates not only the ability to think but also the capability to tackle tasks once considered out of reach.
👀 Check out the full breakdown of this breakthrough: https://arcprize.org/blog/oai-o3-pub-breakthrough
It might be time to rethink what AI can achieve. Looking forward to the release!
@opendatascience
🔥13👍11❤5🎉2⚡1🤔1
Forwarded from Machinelearning
DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.
Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.
Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.
Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.
Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.
Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.
Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.
Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.
Для локального инференса потребуются модели:
# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab
# Create conda env
conda env create -f environment.yaml
conda activate DepthLab
# Run inference
cd scripts
bash infer.sh
@ai_machinelearning_big_data
#AI #ML #DepthLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥7❤4