Data Science by ODS.ai 🦜
46.4K subscribers
624 photos
72 videos
7 files
1.72K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Forwarded from Machinelearning
⚡️ Новые разработки команды FAIR в области ИИ.

Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:

🟢Motivo - базовая модель для управления виртуальными воплощенными агентами.

Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
🟡Paper 🟡Demo 🟡Github

🟢Video Seal - система для нанесения водяных знаков на видео.

Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
🟡Paper 🟡Demo 🟡Github

🟢Flow Matching - генеративная парадигма для множества модальностей.

Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
🟡Paper 🟡Github

🟢Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума.

Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
🟡Paper 🟡Github 🟡Dataset

🟢Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию.

Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
🟡Paper 🟡Github

🟢Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации.

DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
🟡Paper 🟡Github

🟢Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей.

Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
🟡Paper 🟡Github

🟢EvalGym - библиотека для оценки text-to-image моделей.

Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
🟡Paper 🟡Github

🟢CLIP 1.2 - улучшенная версия vision-language энкодера.
🟡Paper 🟡Github 🟡Dataset 🟡Model


@ai_machinelearning_big_data

#AI #ML #FAIR #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥651
The final day of the “12 Days of OpenAI” kicks off in just 40 minutes, culminating in an exciting live stream featuring:

> Sam Altman, CEO of OpenAI
> Mark Chen, Head of Frontier Research
> Hongyu Ren, creator of OpenAI o1-mini and a key contributor to GPT-4o mini.

Don’t miss this unique opportunity to learn about the latest advancements and future plans from OpenAI.

📺 Watch the live stream here: https://www.youtube.com/live/SKBG1sqdyIU

@opendatascience
3👍3
New o3 OpenAI model is changing the game!

For a long time, ARC was seen as proof that AI models “can’t think.” The argument went: if they truly could, why do they perform so poorly on this benchmark?

Well, those days are over. The o3 model demonstrates not only the ability to think but also the capability to tackle tasks once considered out of reach.

👀 Check out the full breakdown of this breakthrough: https://arcprize.org/blog/oai-o3-pub-breakthrough

It might be time to rethink what AI can achieve. Looking forward to the release!

@opendatascience
🔥13👍115🎉21🤔1
Forwarded from Machinelearning
🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh



🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥74
Forwarded from AbstractDL
Как выкинуть из трансформера все нелинейности и причём тут приватность?

Вы задумывались, насколько безопасно задавать «приватные» вопросы в чатГПТ? Где продать чужую почку и т.п. Наверняка же создатели сервиса имеют доступ к вашему запросу? Невозможно же его прогнать через GPT в зашифрованном виде? На самом деле возможно! Есть алгоритмы «приватного инференса LLM», которые позволяют зашифровать запросы юзера даже от языковой модели, а ответ уже возможно расшифровать только на клиенте пользователя. Пока не буду углубляться, как именно это сделано, скажу только, что ГЛАВНАЯ головная боль таких криптографических протоколов — нелинейности в трансформерах, их тяжело обрабатывать в зашифрованном виде и приходится прибегать к сложнейшим итерационным схемам, раздувающим объём коммуникации в тысячи раз. Выходит, что на генерацию одного токена нужно несколько минут и десятки гигабайтов трафика! Поэтому никто это пока не делает в продакшне, и лучше не спрашивайте у чатгпт, где спрятать труп.

Но помните? У меня была статья про то, что не так уж и нужны нелинейности в трансформерах. Преобразования эмбеддингов от слоя к слою на 99% линейные. Так вот в свежей статье «Entropy-Guided Attention for Private LLMs» авторы попробовали обучить LLM совсем без нелинейностей (оставив только софтмакс). То есть они убрали активации из FF и заменили LayerNorm на линейный аналог. По сути, если бы не этэншн, то трансформер вообще схлопнулся бы в полностью линейную модель и отупел до уровня логистической регрессии.

При такой жёсткой "линеаризации" архитектуры пришлось всего лишь добавить несколько трюков для стабилизации обучения и ШОК: модель нормально обучилась! Небольшие потери в качестве есть, но это крошечная цена за такое упрощение трансформера.

Теперь ждём, что скоро появится нормальное асинхронное шифрование для LLM и OpenAI не узнает, что я спрашиваю у чатгпт и насколько я туп на самом деле.

P.S. Статья классная, но немного обидно, что авторы нас не процитировали.

Статья, GitHub (пустой)
11👍6🔥1
Forwarded from Machinelearning
🔥 Sky-T1-32B-Preview 32B - 450$ - это все, что вам нужно, чтобы обучить свою собственную O1 🌟

Модель достигает конкурентоспособных результатов в рассуждениях и кодинге, 82.4 в Math500, 86.3 в LiveCode-East по сравнению с QwQ (85.4, 90.7) и o1-preview (81.4, 92.9) 🎓

Это новая O1 - подобная модель с открытым исходным кодом, обученная за < 450$, полностью открытый исходный код, 17K обучающих данных, , модель превосходит Qwen-2.5-32B-Instruct по всем бенчмаркам 💥

🤗HF: https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

@ai_machinelearning_big_data


#llm #ml
👍18🔥105
📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude!

🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍174🔥2
The reason why AI got trending
24😁10👍4🤔3
Forwarded from Machinelearning
🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

📕 Paper

#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍104😁2
🖥 CUDA C++ programming guide by nvidia

Must read and absolute banger of 500 pages.

📕 book

@opendatascience

#nvidia #cuda #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13👍118🔥2
GPT-3 token embeddings have dimensions in the range of 4,096 to 12,288 (for larger models).

Linguists estimate that basic conversational fluency requires knowing 2,000 to 3,000 words, while an educated speaker may know 20,000 to 40,000 words.

It makes so much sense.
🤡10😁4🔥3🤔2👍1👌1
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper submitted by #DeepSeek team has generated significant attention in the AI community.

This work addresses the enhancement of reasoning capabilities in Large Language Models (LLMs) through the application of reinforcement learning techniques. The authors introduce a novel framework, DeepSeek-R1, which aims to improve LLM reasoning abilities by incorporating incentives for logical reasoning processes within their training. This integration of reinforcement learning allows LLMs to go beyond basic linguistic processing, developing sophisticated reasoning methods that can boost performance across a wide array of complex applications.

This approach has cause lots of discussions in different communities, but it definitely opens up the whole new direction of development for the research.

Source: https://arxiv.org/abs/2501.12948

#nn #LLM

@opendatascience
👍246