Data Science by ODS.ai 🦜

10 лет как Яндекс внедрил нейросети в Поиск — история развития 🔥

> Первые нейронные сети для поиска похожих картинок в декабре 2014
> Применение нейросетей для улучшения поиска по картинкам по текстовым запросам в 2015
> Палех и Королёв для ранжирования текстов в 2016-2017
> Применение нейросети в машинном переводе в 2017
> Тяжёлая нейронная сеть YATI с рекордным улучшением качества в 2020
> Нейро с VLM для работы с текстом и изображениями в 2024

Вообще, первые эксперименты с нейросетями начались с пробок (2012) и речи (2013), а сегодня это основа поисковых технологий 🚀

От экспериментальных решений до технологий, меняющих то, как мы ищем информацию каждый день.

https://habr.com/ru/companies/yandex/news/863768/

@opendatascience

👍23❤3🤡2🔥1

5.32K views11:01

Data Science by ODS.ai 🦜

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Introducing DeepThought-8B: Transparent reasoning model built on LLaMA-3.1 with test-time compute scaling.

- JSON-structured thought chains & controllable inference paths.
- ~16GB VRAM, competitive w/ 70B models.
- Open model weights, and inference scripts.

https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha

@opendatascience

🔥8❤5👍5❤‍🔥2

5.82K views12:30

Data Science by ODS.ai 🦜

Forwarded from Научный опенсорс (Nikolay Nikitin)

Мы много рассказываем про свои проекты, связанные с центром ИИ, но вообще в ИТМО довольно много интересного опенсорса и у других подразделений и лабораторий.

Поэтому решили сделать небольшую подборку тематических разделов. В качестве затравки - 10 github-организаций:

1) aimclub - объединение открытых ИИ-инструментов за авторством сообщества AIM Университета ИТМО.
Ссылки: сайт.
Примеры проектов: FEDOT, BAMT, GOLEM, GEFEST, rostok, iOpt.

2) itmo-nss-team - R&D-проекты NSS Lab в области ИИ
Ссылки: сайт, tg, youtube, colab.
Примеры проектов: EPDE, torch_DE_solver.

3) Industrial-AI-Research-Lab - проекты лаборатории промышленного ИИ.
Примеры проектов: rec4u.

4) AI-chem - проекты центра "ИИ в Химии".
Примеры проектов: GEMCODE, Nanomaterial_Morphology_Prediction.
Ссылки: сайт, tg.

5) BE2RLAB - проекты лаборатории биомехатроники и энергоэффективной робототехники.
Примеры проектов: OpenSemanticMapping

6) airalab - проекты лаборатории мультиагентных систем в умных городах и индустрии 4.0.
Примеры проектов: robonomics.
Ссылки: сайт.

7) swarmtronics - проекты лаборатории посвящены моделированию роев, состоящих из простых роботов, способных к самоорганизации и выполнению сложных задач.
Примеры проектов: AMPy, swarmodroid
Ссылки: сайт.

8) СTLab-ITMO и CTLab (старый репозиторий) - проекты учебно-научной лаборатории компьютерных технологий .
Примеры проектов: fgsea, GADMA, samovar, metafast, VGLib.
Ссылки: tg.

9) LISA-ITMO - проекты учебно-научной лаборатории LISA
Примеры проектов: edylytica.
Ссылки: tg.

10) ITMO-MMRM-lab - проекты из области биологии от лаборатории MMRM.

Наверняка про кого-то не знаем, поэтому если владеете информацией - пишите в комментарии.

🔥9❤1

6.31K views15:58

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

📌Интерактивное руководство по Prompt Engineering для Ollama.

Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.

Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.

Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.

▶️Содержание:

Начальный уровень

🟢Глава 1: Базовая структура промпта.
🟢Глава 2: Ясность и прямота.
🟢Глава 3: Назначение ролей.

Средний уровень

🟢Глава 4: Отделение данных от инструкций.
🟢Глава 5: Форматы данных инференса и речь для Ollama.
🟢Глава 6: Рассуждение (шаг за шагом).
🟢Глава 7: Использование примеров.

Продвинутый уровень

🟠Глава 8: Избегание галлюцинаций.
🟠Глава 9: Создание сложных промптов (примеры использования для реальных задач):

🟢Сложные промпты с нуля - чатбот;
🟢Сложные промпты с нуля по юридическим услугам;
🟢Упражнение: Сложные промпты для финансовых услуг;
🟢Упражнение: Сложные промпты для программирования.

Приложение: За пределами стандартных подсказок

🟠Цепочка промптов.
🟠Использование инструментов.

📌Лицензирование: MIT License.

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Github #Tutorial #Ollama

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤4🔥2

6.14K views10:01

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🖥

RAGHub — это каталог инструментов, проектов и ресурсов для Retrieval-Augmented Generation (RAG)!

🌟 Проект предлагает информацию о фреймворках, таких как LangChain, Haystack и других, а также о методах оптимизации, инструментах оценки и примерах использования RAG.

🔐 Лицензия: MIT

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤7🍓3

6.31K views11:36

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

1:47

Media is too big

VIEW IN TELEGRAM

🌟 Apollo: семейство мультимодальных моделей для понимания медиаконтента.

Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.

Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.

Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.

▶️ Семейство состоит из трех моделей:

🟢

Apollo 7B

🟢

Apollo 3B

🟢

Apollo 1.5B

⚠️ Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только пример инференса на Transformers.

📌Лицензирование кода : Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Apollo

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥5❤2

4.92K views19:35

Data Science by ODS.ai 🦜

⚡️ Byte Latent Transformer: Patches Scale Better Than Tokens

Byte Latent Transformer architecture (BLTs), a new byte-level LLM architecture that for the first time, matches tokenization-based LLM performance at scale, with significant improvements in inference efficiency and robustness.

BLT encodes bytes into dynamically sized patches, which serve as the primary units of computation. Patches are segmented dynamically based on the entropy of the next byte, allocating more compute and model capacity where there is more data complexity.

The BLT architecture includes new attention mechanisms to maximize the information flow between byte and patch hidden representations and a new type of byte-sequence memory. We present the first scaling study of byte-level models up to 8B parameters and 8T training bytes, showing for the first time that we can train a model end-to-end at scale from bytes with no tokenization or other preprocessing. Scaling trends reveal training and inference efficiency benefits from dynamically selecting very long patches on average, along with qualitative improvements with reasoning and long tail generalization from modeling byte-sequences.

🖥

Github: https://github.com/facebookresearch/blt

📕

Paper: https://arxiv.org/abs/2412.09871v1

🌟 Dataset: https://paperswithcode.com/dataset/mmlu

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2⚡1🔥1

6.01K viewsedited 21:05

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

1:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Новые разработки команды FAIR в области ИИ.

Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:

🟢

Motivo - базовая модель для управления виртуальными воплощенными агентами.

Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.

🟡

Paper

🟡

Demo

🟡

Github

🟢

Video Seal - система для нанесения водяных знаков на видео.

Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.

🟡

Paper

🟡

Demo

🟡

Github

🟢

Flow Matching - генеративная парадигма для множества модальностей.

Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.

🟡

Paper

🟡

Github

🟢

Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума.

Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.

🟡

Paper

🟡

Github

🟡

Dataset

🟢

Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию.

Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.

🟡

Paper

🟡

Github

🟢

Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации.

DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.

🟡

Paper

🟡

Github

🟢

Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей.

Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.

🟡

Paper

🟡

Github

🟢

EvalGym - библиотека для оценки text-to-image моделей.

Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.

🟡

Paper

🟡

Github

🟢

CLIP 1.2 - улучшенная версия vision-language энкодера.

🟡

Paper

🟡

Github

🟡

Dataset

🟡

Model

@ai_machinelearning_big_data

#AI #ML #FAIR #Digest

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥6❤5⚡1

6.75K views12:27

Data Science by ODS.ai 🦜

YouTube

OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12

Sam Altman, Mark Chen, Hongyu Ren, and special guest Greg Kamradt, President of ARC Prize Foundation, introduce and discuss OpenAI o3, o3-mini, along with a call for safety testing and a new alignment strategy for o-series models.

The final day of the “12 Days of OpenAI” kicks off in just 40 minutes, culminating in an exciting live stream featuring:

> Sam Altman, CEO of OpenAI
> Mark Chen, Head of Frontier Research
> Hongyu Ren, creator of OpenAI o1-mini and a key contributor to GPT-4o mini.

Don’t miss this unique opportunity to learn about the latest advancements and future plans from OpenAI.

📺 Watch the live stream here: https://www.youtube.com/live/SKBG1sqdyIU

@opendatascience

✍3👍3

6.62K viewsedited 17:19

Data Science by ODS.ai 🦜

New o3 OpenAI model is changing the game!

For a long time, ARC was seen as proof that AI models “can’t think.” The argument went: if they truly could, why do they perform so poorly on this benchmark?

Well, those days are over. The o3 model demonstrates not only the ability to think but also the capability to tackle tasks once considered out of reach.

👀 Check out the full breakdown of this breakthrough: https://arcprize.org/blog/oai-o3-pub-breakthrough

It might be time to rethink what AI can achieve. Looking forward to the release!

@opendatascience

🔥13👍11❤5🎉2⚡1🤔1

9K views18:45

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

1:25

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.

Для локального инференса потребуются модели:

🟢

Marigold checkpoint;

🟢

Энкодер CLIP-ViT-H-14-laion-2B;

🟢

Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh

🟡

Страница проекта

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #DepthLab

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥7❤4

11.2K views16:20

Data Science by ODS.ai 🦜

Forwarded from AbstractDL

Как выкинуть из трансформера все нелинейности и причём тут приватность?

Вы задумывались, насколько безопасно задавать «приватные» вопросы в чатГПТ? Где продать чужую почку и т.п. Наверняка же создатели сервиса имеют доступ к вашему запросу? Невозможно же его прогнать через GPT в зашифрованном виде? На самом деле возможно! Есть алгоритмы «приватного инференса LLM», которые позволяют зашифровать запросы юзера даже от языковой модели, а ответ уже возможно расшифровать только на клиенте пользователя. Пока не буду углубляться, как именно это сделано, скажу только, что ГЛАВНАЯ головная боль таких криптографических протоколов — нелинейности в трансформерах, их тяжело обрабатывать в зашифрованном виде и приходится прибегать к сложнейшим итерационным схемам, раздувающим объём коммуникации в тысячи раз. Выходит, что на генерацию одного токена нужно несколько минут и десятки гигабайтов трафика! Поэтому никто это пока не делает в продакшне, и лучше не спрашивайте у чатгпт, где спрятать труп.

Но помните? У меня была статья про то, что не так уж и нужны нелинейности в трансформерах. Преобразования эмбеддингов от слоя к слою на 99% линейные. Так вот в свежей статье «Entropy-Guided Attention for Private LLMs» авторы попробовали обучить LLM совсем без нелинейностей (оставив только софтмакс). То есть они убрали активации из FF и заменили LayerNorm на линейный аналог. По сути, если бы не этэншн, то трансформер вообще схлопнулся бы в полностью линейную модель и отупел до уровня логистической регрессии.

При такой жёсткой "линеаризации" архитектуры пришлось всего лишь добавить несколько трюков для стабилизации обучения и ШОК: модель нормально обучилась! Небольшие потери в качестве есть, но это крошечная цена за такое упрощение трансформера.

Теперь ждём, что скоро появится нормальное асинхронное шифрование для LLM и OpenAI не узнает, что я спрашиваю у чатгпт и насколько я туп на самом деле.

P.S. Статья классная, но немного обидно, что авторы нас не процитировали.

Статья, GitHub (пустой)

❤11👍6🔥1

6.05K views20:16

About

Blog

Apps

Platform