Data Science by ODS.ai 🦜
46.4K subscribers
622 photos
72 videos
7 files
1.72K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Forwarded from Machinelearning
⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах

В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.

Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.

В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.


🟡Разбор
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Speech to Speech model - Fish Agent v0.1 3B by FishAudio

> Trained on 700K hours of multilingual audio
> Continue-pretrained version of Qwen-2.5-3B-Instruct for 200B audio & text tokens
> Zero-shot voice cloning
> Text + audio input/ Audio output
> Ultra-fast inference w/ 200ms TTFA

> Models on the Hub & Finetuning code on its way! 🚀

https://huggingface.co/fishaudio/fish-agent-v0.1-3b

@opendatascience
🔥10👍82🥰2🤯1
Nexusflow released Athene v2 72B - competetive with GPT4o & Llama 3.1 405B Chat, Code and Math 🔥

> Arena Hard: GPT4o (84.9) vs Athene v2 (77.9) vs L3.1 405B (69.3)

> Bigcode-Bench Hard: GPT4o (30.8) vs Athene v2 (31.4) vs L3.1 405B (26.4)

> MATH: GPT4o (76.6) vs Athene v2 (83) vs L3.1 405B (73.8)

> Models on the Hub along and work out of the box w/ Transformers 🤗

https://huggingface.co/Nexusflow/Athene-V2-Chat

They also release an Agent model: https://huggingface.co/Nexusflow/Athene-V2-Agent

@opendatascience
👍113🔥3
⚡️ DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!

🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!

🌐 You can try it now: https://chat.deepseek.com

#DeepSeek #llm

@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍2
Forwarded from Machinelearning
⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.


⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.


▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth





🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍74
⚡️ Biggest open text dataset release of the year: SmolTalk is a 1M sample big synthetic dataset that was used to train SmolLM v2.

TL;DR;
🧩 New datasets: Smol-Magpie-Ultra (400K) for instruction tuning; Smol-contraints (36K) for precise output; Smol-rewrite (50K) & Smol-summarize (100K) for rewriting and summarization.
🤝 Public Dataset Integrations: OpenHermes2.5 (100K), MetaMathQA & NuminaMath-CoT, Self-Oss-Starcoder2-Instruct, LongAlign & SystemChats2.0
🥇 Outperforms the new Orca-AgenInstruct 1M when trained with 1.7B and 7B models
🏆 Outperform models trained on OpenHermes and Magpie Pro on IFEval and MT-Bench
distilabel to generate all new synthetic datasets
🤗 Released under Apache 2.0 on huggingface

Apache 2.0

Synthetic generation pipelines and training code released.

Dataset: https://huggingface.co/datasets/HuggingFaceTB/smoltalk
Generation Code: https://github.com/huggingface/smollm
Training Code: https://github.com/huggingface/alignment-handbook/tree/main/recipes/smollm2

@opendatascience
👍155🔥5
Forwarded from Machinelearning
✔️ Stability AI выпустила модели ControlNet для Stable Diffusion 3.5 Large.

Stability AI представила 3 модели ControlNet: Blur, Canny и Depth, которые расширяют возможности Stable Diffusion 3.5 Large. Модели доступны для коммерческого и некоммерческого использования под лицензией Stability AI Community License..

Модель Blur предназначена для апскейла изображений до разрешений 8K и 16K. Canny использует карты границ для структурирования генерируемых изображений. Модель Depth использует карты глубины, созданные DepthFM, для управления композицией изображения.

ControlNet для Stable Diffusion 3.5 Large уже доступны на Hugging Face и поддерживаются в Comfy UI.
stability.ai

✔️ IMAX внедряет ИИ для расширения охвата оригинального контента.

Канадская компания, известная своими огромными кинотеатрами и иммерсивными впечатлениями от просмотра фильмов, объявила о партнерстве со стартапом Camb.ai, базирующимся в Дубае, для использования его моделей речевого ИИ для перевода оригинального контента.

Camb.ai предлагает свою модель Boli для перевода речи в текст и Mars для эмуляции речи. Модели доступны через платформу DubStudio, которая поддерживает 140 языков, включая малые языковые группы. IMAX начнет внедрять переводы на основе ИИ поэтапно, начиная с языков с большим объемом данных.
techcrunch.com

✔️ Anthropic добавила функцию пользовательских стилей в Claude AI.

Новая функция Claude - стиль ответов чат-бота. Обновление доступно для всех пользователей Claude AI и даёт возможность настроить стиль общения или выбрать один из предустановленных вариантов, чтобы быстро изменить тон и уровень детализации.

Пользователям предлагается три предустановленных стиля: формальный для «четкого и отточенного» текста, краткий для более коротких и прямых ответов, и пояснительный для образовательных ответов. Пользователи Claude могут создавать собственные стили, загрузив примеры текстов, отражающих их предпочтительный способ общения.
theverge.com

✔️ Google запустила платформу Health AI Developer Foundations (HAI-DEF) для разработки ИИ в здравоохранении.

Health AI Developer Foundations (HAI-DEF) - публичный ресурс, который должен помочь разработчикам в создании и внедрении моделей ИИ для здравоохранения. HAI-DEF предоставляет разработчикам модели, обучающие блокноты Colab и подробную документацию для поддержки каждого этапа разработки ИИ, от исследований до коммерциализации.

В HAI-DEF входят 3 специализированные модели для медицинской визуализации: CXR Foundation для рентгеновских снимков грудной клетки, Derm Foundation для изображений кожи и Path Foundation для цифровой патологии.
developers.google.com

✔️ Cursor получил обновление с автономными агентами.

Cursor выпустила обновление 0,43, которое обеспечивает частичную автоматизацию написания кода с помощью ИИ-агентов, способных самостоятельно перемещаться по контекстам и выполнять операции в терминале. Обновление позволяет ИИ-агентам реагировать на сообщения об ошибках и принимать автономные решения для устранения проблем. В демонстрации, опубликованной в X, Cursor создает полноценное веб-приложение секундомера с использованием HTML, CSS и JavaScript, включая запуск веб-сервера, все это с помощью одной текстовой подсказки.

Cursor остается бесплатным для загрузки и работает с GPT-4, Claude 3.5 Sonnet и Llama, как локально, так и через API. Платная подписка Pro за 20 долларов в месяц открывает доступ к дополнительным функциям, включая новых ИИ-агентов.
changelog.cursor.sh

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥3
Forwarded from Machinelearning
🌟 cuPyNumeric: замена NumPy от NVIDIA.

По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.

cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.

Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.

Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.

▶️Установка и тест на примере из репозитория:

# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric

# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NumPy #NVIDIA #cuPyNumeric
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥63
Forwarded from Postgres Professional
Что происходит на рынке систем управления базами данных?

Редакция TAdviser подготовила обзор рынка СУБД: результаты разработчиков в 2023 году, обзор новых решений и продуктов, перспективы развития и планы по запуску новых направлений. 

Коротко о главном:

✔️Postgres Professional — лидер рынка СУБД  

✔️Занимаем первое место по количеству представленных в 2023 году новых решений, среди них: встроенный отказоустойчивый кластер BiHA, Postgres Pro Enterprise Manager, распределенная реляционная СУБД Postgres Pro Shardman 

✔️Значительно расширили карту совместимости Postgres Pro — сейчас в ней более 300 решений. Со Скала^р разработали новую версию «Машины баз данных Скала^р МБД.П» на базе сертифицированной СУБД Postgres Pro Enterprise

✔️Внедрили СУБД Postgres Pro в крупнейших компаниях и государственных структурах, среди наших заказчиков: Росатом, ПФР, Газпром, РЖД, ПСБ, Транснефть, Россельхозбанк, Росагролизинг, Федеральное Казначейство

🔖 А еще — специально для обзора Иван Панченко, заместитель генерального директора Postgres Professional, прокомментировал ситуацию с импортозамещением и массовым клонированием опенсорс-систем под видом самостоятельных решений на рынке СУБД. 

Читать обзор рынка TAdviser
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Structured Generation w/ SmolLM2 running in browser & WebGPU 🔥

Powered by MLC Web-LLM & XGrammar

Define a JSON schema, Input free text, get structured data right in your browser - profit!!

To showcase how much you can do with just a 1.7B LLM, you pass free text, define a schema of parsing the text into a GitHub issue (title, description, categories, tags, etc) - Let MLC & XGrammar do the rest!

That's it, the code is super readable, try it out today!

Hf: https://huggingface.co/spaces/reach-vb/github-issue-generator-webgpu
Github: https://github.com/Vaibhavs10/github-issue-generator-webgpu

@opendatascience
👍8🔥41🎉1
Forwarded from Machinelearning
🌟 INTELLECT-1: релиз первой модели децентрализованного обучения.

PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.

PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.

Платформа использовала сеть из 112 GPU H100 на 3 континентах и ​​достигла коэффициента использования вычислений в 96% при оптимальных условиях.

Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.

▶️Технические характеристики:

🟢Parameters: 10B;
🟢Layers: 42;
🟢Attention Heads: 32;
🟢Hidden Size: 4096;
🟢Context Length: 8192;
🟢Vocabulary Size: 128256.

INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.

Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.

▶️Квантованные в GGUF версии INTELLECT-1_Instruct в разрядностях от 3-bit (5.46 GB) до 8-bit(10.9 GB) от сообщества LM Studio.

▶️Пример инференса на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")

input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)

print(output_text)


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей HF
🟡Набор GGUF версий
🟡Техотчет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Decentralizated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍175🔥4
Forwarded from Code Mining (Alexey Smirnov)
LLM-based agents for Software Engineering

В сентябре вышел большой труд от китайских коллег: "Large Language Model-Based Agents for Software Engineering: A Survey".

Статья рассматривает аспекты применения LLM-основанных агентов в разных задачах программной инженерии (скрин). Чего там только нет! Добрая сотня доменных инструментов, которые ещё и сравниваются между собой и идет дискуссия о том как эти вещи принято строить в разных случаях.

Будем смотреть согласно своим интересам и что-нибудь обозревать.

Если вы нашли что-то интересненькое — делитесь в комментариях.

Да, к статье прилагается репо с большим количеством ссылок по темам: https://github.com/FudanSELab/Agent4SE-Paper-List.
🔥54👍2😱1