Data Science by ODS.ai 🦜
46.4K subscribers
622 photos
72 videos
7 files
1.72K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Speech to Speech model - Fish Agent v0.1 3B by FishAudio

> Trained on 700K hours of multilingual audio
> Continue-pretrained version of Qwen-2.5-3B-Instruct for 200B audio & text tokens
> Zero-shot voice cloning
> Text + audio input/ Audio output
> Ultra-fast inference w/ 200ms TTFA

> Models on the Hub & Finetuning code on its way! 🚀

https://huggingface.co/fishaudio/fish-agent-v0.1-3b

@opendatascience
🔥10👍82🥰2🤯1
Nexusflow released Athene v2 72B - competetive with GPT4o & Llama 3.1 405B Chat, Code and Math 🔥

> Arena Hard: GPT4o (84.9) vs Athene v2 (77.9) vs L3.1 405B (69.3)

> Bigcode-Bench Hard: GPT4o (30.8) vs Athene v2 (31.4) vs L3.1 405B (26.4)

> MATH: GPT4o (76.6) vs Athene v2 (83) vs L3.1 405B (73.8)

> Models on the Hub along and work out of the box w/ Transformers 🤗

https://huggingface.co/Nexusflow/Athene-V2-Chat

They also release an Agent model: https://huggingface.co/Nexusflow/Athene-V2-Agent

@opendatascience
👍113🔥3
⚡️ DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!

🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!

🌐 You can try it now: https://chat.deepseek.com

#DeepSeek #llm

@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍2
Forwarded from Machinelearning
⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.


⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.


▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth





🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍74
⚡️ Biggest open text dataset release of the year: SmolTalk is a 1M sample big synthetic dataset that was used to train SmolLM v2.

TL;DR;
🧩 New datasets: Smol-Magpie-Ultra (400K) for instruction tuning; Smol-contraints (36K) for precise output; Smol-rewrite (50K) & Smol-summarize (100K) for rewriting and summarization.
🤝 Public Dataset Integrations: OpenHermes2.5 (100K), MetaMathQA & NuminaMath-CoT, Self-Oss-Starcoder2-Instruct, LongAlign & SystemChats2.0
🥇 Outperforms the new Orca-AgenInstruct 1M when trained with 1.7B and 7B models
🏆 Outperform models trained on OpenHermes and Magpie Pro on IFEval and MT-Bench
distilabel to generate all new synthetic datasets
🤗 Released under Apache 2.0 on huggingface

Apache 2.0

Synthetic generation pipelines and training code released.

Dataset: https://huggingface.co/datasets/HuggingFaceTB/smoltalk
Generation Code: https://github.com/huggingface/smollm
Training Code: https://github.com/huggingface/alignment-handbook/tree/main/recipes/smollm2

@opendatascience
👍155🔥5
Forwarded from Machinelearning
✔️ Stability AI выпустила модели ControlNet для Stable Diffusion 3.5 Large.

Stability AI представила 3 модели ControlNet: Blur, Canny и Depth, которые расширяют возможности Stable Diffusion 3.5 Large. Модели доступны для коммерческого и некоммерческого использования под лицензией Stability AI Community License..

Модель Blur предназначена для апскейла изображений до разрешений 8K и 16K. Canny использует карты границ для структурирования генерируемых изображений. Модель Depth использует карты глубины, созданные DepthFM, для управления композицией изображения.

ControlNet для Stable Diffusion 3.5 Large уже доступны на Hugging Face и поддерживаются в Comfy UI.
stability.ai

✔️ IMAX внедряет ИИ для расширения охвата оригинального контента.

Канадская компания, известная своими огромными кинотеатрами и иммерсивными впечатлениями от просмотра фильмов, объявила о партнерстве со стартапом Camb.ai, базирующимся в Дубае, для использования его моделей речевого ИИ для перевода оригинального контента.

Camb.ai предлагает свою модель Boli для перевода речи в текст и Mars для эмуляции речи. Модели доступны через платформу DubStudio, которая поддерживает 140 языков, включая малые языковые группы. IMAX начнет внедрять переводы на основе ИИ поэтапно, начиная с языков с большим объемом данных.
techcrunch.com

✔️ Anthropic добавила функцию пользовательских стилей в Claude AI.

Новая функция Claude - стиль ответов чат-бота. Обновление доступно для всех пользователей Claude AI и даёт возможность настроить стиль общения или выбрать один из предустановленных вариантов, чтобы быстро изменить тон и уровень детализации.

Пользователям предлагается три предустановленных стиля: формальный для «четкого и отточенного» текста, краткий для более коротких и прямых ответов, и пояснительный для образовательных ответов. Пользователи Claude могут создавать собственные стили, загрузив примеры текстов, отражающих их предпочтительный способ общения.
theverge.com

✔️ Google запустила платформу Health AI Developer Foundations (HAI-DEF) для разработки ИИ в здравоохранении.

Health AI Developer Foundations (HAI-DEF) - публичный ресурс, который должен помочь разработчикам в создании и внедрении моделей ИИ для здравоохранения. HAI-DEF предоставляет разработчикам модели, обучающие блокноты Colab и подробную документацию для поддержки каждого этапа разработки ИИ, от исследований до коммерциализации.

В HAI-DEF входят 3 специализированные модели для медицинской визуализации: CXR Foundation для рентгеновских снимков грудной клетки, Derm Foundation для изображений кожи и Path Foundation для цифровой патологии.
developers.google.com

✔️ Cursor получил обновление с автономными агентами.

Cursor выпустила обновление 0,43, которое обеспечивает частичную автоматизацию написания кода с помощью ИИ-агентов, способных самостоятельно перемещаться по контекстам и выполнять операции в терминале. Обновление позволяет ИИ-агентам реагировать на сообщения об ошибках и принимать автономные решения для устранения проблем. В демонстрации, опубликованной в X, Cursor создает полноценное веб-приложение секундомера с использованием HTML, CSS и JavaScript, включая запуск веб-сервера, все это с помощью одной текстовой подсказки.

Cursor остается бесплатным для загрузки и работает с GPT-4, Claude 3.5 Sonnet и Llama, как локально, так и через API. Платная подписка Pro за 20 долларов в месяц открывает доступ к дополнительным функциям, включая новых ИИ-агентов.
changelog.cursor.sh

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥3
Forwarded from Machinelearning
🌟 cuPyNumeric: замена NumPy от NVIDIA.

По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.

cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.

Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.

Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.

▶️Установка и тест на примере из репозитория:

# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric

# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NumPy #NVIDIA #cuPyNumeric
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥63
Forwarded from Postgres Professional
Что происходит на рынке систем управления базами данных?

Редакция TAdviser подготовила обзор рынка СУБД: результаты разработчиков в 2023 году, обзор новых решений и продуктов, перспективы развития и планы по запуску новых направлений. 

Коротко о главном:

✔️Postgres Professional — лидер рынка СУБД  

✔️Занимаем первое место по количеству представленных в 2023 году новых решений, среди них: встроенный отказоустойчивый кластер BiHA, Postgres Pro Enterprise Manager, распределенная реляционная СУБД Postgres Pro Shardman 

✔️Значительно расширили карту совместимости Postgres Pro — сейчас в ней более 300 решений. Со Скала^р разработали новую версию «Машины баз данных Скала^р МБД.П» на базе сертифицированной СУБД Postgres Pro Enterprise

✔️Внедрили СУБД Postgres Pro в крупнейших компаниях и государственных структурах, среди наших заказчиков: Росатом, ПФР, Газпром, РЖД, ПСБ, Транснефть, Россельхозбанк, Росагролизинг, Федеральное Казначейство

🔖 А еще — специально для обзора Иван Панченко, заместитель генерального директора Postgres Professional, прокомментировал ситуацию с импортозамещением и массовым клонированием опенсорс-систем под видом самостоятельных решений на рынке СУБД. 

Читать обзор рынка TAdviser
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Structured Generation w/ SmolLM2 running in browser & WebGPU 🔥

Powered by MLC Web-LLM & XGrammar

Define a JSON schema, Input free text, get structured data right in your browser - profit!!

To showcase how much you can do with just a 1.7B LLM, you pass free text, define a schema of parsing the text into a GitHub issue (title, description, categories, tags, etc) - Let MLC & XGrammar do the rest!

That's it, the code is super readable, try it out today!

Hf: https://huggingface.co/spaces/reach-vb/github-issue-generator-webgpu
Github: https://github.com/Vaibhavs10/github-issue-generator-webgpu

@opendatascience
👍8🔥41🎉1
Forwarded from Machinelearning
🌟 INTELLECT-1: релиз первой модели децентрализованного обучения.

PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.

PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.

Платформа использовала сеть из 112 GPU H100 на 3 континентах и ​​достигла коэффициента использования вычислений в 96% при оптимальных условиях.

Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.

▶️Технические характеристики:

🟢Parameters: 10B;
🟢Layers: 42;
🟢Attention Heads: 32;
🟢Hidden Size: 4096;
🟢Context Length: 8192;
🟢Vocabulary Size: 128256.

INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.

Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.

▶️Квантованные в GGUF версии INTELLECT-1_Instruct в разрядностях от 3-bit (5.46 GB) до 8-bit(10.9 GB) от сообщества LM Studio.

▶️Пример инференса на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")

input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)

print(output_text)


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей HF
🟡Набор GGUF версий
🟡Техотчет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Decentralizated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍175🔥4
Forwarded from Code Mining (Alexey Smirnov)
LLM-based agents for Software Engineering

В сентябре вышел большой труд от китайских коллег: "Large Language Model-Based Agents for Software Engineering: A Survey".

Статья рассматривает аспекты применения LLM-основанных агентов в разных задачах программной инженерии (скрин). Чего там только нет! Добрая сотня доменных инструментов, которые ещё и сравниваются между собой и идет дискуссия о том как эти вещи принято строить в разных случаях.

Будем смотреть согласно своим интересам и что-нибудь обозревать.

Если вы нашли что-то интересненькое — делитесь в комментариях.

Да, к статье прилагается репо с большим количеством ссылок по темам: https://github.com/FudanSELab/Agent4SE-Paper-List.
🔥54👍2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
🌆 AI system to generate 3D worlds from a single image. Check out some early results on our site, where you can interact with our scenes directly in the browser!

World Labs aims to address the challenges many creators face with existing genAI models: a lack of control and consistency. Given an input image, our system estimates 3D geometry, fills in unseen parts of the scene, invents new content so you can turn around, and generalizes to a wide variety of scene types and artistic styles.

Most generative models predict pixels. Predicting a 3D scene instead has many benefits: the scene won’t change if you look away and come back, and it obeys the basic physical rules of 3D geometry. The simplest way to visualize the 3D scene is a depth map, where each pixel is colored by its distance to the camera.

https://worldlabs.ai/blog

@opendatascience
👍8🔥75🥰2
10 лет как Яндекс внедрил нейросети в Поиск — история развития 🔥

> Первые нейронные сети для поиска похожих картинок в декабре 2014
> Применение нейросетей для улучшения поиска по картинкам по текстовым запросам в 2015
> Палех и Королёв для ранжирования текстов в 2016-2017
> Применение нейросети в машинном переводе в 2017
> Тяжёлая нейронная сеть YATI с рекордным улучшением качества в 2020
> Нейро с VLM для работы с текстом и изображениями в 2024

Вообще, первые эксперименты с нейросетями начались с пробок (2012) и речи (2013), а сегодня это основа поисковых технологий 🚀

От экспериментальных решений до технологий, меняющих то, как мы ищем информацию каждый день.

https://habr.com/ru/companies/yandex/news/863768/

@opendatascience
👍233🤡2🔥1