Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.3K subscribers

2.32K photos

269 videos

1 file

2.05K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.3K subscribers

Анализ данных (Data analysis)

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 HDR-GS: скоростной синтез HDR-изображений с помощью гауссовой spline-интерполяции.

HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции.

HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF.

Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек.

Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности.

⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000.

▶️ Установка и тестовый инференс с предобученными весами сета bathroom:

# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive

# Windows only
SET DISTUTILS_USE_SDK=1

# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs

# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x  --test_only

📌Лицензирование: MIT License.

🟡

🟡

Датасет и веса

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #HDR-GS #Gaussian

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤3🔥3

5.61K views16:15

Анализ данных (Data analysis)

EuroLLM-9B: Мощная многоязычная модель для европейских языков! 🌍🤖

Основные характеристики:
🌐 Поддержка 35 языков: охватывает все 24 официальных языка ЕС
🏆 Высочайшая производительность: конкурирует с Gemma и Mistral
✅ 4 триллиона токенов: Обучение с использованием высококачественных многоязычных данных.
✅ Открытый исходный код: Доступен на Hugging Face!

https://huggingface.co/utter-project/EuroLLM-9B

❤7🔥6👍4🤣1

5.88K views18:05

Анализ данных (Data analysis)

🔍

Helicone — инструмент для интеграции и управления запросами к крупным языковым моделям (LLM), таким как OpenAI API!

🌟 Он предоставляет инструменты для анализа и мониторинга использования LLM в приложениях. Helicone собирает метрики, отслеживает затраты на запросы и позволяет разработчикам оптимизировать работу с языковыми моделями.

🌟 Кроме аналитики, Helicone поддерживает такие функции, как отслеживание запросов в реальном времени, настройка логирования, а также интеграция с базами данных и инструментами визуализации данных. Это делает его полезным инструментом для разработчиков, активно использующих генеративный ИИ в своих проектах, например, в чат-ботах или системах рекомендаций.

🔐 Лицензия: Apache-2.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤6🔥2

5.9K views13:00

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🗣 Fish Speech v1.5 - многоязычная модель преобразования текста в речь и клонирования голоса с низкой задержкой 🔥

🌟 Fish Speech V1.5: обновление Text-To-Speech модели.

Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").

Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.

▶️Языковая структура обучающего корпуса версии 1.5:

🟢Английский (en) >300 тыс. часов
🟢Китайский (zh) >300 тыс. часов
🟢Японский (ja) >100 тыс. часов
🟢Немецкий (de) ~20 тыс. часов
🟢Французский (fr) ~20 тыс. часов
🟢Испанский (es) ~20 тыс. часов
🟢Корейский (ko) ~20 тыс. часов
🟢Арабский (ar) ~20 тыс. часов

🟠

Русский (ru) ~20 тыс. часов
🟢Голландский (nl) <10 тыс. часов
🟢Итальянский (it) <10 тыс. часов
🟢Польский (pl) <10 тыс. часов
🟢Португальский (pt) <10 тыс. часов

Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.

Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.

⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.

> Всего 500 миллионов параметров
> Обучена на 1 миллионе часов аудио
> Поддерживает 13 языков
> Низкая задержка (<150 мс)
> Открытая модель 🤗
> Лучшая часть: занимает 2-е место на TTS Arena (предварительные результаты)

📌Лицензирование: CC-BY-NC-SA-4.0 License.

🟡

🟡

🟡

Документация

🟡

Сообщество в Discord

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤5🔥3

6.12K viewsedited 21:11

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ DeepThought-8B: новая модель рассуждений построенная на LLaMA-3.1 с масштабированием вычислений.

Внутри:
- Структурированные в формате JSON цепочки рассуждений и управляемые пути вывода.
- ~16 ГБ видеопамяти для запуска модели объемом 70B.
- Опенсорс

https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha

@data_analysis_ml

❤7👍2🔥2🤣1

5.39K viewsedited 10:15

Анализ данных (Data analysis)

Forwarded from Machinelearning

🌟 LLaMA-O1: модели ризонинга на базе Llama-3.1-8B-Instruct.

Набор моделей ризонинга от SimpleBerry Research Lab на Hugging face, полученные с использованием методик:

🟢

LlaMA-Berry - попарная оптимизация для решения математических задач олимпиадного уровня с помощью поиска Монте-Карло;

🟢

Critic-V - методика подключения внешней модели-критика;

🟢

MCTSr - метод интеграции LLM с алгоритмом поиска по дереву Монте-Карло для повышения точности решения математических задач.

▶️

LLaMA-O1-Base-1127 - базовая модель ризонинга, файнтюн Llama-3.1-8B-Instruct на датасете longcot_pt. Квантованные версии в формате GGUF.

▶️ LLaMA-O1-Supervised-1129 - файнтюн базовой модели LLaMA-O1-Base-1127 на датасете OpenLongCoT-SFT с использованием комбинаций методов Critic-V и MCTSr. Квантованные версии в формате GGUF.

⚠️ Тестов и бенчмарков официально не предоставлено, демо модели LLaMA-O1-Supervised-1129 можно попробовать в этом HF Space

🟡

Набор моделей и датасетов

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Resoning #LlaMA_O1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍1🔥1

4.17K views13:02

Анализ данных (Data analysis)

📖

Эта статья представляет новую архитектуру под названием Mixture-of-Transformers (MoT), ориентированную на работу с мультимодальными моделями!

🌟 Такие модели способны обрабатывать текст, изображения и аудио в единой системе. MoT решает проблемы масштабирования, связанные с обучением больших языковых моделей (LLM), предлагая более экономичный подход, уменьшающий вычислительные затраты на этапе предварительного обучения.

🌟 Основное новшество MoT заключается в раздельной обработке параметров для каждого типа данных (текста, изображений, звука), что позволяет сократить использование ресурсов без потери качества. Например, в задачах генерации текста и изображений MoT достигает производительности стандартных моделей при использовании лишь 55,8% их вычислительных операций. Кроме того, модель демонстрирует улучшенные показатели в задачах, где необходимо объединение нескольких модальностей, при меньших временных и вычислительных затратах

🔗 Ссылка: *клик*

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤7🔥3

5.2K views17:01

Анализ данных (Data analysis)

🔥 Google только что выпустила новые языковые модели PaliGemma 2 - 3B, 10B и 28B Vision!

> 9 предварительно обученных моделей: 3B, 10B и 28B с разрешением 224x224, 448x448 и 896x896
> ВI 2 модели Image-text поддерживающие формат 3B и 10B (448x448)

https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48

@data_analysis_ml

👍11❤4🔥4

6.93K viewsedited 19:12

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Make-It-Animatable — ИИ-утилита, которая позволяет легко и быстро создать любую 3D-анимацию гуманоида!

🔗 Попробовать: *клик*
🔗 Страница проекта: *клик*

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍5🔥4

5.67K views12:20

Анализ данных (Data analysis)

Forwarded from Machinelearning

⚡️ Llama 3.3 70B.

Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.

Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.

Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.

Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.

▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📌Лицензирование: LLAMA 3.3 License.

🟡

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #LLM #Llama3

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤6🔥2

4.14K views18:14

Анализ данных (Data analysis)

Media is too big

VIEW IN TELEGRAM

⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное!

Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров.

Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши.

Основные возможности системы включают:

🔹Создание последовательных миров продолжительностью до одной минуты
🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости
🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение
🔹Анимация персонажей и их взаимодействия с окружающей средой
🔹Генерация NPC с продвинутыми поведенческими моделями
🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом

Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды.

Мы собрали для вас целую коллекцию примеров – это просто невероятно!

Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр.

🎯Разбор статьи
🎯Статья

@data_analysis_ml

👍9❤6🔥6

5.25K viewsedited 08:31

Анализ данных (Data analysis)

🔍

Agenta — платформа для работы с приложениями, основанными на LLM!

🌟 Agenta помогает разработчикам тестировать, сравнивать и внедрять LLM-решения, упрощая процесс оценки производительности различных моделей и их версий. Основные функции включают создание экспериментов, настройку конфигураций, управление тестовыми данными и анализ результатов.

🌟 Платформа поддерживает интеграцию с популярными фреймворками, такими как FastAPI, и включает API для автоматизации задач. Agenta разработан для тех, кто активно работает с генеративными моделями и их оптимизацией, предоставляя инструменты для повышения точности и эффективности приложений, основанных на искусственном интеллекте.

🔐 Лицензия: MIT

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4❤2👏2⚡1👌1

5.44K views13:02

Анализ данных (Data analysis)

🖥

Cloudberry — это проект с открытым исходным кодом от Apache, предназначенный для анализа и визуализации больших данных в реальном времени!

🌟 Он ориентирован на обработку и анализ данных, хранящихся в распределенных и облачных системах, с интеграцией возможностей визуализации, которые позволяют более эффективно работать с большими объемами данных. Одной из ключевых особенностей является тесная интеграция с базами данных, что делает Cloudberry удобным инструментом для аналитиков, работающих с большими и сложными наборами данных.

🌟 Основное внимание в Cloudberry уделяется обработке данных, хранящихся в распределенных базах данных, таких как HBase или Apache Cassandra, что позволяет эффективно обрабатывать и анализировать большие объемы информации. Проект поддерживает расширенные возможности по интеграции с такими системами, обеспечивая высокую производительность и масштабируемость. Cloudberry использует SQL-подобные запросы для извлечения данных из таких распределенных хранилищ и предоставляет интерфейсы для анализа и визуализации этих данных.

🌟 Кроме того, Cloudberry фокусируется на предоставлении простых инструментов для взаимодействия с данными и их представления в виде удобных графиков и отчетов. Это полезно для пользователей, которые хотят интегрировать аналитику с облачными хранилищами данных, используя мощные инструменты визуализации для анализа и принятия решений на основе больших данных.

🔐 Лицензия: Apache-2.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍4🔥2

5.43K views13:00

Анализ данных (Data analysis)

⚡️ Модель преобразования текста в видео на основе DiT ,от команды, работающей над open sora plan!

https://huggingface.co/collections/BestWishYsh/consisid-6746dd0b18db651d5d502766
https://huggingface.co/papers/2411.17440

обеспечения единообразия.
✨ Высокое качество изображения: позволяет создавать реалистичные видеоролики, сохраняющие индивидуальность, с высоким качеством исполнения.

@data_analysis_ml

❤7👍4🔥2🥴1

4.71K views10:01

Анализ данных (Data analysis)

Forwarded from Machinelearning

🌟 EuroLLM: многоязычные модели европейских языков.

EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках:

Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский.

▶️В коллекции представлены модели:

🟢

EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов;

🟢

EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод;

🟠

EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096;

🟠

EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо

⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF.

▶️Пример кода инференса EuroLLM-9B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📌Лицензирование: Apache License 2.0

🟡

Набор моделей

🟡

🟡

Demo EuroLLM-1.7B-Instruct

@ai_machinelearning_big_data

#AI #ML #LLM #EuroLLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5🔥4🥰2

4.65K views14:33

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

OpenAI предоставила доступ к Sora — новому мощному генератору видео, способному изменить множество отраслей. Это произошло!

Теперь вы можете:

- Создавать видео на основе текстов и изображений, делать ремиксы и объединять несколько роликов в единый видеоряд.
- Качество видео превосходит все ожидания — оно лучше, чем у Kling, GEN-3 и других конкурентов.
- Интерфейс включает в себя галерею, возможность создания папок и монтажа.
- Вы можете выбрать продолжительность видео до 20 секунд и разрешение до 1080p, а также продлить генерацию до пяти раз.
- Система была обучена на новостных материалах, поэтому генерация телевизионных передач получается особенно реалистичной.
- Доступ предоставляется платным подписчикам. За $20 в месяц вы получите 50 генераций, а за $200 — неограниченное количество генераций и отсутствие водяных знаков.

Попробовать можно здесь!

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥5❤3🍌1

5.66K viewsedited 19:09

Анализ данных (Data analysis)

🔥 Только что выпущена обновленная версия Deep Seek-V2.5,

🌟 DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.

Файнтюн модели DeepSeek-V2.5 с 236 млрд. параметров с улучшенными показателями в математических вычислениях, программировании, генерации текста и рассуждении. В модели также оптимизированы функции загрузки файлов и обобщения веб-страниц.

Точность решения задач с DeepSeek-V2.5-1210 на LiveCodebench выросла с 29,2% до 34,38% относительно родительской DeepSeek-V2.5, в математических тестах MATH-500 с 74.8% до 82.8%.

DeepSeek-V2.5-1210 поддерживает function calling и использует обновленный шаблон чата для расширения возможностей модели.

⚠️ Чтобы использовать модель в инференсе с BF16 требуется 8 GPU c 80 GB VRAM каждый.

▶️Пример инференса DeepSeek-V2.5-1210 на Transformers:


python
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

model_name = "deepseek-ai/DeepSeek-V2.5-1210"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# `max_memory` should be set based on your devices
max_memory = {i: "75GB" for i in range(8)}
# `device_map` cannot be set to `auto`
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id

messages = [
    {"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)

result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

▪Лицензирование: MIT License.

▪Модель

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤6🔥3🥴1

5.39K viewsedited 10:55