NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.
Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.
NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.
После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.
@ai_machinelearning_big_data
#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍22❤8
RTX 5090 оказалась в 1,5 раза производительнее предыдущей версии RTX 4090! Более того, благодаря технологии DLSS 4, даже самая доступная модель RTX 5070 за $550 способна обеспечить производительность на уровне RTX 4090.
Мы все ожидали от RTX 5090, крутые характеристики и все такое. Но все ли поняли, что Дженсен сказал о графике?
Что новая карта использует нейронные сети для генерации 90+% пикселей в играх?
Традиционные алгоритмы трассировки лучей отрисовывают только ~10%, своего рода «скетч», а затем генеративная модель заполняет остальные мелкие детали. За один проход в режиме реального времени.
ИИ - это новый уровень графики, дамы и господа.
Цены и технические характеристики:
GeForce RTX 5090:
- Процессор: GB202-300
- CUDA-ядер: 21 760
- Память: 32 ГБ GDDR7 (1792 Гбайт/с)
- Шина: 512 бит
- Потребление энергии: 575 Вт
- Цена: $1999
GeForce RTX 5080:
- Процессор: GB203-400
- CUDA-ядер: 10 752
- Память: 16 ГБ GDDR7 (960 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 360 Вт
- Цена: $999
GeForce RTX 5070 Ti:
- Процессор: GB203-300
- CUDA-ядер: 8 960
- Память: 16 ГБ GDDR7 (896 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 300 Вт
- Цена: $749
GeForce RTX 5070:
- Процессор: GB205-300
- CUDA-ядер: 6 144
- Память: 12 ГБ GDDR7 (672 Гбайт/с)
- Шина: 192 бит
- Потребление энергии: 250 Вт
- Цена: $549
Продажи стартуют уже в этом месяце!
Еще NVIDIA анонсировали проект DIGITS — персональный суперкомпьютер на базе искусственного интеллекта стоимостью 3000 долларов, который настолько мал, что выглядит как Mac Mini, но при этом в 1000 раз мощнее среднестатистического ноутбука.
Обрабатывает модели ИИ с максимальным количеством параметров 200 МИЛЛИАРДОВ.
Это невероятно..
@ai_machinelearning_big_data
#nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97🔥39❤22😢4🤬3👏2🤔1
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.
Лицензия MIT!
🤗 HF: https://huggingface.co/microsoft/phi-4
🧠 Demo: https://huggingface.co/spaces/Tonic/Phi-4
@ai_machinelearning_big_data
#phi4 #llm #Microsoft
Лицензия MIT!
🤗 HF: https://huggingface.co/microsoft/phi-4
@ai_machinelearning_big_data
#phi4 #llm #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68❤18🔥11🤔2🤬1😐1
⚡Microsoft на высоте!
rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% Phi3-mini-3.8B), 🔥
превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы
Код будет опубликован в ближайшее время! 🤗
https://huggingface.co/papers/2501.04519с
@ai_machinelearning_big_data
#microsoft #llm
rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% Phi3-mini-3.8B), 🔥
превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы
Код будет опубликован в ближайшее время! 🤗
https://huggingface.co/papers/2501.04519с
@ai_machinelearning_big_data
#microsoft #llm
❤64👍36🔥23🤔4❤🔥1🤩1
⚡️🔥 Недавно Google Cloud выпустил «Руководство разработчика PyTorch по основам JAX».
Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow.
Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным.
Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений.
Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков.
В этом руководстве содержится пошаговый гайд по реализации простой нейронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX.
📌 Читать
📌Документация Jax
@ai_machinelearning_big_data
#jax #pytorch #google
Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow.
Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным.
Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений.
Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков.
В этом руководстве содержится пошаговый гайд по реализации простой нейронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX.
📌 Читать
📌Документация Jax
@ai_machinelearning_big_data
#jax #pytorch #google
🔥56👍21❤10❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
📲 Diffusion Explainer - визуализация, которая поможет понять работу моделей, основанных на диффузии:
⭐️Визуал, который будет понятен каждому
⭐️Работает в браузере
⭐️Отличное наглядное объяснение того, как модели диффузии генерируют изображения.
https://poloclub.github.io/diffusion-explainer
▪Diffusion explainer
▪Github
▪Статья
▪Видео
@ai_machinelearning_big_data
#diffusion #tutorial #ml
⭐️Визуал, который будет понятен каждому
⭐️Работает в браузере
⭐️Отличное наглядное объяснение того, как модели диффузии генерируют изображения.
https://poloclub.github.io/diffusion-explainer
▪Diffusion explainer
▪Github
▪Статья
▪Видео
@ai_machinelearning_big_data
#diffusion #tutorial #ml
❤54👍26🔥21
Проект, который содержит тщательно отобранный перечень ресурсов о ИИ-агентах, предназначенных для автономной работы на ваших компьютерах.
В него включены научные исследования, проекты, фреймворки, гайды и различные инструменты.
Агенты поддерживают функции анализа задач и принятия решений для взаимодействия с любыми интерфейсам.
▪ Github
@ai_machinelearning_big_data
#aiagents #awesome #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤14🥰3😨1💘1
🦑 SQL Squid Game: 9 уровней. 1 работа Дата Сайентиста. Ваша жизнь на кону 🔫.
Развлечение на выходные - Игра в Кальмара с SQL. Это бесплатный образовательный тренажер по работе с БД, по мотивам Netflix's Squid Game, SQL Murder Mystery и других известных SQL-игр.
❓О чем игра?
Вы только что были приняты на работу в качестве Дата Сайентиста в загадочную организацию Squid Game.
Таинственный работодатель, управляющий игрой, пообещал вам полностью удаленную работу, на которой вы будете составлять промпты, работать с pandas и генеративным ИИ
Но, как это обычно бывает в индустрии данных, вас подставили и обманули.
Оказалось, что работа связана с аналитикой данных на SQL, а работа не полностью удаленная, а гибридная: 5 дней в офисе, а 2 дня удаленно.
Не успели вы отказаться от работы , как работодатель приставил к вашей голове пистолет и начал требовать ответов на различные бизнес-вопросы.
Вы должны написать SQL-запросы, чтобы ответить ему - иначе вас ждет печальный конец 💀
📌 Как играть
- На каждом уровне вам будут даны задачи, а также одна или несколько таблиц и их схема.
Вам будет дана ячейка решения, в которую вы должны будете записать свое решение и отправить его на проверку.
Каждый уровень становится сложнее.
PS: Для прохождения SQL Squid Games, вам нужно хорошо знать SQL.А если хотите освежить свои знания или выучить SQL с нуля, вот 33 интерактивных уроков от Datalemur.
📲 Начать игру
@ai_machinelearning_big_data
#sql #tutorial #educationalgame
Развлечение на выходные - Игра в Кальмара с SQL. Это бесплатный образовательный тренажер по работе с БД, по мотивам Netflix's Squid Game, SQL Murder Mystery и других известных SQL-игр.
❓О чем игра?
Вы только что были приняты на работу в качестве Дата Сайентиста в загадочную организацию Squid Game.
Таинственный работодатель, управляющий игрой, пообещал вам полностью удаленную работу, на которой вы будете составлять промпты, работать с pandas и генеративным ИИ
Но, как это обычно бывает в индустрии данных, вас подставили и обманули.
Оказалось, что работа связана с аналитикой данных на SQL, а работа не полностью удаленная, а гибридная: 5 дней в офисе, а 2 дня удаленно.
Не успели вы отказаться от работы , как работодатель приставил к вашей голове пистолет и начал требовать ответов на различные бизнес-вопросы.
Вы должны написать SQL-запросы, чтобы ответить ему - иначе вас ждет печальный конец 💀
📌 Как играть
- На каждом уровне вам будут даны задачи, а также одна или несколько таблиц и их схема.
Вам будет дана ячейка решения, в которую вы должны будете записать свое решение и отправить его на проверку.
Каждый уровень становится сложнее.
PS: Для прохождения SQL Squid Games, вам нужно хорошо знать SQL.А если хотите освежить свои знания или выучить SQL с нуля, вот 33 интерактивных уроков от Datalemur.
📲 Начать игру
@ai_machinelearning_big_data
#sql #tutorial #educationalgame
👍49🔥27❤14🆒5❤🔥1
✔ Google Research выпустили новую версию TimesFM-2.0 (jax + pytorch)
Это предварительно обученная модель для прогнозирования временных рядов .
Новая версия работает в показывает улучшение производительности на 25 %, чем v1.0 на различных бенчмарках, при этом имеет в 4 раза большую максимальную длину контекста.
TimesFM-2.0 возглавляет таблицу лидеров GIFT-Eval в метриках вероятностного прогнозирования.
▪Hf
▪Paper
▪Google Research blog
▪GitHub
@ai_machinelearning_big_data
#google #Timeseriesforecasting #timesFM #прогнозированиевременныхрядов
Это предварительно обученная модель для прогнозирования временных рядов .
Новая версия работает в показывает улучшение производительности на 25 %, чем v1.0 на различных бенчмарках, при этом имеет в 4 раза большую максимальную длину контекста.
TimesFM-2.0 возглавляет таблицу лидеров GIFT-Eval в метриках вероятностного прогнозирования.
▪Hf
▪Paper
▪Google Research blog
▪GitHub
@ai_machinelearning_big_data
#google #Timeseriesforecasting #timesFM #прогнозированиевременныхрядов
👍47🔥20❤3🥰3😁1
Свежее руководство по обучению с подкреплением, которое очень подробно объясняет всю теорию и детали реализации каждого алгоритма в этой области со множеством примеров и кодом.
Наслаждайтесь чтением)
📌 Читать
@ai_machinelearning_big_data
#ml #reinforcementlearning #rl #guide
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤61👍36🔥12👏1👾1