Forwarded from Анализ данных (Data analysis)
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜
Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
👍6
Одно из лучших видео с объяснением работы Трансформеров
На канале 3Blue1Brown недавно было опубликовано новое видео из серии о глубоком обучении. В этот раз авторы рассматривают вопрос "Что такое GPT" и представляют визуальное введение в Трансформеров.
Рекомендуем посмотреть.
📌 https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown
@bigdatai
На канале 3Blue1Brown недавно было опубликовано новое видео из серии о глубоком обучении. В этот раз авторы рассматривают вопрос "Что такое GPT" и представляют визуальное введение в Трансформеров.
Рекомендуем посмотреть.
📌 https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown
@bigdatai
YouTube
Transformers, the tech behind LLMs | Deep Learning Chapter 5
Breaking down how Large Language Models work, visualizing how data flows through.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch…
👍5❤2🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡ динамический 4D рендеринг человека ⚡️
Новая модель динамической 4D визуализации человека.
- Проект: https://taohuumd.github.io/projects/SurMo/
- Docs: https://arxiv.org/abs/2404.01225
- Код: https://github.com/TaoHuUMD/SurMo
@bigdatai
Новая модель динамической 4D визуализации человека.
- Проект: https://taohuumd.github.io/projects/SurMo/
- Docs: https://arxiv.org/abs/2404.01225
- Код: https://github.com/TaoHuUMD/SurMo
@bigdatai
👍5🔥3❤2
⚡️ ReFT: файнтюниг для больших языковых моделей
в 10-50 раз более эффективная настройка параметров, чем предыдущие современные методы точной настройки параметров
репозиторий: https://github.com/stanfordnlp/pyreft
abs: https://arxiv.org/abs/2404.03592
@bigdatai
в 10-50 раз более эффективная настройка параметров, чем предыдущие современные методы точной настройки параметров
репозиторий: https://github.com/stanfordnlp/pyreft
abs: https://arxiv.org/abs/2404.03592
@bigdatai
🔥5👍3❤2
3 популярыных библиотеки 𝗟𝗟𝗠𝘀 ↓
1️⃣ Ggml на C++, 7 тыс. ⭐ : https://github.com/ggerganov/ggml
2️⃣ Candle на Rust, 9 тыс. ⭐: https://github.com/huggingface/candle
3️⃣ Vllm на Python, 8 тыс. ⭐: https://github.com/vllm-project/vllm
@bigdatai
1️⃣ Ggml на C++, 7 тыс. ⭐ : https://github.com/ggerganov/ggml
2️⃣ Candle на Rust, 9 тыс. ⭐: https://github.com/huggingface/candle
3️⃣ Vllm на Python, 8 тыс. ⭐: https://github.com/vllm-project/vllm
@bigdatai
👍5🔥3❤2
⚡️ Большое обновление для бенчмарка Massive Text Embedding Benchmark (MTEB), призванное упростить поиск подходящей модели для эмбедингов!
Удобная фильтрация моделей, поиск, использование памяти, размер модели по параметрам.
Обновленный лидерборд: https://huggingface.co/spaces/mteb/leaderboard
@bigdatai
Удобная фильтрация моделей, поиск, использование памяти, размер модели по параметрам.
Обновленный лидерборд: https://huggingface.co/spaces/mteb/leaderboard
@bigdatai
👍4❤2🔥2
Нейросеть для генерации изображений YandexART стала доступна для тестирования внешним компаниям!
В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.
Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения.
В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.
Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения.
👍8❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤2🔥2🤝1🤗1
Бесплатный курс от сообщества ODS, который содержит лекции разных уровней сложности и глубины.
Все объяснения идут с кодом.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍3❤2
🔥 Новый огромный многоязычный датасет для LLM" [Удалено дублирование ~5,6 трлн токенов]. 🔥
✨ Доступно 75 языков (22 ТБ необработанных файлов, 11 ТБ дедуплированных файлов и 8,4 ТБ чистых файлов), которые представлены в формате JSON, сжатых с помощью zstd.
Для удобства данные разделены на несколько сегментов по несколько ГБ каждый. Количество фрагментов для каждого языка зависит от размера конкретного корпуса.
✨ Формат - JSONL, в котором каждая строка представляет собой допустимое значение JSON и полный документ с метаданными.
- Статья: https://arxiv.org/abs/2403.14009
- Страница проекта: https://hplt-project.org
- Датасет: https://hplt-project.org/datasets/v1.2
@bigdatai
✨ Доступно 75 языков (22 ТБ необработанных файлов, 11 ТБ дедуплированных файлов и 8,4 ТБ чистых файлов), которые представлены в формате JSON, сжатых с помощью zstd.
Для удобства данные разделены на несколько сегментов по несколько ГБ каждый. Количество фрагментов для каждого языка зависит от размера конкретного корпуса.
✨ Формат - JSONL, в котором каждая строка представляет собой допустимое значение JSON и полный документ с метаданными.
- Статья: https://arxiv.org/abs/2403.14009
- Страница проекта: https://hplt-project.org
- Датасет: https://hplt-project.org/datasets/v1.2
@bigdatai
👍5🔥3❤1
🔥Подборка лучших обучающих каналов для программистов.
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест
💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных
#️⃣C#
С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend
🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
🌟 Docker/Kubernets
Docker
Kubernets
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест
💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных
#️⃣C#
С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend
🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
🌟 Docker/Kubernets
Docker
Kubernets
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
🔥4👍3❤1
NVIDIA’s AI Puts You In a Video Game 75,000x Faster!
https://www.youtube.com/watch?v=CyIqd_HR6rY
@bigdatai
https://www.youtube.com/watch?v=CyIqd_HR6rY
@bigdatai
YouTube
NVIDIA’s AI Puts You In a Video Game 75,000x Faster!
❤️ Check out Microsoft Azure AI and try it out for free:
https://azure.microsoft.com/en-us/solutions/ai
📝 The paper "Live 3D Portrait: Real-Time Radiance Fields for Single-Image Portrait View Synthesis " is available here:
https://research.nvidia.com/labs/nxp/lp3d/…
https://azure.microsoft.com/en-us/solutions/ai
📝 The paper "Live 3D Portrait: Real-Time Radiance Fields for Single-Image Portrait View Synthesis " is available here:
https://research.nvidia.com/labs/nxp/lp3d/…
👍4🔥2
OmniFusion 1.1 представляет собой гибридную LLM, способную взаимодействовать с изображениями.
В дополнение к стандартному текстовому диалогу, OmniFusion 1.1 может отвечать на вопросы, основанные на изображениях. Например, она способна анализировать рукописные задачи, интерпретировать карты или предоставлять рецепты на основе фотографий продуктов.
Эта модель построена на базе Mistral, однако легко заменяема другими языковыми моделями.
Разработчики обеспечили доступ к модели как для некоммерческого, так и для коммерческого использования.
Модель доступна на платформе Hugging Face.
https://github.com/AIRI-Institute/OmniFusion
@bigdatai
В дополнение к стандартному текстовому диалогу, OmniFusion 1.1 может отвечать на вопросы, основанные на изображениях. Например, она способна анализировать рукописные задачи, интерпретировать карты или предоставлять рецепты на основе фотографий продуктов.
Эта модель построена на базе Mistral, однако легко заменяема другими языковыми моделями.
Разработчики обеспечили доступ к модели как для некоммерческого, так и для коммерческого использования.
Модель доступна на платформе Hugging Face.
https://github.com/AIRI-Institute/OmniFusion
@bigdatai
👍4🔥2❤1
Julia_Cheat_Sheet.pdf
1.9 MB
🔥 Крутая Шпаргалка по языку Julia
Если вы хотите узнать, чем синтаксис
Содержит информацию об использовании:
▪️пакетов;
▪️операторов;
▪️векторов;
▪️разных функций;
▪️датафреймов.
Если вы хотите узнать, чем синтаксис
Julia
отличается от пайтоновского, то эта шпаргалка — отличный материал для быстрого изучения. Содержит информацию об использовании:
▪️пакетов;
▪️операторов;
▪️векторов;
▪️разных функций;
▪️датафреймов.
❤4🔥2