Big Data AI

🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
— Как автоматизировать проверки данных в Airflow с Great Expectations
— 5 уровней зрелости MLOps
— Лучшие ресурсы чтобы выучить Git и Github
— Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
— Деревья ltree в PostgreSQL – простым языком
— Лучшие практики Golang (20 лучших)
— How to install NVIDIA drivers for machine learning on Ubuntu
— Working through the fast.ai book in Rust - Part 1
— Why ChatGPT and other LLMs are overrated and won't take your job
— Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
— A Quick Look At Natural Language Generation (NLG)
— AI Log #2: What is a Cost Function in Machine Learning?
— The Next Generation of AI Developer Tools
— AI Development Guide 2024
— What is a Conditional Generative Adversarial Network?
— The State of Serverless GPU Part -2

Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)

Хорошего дня!

#digest #bigdata

@bigdatai

👍4❤2🔥2

2.94K views11:51

Big Data AI

👉 Классификация изображений

Список из 5 лучших работ и проектов с кодом по классификации изображений с помощью глубокого обучения.

🔗 https://github.com/weiaicunzai/awesome-image-classification

@bigdatai

👍4❤2🔥1

2.84K views09:24

Big Data AI

Awesome-LLM4AD

Список интересных ресурсов, посвященных LLM для автономного вождения (постоянно обновляется).

🐱

GitHub

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍1

2.37K views14:06

Big Data AI

👉 Обзоры по ML

Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.

🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост

@bigdatai

👍8❤2🔥1

2.64K views18:15

Big Data AI

Новая библиотека с открытым исходным кодом для всех, кто работает с данными.

Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:

- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение

Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.

Этот инструмент - волшебство.

🐱

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤2

2.92K views11:41

Big Data AI

⭐️ 10 способов повысить эффективность RAG-системы

LLM — удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation — генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.

Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.

Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.

В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG — пожалуй, единственный наиболее эффективный способ применения LLM.

В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.

Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.

⚡️Читать дальше

@bigdatai

👍4❤3🔥1

2.84K views08:21

Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

🧩

Визуизация работы сессии, файлов cookie, JWT, токенов, SSO и OAuth 2.0 на одной диаграмме

Когда вы входите на веб-сайт, возникает необходимость управления вашей учетной записью. Вот как работают разные решения:

▪ Токен — Ваша учетная запись закодирована в токене, отправленном в браузер. Браузер отправляет этот токен при будущих запросах аутентификации. Хранилище сеансов сервера не требуется. Но токены нуждаются в шифровании/дешифровании.

▪ Сессия — Сервер сохраняет вашу учетную запись и передает браузеру файл cookie с идентификатором сеанса. Это позволяет серверу отслеживать состояние входа в систему. Но файлы cookie не работают на разных устройствах.

▪ JWT — Веб-токены JSON стандартизируют токены идентификации, используя цифровые подписи для обеспечения проверки подлинности. Подпись содержится в токене, поэтому сеанс сервера не требуется.

▪ SSO — Система единого входа использует центральную службу аутентификации. Это позволяет одному логину работать на нескольких сайтах.

▪ OAuth2 — Разрешает ограниченный доступ к вашим данным на одном сайте другому сайту без разглашения паролей.

▪ QR-код — Набирающий популярность метод аутентификации. Кодирует случайный токен в QR-код для входа в систему с мобильного устройства. Сканирование кода позволяет войти в систему без ввода пароля.

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3🔥1

2.68K views11:01

Big Data AI

💥 Оcновные функции Pandas!

#pandas #datascience

@bigdatai

🥰7🔥3👍2❤1

3.32K views19:17

Big Data AI

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Новый Florence 2 от Microsoft имеет большое значение для компьютерного зрения.
Это слияние текста и зрения.

С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.

Самое приятное, что для всего этого используется только одна основа.

▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K

https://arxiv.org/abs/2311.06242

@bigdatai

❤3🔥3👍1

2.74K views08:59

Big Data AI

🔥 Practical_RL

В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.

https://github.com/yandexdataschool/Practical_RL

@bigdatai

❤6🔥5👍1

2.64K views08:02

Big Data AI

💥 Архив из 32 датасетов, которые вы можете использовать для практики и совершенствования своих навыков исследователя данных

https://datasciencedojo.com/blog/datasets-data-science-skills

@bigdatai

👍10🔥4❤1

3.17K views03:25

Big Data AI

🔥 LLM могут почти идеально восстанавливать предложения

-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей

arxiv.org/abs/2311.18805

❤6👍1🔥1

3.23K views16:07

Big Data AI

🔥

Алгоритмы и структуры данных

1. Введение
2. Временная сложность и Анализ алгоритмов
3. Массивы
4. Базовые алгоритмы сортировки
5. Эффективные алгоритмы сортировки # Рекурсия
6. Списки
7. Стек
8. Очереди
9. Линейный поиск и Бинарный поиск
10. Символьный таблицы / Словари

#video #algorithm

https://www.youtube.com/watch?v=jlheNrmPIQQ&list=PLBheEHDcG7-n6VhwSPZI64LwFmriuEvvR

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤2🥰1

3.69K viewsedited 16:19

Big Data AI

🔥 Простая и эффективная генерация текста с помощью pytorch-native трансформера на python <1000 LOC.

https://github.com/pytorch-labs/gpt-fast #deeplearning #machinelearning #ml #ai #neuralnetworks #datascience #pytorch

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2👎1

2.75K views09:01

Big Data AI

⚡️ Курсы бесплатно:

Excel: https://excel-practice-online.com

SQL: https://sqlbolt.com

Tableau: https://tableau.com/learn/starter-kits

Power BI: https://powerbi.microsoft.com/en-us/learning/

Python: https://freecodecamp.org/news/learn-data-analysis-with-python-course/

AI и ML: https://freecodecamp.org/news/machine-learning-with-python-and-scikit-learn/

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤4🔥2

3.28K views11:02

Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

Что такое MLX?

MLX - это фреймворк, выпущенный компанией Apple для эффективного обучения и вывода ML-моделей. MLX имеет Python API, который очень похож на NumPy.

pip install mlx - это все, что вам нужно! ✨

Фреймворк нем поддерживает Mixtral MoE, Llama, Whisper, Stable Diffusion и многое другое!

В видео запускаем его локально на M2 MBP Pro (24 ГБ).

Краткое руководство:
1. Создайте виртуальную среду

python -m venv mlx_experiments

2. активируйте виртуальную среду

source mlx_experiments/bin/activate

3. клонируйте репозиторий mlx-examples
git clone https://github.com/ml-explore/mlx-examples/

4. установите все requirements

pip install -r mlx-examples/whisper/requirements.txt

5. Используйте whisper в бэкенде mlx ✨

import whisper
whisper.transcribe(<file_name>, model="large-v2")

Код: Github

@bigdatai

👍7❤2🔥2

2.54K views09:43

Big Data AI

⚡️ Production Machine Learning

Этот репозиторий содержит список замечательных библиотек с открытым исходным кодом, которые помогут вам развертывать, отслеживать, версионировать, масштабировать и защищать производственное машинное обучение.

🔗 https://github.com/EthicalML/awesome-production-machine-learning

@bigdatai

👍7❤2🔥2

2.51K views13:35

Big Data AI

📚

The Breaking Into Data Handbook

В этом репозитории вы найдете ценные ресурсы, которые помогут вам начать работу в области
Аналитика данных, наука о данных, инженерия данных, машинное обучение и компьютерные науки.

https://github.com/meri-nova/breaking-into-data-handbook

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - break-into-data/break-into-data-handbook: Breaking Into Data Handbook

Breaking Into Data Handbook. Contribute to break-into-data/break-into-data-handbook development by creating an account on GitHub.

👍3🔥2❤1

4.51K views16:02

Big Data AI

🤗 Diffusers benchmarks - очень простой способ отслеживать производительность самых популярных и важных пайплайнов.

https://huggingface.co/datasets/diffusers/benchmarks

@bigdatai

❤3👍2🔥1

2.58K views10:01

Big Data AI

🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
— Разметка данных: неочевидные затраты на голосовые технологии
— Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц
— Наиболее часто используемые команды Linux
— 79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
— Бесплатные сертификационные курсы для специалистов по данным
— RFM-сегментация в оптимизации CRM-стратегий
— MDM и CDP: различия систем. Как сделать выбор
— Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
— Как мы наводим порядок с данными в столичном транспортном институте
— Survey: Retrieving Supporting Evidence for Generative Question Answering
— Introduction to NannyML: Model Evaluation without labels
— Revolutionizing Data Integration: The Role of AI and ML
— How to Use Pandas for Data Analysis
— Open Source Advent
— Bulk Text Analytics with Azure AI Language
— Top 10 Benefits of Artificial Intelligence (AI)
— Deciphering the EU's AI Act - A Technical Perspective
— Harness the power of multiple LLMs 🤝
— Google Gemini and Face Recognition

Посмотреть:

🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)

Хорошего дня!

@bigdatai

❤6👍3🔥2

2.92K views08:38

About

Blog

Apps

Platform