Big Data AI
16.8K subscribers
819 photos
97 videos
19 files
822 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
👉 Обзоры по ML

Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.

🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост

@bigdatai
👍82🔥1
Новая библиотека с открытым исходным кодом для всех, кто работает с данными.

Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:

- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение

Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.

Этот инструмент - волшебство.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥32
⭐️ 10 способов повысить эффективность RAG-системы

LLM
 —  удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation  —  генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.

Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.

Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.

В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG  —  пожалуй, единственный наиболее эффективный способ применения LLM.

В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.

Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.

⚡️Читать дальше

@bigdatai
👍43🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧩 Визуизация работы сессии, файлов cookie, JWT, токенов, SSO и OAuth 2.0 на одной диаграмме

Когда вы входите на веб-сайт, возникает необходимость управления вашей учетной записью. Вот как работают разные решения:

Токен — Ваша учетная запись закодирована в токене, отправленном в браузер. Браузер отправляет этот токен при будущих запросах аутентификации. Хранилище сеансов сервера не требуется. Но токены нуждаются в шифровании/дешифровании.

Сессия — Сервер сохраняет вашу учетную запись и передает браузеру файл cookie с идентификатором сеанса. Это позволяет серверу отслеживать состояние входа в систему. Но файлы cookie не работают на разных устройствах.

JWT — Веб-токены JSON стандартизируют токены идентификации, используя цифровые подписи для обеспечения проверки подлинности. Подпись содержится в токене, поэтому сеанс сервера не требуется.

SSO — Система единого входа использует центральную службу аутентификации. Это позволяет одному логину работать на нескольких сайтах.

OAuth2 — Разрешает ограниченный доступ к вашим данным на одном сайте другому сайту без разглашения паролей.

QR-код — Набирающий популярность метод аутентификации. Кодирует случайный токен в QR-код для входа в систему с мобильного устройства. Сканирование кода позволяет войти в систему без ввода пароля.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥1
💥 Оcновные функции Pandas!

#pandas #datascience

@bigdatai
🥰7🔥3👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Новый Florence 2 от Microsoft имеет большое значение для компьютерного зрения.
Это слияние текста и зрения.


С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.

Самое приятное, что для всего этого используется только одна основа.

▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K

https://arxiv.org/abs/2311.06242

@bigdatai
3🔥3👍1
🔥 Practical_RL

В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.

https://github.com/yandexdataschool/Practical_RL

@bigdatai
6🔥5👍1
💥 Архив из 32 датасетов, которые вы можете использовать для практики и совершенствования своих навыков исследователя данных

https://datasciencedojo.com/blog/datasets-data-science-skills

@bigdatai
👍10🔥41
🔥 LLM могут почти идеально восстанавливать предложения

-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей

arxiv.org/abs/2311.18805
6👍1🔥1
🔥 Алгоритмы и структуры данных

1. Введение
2. Временная сложность и Анализ алгоритмов
3. Массивы
4. Базовые алгоритмы сортировки
5. Эффективные алгоритмы сортировки # Рекурсия
6. Списки
7. Стек
8. Очереди
9. Линейный поиск и Бинарный поиск
10. Символьный таблицы / Словари

#video #algorithm

https://www.youtube.com/watch?v=jlheNrmPIQQ&list=PLBheEHDcG7-n6VhwSPZI64LwFmriuEvvR

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥32🥰1
🔥 Простая и эффективная генерация текста с помощью pytorch-native трансформера на python <1000 LOC.

https://github.com/pytorch-labs/gpt-fast #deeplearning #machinelearning #ml #ai #neuralnetworks #datascience #pytorch

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Что такое MLX?

MLX - это фреймворк, выпущенный компанией Apple для эффективного обучения и вывода ML-моделей. MLX имеет Python API, который очень похож на NumPy.

pip install mlx - это все, что вам нужно!

Фреймворк нем поддерживает Mixtral MoE, Llama, Whisper, Stable Diffusion и многое другое!

В видео запускаем его локально на M2 MBP Pro (24 ГБ).

Краткое руководство:
1. Создайте виртуальную среду

python -m venv mlx_experiments

2. активируйте виртуальную среду

source mlx_experiments/bin/activate

3. клонируйте репозиторий mlx-examples
git clone https://github.com/ml-explore/mlx-examples/

4. установите все requirements

pip install -r mlx-examples/whisper/requirements.txt

5. Используйте whisper в бэкенде mlx

import whisper
whisper.transcribe(<file_name>, model="large-v2")

Код: Github

@bigdatai
👍72🔥2
⚡️ Production Machine Learning

Этот репозиторий содержит список замечательных библиотек с открытым исходным кодом, которые помогут вам развертывать, отслеживать, версионировать, масштабировать и защищать производственное машинное обучение.

🔗 https://github.com/EthicalML/awesome-production-machine-learning

@bigdatai
👍72🔥2
📚 The Breaking Into Data Handbook

В этом репозитории вы найдете ценные ресурсы, которые помогут вам начать работу в области
Аналитика данных, наука о данных, инженерия данных, машинное обучение и компьютерные науки.

https://github.com/meri-nova/breaking-into-data-handbook

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
🤗 Diffusers benchmarks - очень простой способ отслеживать производительность самых популярных и важных пайплайнов.

https://huggingface.co/datasets/diffusers/benchmarks

@bigdatai
3👍2🔥1
🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Разметка данных: неочевидные затраты на голосовые технологии
Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц
Наиболее часто используемые команды Linux
79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
Бесплатные сертификационные курсы для специалистов по данным
RFM-сегментация в оптимизации CRM-стратегий
MDM и CDP: различия систем. Как сделать выбор
Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
Как мы наводим порядок с данными в столичном транспортном институте
Survey: Retrieving Supporting Evidence for Generative Question Answering
Introduction to NannyML: Model Evaluation without labels
Revolutionizing Data Integration: The Role of AI and ML
How to Use Pandas for Data Analysis
Open Source Advent
Bulk Text Analytics with Azure AI Language
Top 10 Benefits of Artificial Intelligence (AI)
Deciphering the EU's AI Act - A Technical Perspective
Harness the power of multiple LLMs 🤝
Google Gemini and Face Recognition

Посмотреть:

🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally ( 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. ( 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. ( 17:05)
🌐 Как использовать API ChatGpt. Работа с Api c нуля ( 12:42)
🌐 💡Задача Python: Максимальное среднее подмассива ( 01:00)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка ( 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" ( 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD ( 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! ( 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! ( 09:40)

Хорошего дня!

@bigdatai
6👍3🔥2
Учёным и преподавателям в области Machine Learning вручили премию Yandex ML Prize

Это пятая премия Яндекса, направленная на развитие области машинного обучения. В этом году лауреатами стали 11 исследователей, среди их научных работ — разработка новых алгоритмов для решения задачи Шрёдингера, генеративные модели для компьютерного зрения и синтеза речи и решение проблемы архитектуры глубоких нейронных сетей. Исследования лауреатов расширяют возможности для прикладного применения ML-технологий.
👍62🔥1
⬆️ Удобная шпаргалка по самым популярным облачным сервисам (выпуск 2023 года)

https://nodownload.org/image/ib/bTSIyMYgcz

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Как построить собственный эффективный ИТ-конвейер?

Крупные компании с 2018 года переходят на отечественное программное обеспечение. И если раньше это делали неохотно, потому что не было адекватной замены, то сегодня все иначе. Более того, сейчас реально выстроить сквозной процесс управления производством ПО на всех этапах жизненного цикла DevSecOps и импортозаместить продукты Atlassian, Microfocus, Microsoft Azure, JetBrains, Informatica.

Платформа Сфера — это более 40 различных инструментов для всех этапов жизненного цикла ПО. В Telegram-канале «Сфера IT» рассказывают об удобных инструментах для бизнеса, делятся новостями мира технологий и дают анонсы полезных вебинаров.

Подписывайтесь на «Сфера IT» !

Реклама. Информация о рекламодателе
👍3