Big Data AI
16.8K subscribers
807 photos
97 videos
19 files
815 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
SQL_Pandas.pdf
515.4 KB
Шпаргалка SQL → Pandas

— выбрать один столбец или несколько из них;
— фильтрация;
— выбор уникальных значений по столбцу;
— подсчет числа значений;
— перечисление названий столбцов и т.д.
🔥8👍43🥰1
🎼Датасеты для генерации и анализа музыки

MAESTRO
MAESTRO (MIDI and Audio Edited for Synchronous Tracks and Organisation) содержит более 200 часов аннотированных записей международных конкурсов пианистов за последние десять лет.

NSynth
Этот датасет состоит из 305 979 музыкальных нот и включает записи 1006 различных инструментов, таких как флейта, гитара, фортепиано и орган. Датасет аннотирован по типу инструмента (акустический, электронный или синтетический) и другим звуковым параметрам.

Lakh MIDI v0.1
В датасете имеется 176,581 MIDI-файл, из которых 45,129 связаны с образцами из Million Song Dataset. Данный датасет разработан для упрощения поиска музыкальной информации на основе текста и аудио контента в большом масштабе.

URMP
URMP - это набор данных, который используется для анализа музыкальных выступлений. В нем содержатся различные музыкальные композиции, в которых присутствуют различные инструменты. Эти композиции созданы из отдельных записей исполнений каждого трека.

Music21
Music21 содержит музыкальные выступления из 21 категории и нацелен на решение исследовательских задач (например, поиска ответа на вопрос :»Какая группа использовала данные аккорды впервые?»)

bigdatai
👍52🔥1
Невероятные шедевры, созданные с помощью Matplotlib

Неважно, как сильно вы пытаетесь быть хорошим в чём-то, всегда найдутся другие люди, делающие это намного лучше. Таким примерам нечего завидовать, ими нужно вдохновляться.

Показательный пример: эти семь шедевров Matplotlib. Я собрал их из блокнотов Kaggle с золотыми медалями, которые привлекли внимание тысяч людей.

Matplotlib — одна из самых мощных библиотек в Python, и если вы отдадите её гению с творческим подходом, вы получите интересный результат.

Читать

bigdatai
🔥5👍21
🤖 PyTorch for Deep Learning & Machine Learning – Full Course

25 часов материала по PyTorch с объяснениями и примерами.

🎞 Видео: https://www.youtube.com/watch?v=V_xro1bcAuA

📝Ссылка на тектовый курс:
https://www.learnpytorch.io/

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥51
📌 Очередная подборка интересных датасетов.

Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).

The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.

IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.

American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.

Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.

Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.

Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).

Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.

Food environment Atlas Data Portal — содержит данные исследований о питании в США.

Health Data Portal — это портал Министерства здравоохранения и социальных служб США.

Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.

London Datastore Portal — данные о жизни людей в Лондоне.

Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)

bigdatai
👍63🔥2
Создание инфографики с помощью Matplotlib

Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.

В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.

В этой статье мы рассмотрим создание инфографики с помощью matplotlib.

Читать

bigdatai
7👍1🔥1
📽 Проект Data Science по прогнозированию рейтинга фильмов Rotten Tomatoes

Предсказание рейтингов фильма на основе настроения рецензий.

В ходе нашего исследования мы обсудим предварительную обработку данных, различные классификаторы и возможные методы улучшения для повышения эффективности наших моделей.

К концу этой статьи вы получите представление о том, как машинное обучение может быть использовано для прогнозирования успеха фильмов и как эти знания могут быть применены в индустрии развлечений.

Читать дальше

bigdatai
👍42🔥1🌚1
📎 Генераторы тестовых данных с открытым исходным кодом

🟢 Benerator

🟢 DataFactory

🟢 Data Factory

🟢 DataGenerator

🟢 generatedata

🟢 MockNeat

🟢 MySQL Random Data Generator

🟢 pydbgen

🟢 Spawner

🟢 SQLfuzz

🟢 Synth

🟢 test-data-generator

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2
⚡️ Десять классных генераторов тестовых данных

1. DATPROF Privacy
Этот инструмент маскирует ваши тестовые данные и на их основе генерирует синтетические. Таким образом сведения о ваших пользователях будут защищены, а вы получите репрезентативные тестовые данные.

2. Redgate SQL Data Generator
Этот инструмент способен быстро создавать большие объемы реалистичных данных.

3. Test Data Manager (не уверена)
Этот инструмент позволяет быстро находить, защищать, проектировать и создавать подходящие данные для эффективного тестирования приложений.

4. Solix Test Data Management
Приложение Solix Test Data Management автоматизирует создание поднаборов (не клонов) баз данных с разумным размером, что позволяет сэкономить до 80% места для хранения. При этом копия производственной базы данных будет синтаксически правильной: это важно для достижения наиболее точных результатов тестирования.

5. SAP Test Data Migration Server
SAP Test Data Migration Server позволяет создавать непроизводственную среду, используя выдержки из бизнес-данных. Это помогает снизить расходы на поддержку и инфраструктуру и одновременно повысить эффективность разработки и тестирования.

6. DTM Data Generator (не уверена)
Инструмент для генерации строк данных для целей тестирования: для наполнения тестовой базы данных, анализа производительности и т. д.

7. Mockaroo
Mockaroo позволяет бесплатно генерировать до 1000 строк реалистичных тестовых данных (большее количество строк уже платное). Данные выгружаются в форматах CSV, JSON, SQL и Excel.

8. GenerateData
Проект с открытым исходным кодом, хостится на GitHub. Данные можно сгенерировать прямо на сайте. Вам предоставляется простой и понятный пользовательский интрефейс и возможность просматривать, что вы генерируете.

9. ApexSQL Generate
Генерирует случайные тестовые данные для SQL-сервера.

10. GenRocket
Сервис для генерации реалистичных тестовых данных. GenRocket позволяет QA-специалистам полностью автоматизировать процесс подготовки тестовых данных и без проблем интегрировать его в автоматизированное тестирование.
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3
Два продвинутых SQL-метода, которые могут значительно улучшить ваши запросы

SQL — это основа для каждого специалиста по работе с данными. Неважно, являетесь ли вы аналитиком данных, специалистом по данным или инженером по обработке данных, вам необходимо иметь четкое представление о том, как писать чистые и эффективные SQL-запросы.

Это связано с тем, что за любым тщательным анализом данных или любой сложной моделью машинного обучения стоят базовые данные, и эти данные должны откуда-то поступать.

Cегодня мы рассмотрим две новые техники SQL, которые вы можете добавить в свой набор инструментов, чтобы вывести ваши запросы на новый уровень. Эти методы называются Обобщённое табличное выражение (CTE) и Оконные функции.

Читать
👍43🔥1
🦙 LONGLLaMA: языковая модель, для обработки длинных контекстов из 256 000 токенов

Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста.

Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA показала прогресс в точности в задачах, требующих понимания длинного контекста. Модель LONGLLAMA-3B достигла точности 94,5% при 100 тысячах токенов и 73% при 256 тысячах токенов, в то время как базовая модель OpenLLAMA не способна обрабатывать контексты, превышающие ее длину обучения в 2 тысячи токенов.

Код
Colab

bigdatai
5👍2🔥1
🤔 10 аргументов “за” и “против” SQL 

Вторая по обсуждаемости тема в среде специалистов по SQL: как произносить то, что большинство людей называют Sequel ([сиквел] вместо [эс кью эл]). Это удивительно, поскольку язык существует более 40 лет.

Но, пожалуй, самая обсуждаемая тема, связанная с SQL, — это вопрос о том, считается ли он языком программирования.

Почему SQL не является языком программирования

🟢 Создание и выполнение запросов, а не скриптов
🟢 Не изменяет состояние
🟢 Отсутствие циклирования
🟢 Репутация в отрасли

Почему SQL является языком программирования

🟣 Соответствие критерию Тьюринга
🟣 Переменные, условная логика, определения функций
🟣 Возможность создавать приложения (хотя это сложно)
🟣 Так считают в Google

Подробное разъяснение читай тут

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42👎2😁2🔥1
⭐️ Flourish Studio — инструмент для создание интерактивных визуализаций данных без кодинга

Это отличный вариант, если вам нужно быстренько и красиво визуализировать собранные данных без необходимости программировать

С помощью инструмента вы сможете создавать динамичные и привлекательные графики, диаграммы, карты и другие визуальные элементы

У Flourish Studio есть широкий набор готовых шаблонов и анимаций, интуитивный визуальный редактор, возможность добавлять интерактивность и настраивать анимации

Стоимость: #бесплатно (но есть платные тарифы).

#данные #диаграммы

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥3
🖥 Подробная Шпаргалка SQL на 2023 год

Руководство о всех SQL-запросах и примерах их использования.

Этот
пост постоянно обновляется и дополняется, сохраняйте пост себе и делитесь ссыслкой с друзьями.

Ставьте ❤️, если хотите больше подобного материала.

✔️ Шпаргалка

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
20🔥3👍2
🚀 Podman Desktop

Графический интерфейс для создания, запуска и управления контейнерами Kubernetes.

Удобный интсрумент, который позволяет создавать, запускать, тестировать и публиковать микросервисы и приложения, разрабатываемые для систем контейнерной изоляции.

Github

bigdatai
6👍1👎1🔥1
Собрание бесплатных курсов по Python и машинному обучению.

1. Основы Python для анализа данных — программирование на Python.

2. Ускоренный курс по машинному обучению — видеолекции от исследователей Google.

3. Основы R — как обрабатывать, анализировать и визуализировать данные.

4. Введение в Data Science и аналитику — основы Data Science и Data Science Life Cycle.

5. Линейная регрессия — как применять R для осуществления линейной регрессии.

6. Визуализация — принципы визуализации данных и применение ggplot2.

7. Введение CS50 в программирование на Python, май 2023 г.

8. Python для всех: Getting Started with Python от Coursera, этот курс для начинающих знакомит с программированием на Python через пошаговые учебные пособия и практические упражнения. Курс ведет известный преподаватель доктор Чарльз Северанс.
👍83🔥3
🔎 Exposing the Troublemakers in Described Object Detection

Новый, размеченный набор данных для обнаружения объектов.

pip install ddd-dataset

from d_cube import D3
d3 = D3(IMG_ROOT, PKL_ANNO_PATH)
all_img_ids = d3.get_img_ids() # get the image ids in the dataset
all_img_info = d3.load_imgs(all_img_ids) # load images by passing a list of some image ids
img_path = all_img_info[0]["file_name"] # obtain one image path so you can load it and inference

🖥 Github: https://github.com/shikras/d-cube

🔗 Docs: https://github.com/shikras/d-cube/blob/main/doc.md

📕 Paper: https://arxiv.org/pdf/2307.12813.pdf

🔥 Dataset: https://paperswithcode.com/dataset/description-detection-dataset

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥21
🆓 10 лучших бесплатных курсов Udacity для мл специалистов.

1. Machine Learning by Georgia Tech
Отличный курс по машинному обучению для начинающих.

2. Introduction to Machine Learning Course
Udacity научит вас основам и тому, как использовать машинное обучение для решения реальных задач.

3. Intro to Artificial Intelligence
Узнайте об интеллектуальных агентах, алгоритмах поиска и игровых программах. Вы словно окажетесь в научно-фантастическом фильме!

4. Artificial Intelligence for Robotics
Вы узнаете, как роботыпринимают решения, понимают, где они находятся и как передвигаются.

5. What is Programming?
Познакомит вас с популярными языками программирования, переменными, циклами и условиями.

6. Intro to HTML and CSS
Никакого опыта не требуется! Вы изучите основы веб-разработки и сможете создавать классные вещи в Интернете!

7. Introduction to Computer Vision
Компьютерное зрение подобно волшебству - оно позволяет компьютерам понимать изображения и видео. Узнайте об обработке изображений, распознавании объектов и многом другом!

8. Intro to Data Science
Наука о данных - это поиск скрытых закономерностей в данных. Исследуйте данные и принимайте разумные решения как эксперт в области данных!

9. SQL for Data Analysis
Анализ данных может быть интересным с помощью SQL. Станьте мастером данных с помощью этого важного навыка!

10. Data Wrangling with MongoDB
Узнайте, как организовать и преобразовать данные как профессионал с помощью MongoDB.

bigdatai
👍72🔥2
⚡️ ConvertCSV — крутой универсальный инструмент для работы с CSV

ConvertCSV отлично подойдёт для обработки и конвертации CSV-файлов, поддерживая также формат TSV и прочие популярные разделители

При этом обработка данных происходит непосредственно на вашем компьютере, что обеспечивает безопасность пользовательских данных

Также сервис поддерживает работу с Excel и предлагает инструменты для командной строки и настольные приложения

Стоимость: #бесплатно

#data #CSV #данные

bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1