Big Data AI

🥇 Sports

Открытые спортивные датасеты.

▪American Ninja Warrior Obstacles - Contains every obstacle in the history of American Ninja [...]

▪Betfair Historical Exchange Data

▪Cricsheet Matches (cricket)

▪Equity in Athletics - The Equity in Athletics Data Analysis Cutting Tool is brought to you by [...]

▪Ergast Formula 1, from 1950 up to date (API)

▪Football/Soccer resources (data and APIs)

▪Lahman's Baseball Database

▪NFL play-by-play data - NFL play-by-play data sourced from: [...]

▪Pinhooker: Thoroughbred Bloodstock Sale Data

▪Pro Kabadi season 1 to 7 - Pro Kabadi League is a professional-level Kabaddi league in India. [...]

▪Retrosheet Baseball Statistics

▪Tennis database of rankings, results, and stats for ATP

▪Tennis database of rankings, results, and stats for WTA

▪Transfermarkt Datasets - Clean, structured and automatically updated football (soccer) data [...]

▪USA Soccer Teams and Locations - USA soccer teams and locations. MLS, NWSL, and USL [...]

@bigdatai

👍4❤3🔥3

2.11K viewsedited 12:21

Big Data AI

Transportation

Крупные Датасеты, связанные с транспотртом.

Airlines OD Data 1987-2008 [Meta]

Ford GoBike Data (formerly Bay Area Bike Share Data) [Meta]

Bike Share Systems (BSS) collection [Meta]

Dutch Traffic Information [Meta]

GeoLife GPS Trajectory from Microsoft Research [Meta]

German train system by Deutsche Bahn [Meta]

Hubway Million Rides in MA [Meta]

Montreal BIXI Bike Share [Meta]

NYC Taxi Trip Data 2009- [Meta]

NYC Taxi Trip Data 2013 (FOIA/FOILed) [Meta]

NYC Uber trip data April 2014 to September 2014 [Meta]

Open Traffic collection [Meta]

OpenFlights - airport, airline and route data [Meta]

Philadelphia Bike Share Stations (JSON) [Meta]

Plane Crash Database, since 1920 [Meta]

RITA Airline On-Time Performance data [Meta]

RITA/BTS transport data collection (TranStat) [Meta]

Renfe (Spanish National Railway Network) dataset [Meta]

Toronto Bike Share Stations (JSON and GBFS files) [Meta]

Transport for London (TFL) [Meta]

Travel Tracker Survey (TTS) for Chicago [Meta]

U.S. Bureau of Transportation Statistics (BTS) [Meta]

U.S. Domestic Flights 1990 to 2009 [Meta]

U.S. Freight Analysis Framework since 2007 [Meta]

U.S. National Highway Traffic Safety Administration - Fatalities since 1975 - Contains CSV [...] [Meta]

@bigdatai

👍5❤2🔥2

2.41K views13:39

Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 NEURAL NETWORKS A VISUAL INTRODUCTION

Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.

Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.

https://mlu-explain.github.io/neural-networks/

@bigdatai

👍6🔥4❤‍🔥2❤1

2.13K views12:23

Big Data AI

Чем больший объем данных используют на проекте, чем выше нагрузка на систему – тем более продвинутый SQL нужен разработчикам. Изучить SQL и свободно использовать его в работе поможет курс Практикума.

После 3 месяцев курса разработчики смогут:
— уверенно пользоваться простыми селектами, джоинами, индексами и оконными функциями;
— отладить запрос, который сгенерирован через ORM;
— составить сложные запросы на нативном SQL;
— применить продвинутый SQL, чтобы писать код для высоконагруженных систем,
— чувствовать себя спокойно на собеседованиях.

Записывайтесь и растите в карьере.

Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8KD49u

👍3❤1

2.13K views08:01

Big Data AI

TimeSeries datasets

3W dataset - To the best of its authors' knowledge, this is the first realistic and public [...] [Meta]

Databanks International Cross National Time Series Data Archive [Meta]

Hard Drive Failure Rates [Meta]

Heart Rate Time Series from MIT [Meta]

Time Series Data Library (TSDL) from MU [Meta]

Turing Change Point Dataset - Contains 42 annotated time series collected for the development [...] [Meta]

UC Riverside Time Series Dataset [Meta]

@bigdatai

❤4🔥2👍1

1.98K viewsedited 10:46

Big Data AI

SocialNetworks Datasets

2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]

72 hours #gamergate Twitter Scrape [Meta]

CMU Enron Email of 150 users [Meta]

Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]

China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]

Clubhouse Dataset [Meta]

A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]

43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]

EDRM Enron EMail of 151 users, hosted on S3 [Meta]

Facebook Data Scrape (2005) [Meta]

Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]

Facebook Social Networks from LAW (since 2007) [Meta]

Foursquare from UMN/Sarwat (2013) [Meta]

GitHub Collaboration Archive [Meta]

Google Scholar citation relations [Meta]

High-Resolution Contact Networks from Wearable Sensors [Meta]

Indie Map: social graph and crawl of top IndieWeb sites [Meta]

Mobile Social Networks from UMASS [Meta]

Network Twitter Data [Meta]

Reddit Comments [Meta]

Skytrax' Air Travel Reviews Dataset [Meta]

Social Twitter Data [Meta]

SourceForge.net Research Data [Meta]

The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]

Twitch Top Streamer's Data [Meta]

Twitter Data for Online Reputation Management [Meta]

Twitter Data for Sentiment Analysis [Meta]

Twitter Graph of entire Twitter site [Meta]

Twitter Scrape Calufa May 2011 [Meta]

UNIMI/LAW Social Network Datasets [Meta]

United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]

Yahoo! Graph and Social Data [Meta]

Youtube Video Social Graph in 2007,2008 [Meta]

@bigdatai

👍5🔥2❤1

1.62K viewsedited 13:02

Big Data AI

GitHub

election-watch/datasets/01_portuguese_presidential_elections_2021_01_24.md at master · msramalho/election-watch

🗳️+👀 A platform to protect elections in a disinformation world. - msramalho/election-watch

👍4🔥1

1.54K views12:47

Big Data AI

Познакомьтесь с Gorilla: LLM Калифорнийского университета в Беркли и Microsoft с API-расширением превосходит GPT-4, Chat-GPT и Claude

Недавние достижения в области больших языковых моделей (LLM) произвели революцию в этой области, снабдив их новыми возможностями, такими как естественный диалог, математические рассуждения и программный синтез. Тем не менее, LLM по-прежнему сталкиваются с присущими им ограничениями.

Недавно исследователи из Калифорнийского университета в Беркли и Microsoft представили Gorilla — модель LLaMA-7B, разработанную специально для вызовов API. Gorilla полагается на самообучаемые методы тонкой настройки и поиска, чтобы позволить LLM точно выбирать из большого и постоянно развивающегося набора инструментов, выраженных через их API и документацию.

Читать

@bigdatai

🔥7👍1🥰1

1.79K views08:32

Big Data AI

Введение для Python-разработчиков в Prompt Engineering GPT-4

Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.

Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.

Читать

@bigdatai

❤5💩3👍1

2.15K views10:03

Big Data AI

Forwarded from YTsaurus Community Chat (RU)

🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты

Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.

Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.

Также запись вебинара будет доступна на YouTube.

1.69K views13:40

Big Data AI

📌 Подборка интересных датасетов

IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)

MS COCO dataset — 1,5 млн размеченных изображений.

CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.

GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)

ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.

Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)

Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.

Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.

All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.

Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.

New York City Property Tax Data - данные о недвижимости и оценочной стоимости в Нью-Йорке.

Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.

Мировые рейтинги университетов. Исследуйте лучшие университеты мира.

Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.

Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.

Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.

Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.

Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.

Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.

Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».

Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.

Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.

@bigdatai

👍11❤3🔥2

2.04K views16:37

Big Data AI

🎞

YouTube-ASL

Этот репозиторий содержит информацию о наборе данных YouTube-ASL, крупномасштабном датасете с открытым исходным кодом, содержащем видеоролики на американском языке жестов с английскими субтитрами.

Этот набор данных состоит из 11 093 видео на ASL с 984 часами отснятого материала и 610 193 английскими титрами.

https://github.com/google-research/google-research/tree/master/youtube_asl

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

1.73K views09:29

Big Data AI

20 встроенных библиотек Python, которые заслуживают гораздо большего внимания

Большинство людей думают, что массовое доминирование Python связано с его мощными библиотеками, такими как NumPy, Pandas, Sklearn, XGBoost и т.д. Это сторонние библиотеки, написанные профессиональными разработчиками, часто с помощью других более быстрых языков программирования, таких как C, Java или C++. .

Таким образом, один из слабых аргументов, которые ненавистники могут привести против Python, заключается в том, что он перестанет быть таким популярным, как только вы избавитесь от всей славы, которую приносят эти сторонние библиотеки. Я здесь, чтобы сказать обратное и показать, что даже стандартный Python достаточно мощен, чтобы составить серьезную конкуренцию любому языку.

Я предлагаю вашему вниманию 20 встроенных библиотек, которые находятся всего в одной строке от того, чтобы быть запущенными.

Читать

https://t.iss.one/bigdatai

🔥8❤3👍1

2.66K views18:06

Big Data AI

SQL_Pandas.pdf

515.4 KB

Шпаргалка SQL → Pandas

— выбрать один столбец или несколько из них;
— фильтрация;
— выбор уникальных значений по столбцу;
— подсчет числа значений;
— перечисление названий столбцов и т.д.

🔥8👍4❤3🥰1

2.21K views07:57

Big Data AI

🎼Датасеты для генерации и анализа музыки

• MAESTRO
MAESTRO (MIDI and Audio Edited for Synchronous Tracks and Organisation) содержит более 200 часов аннотированных записей международных конкурсов пианистов за последние десять лет.

• NSynth
Этот датасет состоит из 305 979 музыкальных нот и включает записи 1006 различных инструментов, таких как флейта, гитара, фортепиано и орган. Датасет аннотирован по типу инструмента (акустический, электронный или синтетический) и другим звуковым параметрам.

• Lakh MIDI v0.1
В датасете имеется 176,581 MIDI-файл, из которых 45,129 связаны с образцами из Million Song Dataset. Данный датасет разработан для упрощения поиска музыкальной информации на основе текста и аудио контента в большом масштабе.

• URMP
URMP - это набор данных, который используется для анализа музыкальных выступлений. В нем содержатся различные музыкальные композиции, в которых присутствуют различные инструменты. Эти композиции созданы из отдельных записей исполнений каждого трека.

• Music21
Music21 содержит музыкальные выступления из 21 категории и нацелен на решение исследовательских задач (например, поиска ответа на вопрос :»Какая группа использовала данные аккорды впервые?»)

bigdatai

👍5❤2🔥1

2.11K viewsedited 11:50

Big Data AI

Невероятные шедевры, созданные с помощью Matplotlib

Неважно, как сильно вы пытаетесь быть хорошим в чём-то, всегда найдутся другие люди, делающие это намного лучше. Таким примерам нечего завидовать, ими нужно вдохновляться.

Показательный пример: эти семь шедевров Matplotlib. Я собрал их из блокнотов Kaggle с золотыми медалями, которые привлекли внимание тысяч людей.

Matplotlib — одна из самых мощных библиотек в Python, и если вы отдадите её гению с творческим подходом, вы получите интересный результат.

▪ Читать

bigdatai

🔥5👍2❤1

2.02K views14:01

Big Data AI

🤖 PyTorch for Deep Learning & Machine Learning – Full Course

25 часов материала по PyTorch с объяснениями и примерами.

🎞

Видео: https://www.youtube.com/watch?v=V_xro1bcAuA

📝Ссылка на тектовый курс:
https://www.learnpytorch.io/

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥5❤1

2.09K views15:03

Big Data AI

📌 Очередная подборка интересных датасетов.

Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).

The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.

IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.

American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.

Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.

Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.

Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).

Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.

Food environment Atlas Data Portal — содержит данные исследований о питании в США.

Health Data Portal — это портал Министерства здравоохранения и социальных служб США.

Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.

London Datastore Portal — данные о жизни людей в Лондоне.

Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)

bigdatai

👍6❤3🔥2

2.15K views07:53

Big Data AI

Создание инфографики с помощью Matplotlib

Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.

В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.

В этой статье мы рассмотрим создание инфографики с помощью matplotlib.

Читать

bigdatai

❤7👍1🔥1

1.86K views12:29

Big Data AI

📽 Проект Data Science по прогнозированию рейтинга фильмов Rotten Tomatoes

Предсказание рейтингов фильма на основе настроения рецензий.

В ходе нашего исследования мы обсудим предварительную обработку данных, различные классификаторы и возможные методы улучшения для повышения эффективности наших моделей.

К концу этой статьи вы получите представление о том, как машинное обучение может быть использовано для прогнозирования успеха фильмов и как эти знания могут быть применены в индустрии развлечений.

▪ Читать дальше

bigdatai

👍4❤2🔥1🌚1

1.66K views10:02

Big Data AI

📎

Генераторы тестовых данных с открытым исходным кодом

🟢

Benerator

🟢

DataFactory

🟢

Data Factory

🟢