🥇 Sports
Открытые спортивные датасеты.
▪American Ninja Warrior Obstacles - Contains every obstacle in the history of American Ninja [...]
▪Betfair Historical Exchange Data
▪Cricsheet Matches (cricket)
▪Equity in Athletics - The Equity in Athletics Data Analysis Cutting Tool is brought to you by [...]
▪Ergast Formula 1, from 1950 up to date (API)
▪Football/Soccer resources (data and APIs)
▪Lahman's Baseball Database
▪NFL play-by-play data - NFL play-by-play data sourced from: [...]
▪Pinhooker: Thoroughbred Bloodstock Sale Data
▪Pro Kabadi season 1 to 7 - Pro Kabadi League is a professional-level Kabaddi league in India. [...]
▪Retrosheet Baseball Statistics
▪Tennis database of rankings, results, and stats for ATP
▪Tennis database of rankings, results, and stats for WTA
▪Transfermarkt Datasets - Clean, structured and automatically updated football (soccer) data [...]
▪USA Soccer Teams and Locations - USA soccer teams and locations. MLS, NWSL, and USL [...]
@bigdatai
Открытые спортивные датасеты.
▪American Ninja Warrior Obstacles - Contains every obstacle in the history of American Ninja [...]
▪Betfair Historical Exchange Data
▪Cricsheet Matches (cricket)
▪Equity in Athletics - The Equity in Athletics Data Analysis Cutting Tool is brought to you by [...]
▪Ergast Formula 1, from 1950 up to date (API)
▪Football/Soccer resources (data and APIs)
▪Lahman's Baseball Database
▪NFL play-by-play data - NFL play-by-play data sourced from: [...]
▪Pinhooker: Thoroughbred Bloodstock Sale Data
▪Pro Kabadi season 1 to 7 - Pro Kabadi League is a professional-level Kabaddi league in India. [...]
▪Retrosheet Baseball Statistics
▪Tennis database of rankings, results, and stats for ATP
▪Tennis database of rankings, results, and stats for WTA
▪Transfermarkt Datasets - Clean, structured and automatically updated football (soccer) data [...]
▪USA Soccer Teams and Locations - USA soccer teams and locations. MLS, NWSL, and USL [...]
@bigdatai
👍4❤3🔥3
Transportation
Крупные Датасеты, связанные с транспотртом.
Airlines OD Data 1987-2008 [Meta]
Ford GoBike Data (formerly Bay Area Bike Share Data) [Meta]
Bike Share Systems (BSS) collection [Meta]
Dutch Traffic Information [Meta]
GeoLife GPS Trajectory from Microsoft Research [Meta]
German train system by Deutsche Bahn [Meta]
Hubway Million Rides in MA [Meta]
Montreal BIXI Bike Share [Meta]
NYC Taxi Trip Data 2009- [Meta]
NYC Taxi Trip Data 2013 (FOIA/FOILed) [Meta]
NYC Uber trip data April 2014 to September 2014 [Meta]
Open Traffic collection [Meta]
OpenFlights - airport, airline and route data [Meta]
Philadelphia Bike Share Stations (JSON) [Meta]
Plane Crash Database, since 1920 [Meta]
RITA Airline On-Time Performance data [Meta]
RITA/BTS transport data collection (TranStat) [Meta]
Renfe (Spanish National Railway Network) dataset [Meta]
Toronto Bike Share Stations (JSON and GBFS files) [Meta]
Transport for London (TFL) [Meta]
Travel Tracker Survey (TTS) for Chicago [Meta]
U.S. Bureau of Transportation Statistics (BTS) [Meta]
U.S. Domestic Flights 1990 to 2009 [Meta]
U.S. Freight Analysis Framework since 2007 [Meta]
U.S. National Highway Traffic Safety Administration - Fatalities since 1975 - Contains CSV [...] [Meta]
@bigdatai
Крупные Датасеты, связанные с транспотртом.
Airlines OD Data 1987-2008 [Meta]
Ford GoBike Data (formerly Bay Area Bike Share Data) [Meta]
Bike Share Systems (BSS) collection [Meta]
Dutch Traffic Information [Meta]
GeoLife GPS Trajectory from Microsoft Research [Meta]
German train system by Deutsche Bahn [Meta]
Hubway Million Rides in MA [Meta]
Montreal BIXI Bike Share [Meta]
NYC Taxi Trip Data 2009- [Meta]
NYC Taxi Trip Data 2013 (FOIA/FOILed) [Meta]
NYC Uber trip data April 2014 to September 2014 [Meta]
Open Traffic collection [Meta]
OpenFlights - airport, airline and route data [Meta]
Philadelphia Bike Share Stations (JSON) [Meta]
Plane Crash Database, since 1920 [Meta]
RITA Airline On-Time Performance data [Meta]
RITA/BTS transport data collection (TranStat) [Meta]
Renfe (Spanish National Railway Network) dataset [Meta]
Toronto Bike Share Stations (JSON and GBFS files) [Meta]
Transport for London (TFL) [Meta]
Travel Tracker Survey (TTS) for Chicago [Meta]
U.S. Bureau of Transportation Statistics (BTS) [Meta]
U.S. Domestic Flights 1990 to 2009 [Meta]
U.S. Freight Analysis Framework since 2007 [Meta]
U.S. National Highway Traffic Safety Administration - Fatalities since 1975 - Contains CSV [...] [Meta]
@bigdatai
👍5❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 NEURAL NETWORKS A VISUAL INTRODUCTION
Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.
Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.
https://mlu-explain.github.io/neural-networks/
@bigdatai
Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.
Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.
https://mlu-explain.github.io/neural-networks/
@bigdatai
👍6🔥4❤🔥2❤1
Чем больший объем данных используют на проекте, чем выше нагрузка на систему – тем более продвинутый SQL нужен разработчикам. Изучить SQL и свободно использовать его в работе поможет курс Практикума.
После 3 месяцев курса разработчики смогут:
— уверенно пользоваться простыми селектами, джоинами, индексами и оконными функциями;
— отладить запрос, который сгенерирован через ORM;
— составить сложные запросы на нативном SQL;
— применить продвинутый SQL, чтобы писать код для высоконагруженных систем,
— чувствовать себя спокойно на собеседованиях.
Записывайтесь и растите в карьере.
Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8KD49u
После 3 месяцев курса разработчики смогут:
— уверенно пользоваться простыми селектами, джоинами, индексами и оконными функциями;
— отладить запрос, который сгенерирован через ORM;
— составить сложные запросы на нативном SQL;
— применить продвинутый SQL, чтобы писать код для высоконагруженных систем,
— чувствовать себя спокойно на собеседованиях.
Записывайтесь и растите в карьере.
Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8KD49u
👍3❤1
TimeSeries datasets
3W dataset - To the best of its authors' knowledge, this is the first realistic and public [...] [Meta]
Databanks International Cross National Time Series Data Archive [Meta]
Hard Drive Failure Rates [Meta]
Heart Rate Time Series from MIT [Meta]
Time Series Data Library (TSDL) from MU [Meta]
Turing Change Point Dataset - Contains 42 annotated time series collected for the development [...] [Meta]
UC Riverside Time Series Dataset [Meta]
@bigdatai
3W dataset - To the best of its authors' knowledge, this is the first realistic and public [...] [Meta]
Databanks International Cross National Time Series Data Archive [Meta]
Hard Drive Failure Rates [Meta]
Heart Rate Time Series from MIT [Meta]
Time Series Data Library (TSDL) from MU [Meta]
Turing Change Point Dataset - Contains 42 annotated time series collected for the development [...] [Meta]
UC Riverside Time Series Dataset [Meta]
@bigdatai
❤4🔥2👍1
SocialNetworks Datasets
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
👍5🔥2❤1
SocialNetworks Datasets
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
GitHub
election-watch/datasets/01_portuguese_presidential_elections_2021_01_24.md at master · msramalho/election-watch
🗳️+👀 A platform to protect elections in a disinformation world. - msramalho/election-watch
👍4🔥1
Познакомьтесь с Gorilla: LLM Калифорнийского университета в Беркли и Microsoft с API-расширением превосходит GPT-4, Chat-GPT и Claude
Недавние достижения в области больших языковых моделей (LLM) произвели революцию в этой области, снабдив их новыми возможностями, такими как естественный диалог, математические рассуждения и программный синтез. Тем не менее, LLM по-прежнему сталкиваются с присущими им ограничениями.
Недавно исследователи из Калифорнийского университета в Беркли и Microsoft представили Gorilla — модель LLaMA-7B, разработанную специально для вызовов API. Gorilla полагается на самообучаемые методы тонкой настройки и поиска, чтобы позволить LLM точно выбирать из большого и постоянно развивающегося набора инструментов, выраженных через их API и документацию.
Читать
@bigdatai
Недавние достижения в области больших языковых моделей (LLM) произвели революцию в этой области, снабдив их новыми возможностями, такими как естественный диалог, математические рассуждения и программный синтез. Тем не менее, LLM по-прежнему сталкиваются с присущими им ограничениями.
Недавно исследователи из Калифорнийского университета в Беркли и Microsoft представили Gorilla — модель LLaMA-7B, разработанную специально для вызовов API. Gorilla полагается на самообучаемые методы тонкой настройки и поиска, чтобы позволить LLM точно выбирать из большого и постоянно развивающегося набора инструментов, выраженных через их API и документацию.
Читать
@bigdatai
🔥7👍1🥰1
Введение для Python-разработчиков в Prompt Engineering GPT-4
Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.
Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.
Читать
@bigdatai
Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.
Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.
Читать
@bigdatai
❤5💩3👍1
Forwarded from YTsaurus Community Chat (RU)
🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты
Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.
Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.
Также запись вебинара будет доступна на YouTube.
Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.
Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.
Также запись вебинара будет доступна на YouTube.
📌 Подборка интересных датасетов
IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
MS COCO dataset — 1,5 млн размеченных изображений.
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.
Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.
New York City Property Tax Data - данные о недвижимости и оценочной стоимости в Нью-Йорке.
Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
Мировые рейтинги университетов. Исследуйте лучшие университеты мира.
Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.
Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.
@bigdatai
IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
MS COCO dataset — 1,5 млн размеченных изображений.
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.
Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.
New York City Property Tax Data - данные о недвижимости и оценочной стоимости в Нью-Йорке.
Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
Мировые рейтинги университетов. Исследуйте лучшие университеты мира.
Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.
Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.
@bigdatai
👍11❤3🔥2
Этот репозиторий содержит информацию о наборе данных YouTube-ASL, крупномасштабном датасете с открытым исходным кодом, содержащем видеоролики на американском языке жестов с английскими субтитрами.
Этот набор данных состоит из 11 093 видео на ASL с 984 часами отснятого материала и 610 193 английскими титрами.
https://github.com/google-research/google-research/tree/master/youtube_asl
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
20 встроенных библиотек Python, которые заслуживают гораздо большего внимания
Большинство людей думают, что массовое доминирование Python связано с его мощными библиотеками, такими как NumPy, Pandas, Sklearn, XGBoost и т.д. Это сторонние библиотеки, написанные профессиональными разработчиками, часто с помощью других более быстрых языков программирования, таких как C, Java или C++. .
Таким образом, один из слабых аргументов, которые ненавистники могут привести против Python, заключается в том, что он перестанет быть таким популярным, как только вы избавитесь от всей славы, которую приносят эти сторонние библиотеки. Я здесь, чтобы сказать обратное и показать, что даже стандартный Python достаточно мощен, чтобы составить серьезную конкуренцию любому языку.
Я предлагаю вашему вниманию 20 встроенных библиотек, которые находятся всего в одной строке от того, чтобы быть запущенными.
Читать
https://t.iss.one/bigdatai
Большинство людей думают, что массовое доминирование Python связано с его мощными библиотеками, такими как NumPy, Pandas, Sklearn, XGBoost и т.д. Это сторонние библиотеки, написанные профессиональными разработчиками, часто с помощью других более быстрых языков программирования, таких как C, Java или C++. .
Таким образом, один из слабых аргументов, которые ненавистники могут привести против Python, заключается в том, что он перестанет быть таким популярным, как только вы избавитесь от всей славы, которую приносят эти сторонние библиотеки. Я здесь, чтобы сказать обратное и показать, что даже стандартный Python достаточно мощен, чтобы составить серьезную конкуренцию любому языку.
Я предлагаю вашему вниманию 20 встроенных библиотек, которые находятся всего в одной строке от того, чтобы быть запущенными.
Читать
https://t.iss.one/bigdatai
🔥8❤3👍1
SQL_Pandas.pdf
515.4 KB
Шпаргалка SQL → Pandas
— выбрать один столбец или несколько из них;
— фильтрация;
— выбор уникальных значений по столбцу;
— подсчет числа значений;
— перечисление названий столбцов и т.д.
— выбрать один столбец или несколько из них;
— фильтрация;
— выбор уникальных значений по столбцу;
— подсчет числа значений;
— перечисление названий столбцов и т.д.
🔥8👍4❤3🥰1
🎼Датасеты для генерации и анализа музыки
• MAESTRO
MAESTRO (MIDI and Audio Edited for Synchronous Tracks and Organisation) содержит более 200 часов аннотированных записей международных конкурсов пианистов за последние десять лет.
• NSynth
Этот датасет состоит из 305 979 музыкальных нот и включает записи 1006 различных инструментов, таких как флейта, гитара, фортепиано и орган. Датасет аннотирован по типу инструмента (акустический, электронный или синтетический) и другим звуковым параметрам.
• Lakh MIDI v0.1
В датасете имеется 176,581 MIDI-файл, из которых 45,129 связаны с образцами из Million Song Dataset. Данный датасет разработан для упрощения поиска музыкальной информации на основе текста и аудио контента в большом масштабе.
• URMP
URMP - это набор данных, который используется для анализа музыкальных выступлений. В нем содержатся различные музыкальные композиции, в которых присутствуют различные инструменты. Эти композиции созданы из отдельных записей исполнений каждого трека.
• Music21
Music21 содержит музыкальные выступления из 21 категории и нацелен на решение исследовательских задач (например, поиска ответа на вопрос :»Какая группа использовала данные аккорды впервые?»)
bigdatai
• MAESTRO
MAESTRO (MIDI and Audio Edited for Synchronous Tracks and Organisation) содержит более 200 часов аннотированных записей международных конкурсов пианистов за последние десять лет.
• NSynth
Этот датасет состоит из 305 979 музыкальных нот и включает записи 1006 различных инструментов, таких как флейта, гитара, фортепиано и орган. Датасет аннотирован по типу инструмента (акустический, электронный или синтетический) и другим звуковым параметрам.
• Lakh MIDI v0.1
В датасете имеется 176,581 MIDI-файл, из которых 45,129 связаны с образцами из Million Song Dataset. Данный датасет разработан для упрощения поиска музыкальной информации на основе текста и аудио контента в большом масштабе.
• URMP
URMP - это набор данных, который используется для анализа музыкальных выступлений. В нем содержатся различные музыкальные композиции, в которых присутствуют различные инструменты. Эти композиции созданы из отдельных записей исполнений каждого трека.
• Music21
Music21 содержит музыкальные выступления из 21 категории и нацелен на решение исследовательских задач (например, поиска ответа на вопрос :»Какая группа использовала данные аккорды впервые?»)
bigdatai
👍5❤2🔥1
Невероятные шедевры, созданные с помощью Matplotlib
Неважно, как сильно вы пытаетесь быть хорошим в чём-то, всегда найдутся другие люди, делающие это намного лучше. Таким примерам нечего завидовать, ими нужно вдохновляться.
Показательный пример: эти семь шедевров Matplotlib. Я собрал их из блокнотов Kaggle с золотыми медалями, которые привлекли внимание тысяч людей.
Matplotlib — одна из самых мощных библиотек в Python, и если вы отдадите её гению с творческим подходом, вы получите интересный результат.
▪ Читать
bigdatai
Неважно, как сильно вы пытаетесь быть хорошим в чём-то, всегда найдутся другие люди, делающие это намного лучше. Таким примерам нечего завидовать, ими нужно вдохновляться.
Показательный пример: эти семь шедевров Matplotlib. Я собрал их из блокнотов Kaggle с золотыми медалями, которые привлекли внимание тысяч людей.
Matplotlib — одна из самых мощных библиотек в Python, и если вы отдадите её гению с творческим подходом, вы получите интересный результат.
▪ Читать
bigdatai
🔥5👍2❤1
🤖 PyTorch for Deep Learning & Machine Learning – Full Course
25 часов материала по PyTorch с объяснениями и примерами.
🎞 Видео: https://www.youtube.com/watch?v=V_xro1bcAuA
📝Ссылка на тектовый курс:
https://www.learnpytorch.io/
@machinelearning_ru
25 часов материала по PyTorch с объяснениями и примерами.
📝Ссылка на тектовый курс:
https://www.learnpytorch.io/
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥5❤1
📌 Очередная подборка интересных датасетов.
Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.
IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.
Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.
Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.
Food environment Atlas Data Portal — содержит данные исследований о питании в США.
Health Data Portal — это портал Министерства здравоохранения и социальных служб США.
Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.
London Datastore Portal — данные о жизни людей в Лондоне.
Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)
bigdatai
Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.
IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.
Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.
Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.
Food environment Atlas Data Portal — содержит данные исследований о питании в США.
Health Data Portal — это портал Министерства здравоохранения и социальных служб США.
Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.
London Datastore Portal — данные о жизни людей в Лондоне.
Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)
bigdatai
👍6❤3🔥2
Создание инфографики с помощью Matplotlib
Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.
В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.
В этой статье мы рассмотрим создание инфографики с помощью matplotlib.
Читать
bigdatai
Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.
В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.
В этой статье мы рассмотрим создание инфографики с помощью matplotlib.
Читать
bigdatai
❤7👍1🔥1
📽 Проект Data Science по прогнозированию рейтинга фильмов Rotten Tomatoes
Предсказание рейтингов фильма на основе настроения рецензий.
В ходе нашего исследования мы обсудим предварительную обработку данных, различные классификаторы и возможные методы улучшения для повышения эффективности наших моделей.
К концу этой статьи вы получите представление о том, как машинное обучение может быть использовано для прогнозирования успеха фильмов и как эти знания могут быть применены в индустрии развлечений.
▪ Читать дальше
bigdatai
Предсказание рейтингов фильма на основе настроения рецензий.
В ходе нашего исследования мы обсудим предварительную обработку данных, различные классификаторы и возможные методы улучшения для повышения эффективности наших моделей.
К концу этой статьи вы получите представление о том, как машинное обучение может быть использовано для прогнозирования успеха фильмов и как эти знания могут быть применены в индустрии развлечений.
▪ Читать дальше
bigdatai
👍4❤2🔥1🌚1
bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2