🔥 RATH: Autopilot for exploratory data analysis
Полезный инструмент для анализа и визуализации данных
RATH автоматизирует ваш рабочий процесс исследовательского анализа данных с помощью мощного аналитического движка
Инструмент находит закономерности, инсайты и причинно-следственные связи в данных, представляя их в многомерных визуализациях
При этом он также RATH работает в качестве «помощника», изучая ваши намерения и предлагая соответствующие рекомендации. Облегчает процесс возможность задавать вопросы на естественном языке
Дополнительная информация об инструменте есть в материале на нашем сайта
#machine_learning #data #data_science
@bigdatai
Полезный инструмент для анализа и визуализации данных
RATH автоматизирует ваш рабочий процесс исследовательского анализа данных с помощью мощного аналитического движка
Инструмент находит закономерности, инсайты и причинно-следственные связи в данных, представляя их в многомерных визуализациях
При этом он также RATH работает в качестве «помощника», изучая ваши намерения и предлагая соответствующие рекомендации. Облегчает процесс возможность задавать вопросы на естественном языке
Дополнительная информация об инструменте есть в материале на нашем сайта
#machine_learning #data #data_science
@bigdatai
👍4🔥3❤1
📌 Подборка бесплатных курсов по аналитике и визуализации данных
▪Digital-аналитика — This is Data
▪Визуализация данных - Онлайн-школа ILYN
▪Microsoft Power BI — Microsoft Learn
▪Power Bi для интернет-маркетинга — NeedForData
▪Основы работы с DataLens — Яндекс Практикум
▪Google Data Studio (2022) — Яков Осипенков
▪Google Data Studio (2022) — Школа аналитики "Байкал"
@bigdatai
▪Digital-аналитика — This is Data
▪Визуализация данных - Онлайн-школа ILYN
▪Microsoft Power BI — Microsoft Learn
▪Power Bi для интернет-маркетинга — NeedForData
▪Основы работы с DataLens — Яндекс Практикум
▪Google Data Studio (2022) — Яков Осипенков
▪Google Data Studio (2022) — Школа аналитики "Байкал"
@bigdatai
👍8❤2🔥2
🔍 Microsoft Stocks from 1986 to 2023
Этот комплексный набор данных содержит подробный анализ динамики акций корпорации Microsoft с 1986 по 2023 год.
https://www.kaggle.com/datasets/bilalwaseer/microsoft-stocks-from-1986-to-2023
@bigdatai
Этот комплексный набор данных содержит подробный анализ динамики акций корпорации Microsoft с 1986 по 2023 год.
https://www.kaggle.com/datasets/bilalwaseer/microsoft-stocks-from-1986-to-2023
@bigdatai
❤4🔥1
6 no-code платформ машинного обучения
Как создать алгоритм, не разбираясь в ML.
#1. Google ML Kit
ML Kit — простая в управлении лаборатория SDK, которая позволяет внедрять МL на Android и iOS, независимо от опыта разработчиков в машинном обучении.
#2. Fritz AI
Fritz AI — end-to-end-решение для создания и обучения моделей, а также генерирования наборов данных без кода. Оно доступно на Windows, Linux, MacOS, а также мобильных ОС.
#3. DataRobot
#4. What-If tool
Это небольшой, но занимательный проект от PAIR (People + AI Research). WIT или What-If Tool — алгоритм в виде плагина для работы с регрессионными ML-моделями.
#5. Teachable Machine
Бесплатный инструмент от Google, запущенный в 2017 году. Он позволяет создавать ML-модели в браузере за пару минут.
#6. RapidMiner
Проект разделен на три части: веб-инструмент RapidMiner Go, программа для ПК RapidMiner Studio и образовательная грантовая программа RapidMiner Academy, которая сотрудничает с университетами.
@bigdatai
Как создать алгоритм, не разбираясь в ML.
#1. Google ML Kit
ML Kit — простая в управлении лаборатория SDK, которая позволяет внедрять МL на Android и iOS, независимо от опыта разработчиков в машинном обучении.
#2. Fritz AI
Fritz AI — end-to-end-решение для создания и обучения моделей, а также генерирования наборов данных без кода. Оно доступно на Windows, Linux, MacOS, а также мобильных ОС.
#3. DataRobot
#4. What-If tool
Это небольшой, но занимательный проект от PAIR (People + AI Research). WIT или What-If Tool — алгоритм в виде плагина для работы с регрессионными ML-моделями.
#5. Teachable Machine
Бесплатный инструмент от Google, запущенный в 2017 году. Он позволяет создавать ML-модели в браузере за пару минут.
#6. RapidMiner
Проект разделен на три части: веб-инструмент RapidMiner Go, программа для ПК RapidMiner Studio и образовательная грантовая программа RapidMiner Academy, которая сотрудничает с университетами.
@bigdatai
🔥5👍4❤3
💉Медицинские датасеты для машинного обучения
Основная проблема данных здравоохранения заключается в их уязвимости. Они содержат конфиденциальную информацию, защищённую Health Insurance Portability and Accountability Act (HIPAA), и не могут использоваться без явно выраженного согласия. В сфере медицины чувствительные подробности называются защищаемой информацией о здоровье (protected health information, PHI).
Protected Health Information и идентификаторы HIPAA
Protected Health Information (PHI)
Анонимизация медицинских данных и удаление из них персональной информации
Подготовка датасетов для машинного обучения.
Разметка медицинских данных
Любые неструктурированные данные, будь то тексты, изображения или аудиофайлы, для обучения моделей машинного обучения требуют разметки или аннотирования. Это процесс добавления к блокам данных описательных элементов (меток или тэгов), чтобы компьютер мог понимать, что находится в изображении или тексте. Чтобы узнать об инструментах аннотирования и рекомендациях, прочитайте нашу статью о том, как организовать разметку данных.
Датасеты медицинских снимков
Изображения составляют подавляющее большинство (почти 90%) всех данных здравоохранения. Это даёт много возможностей по обучению алгоритмов computer vision для потребностей здравоохранения. Стоит заметить, что данные медицинских снимков в основном генерируются в отделах радиологии в виде рентгенограмм, сканов КТ и МРТ. Международным стандартом здравоохранения для хранения и передачи диагностических снимков является DICOM (Digital Imaging and Communication in Medicine).
The Cancer Imaging Archive (TCIA)
The Cancer Imaging Archive (TCIA), финансируемый Национальным институтом онкологии США (NCI) — это место хранения в открытом доступе радиологических и гистопатологических снимков, в основном в формате DICOM, представляющих 21 тип рака.
Национальная база данных снимков органов грудной клетки на Covid-19 (NCCID)
National Covid-19 Chest Imaging Database (NCCID)
Open Access Series of Imaging Studies (OASIS)
OASIS Brains
Скелетно-мышечные рентгенограммы (MURA)
MURA (Musculoskeletal Radiographs)
Датасеты клиник и больниц
Основная часть этих данных находится во внутренних системах учреждений здравоохранения, а именно в системах EHR (Electronic Health Record), системах управления медицинскими практиками, системах лабораторной информации, порталах для пациентов и других.
Medical Information Mart for Intensive Care (MIMIC)
MIMIC — это крупнейшая публичная коллекция очищенных от личных данных электронных медицинских карт (electronic health record, EHR), связанных с пациентами реанимационных отделений.
Healthcare Cost and Utilization Project (HCUP)
HCUP, которым управляет Agency for Healthcare Research and Quality (AHRQ), содержит базы данных США и отдельных штатов, которые можно использовать для выявления и исследования тенденций в доступности, использовании и результатах работы системы здравоохранения.
Данные поставщиков услуг Medicare
Medicare Provider Catalog собирает официальные данные центров услуг Medicare и Medicaid (CMS).
Данные можно просматривать в браузере, скачивать конкретные датасеты в формате CSV или подключать собственные приложения к веб-сайту при помощи API.
Лечебно-профилактические датасеты
Лечебно-профилактическими датасетами обычно управляют государственные органы и международные организации. Эти данные могут быть полезными при изучении трендов в здравоохранении, исследовании заболеваний для понимания и предотвращения эпидемий и для других задач.
Датасеты Global Health Observatory (GHO)
Основная проблема данных здравоохранения заключается в их уязвимости. Они содержат конфиденциальную информацию, защищённую Health Insurance Portability and Accountability Act (HIPAA), и не могут использоваться без явно выраженного согласия. В сфере медицины чувствительные подробности называются защищаемой информацией о здоровье (protected health information, PHI).
Protected Health Information и идентификаторы HIPAA
Protected Health Information (PHI)
Анонимизация медицинских данных и удаление из них персональной информации
Подготовка датасетов для машинного обучения.
Разметка медицинских данных
Любые неструктурированные данные, будь то тексты, изображения или аудиофайлы, для обучения моделей машинного обучения требуют разметки или аннотирования. Это процесс добавления к блокам данных описательных элементов (меток или тэгов), чтобы компьютер мог понимать, что находится в изображении или тексте. Чтобы узнать об инструментах аннотирования и рекомендациях, прочитайте нашу статью о том, как организовать разметку данных.
Датасеты медицинских снимков
Изображения составляют подавляющее большинство (почти 90%) всех данных здравоохранения. Это даёт много возможностей по обучению алгоритмов computer vision для потребностей здравоохранения. Стоит заметить, что данные медицинских снимков в основном генерируются в отделах радиологии в виде рентгенограмм, сканов КТ и МРТ. Международным стандартом здравоохранения для хранения и передачи диагностических снимков является DICOM (Digital Imaging and Communication in Medicine).
The Cancer Imaging Archive (TCIA)
The Cancer Imaging Archive (TCIA), финансируемый Национальным институтом онкологии США (NCI) — это место хранения в открытом доступе радиологических и гистопатологических снимков, в основном в формате DICOM, представляющих 21 тип рака.
Национальная база данных снимков органов грудной клетки на Covid-19 (NCCID)
National Covid-19 Chest Imaging Database (NCCID)
Open Access Series of Imaging Studies (OASIS)
OASIS Brains
Скелетно-мышечные рентгенограммы (MURA)
MURA (Musculoskeletal Radiographs)
Датасеты клиник и больниц
Основная часть этих данных находится во внутренних системах учреждений здравоохранения, а именно в системах EHR (Electronic Health Record), системах управления медицинскими практиками, системах лабораторной информации, порталах для пациентов и других.
Medical Information Mart for Intensive Care (MIMIC)
MIMIC — это крупнейшая публичная коллекция очищенных от личных данных электронных медицинских карт (electronic health record, EHR), связанных с пациентами реанимационных отделений.
Healthcare Cost and Utilization Project (HCUP)
HCUP, которым управляет Agency for Healthcare Research and Quality (AHRQ), содержит базы данных США и отдельных штатов, которые можно использовать для выявления и исследования тенденций в доступности, использовании и результатах работы системы здравоохранения.
Данные поставщиков услуг Medicare
Medicare Provider Catalog собирает официальные данные центров услуг Medicare и Medicaid (CMS).
Данные можно просматривать в браузере, скачивать конкретные датасеты в формате CSV или подключать собственные приложения к веб-сайту при помощи API.
Лечебно-профилактические датасеты
Лечебно-профилактическими датасетами обычно управляют государственные органы и международные организации. Эти данные могут быть полезными при изучении трендов в здравоохранении, исследовании заболеваний для понимания и предотвращения эпидемий и для других задач.
Датасеты Global Health Observatory (GHO)
👍3
Global Health Observatory (GHO) — это коллекция Всемирной организации здравоохранения по статистике о здравоохранении в 194 её странах-участниках. Она содержит датасеты, структурированные на основе различных тем (например, здоровья несовершеннолетних, ВИЧ, туберкулёза, иммунизации, ментального здоровья, питания). Заинтересовавшие вас датасеты можно свободно скачать с веб-сайта, выбрав один из имеющихся форматов — таблицы CVS и Excel, файлы XML и JSON. Также всё содержимое доступно через Athena API, основанный на современной архитектуре REST.
Older Adults Health Data Collection
Older Adults Health Data Collection на Data.gov состоит из 96 датасетов, управляемых федеральным правительством США.
NCHHSTP AtlasPlus
NCHHSTP AtlasPlus предоставляет доступ к историческим данным за 20 лет по иммунодефициту человека (ВИЧ), вирусному гепатиту, заболеваниям, передаваемым половым путём, и туберкулёзу.
Исследовательские датасеты
Исследовательские датасеты предназначены для научного сообщества, фармакологических компаний, лабораторий и других организаций, участвующих в лечении и разработке лекарств. Они накапливают информацию из прошлых работ для дальнейшего развития медицинских исследований.
The Cancer Genome Atlas (TCGA)
The Cancer Genome Atlas (TCGA) — это важнейшая база данных геномики, охватывающая 33 типа заболеваний, в том числе 10 редких. TCGA был основан в 2006 году в результате совместной работы Национального института онкологии США и Национального института исследований генома человека (NHGRI).
Датасеты программы Surveillance, Epidemiology, and End Results (SEER)
Программа Surveillance, Epidemiology, and End Results (SEER) — самый надёжный источник онкологической статистики в США, предназначенный для снижения доли раковых заболеваний в популяции. Её база данных поддерживается Surveillance Research Program (SRP), которая является частью Division of Cancer Control and Population Sciences (DCCPS) Национального института онкологии.
Для анализа SEER и других баз данных, связанных с раком, можно использовать SEER Stat Software.
Датасеты клинических исследований Vivli
Vivli — это некоммерческая организация, координирующая, упрощающая и продвигающая научное исследование данных клинических исследований и обмен ими.
Где ещё можно найти медицинские датасеты
Например, data.world — облачный каталог данных, накопивший почти 3,5 тысяч связанных со здоровьем коллекций. Ещё одна стоящая внимания платформа — Papers With Code: в ней хранится 6 964 датасета для ML, и 244 из них относится к области медицины.
На Kaggle, который называют «Airbnb для data science», тоже есть кое-что интересное.
@bigdatai
Older Adults Health Data Collection
Older Adults Health Data Collection на Data.gov состоит из 96 датасетов, управляемых федеральным правительством США.
NCHHSTP AtlasPlus
NCHHSTP AtlasPlus предоставляет доступ к историческим данным за 20 лет по иммунодефициту человека (ВИЧ), вирусному гепатиту, заболеваниям, передаваемым половым путём, и туберкулёзу.
Исследовательские датасеты
Исследовательские датасеты предназначены для научного сообщества, фармакологических компаний, лабораторий и других организаций, участвующих в лечении и разработке лекарств. Они накапливают информацию из прошлых работ для дальнейшего развития медицинских исследований.
The Cancer Genome Atlas (TCGA)
The Cancer Genome Atlas (TCGA) — это важнейшая база данных геномики, охватывающая 33 типа заболеваний, в том числе 10 редких. TCGA был основан в 2006 году в результате совместной работы Национального института онкологии США и Национального института исследований генома человека (NHGRI).
Датасеты программы Surveillance, Epidemiology, and End Results (SEER)
Программа Surveillance, Epidemiology, and End Results (SEER) — самый надёжный источник онкологической статистики в США, предназначенный для снижения доли раковых заболеваний в популяции. Её база данных поддерживается Surveillance Research Program (SRP), которая является частью Division of Cancer Control and Population Sciences (DCCPS) Национального института онкологии.
Для анализа SEER и других баз данных, связанных с раком, можно использовать SEER Stat Software.
Датасеты клинических исследований Vivli
Vivli — это некоммерческая организация, координирующая, упрощающая и продвигающая научное исследование данных клинических исследований и обмен ими.
Где ещё можно найти медицинские датасеты
Например, data.world — облачный каталог данных, накопивший почти 3,5 тысяч связанных со здоровьем коллекций. Ещё одна стоящая внимания платформа — Papers With Code: в ней хранится 6 964 датасета для ML, и 244 из них относится к области медицины.
На Kaggle, который называют «Airbnb для data science», тоже есть кое-что интересное.
@bigdatai
👍6🔥3❤1
🏯 Museums
Открытые датасеты крупных мировых музеев.
▪Canada Science and Technology Museums Corporation's Open Data [Meta]
▪Cooper-Hewitt's Collection Database [Meta]
▪Metropolitan Museum of Art Collection API [Meta]
▪Minneapolis Institute of Arts metadata [Meta]
▪Natural History Museum (London) Data Portal [Meta]
▪Rijksmuseum Historical Art Collection [Meta]
▪Tate Collection metadata [Meta]
▪The Getty vocabularies [Meta]
@bigdatai
Открытые датасеты крупных мировых музеев.
▪Canada Science and Technology Museums Corporation's Open Data [Meta]
▪Cooper-Hewitt's Collection Database [Meta]
▪Metropolitan Museum of Art Collection API [Meta]
▪Minneapolis Institute of Arts metadata [Meta]
▪Natural History Museum (London) Data Portal [Meta]
▪Rijksmuseum Historical Art Collection [Meta]
▪Tate Collection metadata [Meta]
▪The Getty vocabularies [Meta]
@bigdatai
🔥5👍4❤1
🥇 Sports
Открытые спортивные датасеты.
▪American Ninja Warrior Obstacles - Contains every obstacle in the history of American Ninja [...]
▪Betfair Historical Exchange Data
▪Cricsheet Matches (cricket)
▪Equity in Athletics - The Equity in Athletics Data Analysis Cutting Tool is brought to you by [...]
▪Ergast Formula 1, from 1950 up to date (API)
▪Football/Soccer resources (data and APIs)
▪Lahman's Baseball Database
▪NFL play-by-play data - NFL play-by-play data sourced from: [...]
▪Pinhooker: Thoroughbred Bloodstock Sale Data
▪Pro Kabadi season 1 to 7 - Pro Kabadi League is a professional-level Kabaddi league in India. [...]
▪Retrosheet Baseball Statistics
▪Tennis database of rankings, results, and stats for ATP
▪Tennis database of rankings, results, and stats for WTA
▪Transfermarkt Datasets - Clean, structured and automatically updated football (soccer) data [...]
▪USA Soccer Teams and Locations - USA soccer teams and locations. MLS, NWSL, and USL [...]
@bigdatai
Открытые спортивные датасеты.
▪American Ninja Warrior Obstacles - Contains every obstacle in the history of American Ninja [...]
▪Betfair Historical Exchange Data
▪Cricsheet Matches (cricket)
▪Equity in Athletics - The Equity in Athletics Data Analysis Cutting Tool is brought to you by [...]
▪Ergast Formula 1, from 1950 up to date (API)
▪Football/Soccer resources (data and APIs)
▪Lahman's Baseball Database
▪NFL play-by-play data - NFL play-by-play data sourced from: [...]
▪Pinhooker: Thoroughbred Bloodstock Sale Data
▪Pro Kabadi season 1 to 7 - Pro Kabadi League is a professional-level Kabaddi league in India. [...]
▪Retrosheet Baseball Statistics
▪Tennis database of rankings, results, and stats for ATP
▪Tennis database of rankings, results, and stats for WTA
▪Transfermarkt Datasets - Clean, structured and automatically updated football (soccer) data [...]
▪USA Soccer Teams and Locations - USA soccer teams and locations. MLS, NWSL, and USL [...]
@bigdatai
👍4❤3🔥3
Transportation
Крупные Датасеты, связанные с транспотртом.
Airlines OD Data 1987-2008 [Meta]
Ford GoBike Data (formerly Bay Area Bike Share Data) [Meta]
Bike Share Systems (BSS) collection [Meta]
Dutch Traffic Information [Meta]
GeoLife GPS Trajectory from Microsoft Research [Meta]
German train system by Deutsche Bahn [Meta]
Hubway Million Rides in MA [Meta]
Montreal BIXI Bike Share [Meta]
NYC Taxi Trip Data 2009- [Meta]
NYC Taxi Trip Data 2013 (FOIA/FOILed) [Meta]
NYC Uber trip data April 2014 to September 2014 [Meta]
Open Traffic collection [Meta]
OpenFlights - airport, airline and route data [Meta]
Philadelphia Bike Share Stations (JSON) [Meta]
Plane Crash Database, since 1920 [Meta]
RITA Airline On-Time Performance data [Meta]
RITA/BTS transport data collection (TranStat) [Meta]
Renfe (Spanish National Railway Network) dataset [Meta]
Toronto Bike Share Stations (JSON and GBFS files) [Meta]
Transport for London (TFL) [Meta]
Travel Tracker Survey (TTS) for Chicago [Meta]
U.S. Bureau of Transportation Statistics (BTS) [Meta]
U.S. Domestic Flights 1990 to 2009 [Meta]
U.S. Freight Analysis Framework since 2007 [Meta]
U.S. National Highway Traffic Safety Administration - Fatalities since 1975 - Contains CSV [...] [Meta]
@bigdatai
Крупные Датасеты, связанные с транспотртом.
Airlines OD Data 1987-2008 [Meta]
Ford GoBike Data (formerly Bay Area Bike Share Data) [Meta]
Bike Share Systems (BSS) collection [Meta]
Dutch Traffic Information [Meta]
GeoLife GPS Trajectory from Microsoft Research [Meta]
German train system by Deutsche Bahn [Meta]
Hubway Million Rides in MA [Meta]
Montreal BIXI Bike Share [Meta]
NYC Taxi Trip Data 2009- [Meta]
NYC Taxi Trip Data 2013 (FOIA/FOILed) [Meta]
NYC Uber trip data April 2014 to September 2014 [Meta]
Open Traffic collection [Meta]
OpenFlights - airport, airline and route data [Meta]
Philadelphia Bike Share Stations (JSON) [Meta]
Plane Crash Database, since 1920 [Meta]
RITA Airline On-Time Performance data [Meta]
RITA/BTS transport data collection (TranStat) [Meta]
Renfe (Spanish National Railway Network) dataset [Meta]
Toronto Bike Share Stations (JSON and GBFS files) [Meta]
Transport for London (TFL) [Meta]
Travel Tracker Survey (TTS) for Chicago [Meta]
U.S. Bureau of Transportation Statistics (BTS) [Meta]
U.S. Domestic Flights 1990 to 2009 [Meta]
U.S. Freight Analysis Framework since 2007 [Meta]
U.S. National Highway Traffic Safety Administration - Fatalities since 1975 - Contains CSV [...] [Meta]
@bigdatai
👍5❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 NEURAL NETWORKS A VISUAL INTRODUCTION
Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.
Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.
https://mlu-explain.github.io/neural-networks/
@bigdatai
Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.
Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.
https://mlu-explain.github.io/neural-networks/
@bigdatai
👍6🔥4❤🔥2❤1
Чем больший объем данных используют на проекте, чем выше нагрузка на систему – тем более продвинутый SQL нужен разработчикам. Изучить SQL и свободно использовать его в работе поможет курс Практикума.
После 3 месяцев курса разработчики смогут:
— уверенно пользоваться простыми селектами, джоинами, индексами и оконными функциями;
— отладить запрос, который сгенерирован через ORM;
— составить сложные запросы на нативном SQL;
— применить продвинутый SQL, чтобы писать код для высоконагруженных систем,
— чувствовать себя спокойно на собеседованиях.
Записывайтесь и растите в карьере.
Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8KD49u
После 3 месяцев курса разработчики смогут:
— уверенно пользоваться простыми селектами, джоинами, индексами и оконными функциями;
— отладить запрос, который сгенерирован через ORM;
— составить сложные запросы на нативном SQL;
— применить продвинутый SQL, чтобы писать код для высоконагруженных систем,
— чувствовать себя спокойно на собеседованиях.
Записывайтесь и растите в карьере.
Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8KD49u
👍3❤1
TimeSeries datasets
3W dataset - To the best of its authors' knowledge, this is the first realistic and public [...] [Meta]
Databanks International Cross National Time Series Data Archive [Meta]
Hard Drive Failure Rates [Meta]
Heart Rate Time Series from MIT [Meta]
Time Series Data Library (TSDL) from MU [Meta]
Turing Change Point Dataset - Contains 42 annotated time series collected for the development [...] [Meta]
UC Riverside Time Series Dataset [Meta]
@bigdatai
3W dataset - To the best of its authors' knowledge, this is the first realistic and public [...] [Meta]
Databanks International Cross National Time Series Data Archive [Meta]
Hard Drive Failure Rates [Meta]
Heart Rate Time Series from MIT [Meta]
Time Series Data Library (TSDL) from MU [Meta]
Turing Change Point Dataset - Contains 42 annotated time series collected for the development [...] [Meta]
UC Riverside Time Series Dataset [Meta]
@bigdatai
❤4🔥2👍1
SocialNetworks Datasets
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
👍5🔥2❤1
SocialNetworks Datasets
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]
72 hours #gamergate Twitter Scrape [Meta]
CMU Enron Email of 150 users [Meta]
Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]
China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]
Clubhouse Dataset [Meta]
A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]
43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]
EDRM Enron EMail of 151 users, hosted on S3 [Meta]
Facebook Data Scrape (2005) [Meta]
Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]
Facebook Social Networks from LAW (since 2007) [Meta]
Foursquare from UMN/Sarwat (2013) [Meta]
GitHub Collaboration Archive [Meta]
Google Scholar citation relations [Meta]
High-Resolution Contact Networks from Wearable Sensors [Meta]
Indie Map: social graph and crawl of top IndieWeb sites [Meta]
Mobile Social Networks from UMASS [Meta]
Network Twitter Data [Meta]
Reddit Comments [Meta]
Skytrax' Air Travel Reviews Dataset [Meta]
Social Twitter Data [Meta]
SourceForge.net Research Data [Meta]
The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]
Twitch Top Streamer's Data [Meta]
Twitter Data for Online Reputation Management [Meta]
Twitter Data for Sentiment Analysis [Meta]
Twitter Graph of entire Twitter site [Meta]
Twitter Scrape Calufa May 2011 [Meta]
UNIMI/LAW Social Network Datasets [Meta]
United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]
Yahoo! Graph and Social Data [Meta]
Youtube Video Social Graph in 2007,2008 [Meta]
@bigdatai
GitHub
election-watch/datasets/01_portuguese_presidential_elections_2021_01_24.md at master · msramalho/election-watch
🗳️+👀 A platform to protect elections in a disinformation world. - msramalho/election-watch
👍4🔥1
Познакомьтесь с Gorilla: LLM Калифорнийского университета в Беркли и Microsoft с API-расширением превосходит GPT-4, Chat-GPT и Claude
Недавние достижения в области больших языковых моделей (LLM) произвели революцию в этой области, снабдив их новыми возможностями, такими как естественный диалог, математические рассуждения и программный синтез. Тем не менее, LLM по-прежнему сталкиваются с присущими им ограничениями.
Недавно исследователи из Калифорнийского университета в Беркли и Microsoft представили Gorilla — модель LLaMA-7B, разработанную специально для вызовов API. Gorilla полагается на самообучаемые методы тонкой настройки и поиска, чтобы позволить LLM точно выбирать из большого и постоянно развивающегося набора инструментов, выраженных через их API и документацию.
Читать
@bigdatai
Недавние достижения в области больших языковых моделей (LLM) произвели революцию в этой области, снабдив их новыми возможностями, такими как естественный диалог, математические рассуждения и программный синтез. Тем не менее, LLM по-прежнему сталкиваются с присущими им ограничениями.
Недавно исследователи из Калифорнийского университета в Беркли и Microsoft представили Gorilla — модель LLaMA-7B, разработанную специально для вызовов API. Gorilla полагается на самообучаемые методы тонкой настройки и поиска, чтобы позволить LLM точно выбирать из большого и постоянно развивающегося набора инструментов, выраженных через их API и документацию.
Читать
@bigdatai
🔥7👍1🥰1
Введение для Python-разработчиков в Prompt Engineering GPT-4
Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.
Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.
Читать
@bigdatai
Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.
Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.
Читать
@bigdatai
❤5💩3👍1
Forwarded from YTsaurus Community Chat (RU)
🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты
Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.
Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.
Также запись вебинара будет доступна на YouTube.
Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.
Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.
Также запись вебинара будет доступна на YouTube.
📌 Подборка интересных датасетов
IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
MS COCO dataset — 1,5 млн размеченных изображений.
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.
Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.
New York City Property Tax Data - данные о недвижимости и оценочной стоимости в Нью-Йорке.
Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
Мировые рейтинги университетов. Исследуйте лучшие университеты мира.
Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.
Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.
@bigdatai
IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
MS COCO dataset — 1,5 млн размеченных изображений.
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.
Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.
New York City Property Tax Data - данные о недвижимости и оценочной стоимости в Нью-Йорке.
Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
Мировые рейтинги университетов. Исследуйте лучшие университеты мира.
Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.
Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.
@bigdatai
👍11❤3🔥2
Этот репозиторий содержит информацию о наборе данных YouTube-ASL, крупномасштабном датасете с открытым исходным кодом, содержащем видеоролики на американском языке жестов с английскими субтитрами.
Этот набор данных состоит из 11 093 видео на ASL с 984 часами отснятого материала и 610 193 английскими титрами.
https://github.com/google-research/google-research/tree/master/youtube_asl
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
20 встроенных библиотек Python, которые заслуживают гораздо большего внимания
Большинство людей думают, что массовое доминирование Python связано с его мощными библиотеками, такими как NumPy, Pandas, Sklearn, XGBoost и т.д. Это сторонние библиотеки, написанные профессиональными разработчиками, часто с помощью других более быстрых языков программирования, таких как C, Java или C++. .
Таким образом, один из слабых аргументов, которые ненавистники могут привести против Python, заключается в том, что он перестанет быть таким популярным, как только вы избавитесь от всей славы, которую приносят эти сторонние библиотеки. Я здесь, чтобы сказать обратное и показать, что даже стандартный Python достаточно мощен, чтобы составить серьезную конкуренцию любому языку.
Я предлагаю вашему вниманию 20 встроенных библиотек, которые находятся всего в одной строке от того, чтобы быть запущенными.
Читать
https://t.iss.one/bigdatai
Большинство людей думают, что массовое доминирование Python связано с его мощными библиотеками, такими как NumPy, Pandas, Sklearn, XGBoost и т.д. Это сторонние библиотеки, написанные профессиональными разработчиками, часто с помощью других более быстрых языков программирования, таких как C, Java или C++. .
Таким образом, один из слабых аргументов, которые ненавистники могут привести против Python, заключается в том, что он перестанет быть таким популярным, как только вы избавитесь от всей славы, которую приносят эти сторонние библиотеки. Я здесь, чтобы сказать обратное и показать, что даже стандартный Python достаточно мощен, чтобы составить серьезную конкуренцию любому языку.
Я предлагаю вашему вниманию 20 встроенных библиотек, которые находятся всего в одной строке от того, чтобы быть запущенными.
Читать
https://t.iss.one/bigdatai
🔥8❤3👍1