💡Топ 6 источников данных для глубокого погружения в Data Science
Chronic disease data. - источник, на котором можно найти данные о различных хронических заболеваниях на территории США.
IMF Data - Международный валютный фонд, который также публикует данные о международных финансах, показателях долгов, валютных резервах, инвестициях и так далее
Financial Times Market Data - здесь содержится информация о финансовых рынках всего мира, которая включает в себя такие показатели, как товары, валюту, индексы цен на акции
ImageNet - это данные изображений для новых алгоритмов, организованные в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии
Stanford Dogs Dataset - здесь содержится огромное количество изображений различных пород собак
HotspotQA Dataset - данные с вопросами-ответами, позволяющие создавать системы для ответов на вопросы наиболее понятным способом.
Chronic disease data. - источник, на котором можно найти данные о различных хронических заболеваниях на территории США.
IMF Data - Международный валютный фонд, который также публикует данные о международных финансах, показателях долгов, валютных резервах, инвестициях и так далее
Financial Times Market Data - здесь содержится информация о финансовых рынках всего мира, которая включает в себя такие показатели, как товары, валюту, индексы цен на акции
ImageNet - это данные изображений для новых алгоритмов, организованные в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии
Stanford Dogs Dataset - здесь содержится огромное количество изображений различных пород собак
HotspotQA Dataset - данные с вопросами-ответами, позволяющие создавать системы для ответов на вопросы наиболее понятным способом.
❤7👍2🔥2
5️⃣ Шагов для разработки уникальных Data Science проектов
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@bigdatai
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@bigdatai
❤6👍1🔥1
You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset
Набор данных Flatlandia, предназначенный для визуальной локализации 3DoF в различных городских условиях и основанный на данных из пяти европейских городов.
🖥 Github: https://github.com/microsoft/agieval
⏩ Paper: https://arxiv.org/abs/2304.06364v1
⭐️ Dataset: https://paperswithcode.com/dataset/jec-qa
@bigdatai
Набор данных Flatlandia, предназначенный для визуальной локализации 3DoF в различных городских условиях и основанный на данных из пяти европейских городов.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
The Generative AI Landscape - A Collection of Awesome Generative AI Applications
ai-collection (https://github.com/ai-collection/ai-collection) – коллекция классных и полезных проектов в области ИИ
Код, Игры, Изображение, Речь, текст Видео и многое другое.
🖥 Github
@bigdatai
ai-collection (https://github.com/ai-collection/ai-collection) – коллекция классных и полезных проектов в области ИИ
Код, Игры, Изображение, Речь, текст Видео и многое другое.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2❤1
Сеньор от мидла отличается как минимум несколькими цифрами в зарплате
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням
👍12❤2
В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai
👍9🔥2❤1
▪Плейлист лекций и семинаров: 2020-2021; 2021-2022
▪Курс лекций К.В. Воронцова.
▪Курс Мурата Апишева по python.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥1
Observable — платформа визуализации данных
Observable это удобная платформа для создания интерактивных диаграмм и графиков, анализа данных и быстрого прототипирования визуализаций
Инструмент идеально подходит для аналитиков, разработчиков и дизайнеров
Дополнительно Observable предлагает встроенные инструменты для обмена знаниями и работой над проектами в команде. Возможность организовать свои ноутбуки в коллекции упрощает навигацию и поиск нужной информации
Стоимость: #бесплатно (но есть платные тарифы)
#визуализация #аналитика
@bigdatai
Observable это удобная платформа для создания интерактивных диаграмм и графиков, анализа данных и быстрого прототипирования визуализаций
Инструмент идеально подходит для аналитиков, разработчиков и дизайнеров
Дополнительно Observable предлагает встроенные инструменты для обмена знаниями и работой над проектами в команде. Возможность организовать свои ноутбуки в коллекции упрощает навигацию и поиск нужной информации
Стоимость: #бесплатно (но есть платные тарифы)
#визуализация #аналитика
@bigdatai
👍11❤3🔥1
⚛
Academic Torrents Academic Torrents - это новый сайт, предназначенный для обмена датасетами из научных работ. Это новый сайт, поэтому трудно сказать, как будут выглядеть наиболее распространённые типы наборов данных. В настоящий момент, на нём есть множество интересных датасетов, которым не хватает контекста.
Вы можете просматривать наборы данных непосредственно на сайте. Поскольку это торрент-сайт, все наборы данных можно сразу загрузить, но тогда вам понадобится клиент Bittorrent. Deluge - хороший бесплатный вариант.
▪Просмотр наборов данных Academic Torrents
Вот несколько примеров:
▪Enron Emails — набор из множества электронных писем от руководителей Enron, компании, которая, как известно, обанкротилась.
▪Student Learning Factors — набор факторов, которые измеряют обучение студентов и влияют на него.
▪News Articles — содержит атрибуты новостной статьи.
@bigdatai
👍8❤3🔥1
⚡️ Quandl
Quandl – это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие датасеты необходимо приобрести. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции. Благодаря большому количеству доступных наборов данных можно построить сложную модель, которая использует множество наборов данных для прогнозирования значений в другом датасете.
Просмотр наборов данных Quandl.
Вот несколько примеров:
▪Entrepreneurial Activity By Race and Other Factors — содержит данные фонда Кауфмана о предпринимателях в США.
▪US Federal Reserve Data — экономические показатели США, от Федеральной резервной системы.
@bigdatai
Quandl – это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие датасеты необходимо приобрести. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции. Благодаря большому количеству доступных наборов данных можно построить сложную модель, которая использует множество наборов данных для прогнозирования значений в другом датасете.
Просмотр наборов данных Quandl.
Вот несколько примеров:
▪Entrepreneurial Activity By Race and Other Factors — содержит данные фонда Кауфмана о предпринимателях в США.
▪US Federal Reserve Data — экономические показатели США, от Федеральной резервной системы.
@bigdatai
👍5❤3🔥2
Benthos — мощный сервер обработки потоков данных
Он отлично подойдёт для интеграции, трансформации и маршрутизации данных в различных форматах и системах. Решение идеально для разработчиков, инженеров данных и DevOps.
Из «фишек» инструмента можно отметить его модульную архитектуру, позволяющую легко настраивать и масштабировать систему
Помимо этого, Benthos предлагает широкий выбор встроенных компонентов и поддержку плагинов для покрытия различных потребностей пользователей
Стоимость: #бесплатно
@bigdatai
Он отлично подойдёт для интеграции, трансформации и маршрутизации данных в различных форматах и системах. Решение идеально для разработчиков, инженеров данных и DevOps.
Из «фишек» инструмента можно отметить его модульную архитектуру, позволяющую легко настраивать и масштабировать систему
Помимо этого, Benthos предлагает широкий выбор встроенных компонентов и поддержку плагинов для покрытия различных потребностей пользователей
Стоимость: #бесплатно
@bigdatai
👍8❤2🔥1
Стэнфордский открытый курс CS25: Transformers United v2.
https://web.stanford.edu/class/cs25/
@bigdatai
https://web.stanford.edu/class/cs25/
@bigdatai
CS25
CS25: Transformers United V5
CS25 has become one of Stanford's hottest and most seminar courses, featuring top researchers at the forefront of Transformers research such as Geoffrey Hinton, Ashish Vaswani, and Andrej Karpathy. Our class has an incredibly popular reception within and…
❤5🥰3🔥1
Segment — универсальная платформа для анализа данных
С её помощью можно собирать, хранить и анализировать данные о клиентах. Инструмент особенно полезен для маркетологов, аналитиков и команд разработки, которые хотят лучше понять поведение своих пользователей
Основные преимущества Segment включают в себя удобство сбора данных с различных платформ и их централизацию в одном месте, а также гибкость интеграции с множеством других инструментов аналитики и маркетинга
Стоимость: #бесплатно (но есть платные тарифы)
#анализ_данных #web
@bigdatai
С её помощью можно собирать, хранить и анализировать данные о клиентах. Инструмент особенно полезен для маркетологов, аналитиков и команд разработки, которые хотят лучше понять поведение своих пользователей
Основные преимущества Segment включают в себя удобство сбора данных с различных платформ и их централизацию в одном месте, а также гибкость интеграции с множеством других инструментов аналитики и маркетинга
Стоимость: #бесплатно (но есть платные тарифы)
#анализ_данных #web
@bigdatai
👍4❤3🔥2
Metabase — бесплатный инструмент для анализа данных без лишних сложностей
Инструмент очень простой и интуитивный. Вы можете запустить его и начать создавать дашборды всего за несколько минут, без необходимости обучения или написания кода
В отличие от многих других инструментов анализа данных, Metabase не требует от вас знаний в области SQL или других языков запросов
Более того, с его помощью можно создавать достаточно сложные запросы при помощи простого drag-and-drop интерфейса
https://www.metabase.com/
@bigdatai
Инструмент очень простой и интуитивный. Вы можете запустить его и начать создавать дашборды всего за несколько минут, без необходимости обучения или написания кода
В отличие от многих других инструментов анализа данных, Metabase не требует от вас знаний в области SQL или других языков запросов
Более того, с его помощью можно создавать достаточно сложные запросы при помощи простого drag-and-drop интерфейса
https://www.metabase.com/
@bigdatai
👍8🔥3❤2
Полезные шпаргалки от Стэнфорда.
Здесь собраны обзоры алгоритмов и моделей МО. Наглядный и удобный формат.
CS 221 ― Artificial Intelligence
CS 229 ― Machine Learning
CS 230 ― Deep Learning
@bigdatai
Здесь собраны обзоры алгоритмов и моделей МО. Наглядный и удобный формат.
CS 221 ― Artificial Intelligence
CS 229 ― Machine Learning
CS 230 ― Deep Learning
@bigdatai
stanford.edu
Teaching - CS 221
Teaching page of Shervine Amidi, Graduate Student at Stanford University.
👍10🔥2❤1
Что такое большие данные: комплексный обзор
Данные генерируются с беспрецедентной скоростью. Ежедневно создается более 2,5 квинтиллиона байт данных, причем объем генерируемых данных растет в геометрической прогрессии. Этот взрывной рост данных привел к появлению такого понятия, как “большие данные” (“Big Data”).
Но что же такое большие данные? Почему они важны? Как они влияют на современный бизнес? Ответы на эти вопросы ищите в нашем комплексном обзоре больших данных.
▪ Читать
@bigdatai
Данные генерируются с беспрецедентной скоростью. Ежедневно создается более 2,5 квинтиллиона байт данных, причем объем генерируемых данных растет в геометрической прогрессии. Этот взрывной рост данных привел к появлению такого понятия, как “большие данные” (“Big Data”).
Но что же такое большие данные? Почему они важны? Как они влияют на современный бизнес? Ответы на эти вопросы ищите в нашем комплексном обзоре больших данных.
▪ Читать
@bigdatai
👍6🔥3❤1
🔥 RATH: Autopilot for exploratory data analysis
Полезный инструмент для анализа и визуализации данных
RATH автоматизирует ваш рабочий процесс исследовательского анализа данных с помощью мощного аналитического движка
Инструмент находит закономерности, инсайты и причинно-следственные связи в данных, представляя их в многомерных визуализациях
При этом он также RATH работает в качестве «помощника», изучая ваши намерения и предлагая соответствующие рекомендации. Облегчает процесс возможность задавать вопросы на естественном языке
Дополнительная информация об инструменте есть в материале на нашем сайта
#machine_learning #data #data_science
@bigdatai
Полезный инструмент для анализа и визуализации данных
RATH автоматизирует ваш рабочий процесс исследовательского анализа данных с помощью мощного аналитического движка
Инструмент находит закономерности, инсайты и причинно-следственные связи в данных, представляя их в многомерных визуализациях
При этом он также RATH работает в качестве «помощника», изучая ваши намерения и предлагая соответствующие рекомендации. Облегчает процесс возможность задавать вопросы на естественном языке
Дополнительная информация об инструменте есть в материале на нашем сайта
#machine_learning #data #data_science
@bigdatai
👍4🔥3❤1
📌 Подборка бесплатных курсов по аналитике и визуализации данных
▪Digital-аналитика — This is Data
▪Визуализация данных - Онлайн-школа ILYN
▪Microsoft Power BI — Microsoft Learn
▪Power Bi для интернет-маркетинга — NeedForData
▪Основы работы с DataLens — Яндекс Практикум
▪Google Data Studio (2022) — Яков Осипенков
▪Google Data Studio (2022) — Школа аналитики "Байкал"
@bigdatai
▪Digital-аналитика — This is Data
▪Визуализация данных - Онлайн-школа ILYN
▪Microsoft Power BI — Microsoft Learn
▪Power Bi для интернет-маркетинга — NeedForData
▪Основы работы с DataLens — Яндекс Практикум
▪Google Data Studio (2022) — Яков Осипенков
▪Google Data Studio (2022) — Школа аналитики "Байкал"
@bigdatai
👍8❤2🔥2
🔍 Microsoft Stocks from 1986 to 2023
Этот комплексный набор данных содержит подробный анализ динамики акций корпорации Microsoft с 1986 по 2023 год.
https://www.kaggle.com/datasets/bilalwaseer/microsoft-stocks-from-1986-to-2023
@bigdatai
Этот комплексный набор данных содержит подробный анализ динамики акций корпорации Microsoft с 1986 по 2023 год.
https://www.kaggle.com/datasets/bilalwaseer/microsoft-stocks-from-1986-to-2023
@bigdatai
❤4🔥1
6 no-code платформ машинного обучения
Как создать алгоритм, не разбираясь в ML.
#1. Google ML Kit
ML Kit — простая в управлении лаборатория SDK, которая позволяет внедрять МL на Android и iOS, независимо от опыта разработчиков в машинном обучении.
#2. Fritz AI
Fritz AI — end-to-end-решение для создания и обучения моделей, а также генерирования наборов данных без кода. Оно доступно на Windows, Linux, MacOS, а также мобильных ОС.
#3. DataRobot
#4. What-If tool
Это небольшой, но занимательный проект от PAIR (People + AI Research). WIT или What-If Tool — алгоритм в виде плагина для работы с регрессионными ML-моделями.
#5. Teachable Machine
Бесплатный инструмент от Google, запущенный в 2017 году. Он позволяет создавать ML-модели в браузере за пару минут.
#6. RapidMiner
Проект разделен на три части: веб-инструмент RapidMiner Go, программа для ПК RapidMiner Studio и образовательная грантовая программа RapidMiner Academy, которая сотрудничает с университетами.
@bigdatai
Как создать алгоритм, не разбираясь в ML.
#1. Google ML Kit
ML Kit — простая в управлении лаборатория SDK, которая позволяет внедрять МL на Android и iOS, независимо от опыта разработчиков в машинном обучении.
#2. Fritz AI
Fritz AI — end-to-end-решение для создания и обучения моделей, а также генерирования наборов данных без кода. Оно доступно на Windows, Linux, MacOS, а также мобильных ОС.
#3. DataRobot
#4. What-If tool
Это небольшой, но занимательный проект от PAIR (People + AI Research). WIT или What-If Tool — алгоритм в виде плагина для работы с регрессионными ML-моделями.
#5. Teachable Machine
Бесплатный инструмент от Google, запущенный в 2017 году. Он позволяет создавать ML-модели в браузере за пару минут.
#6. RapidMiner
Проект разделен на три части: веб-инструмент RapidMiner Go, программа для ПК RapidMiner Studio и образовательная грантовая программа RapidMiner Academy, которая сотрудничает с университетами.
@bigdatai
🔥5👍4❤3