Data Place
561 subscribers
45 photos
2 files
213 links
Канал про данные, науку о данных и про обучение работе с данными.
Автор: Ирина Радченко, доцент, канд. техн. наук, любитель данных и Computer Science, в Телеграме -- @dadaistka
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Где прочитать про открытые данные, большие данные и технологии в Телеграме

Про данные
@urbandata - городские данные от Андрея Кармацкого. Много про то как работают с данными в городской среде
@Persdata - канал о персональных данных, последние новости и события
@dataleak - тоже про персональные данные, но теперь уже про их утечки
@ai_machinelearning_big_data - канал про большие данные и машинное обучение. Похоже что скорее новостной чем авторский
@just_data_science - дано не обновлявшийся, но интересный канал по data science


Визуализация
@data_publication - дата публикации от Андрея Дорожного, многое про дата журналистику
@mapporn - визуализация данных на картах в примерах
@Infographicru - инфографика, в том числе инфографика на данных
@mapsanddata - карты и данные

#data #channells
Forwarded from Ivan Begtin (Ivan Begtin)
Инструменты, истории и сервисы на данных:
- Поиск автора статьи в NYTimes [1] об инсайдере в администрации Трампа через анализ статьи и твитов сотрудников администрации [2]
- Deon. Инструмент проверки на дата этику для дата сайентистов [3]. Полезен всем без исключения для самопроверки. На русский пока не переведён
- Why data culture matters ? [4] Статья в журнале McKinsey о важности культуры работы с данными в организации

Ссылки:
[1] https://www.nytimes.com/2018/09/05/opinion/trump-white-house-anonymous-resistance.html
[2] https://varianceexplained.org/r/op-ed-text-analysis/
[3] https://deon.drivendata.org
[4] https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/why-data-culture-matters

#data
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется данными не только с точки зрения Data Science, но и в более прикладных задачах работы с данными относящимися к дата инженерии.

Несколько полезных ресурсов:
- Data Engineering Cookbook [1] - поваренная книга по инженерии данных, много о том как системы работы с данными разворачиваются и используются
- Awesome Data Engineering - неплохой список ссылок на проекты по инженерии данных на Github
- Data Engineering How-to [3] - подборка ссылок на курсы и иные ресурсы по инжинерии данных
- What is Data Engineer [4] - ответ на вопрос кто такой инженер данных (для тех кто ещё об этом не знает)
- Who Is a Data Engineer & How to Become a Data Engineer? - подробно о том кто такие инженеры данных

В России вот уже много лет ажиотажный спрос на data science, но подготовка дата инженеров ушла на 2-й и 3-й план и это особенно чувствуется когда вопросы о том где взять данные и как настроить инфраструктуру звучат всё чаще.

То чем занимаюсь я лично - это чистая дата инженерия, с очень и очень небольшой долей науки о данных. Найти данные, создать инфраструктуру их обработки и очистки - всё это должен уметь дата инженер. Если Вы знаете хорошие курсы по этой теме на русском языке, поделитесь ими, например в чате.

Ссылки:
[1] https://github.com/andkret/Cookbook
[2] https://github.com/igorbarinov/awesome-data-engineering
[3] https://github.com/adilkhash/Data-Engineering-HowTo
[4] https://towardsdatascience.com/who-is-a-data-engineer-how-to-become-a-data-engineer-1167ddc12811

#data #opendata #dataengineering #dataengineer
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools