Крутая шпаргалка по Pandas с примерами основных функций, которая охватывает 90% работы с данной библиотекой.
Если часто работаете с данными — сохраняем в закладки.
@bigdatai
Если часто работаете с данными — сохраняем в закладки.
@bigdatai
👍13🔥4❤3
Сообщество GitHub собирает awesome-списки ресурсов и инструментов, относящихся к определенной теме и значительно упрощающие работу в ней. Держите самые интересные из тех, что точно вам пригодятся:
JavaScript: awesome-javascript
React: awesome-react
Vue: awesome-vue
Angular: awesome-angular
Node.js: awesome-nodejs
Typescript: awesome-typescript
Java: awesome-java
Go: awesome-go
Ruby: awesome-ruby
PHP: awesome-php
Kotlin: awesome-kotlin
Rust: awesome-rust
Swift: awesome-swift
iOS-разработка: awesome-ios
Android-разработка: awesome-android
C: awesome-c
C++: awesome-cpp
C#: awesome-dotnet
Unreal Engine: awesome-unreal
Unity: awesome-unity3d
Python: awesome-python
Django: awesome-django
Data Science: awesome-datascience
@bigdatai
JavaScript: awesome-javascript
React: awesome-react
Vue: awesome-vue
Angular: awesome-angular
Node.js: awesome-nodejs
Typescript: awesome-typescript
Java: awesome-java
Go: awesome-go
Ruby: awesome-ruby
PHP: awesome-php
Kotlin: awesome-kotlin
Rust: awesome-rust
Swift: awesome-swift
iOS-разработка: awesome-ios
Android-разработка: awesome-android
C: awesome-c
C++: awesome-cpp
C#: awesome-dotnet
Unreal Engine: awesome-unreal
Unity: awesome-unity3d
Python: awesome-python
Django: awesome-django
Data Science: awesome-datascience
@bigdatai
👍12🔥3❤2
Математика дата саентиста - здесь мы публикуем математические задачи и гайды для машинного обучения с упором на практику. Проверяем ваши знания, а затем на основе ошибок предлагаем статьи и уроки.
Если хочешь познать дзен и понимать как работают алгоритмы, а не просто импортировать их, подписывайся. Здесь реально учат.
@ds_math
Если хочешь познать дзен и понимать как работают алгоритмы, а не просто импортировать их, подписывайся. Здесь реально учат.
@ds_math
❤6💩1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤1
echo "# название" >> README.md
- создание файла README.mdgit init
- инициализация репозиторияgit add README.md
- добавления файла README.md в проектgit commit -m "first commit"
- получает проиндексированный снимок состояния и выполняет его коммит в историю проектаgit remote add origin https://github.com/stanruss/название.git
- команда, которой устанавливается подключение к удаленному серверу и git репозиторию, размещающемуся на нем.git push -u origin master
- кзменения отправляются на удаленный серверgit log --oneline
- посмотреть все коммиты.git checkout .
- восстановить все.git checkout "код коммита"
- вернуть до состояния этого коммита.git checkout master
- вернуться в ветку мастер.Восстановить файлы на локальном компьютере:
```git fetch --all
git reset --hard origin/master или git reset --hard origin/<название_ветки>
```
git add text.txt
- Добавить файл в репозиторийgit rm text.txt
- Удалить файлgit status
- Текущее состояние репозитория (изменения, неразрешенные конфликты и тп)git commit -a -m "Commit description"
- Сделать коммитgit push origin
- Замерджить все ветки локального репозитория на удаленный репозиторий git push origin master
- Аналогично предыдущему, но делается пуш только ветки mastergit push origin HEAD
- Запушить текущую ветку, не вводя целиком ее названиеgit pull origin
- Замерджить все ветки с удаленного репозиторияgit pull origin master
- Аналогично предыдущему, но накатывается только ветка mastergit pull origin HEAD
- Накатить текущую ветку, не вводя ее длинное имяgit fetch origin
- Скачать все ветки с origin, но не мерджить их в локальный репозиторийgit fetch origin master
- Аналогично предыдущему, но только для одной заданной веткиgit checkout -b some_branch origin/some_branch
- Начать работать с веткой some_branch (уже существующей)git branch some_branch
- Создать новый бранч (ответвится от текущего)git checkout some_branch
- Переключиться на другую ветку (из тех, с которыми уже работаем)git branch
# звездочкой отмечена текущая ветвь - Получаем список веток, с которыми работаемgit branch -a # | grep something
- Просмотреть все существующие ветвиgit merge some_branch
- Замерджить some_branch в текущую веткуgit branch -d some_branch
- Удалить бранч (после мерджа)git branch -D some_branch
- Просто удалить бранч (тупиковая ветвь)git show d8578edf8458ce06fbc5bb76a58c5ca4a58c5ca4
- Изменения, сделанные в заданном коммитеgit push origin :branch-name
- Удалить бранч из репозитория на сервереgit reset --hard d8578edf8458ce06fbc5bb76a58c5ca4a58c5ca4
- Откатиться к конкретному коммиту и удалить последующие (хэш смотрим в «git log»)git push -f
- залить на сервер измененные коммитыgit clean -f
- Удаление untracked files#git #github #doc #cheatsheet
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤1🔥1
15 лучших шпаргалок по машинному обучению.
1- Supervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-supervised-learning.pdf
2- Unsupervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-unsupervised-learning.pdf
3- Deep Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf
4- Machine Learning Tips and Tricks
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-machine-learning-tips-and-tricks.pdf
5- Probabilities and Statistics
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-probabilities-statistics.pdf
6- Comprehensive Stanford Master Cheat Sheet
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/super-cheatsheet-machine-learning.pdf
7- Linear Algebra and Calculus
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-algebra-calculus.pdf
8- Data Science Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PythonForDataScience.pdf
9- Keras Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf
10- Deep Learning with Keras Cheat Sheet
https://github.com/rstudio/cheatsheets/raw/master/keras.pdf
11- Visual Guide to Neural Network Infrastructures
https://www.asimovinstitute.org/wp-content/uploads/2016/09/neuralnetworks.png
12- Skicit-Learn Python Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
13- Scikit-learn Cheat Sheet: Choosing the Right Estimator
https://scikit-learn.org/stable/tutorial/machine_learning_map/
14- Tensorflow Cheat Sheet
https://github.com/kailashahirwar/cheatsheets-ai/blob/master/PDFs/Tensorflow.pdf
15- Machine Learning Test Cheat Sheet
https://www.cheatography.com/lulu-0012/cheat-sheets/test-ml/pdf/
@bigdatai
1- Supervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-supervised-learning.pdf
2- Unsupervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-unsupervised-learning.pdf
3- Deep Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf
4- Machine Learning Tips and Tricks
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-machine-learning-tips-and-tricks.pdf
5- Probabilities and Statistics
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-probabilities-statistics.pdf
6- Comprehensive Stanford Master Cheat Sheet
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/super-cheatsheet-machine-learning.pdf
7- Linear Algebra and Calculus
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-algebra-calculus.pdf
8- Data Science Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PythonForDataScience.pdf
9- Keras Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf
10- Deep Learning with Keras Cheat Sheet
https://github.com/rstudio/cheatsheets/raw/master/keras.pdf
11- Visual Guide to Neural Network Infrastructures
https://www.asimovinstitute.org/wp-content/uploads/2016/09/neuralnetworks.png
12- Skicit-Learn Python Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
13- Scikit-learn Cheat Sheet: Choosing the Right Estimator
https://scikit-learn.org/stable/tutorial/machine_learning_map/
14- Tensorflow Cheat Sheet
https://github.com/kailashahirwar/cheatsheets-ai/blob/master/PDFs/Tensorflow.pdf
15- Machine Learning Test Cheat Sheet
https://www.cheatography.com/lulu-0012/cheat-sheets/test-ml/pdf/
@bigdatai
👍13❤2🔥1
Когда вы сталкиваетесь с большим ненормализованным датасетом, да еще и в формате JSON, который нужно переложить в связанные SQL-таблицы, необходимо:
▪Читать датасет по чанкам;
▪Анализировать датасет на качество, смотреть на атрибуты;
▪Нормализовать датасет, раскрывать связи между сущностями и следить за их целостностью.
В целом, знание этих пунктов позволит сразу адаптировать датасет под реляционные СУБД и значительно сократить время, затраченное на его обработку, ведь со структурной точки зрения его не потребуется переделывать бессчётное количество раз. А для всего остального – есть функционал SQL.
📌 Читать
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1
3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds
Новый набор данных облаков в неблагоприятную погоду, который предоставляет плотные аннотации на уровне точек и позволяет изучать 3DSS при различных неблагоприятных погодных условиях.
🖥 Github: https://github.com/xiaoaoran/semanticstf
⏩ Paper: https://arxiv.org/abs/2304.00690v1
💨 Dataset: https://paperswithcode.com/dataset/semanticstf
ai_machinelearning_big_data
Новый набор данных облаков в неблагоприятную погоду, который предоставляет плотные аннотации на уровне точек и позволяет изучать 3DSS при различных неблагоприятных погодных условиях.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🥰1
💊 Медицинские датасеты для машинного обучения: цели, типы и способы применения
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
▪ Смотреть
@bigdatai
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
▪ Смотреть
@bigdatai
👍4🔥2❤1
Когда я впервые начал работать с визуализацией данных, я обнаружил, что мне трудно выбрать правильный тип диаграммы для точного представления данных.
Было неприятно тратить часы на создание визуализации только для того, чтобы понять, что она неэффективно передаёт задуманный смысл. Вскоре я понял, что был не одинок в своей проблеме. Многие новички сталкивались с подобным при работе с визуализацией данных, вот почему я пишу эту статью (чтобы сэкономить ваше время и лучше разобраться в графиках). Я также приведу вам примеры кода.
▪ Читать
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2❤1
Согласованность данных: что это такое на самом деле и почему с ней все так сложно
Понятие согласованности данных сложное и неоднозначное, но команда VK Cloud перевела статью, которая поможет во всем разобраться. В материале автор определяет термин «согласованность» в области распределенных БД и рассуждает на тему этой самой согласованности.
📌 Читать
@bigdatai
Понятие согласованности данных сложное и неоднозначное, но команда VK Cloud перевела статью, которая поможет во всем разобраться. В материале автор определяет термин «согласованность» в области распределенных БД и рассуждает на тему этой самой согласованности.
📌 Читать
@bigdatai
👍5🔥2❤1
💡Топ 6 источников данных для глубокого погружения в Data Science
Chronic disease data. - источник, на котором можно найти данные о различных хронических заболеваниях на территории США.
IMF Data - Международный валютный фонд, который также публикует данные о международных финансах, показателях долгов, валютных резервах, инвестициях и так далее
Financial Times Market Data - здесь содержится информация о финансовых рынках всего мира, которая включает в себя такие показатели, как товары, валюту, индексы цен на акции
ImageNet - это данные изображений для новых алгоритмов, организованные в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии
Stanford Dogs Dataset - здесь содержится огромное количество изображений различных пород собак
HotspotQA Dataset - данные с вопросами-ответами, позволяющие создавать системы для ответов на вопросы наиболее понятным способом.
Chronic disease data. - источник, на котором можно найти данные о различных хронических заболеваниях на территории США.
IMF Data - Международный валютный фонд, который также публикует данные о международных финансах, показателях долгов, валютных резервах, инвестициях и так далее
Financial Times Market Data - здесь содержится информация о финансовых рынках всего мира, которая включает в себя такие показатели, как товары, валюту, индексы цен на акции
ImageNet - это данные изображений для новых алгоритмов, организованные в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии
Stanford Dogs Dataset - здесь содержится огромное количество изображений различных пород собак
HotspotQA Dataset - данные с вопросами-ответами, позволяющие создавать системы для ответов на вопросы наиболее понятным способом.
❤7👍2🔥2
5️⃣ Шагов для разработки уникальных Data Science проектов
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@bigdatai
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@bigdatai
❤6👍1🔥1
You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset
Набор данных Flatlandia, предназначенный для визуальной локализации 3DoF в различных городских условиях и основанный на данных из пяти европейских городов.
🖥 Github: https://github.com/microsoft/agieval
⏩ Paper: https://arxiv.org/abs/2304.06364v1
⭐️ Dataset: https://paperswithcode.com/dataset/jec-qa
@bigdatai
Набор данных Flatlandia, предназначенный для визуальной локализации 3DoF в различных городских условиях и основанный на данных из пяти европейских городов.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
The Generative AI Landscape - A Collection of Awesome Generative AI Applications
ai-collection (https://github.com/ai-collection/ai-collection) – коллекция классных и полезных проектов в области ИИ
Код, Игры, Изображение, Речь, текст Видео и многое другое.
🖥 Github
@bigdatai
ai-collection (https://github.com/ai-collection/ai-collection) – коллекция классных и полезных проектов в области ИИ
Код, Игры, Изображение, Речь, текст Видео и многое другое.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2❤1
Сеньор от мидла отличается как минимум несколькими цифрами в зарплате
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням
👍12❤2
В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai
👍9🔥2❤1