Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤1
echo "# название" >> README.md
- создание файла README.mdgit init
- инициализация репозиторияgit add README.md
- добавления файла README.md в проектgit commit -m "first commit"
- получает проиндексированный снимок состояния и выполняет его коммит в историю проектаgit remote add origin https://github.com/stanruss/название.git
- команда, которой устанавливается подключение к удаленному серверу и git репозиторию, размещающемуся на нем.git push -u origin master
- кзменения отправляются на удаленный серверgit log --oneline
- посмотреть все коммиты.git checkout .
- восстановить все.git checkout "код коммита"
- вернуть до состояния этого коммита.git checkout master
- вернуться в ветку мастер.Восстановить файлы на локальном компьютере:
```git fetch --all
git reset --hard origin/master или git reset --hard origin/<название_ветки>
```
git add text.txt
- Добавить файл в репозиторийgit rm text.txt
- Удалить файлgit status
- Текущее состояние репозитория (изменения, неразрешенные конфликты и тп)git commit -a -m "Commit description"
- Сделать коммитgit push origin
- Замерджить все ветки локального репозитория на удаленный репозиторий git push origin master
- Аналогично предыдущему, но делается пуш только ветки mastergit push origin HEAD
- Запушить текущую ветку, не вводя целиком ее названиеgit pull origin
- Замерджить все ветки с удаленного репозиторияgit pull origin master
- Аналогично предыдущему, но накатывается только ветка mastergit pull origin HEAD
- Накатить текущую ветку, не вводя ее длинное имяgit fetch origin
- Скачать все ветки с origin, но не мерджить их в локальный репозиторийgit fetch origin master
- Аналогично предыдущему, но только для одной заданной веткиgit checkout -b some_branch origin/some_branch
- Начать работать с веткой some_branch (уже существующей)git branch some_branch
- Создать новый бранч (ответвится от текущего)git checkout some_branch
- Переключиться на другую ветку (из тех, с которыми уже работаем)git branch
# звездочкой отмечена текущая ветвь - Получаем список веток, с которыми работаемgit branch -a # | grep something
- Просмотреть все существующие ветвиgit merge some_branch
- Замерджить some_branch в текущую веткуgit branch -d some_branch
- Удалить бранч (после мерджа)git branch -D some_branch
- Просто удалить бранч (тупиковая ветвь)git show d8578edf8458ce06fbc5bb76a58c5ca4a58c5ca4
- Изменения, сделанные в заданном коммитеgit push origin :branch-name
- Удалить бранч из репозитория на сервереgit reset --hard d8578edf8458ce06fbc5bb76a58c5ca4a58c5ca4
- Откатиться к конкретному коммиту и удалить последующие (хэш смотрим в «git log»)git push -f
- залить на сервер измененные коммитыgit clean -f
- Удаление untracked files#git #github #doc #cheatsheet
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤1🔥1
15 лучших шпаргалок по машинному обучению.
1- Supervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-supervised-learning.pdf
2- Unsupervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-unsupervised-learning.pdf
3- Deep Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf
4- Machine Learning Tips and Tricks
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-machine-learning-tips-and-tricks.pdf
5- Probabilities and Statistics
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-probabilities-statistics.pdf
6- Comprehensive Stanford Master Cheat Sheet
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/super-cheatsheet-machine-learning.pdf
7- Linear Algebra and Calculus
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-algebra-calculus.pdf
8- Data Science Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PythonForDataScience.pdf
9- Keras Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf
10- Deep Learning with Keras Cheat Sheet
https://github.com/rstudio/cheatsheets/raw/master/keras.pdf
11- Visual Guide to Neural Network Infrastructures
https://www.asimovinstitute.org/wp-content/uploads/2016/09/neuralnetworks.png
12- Skicit-Learn Python Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
13- Scikit-learn Cheat Sheet: Choosing the Right Estimator
https://scikit-learn.org/stable/tutorial/machine_learning_map/
14- Tensorflow Cheat Sheet
https://github.com/kailashahirwar/cheatsheets-ai/blob/master/PDFs/Tensorflow.pdf
15- Machine Learning Test Cheat Sheet
https://www.cheatography.com/lulu-0012/cheat-sheets/test-ml/pdf/
@bigdatai
1- Supervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-supervised-learning.pdf
2- Unsupervised Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-unsupervised-learning.pdf
3- Deep Learning
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf
4- Machine Learning Tips and Tricks
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-machine-learning-tips-and-tricks.pdf
5- Probabilities and Statistics
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-probabilities-statistics.pdf
6- Comprehensive Stanford Master Cheat Sheet
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/super-cheatsheet-machine-learning.pdf
7- Linear Algebra and Calculus
https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/refresher-algebra-calculus.pdf
8- Data Science Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PythonForDataScience.pdf
9- Keras Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf
10- Deep Learning with Keras Cheat Sheet
https://github.com/rstudio/cheatsheets/raw/master/keras.pdf
11- Visual Guide to Neural Network Infrastructures
https://www.asimovinstitute.org/wp-content/uploads/2016/09/neuralnetworks.png
12- Skicit-Learn Python Cheat Sheet
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
13- Scikit-learn Cheat Sheet: Choosing the Right Estimator
https://scikit-learn.org/stable/tutorial/machine_learning_map/
14- Tensorflow Cheat Sheet
https://github.com/kailashahirwar/cheatsheets-ai/blob/master/PDFs/Tensorflow.pdf
15- Machine Learning Test Cheat Sheet
https://www.cheatography.com/lulu-0012/cheat-sheets/test-ml/pdf/
@bigdatai
👍13❤2🔥1
Когда вы сталкиваетесь с большим ненормализованным датасетом, да еще и в формате JSON, который нужно переложить в связанные SQL-таблицы, необходимо:
▪Читать датасет по чанкам;
▪Анализировать датасет на качество, смотреть на атрибуты;
▪Нормализовать датасет, раскрывать связи между сущностями и следить за их целостностью.
В целом, знание этих пунктов позволит сразу адаптировать датасет под реляционные СУБД и значительно сократить время, затраченное на его обработку, ведь со структурной точки зрения его не потребуется переделывать бессчётное количество раз. А для всего остального – есть функционал SQL.
📌 Читать
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1
3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds
Новый набор данных облаков в неблагоприятную погоду, который предоставляет плотные аннотации на уровне точек и позволяет изучать 3DSS при различных неблагоприятных погодных условиях.
🖥 Github: https://github.com/xiaoaoran/semanticstf
⏩ Paper: https://arxiv.org/abs/2304.00690v1
💨 Dataset: https://paperswithcode.com/dataset/semanticstf
ai_machinelearning_big_data
Новый набор данных облаков в неблагоприятную погоду, который предоставляет плотные аннотации на уровне точек и позволяет изучать 3DSS при различных неблагоприятных погодных условиях.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🥰1
💊 Медицинские датасеты для машинного обучения: цели, типы и способы применения
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
▪ Смотреть
@bigdatai
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
▪ Смотреть
@bigdatai
👍4🔥2❤1
Когда я впервые начал работать с визуализацией данных, я обнаружил, что мне трудно выбрать правильный тип диаграммы для точного представления данных.
Было неприятно тратить часы на создание визуализации только для того, чтобы понять, что она неэффективно передаёт задуманный смысл. Вскоре я понял, что был не одинок в своей проблеме. Многие новички сталкивались с подобным при работе с визуализацией данных, вот почему я пишу эту статью (чтобы сэкономить ваше время и лучше разобраться в графиках). Я также приведу вам примеры кода.
▪ Читать
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2❤1
Согласованность данных: что это такое на самом деле и почему с ней все так сложно
Понятие согласованности данных сложное и неоднозначное, но команда VK Cloud перевела статью, которая поможет во всем разобраться. В материале автор определяет термин «согласованность» в области распределенных БД и рассуждает на тему этой самой согласованности.
📌 Читать
@bigdatai
Понятие согласованности данных сложное и неоднозначное, но команда VK Cloud перевела статью, которая поможет во всем разобраться. В материале автор определяет термин «согласованность» в области распределенных БД и рассуждает на тему этой самой согласованности.
📌 Читать
@bigdatai
👍5🔥2❤1
💡Топ 6 источников данных для глубокого погружения в Data Science
Chronic disease data. - источник, на котором можно найти данные о различных хронических заболеваниях на территории США.
IMF Data - Международный валютный фонд, который также публикует данные о международных финансах, показателях долгов, валютных резервах, инвестициях и так далее
Financial Times Market Data - здесь содержится информация о финансовых рынках всего мира, которая включает в себя такие показатели, как товары, валюту, индексы цен на акции
ImageNet - это данные изображений для новых алгоритмов, организованные в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии
Stanford Dogs Dataset - здесь содержится огромное количество изображений различных пород собак
HotspotQA Dataset - данные с вопросами-ответами, позволяющие создавать системы для ответов на вопросы наиболее понятным способом.
Chronic disease data. - источник, на котором можно найти данные о различных хронических заболеваниях на территории США.
IMF Data - Международный валютный фонд, который также публикует данные о международных финансах, показателях долгов, валютных резервах, инвестициях и так далее
Financial Times Market Data - здесь содержится информация о финансовых рынках всего мира, которая включает в себя такие показатели, как товары, валюту, индексы цен на акции
ImageNet - это данные изображений для новых алгоритмов, организованные в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии
Stanford Dogs Dataset - здесь содержится огромное количество изображений различных пород собак
HotspotQA Dataset - данные с вопросами-ответами, позволяющие создавать системы для ответов на вопросы наиболее понятным способом.
❤7👍2🔥2
5️⃣ Шагов для разработки уникальных Data Science проектов
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@bigdatai
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@bigdatai
❤6👍1🔥1
You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset
Набор данных Flatlandia, предназначенный для визуальной локализации 3DoF в различных городских условиях и основанный на данных из пяти европейских городов.
🖥 Github: https://github.com/microsoft/agieval
⏩ Paper: https://arxiv.org/abs/2304.06364v1
⭐️ Dataset: https://paperswithcode.com/dataset/jec-qa
@bigdatai
Набор данных Flatlandia, предназначенный для визуальной локализации 3DoF в различных городских условиях и основанный на данных из пяти европейских городов.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
The Generative AI Landscape - A Collection of Awesome Generative AI Applications
ai-collection (https://github.com/ai-collection/ai-collection) – коллекция классных и полезных проектов в области ИИ
Код, Игры, Изображение, Речь, текст Видео и многое другое.
🖥 Github
@bigdatai
ai-collection (https://github.com/ai-collection/ai-collection) – коллекция классных и полезных проектов в области ИИ
Код, Игры, Изображение, Речь, текст Видео и многое другое.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2❤1
Сеньор от мидла отличается как минимум несколькими цифрами в зарплате
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням
👍12❤2
В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai
👍9🔥2❤1
▪Плейлист лекций и семинаров: 2020-2021; 2021-2022
▪Курс лекций К.В. Воронцова.
▪Курс Мурата Апишева по python.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥1
Observable — платформа визуализации данных
Observable это удобная платформа для создания интерактивных диаграмм и графиков, анализа данных и быстрого прототипирования визуализаций
Инструмент идеально подходит для аналитиков, разработчиков и дизайнеров
Дополнительно Observable предлагает встроенные инструменты для обмена знаниями и работой над проектами в команде. Возможность организовать свои ноутбуки в коллекции упрощает навигацию и поиск нужной информации
Стоимость: #бесплатно (но есть платные тарифы)
#визуализация #аналитика
@bigdatai
Observable это удобная платформа для создания интерактивных диаграмм и графиков, анализа данных и быстрого прототипирования визуализаций
Инструмент идеально подходит для аналитиков, разработчиков и дизайнеров
Дополнительно Observable предлагает встроенные инструменты для обмена знаниями и работой над проектами в команде. Возможность организовать свои ноутбуки в коллекции упрощает навигацию и поиск нужной информации
Стоимость: #бесплатно (но есть платные тарифы)
#визуализация #аналитика
@bigdatai
👍11❤3🔥1
⚛
Academic Torrents Academic Torrents - это новый сайт, предназначенный для обмена датасетами из научных работ. Это новый сайт, поэтому трудно сказать, как будут выглядеть наиболее распространённые типы наборов данных. В настоящий момент, на нём есть множество интересных датасетов, которым не хватает контекста.
Вы можете просматривать наборы данных непосредственно на сайте. Поскольку это торрент-сайт, все наборы данных можно сразу загрузить, но тогда вам понадобится клиент Bittorrent. Deluge - хороший бесплатный вариант.
▪Просмотр наборов данных Academic Torrents
Вот несколько примеров:
▪Enron Emails — набор из множества электронных писем от руководителей Enron, компании, которая, как известно, обанкротилась.
▪Student Learning Factors — набор факторов, которые измеряют обучение студентов и влияют на него.
▪News Articles — содержит атрибуты новостной статьи.
@bigdatai
👍8❤3🔥1
⚡️ Quandl
Quandl – это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие датасеты необходимо приобрести. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции. Благодаря большому количеству доступных наборов данных можно построить сложную модель, которая использует множество наборов данных для прогнозирования значений в другом датасете.
Просмотр наборов данных Quandl.
Вот несколько примеров:
▪Entrepreneurial Activity By Race and Other Factors — содержит данные фонда Кауфмана о предпринимателях в США.
▪US Federal Reserve Data — экономические показатели США, от Федеральной резервной системы.
@bigdatai
Quandl – это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие датасеты необходимо приобрести. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции. Благодаря большому количеству доступных наборов данных можно построить сложную модель, которая использует множество наборов данных для прогнозирования значений в другом датасете.
Просмотр наборов данных Quandl.
Вот несколько примеров:
▪Entrepreneurial Activity By Race and Other Factors — содержит данные фонда Кауфмана о предпринимателях в США.
▪US Federal Reserve Data — экономические показатели США, от Федеральной резервной системы.
@bigdatai
👍5❤3🔥2