Small Data Science for Russian Adventurers
11.3K subscribers
307 photos
3 videos
13 files
708 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#длясправки
Есть Semi-supervised Learning - довольно известный вид обучения, когда дана выборка, часть которой имеет метки (поэтому можно сказать, что это "промежуточная" задача между Supervised Learning и Unsupervised Learning). Но есть ещё Semi-Unsupervised Learning - и мало кто знает, что это за зверь. На самом деле, этот термин разные исследователи пытались ввести по-разному. Мне понравилась такая формализация - обучение по неразмеченной выборке, для которой есть некоторая дополнительная информация о разметке (например, такие-то объекты имеют одинаковые метки, всего 3 класса, пропорции классов 3:2:1).
#длясправки
Как оказалось, не все знают. Есть такой ресурс, который позволяет читать статьи из ArXiv-a в виде HTML. Правда, он немного криво переводит (обычно страдают формулы).
https://www.arxiv-vanity.com
#длясправки
В машинном обучении (и много где ещё) любят аббревиатуры, интересно, когда такие аббревиатуры одновременно обозначают два разных понятия. Есть избитые примеры типа NLP (Natural Language Processing, NonLinear Programming, Neuro-Linguistic Programming), но всё таки это расшифровки из совершенно разных областей (и в ML путаницы нет), а вот несколько "внутриобластных" примеров.

SOTA – Вы, конечно, сразу подумали про State of the Art (тогда правильнее писать SotA), но есть ещё такой алгоритм Self Organizing Tree Algorithm. И самое забавное, что если Вы хотите погуглить, какой сейчас самый лучший алгоритм кластеризации, то на запрос "SOTA clustering" в гугле будет выдаваться именно этот. Неплохой маркетинговый ход;)

SGD – на ум приходит Stochastic gradient descent, но некоторые NLP-шники скажут, что есть такой набор данных Schema-Guided Dialogue dataset (SGD), в статьях и блог-постах гугла на него ссылаются как на SGD.

LDA – это классика: Latent Dirichlet Allocation и Linear Discriminant Analysis, хотя, кто в современном мире вспоминает термин "линейный дискриминантный анализ"?

Какие Вы ещё знаете "накладки" в аббревиатурах?
🔥27👍22😁2
#длясправки
Есть несколько стандартных модификаций метода k-средних, наиболее известная - алгоритм Ллойда, именно он реализован в scikit-learn. А вот на R реализованы:
* Lloyd,
* Forgy,
* MacQueen,
* Hartigan and Wong.
И много чего ещё. Там отличия в инициализации и пересчёте, очень неплохо написано здесь (хотя это не прям ценные знания). Но в очередной раз поражаюсь, сколько всего в разных библиотеках языка R...
👍42🤩10