🐘 Как найти «слона» в песочнице на Hadoop
В процессе работы часто требуется создать базу данных (командное пространство, песочница и т.п.), которую необходимо использовать для временного хранения данных.
Как у любого «помещения» в «песочнице» есть ограничение по объёму выделенного места для хранения данных. Иногда это ограничение забывается и заканчивается объём выделенной памяти.
В этом случае можно применить маленький «лайфхак», который позволит оперативно просмотреть, какая таблица занимает больше всего места, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, можно оперативно почистить место в песочнице, предварительно согласовав эти действия с владельцем данных, без нанесения вреда данным другим пользователям. Кроме того, данный инструмент позволит периодически проводить мониторинг наполняемости общей песочницы.
➡️ Читать дальше
@data_analysis_ml
В процессе работы часто требуется создать базу данных (командное пространство, песочница и т.п.), которую необходимо использовать для временного хранения данных.
Как у любого «помещения» в «песочнице» есть ограничение по объёму выделенного места для хранения данных. Иногда это ограничение забывается и заканчивается объём выделенной памяти.
В этом случае можно применить маленький «лайфхак», который позволит оперативно просмотреть, какая таблица занимает больше всего места, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, можно оперативно почистить место в песочнице, предварительно согласовав эти действия с владельцем данных, без нанесения вреда данным другим пользователям. Кроме того, данный инструмент позволит периодически проводить мониторинг наполняемости общей песочницы.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥2❤1
Перед тем как перейти к парсингу Яндекс Карт, расскажу, какую задачу я хотел решить.
Я решил узнать, кто является целевой аудиторией для сервисов мультиссылок, например Taplink. Если зайти на сайт Taplink'a[ссылка удалена модератором], то они там показывают сценарии использования сервиса и пишут о категориях клиентов, на которые они ориентируются. Это “популярные люди”, “бизнес”, “интернет-магазин” и “каждый”. На лендинге немало примеров работ для оффлайн бизнеса, поэтому появилась идея проверить, используют ли вообще эти категории бизнеса сервисы мультиссылок. И для этого пригодится информация с Яндекс Карт.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤2🔥1
Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.
Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤2🔥1
Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥3❤2
Вероятно, лучший кураторский список программного обеспечения для обработки данных на Python.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4🥰1
Огромную долю в восприятии информации человеком занимает визуальная информация. Практически всё в мире можно представить в виде изображения. Изображения и видео могут содержать в себе очень много данных — именно поэтому задачи по обработке изображений человек отдает машине.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Разведочный анализ данных (Exploratory Data Analysis, EDA) — это выявление скрытой информации в наборе данных.
sweetviz — библиотека, которая предоставляет важную информацию о наборе данных без написания большого количества кода.
pip install sweetviz
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍10❤3🤔1
Для начала позволю себе заметить, что в интернете есть много качественного технического контента, посвященного оцениванию моделей. Такие метрики, как F1-score (гармоническое среднее), MSE (средняя квадратическая ошибка), MAE (среднее абсолютное отклонение), Huber Loss (функция потерь Хьюбера), precision (точность), recall (полнота), cross-entropy loss (потери перекрестной энтропии) и многие другие, детально описаны на различных платформах. Однако эти метрики обычно фокусируются на подгонке модели к данным, а не на оптимизации ее для конкретного бизнеса.
Чего зачастую не хватает, так это инструментов экономического анализа для оптимизации полезности модели. Полезность определяется просто как удовольствие или ценность, которые клиент может получить от услуги — в данном случае от модели МО.
Хотя эта концепция не преподается будущим специалистам МО, я уверен: экономический анализ и оценка полезности имеют большое значение для создания практичных и долговечных моделей в реальном мире. Пока все заинтересованные стороны (технические и нетехнические работники) совместно не создадут экономический слой МО-модели, бизнес-ценность и предельную полезность машинного обучения можно считать неопределенными.
Примечание. Эта публикация предназначена для технических МО-специалистов, а также для менеджеров по продуктам и менее технически подготовленных заинтересованных лиц, работающих с ИИ-продуктами. Здесь будет немного математики, но в заключительный раздел включены высокоэффективные концептуальные шаги.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍13❤2
Математическая модель учитывает данные прошлых лет и показатели сборных.
Дисклеймер: не используйте модель для ставок на спорт, ради бога! Это всего лишь математика, развлечение для гиков, а не оракул, которому можно безусловно доверять. Реальность куда более непредсказуема, поэтому поберегите свои деньги.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14👍12👎3🔥3❤1
Проект поможет вам научиться или прокачать навыки визуализации данных с помощью графиков, созданных в matplotlib, seaborn, plotly и других инструментах. Вы также найдете готовые инструкции по созданию конкретных примеров графиков и диаграмм.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥5❤2
git clone https://github.com/saulpw/readysetdata.git
cd readysetdata
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3❤2
Сохраняйте себе и делитесь, чтобы не потерять.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤5👎3🔥3
Здесь мы приведем все приемы и советы Pandas и Python, которые вы можете использовать в дальнейшем в своих проектах.
Содержание разделено на два основных раздела:
- Трюки и советы Pandas относятся только к Pandas.
- Трюки и советы на Python, связанные с Python.
Также предоставляются видео с канала YouTube. Каждое видео охватывает примерно два или три трюка одновременно.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4🥰1
Кратко о данных. Специальное оборудование производило замеры содержания в воздухе различных газов и взвешенных частиц, температуры воздуха, скорости ветра, атмосферного давления, даты и времени. Измерения производились каждые 20 минут в течении полутора лет. Следовательно, датасет содержит около 34 тыс. строк.
После осмотра файлов выяснилось, что в данных присутствуют сбойные измерения, от этих строк необходимо избавиться.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2🔥1
Многие из ошибок, совершаемые аналитиками, да и не только аналитиками, но и продактами, предпринимателями, маркетологами вызваны непониманием концепций статистики, что приводит к запуску неправильного теста или неправильной интерпретации результатов.
Поэтому тут подборка материалов, которые помогут разобраться (бесплатно все, кроме книг – их возможно придется приобрести).
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6❤5
Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.
Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤1🔥1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1
📓 Автоматическая обработка текстов на естественном языке и анализ данных
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования
до вариантов технологических решений. Дается интерпретация основных
лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов
на естественном языке. Рассматриваются вопросы анализа тональности и
тематического моделирования текстов, извлечения информации из текстов.
➡️ Книга
@data_analysis_ml
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования
до вариантов технологических решений. Дается интерпретация основных
лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов
на естественном языке. Рассматриваются вопросы анализа тональности и
тематического моделирования текстов, извлечения информации из текстов.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3❤2
Forwarded from Альфа-Банк
This media is not supported in your browser
VIEW IN TELEGRAM
На финтех-форуме мы показывали животных. А как строим финтех — расскажем на Alfa Digital Open.
Где? Онлайн, 13 декабря. Каждый год мы рассказываем про наши новые digital-сервисы, технологии и людей, которые делают Альфу 🧑🏻💻👩🏻💻
Что обсудим:
— Как перезапустили мобильный банк Альфа-Онлайн за месяц, а не за год.
— Как научили нейросети распознавать мошенников в 3 раза лучше людей.
— Сколько раз мы ошибались, пока делали приложение для сотрудников
Это бесплатно? Да. Мы делимся знаниями бесплатно.
Где записаться? Прямо сейчас на сайте 👈
@alfabank
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6