Прогнозирование продаж Python. Как находить и сглаживать выбросы с помощью фильтра Хэмплея
Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и можно легко найти нужные. Такое встретишь крайне редко или почти никогда.
Возникает вопрос - как решить эту проблему? Я нашёл решение. Давайте расскажу вам, как я решаю проблему битых данных, выбросов, пропусков. Какие я использовал методы, в чем их отличия, преимущества и какие я считаю самыми лучшими.
Начнём мы с первого метода – фильтра Хэмплея. В этой статье речь пойдёт именно о нём. Я постараюсь как можно проще рассказать о его особенностях и показать всё на наглядных примерах. Приступим.
Читать: https://habr.com/ru/post/703246/
Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и можно легко найти нужные. Такое встретишь крайне редко или почти никогда.
Возникает вопрос - как решить эту проблему? Я нашёл решение. Давайте расскажу вам, как я решаю проблему битых данных, выбросов, пропусков. Какие я использовал методы, в чем их отличия, преимущества и какие я считаю самыми лучшими.
Начнём мы с первого метода – фильтра Хэмплея. В этой статье речь пойдёт именно о нём. Я постараюсь как можно проще рассказать о его особенностях и показать всё на наглядных примерах. Приступим.
Читать: https://habr.com/ru/post/703246/
👍2
Как я писал трекинг парковочных мест
Рассказываю, как я делал трекинг свободных парковочных мест руками новичка. Получилось интересно :)
Читать: https://habr.com/ru/post/703276/
Рассказываю, как я делал трекинг свободных парковочных мест руками новичка. Получилось интересно :)
Читать: https://habr.com/ru/post/703276/
2003–2023: Краткая история Big Data
Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?
Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.
Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.
Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…
Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.
Читать: https://habr.com/ru/post/702932/
Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?
Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.
Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.
Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…
Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.
Читать: https://habr.com/ru/post/702932/
Data Engineering Weekly #110
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-110
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-110
Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти
И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных. Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.
В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.
Читать: https://habr.com/ru/post/703608/
И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных. Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.
В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.
Читать: https://habr.com/ru/post/703608/
10 лучших опенсорсных инструментов аннотирования для компьютерного зрения
Наша компания знает важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию статей Tools we love, в которой мы подробно рассматриваем некоторые из наших любимых инструментов аннотирования, а также выбранные нами лучшие инструменты аннотирования за 2019, 2020 и 2021 годы.
В процесса роста сферы аннотирования изображений мы наблюдаем увеличение количества опенсорсных инструментов, позволяющих любому размечать изображения бесплатно и пользоваться широким набором функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для машинного зрения!
Читать: https://habr.com/ru/post/703208/
Наша компания знает важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию статей Tools we love, в которой мы подробно рассматриваем некоторые из наших любимых инструментов аннотирования, а также выбранные нами лучшие инструменты аннотирования за 2019, 2020 и 2021 годы.
В процесса роста сферы аннотирования изображений мы наблюдаем увеличение количества опенсорсных инструментов, позволяющих любому размечать изображения бесплатно и пользоваться широким набором функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для машинного зрения!
Читать: https://habr.com/ru/post/703208/
Oracle Fusion Analytics Warehouse – Handling Negative Reporting Scenarios
The article describes the approach a Fusion Analytics user can take to handle various negative reporting scenarios through a few examples.
Read: https://blogs.oracle.com/analytics/post/faw-negative-reporting
The article describes the approach a Fusion Analytics user can take to handle various negative reporting scenarios through a few examples.
Read: https://blogs.oracle.com/analytics/post/faw-negative-reporting
Oracle
#FAW #OAC #CX #HCM #ERP , Handling Negative Reporting
The blog describes the approach a Fusion Analytics Warehouse analytics user can use to handle various negative reporting scenarios through few example scenarios.
Fusion Analytics Warehouse: Migrate Data Augmentations Using a Data Config Bundle
This blog series describes the steps to create, generate, export, import, and deploy Bundles of Fusion Analytics Warehouse (Fusion Analytics) artifacts. Fusion Analytics Service Administrators can use Bundles to manage snapshots of application artifacts, including migrating artifacts from one environment to another.
Read: https://blogs.oracle.com/analytics/post/fusion-analytics-warehouse-using-configuration-bundles-data-config-bundle
This blog series describes the steps to create, generate, export, import, and deploy Bundles of Fusion Analytics Warehouse (Fusion Analytics) artifacts. Fusion Analytics Service Administrators can use Bundles to manage snapshots of application artifacts, including migrating artifacts from one environment to another.
Read: https://blogs.oracle.com/analytics/post/fusion-analytics-warehouse-using-configuration-bundles-data-config-bundle
Oracle
Fusion Analytics Warehouse: Using Configuration Bundles: Data Config Bundle
These series provide the steps to create, publish, export, import, deploy Bundles of the Fusion Analytics Warehouse artifacts. Users in Fusion Analytics Warehouse’s Service Administrator group can use Bundles to manage snapshots of your application artifacts.…
Обновить данные в ClickHouse без UPDATE: кейс IBS
Привет, Хабр! Меня зовут Антон, я – старший разработчик в отделе разработки баз данных в IBS. В этой статье я расскажу о том, как нашей командой была решена задача по сохранению в ClickHouse большого количества данных, генерируемых веб-приложением, с последующим получением сохранённых данных в агрегированном виде.
Решение задачи, описанной выше, было бы простым и вряд ли заслуживающим отдельной статьи на Хабре. Но наш случай представлял собой ряд нюансов: здесь есть технические дубли записей и бизнес-дубли (обновления), есть агрегированные данные и необходимость обновления агрегированных данных. А это уже пример не совсем типичного использования ClickHouse, которым мы и хотим поделиться.
Интересно? Переходите под кат.
Читать: https://habr.com/ru/post/703124/
Привет, Хабр! Меня зовут Антон, я – старший разработчик в отделе разработки баз данных в IBS. В этой статье я расскажу о том, как нашей командой была решена задача по сохранению в ClickHouse большого количества данных, генерируемых веб-приложением, с последующим получением сохранённых данных в агрегированном виде.
Решение задачи, описанной выше, было бы простым и вряд ли заслуживающим отдельной статьи на Хабре. Но наш случай представлял собой ряд нюансов: здесь есть технические дубли записей и бизнес-дубли (обновления), есть агрегированные данные и необходимость обновления агрегированных данных. А это уже пример не совсем типичного использования ClickHouse, которым мы и хотим поделиться.
Интересно? Переходите под кат.
Читать: https://habr.com/ru/post/703124/
Как мы в 3 раза снизили время, которое менеджеры тратили на рутинные задачи
Для бизнеса, который планирует развиваться и расти, а не извлекать сиюминутную выгоду, система аналитики практически мастхэв. Она помогает строить бизнес-планы, дает более реальное представление о том, как чувствует себя компания; с её помощью можно принимать решение, основываясь на фактах, а не на догадках. В этой статье мы рассказываем о своем опыте внедрения системы аналитики и той пользе, которую она приносит.
Читать: https://habr.com/ru/post/703784/
Для бизнеса, который планирует развиваться и расти, а не извлекать сиюминутную выгоду, система аналитики практически мастхэв. Она помогает строить бизнес-планы, дает более реальное представление о том, как чувствует себя компания; с её помощью можно принимать решение, основываясь на фактах, а не на догадках. В этой статье мы рассказываем о своем опыте внедрения системы аналитики и той пользе, которую она приносит.
Читать: https://habr.com/ru/post/703784/
Глубокое обучение в диагностике: как AI спасает жизни и экономит средства на лечение
«Симптомы никогда не лгут», — так сказал самый блестящий диагност, доктор Хаус, который, увы существует только в телесериале. В реальной жизни симптомы часто нелегко обнаружить даже лучшим специалистам, а ошибочные диагнозы признаны самыми частыми и опасными медицинскими ошибками: с теми или иными ошибочными диагнозами сталкиваются ежегодно от 12 до 18 миллионов жителей США.
Есть надежда, что искусственный интеллект (artificial intelligence, AI) и машинное обучение (machine learning, ML) смогут в будущем изменить эту тревожную ситуацию. В этой статье рассматриваются самые успешные примеры использования машинного обучения в диагностике, подчёркивается его потенциал и описываются современные ограничения.
Читать: https://habr.com/ru/post/700344/
«Симптомы никогда не лгут», — так сказал самый блестящий диагност, доктор Хаус, который, увы существует только в телесериале. В реальной жизни симптомы часто нелегко обнаружить даже лучшим специалистам, а ошибочные диагнозы признаны самыми частыми и опасными медицинскими ошибками: с теми или иными ошибочными диагнозами сталкиваются ежегодно от 12 до 18 миллионов жителей США.
Есть надежда, что искусственный интеллект (artificial intelligence, AI) и машинное обучение (machine learning, ML) смогут в будущем изменить эту тревожную ситуацию. В этой статье рассматриваются самые успешные примеры использования машинного обучения в диагностике, подчёркивается его потенциал и описываются современные ограничения.
Читать: https://habr.com/ru/post/700344/
Подборка актуальных вакансий
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
Актуальные подходы к формированию технологических карт в 2023 году
По данным «Коммерсанта», под влиянием западных санкций промышленное производство в России снизилось почти на 4% — предприятия столкнулись с дефицитом импортных компонентов, нарушились привычные партнерские связи и логистические цепочки. Если верить прогнозам инвестгруппы «Финам», отрицательная тенденция в российской промышленности в ближайшее время сохранится. Рост цен на комплектующие, увеличение затрат на транспортировку, дефицит квалифицированных кадров — «долгоиграющие» факторы. Если вашему предприятию эти трудности знакомы не понаслышке, самый верный путь — заняться оптимизацией расходов на техобслуживание и ремонт оборудования. Сегодня мы хотим поговорить о правильном формировании технологических карт, от которых напрямую зависят затраты на ТОиР.
Читать: https://habr.com/ru/post/703984/
По данным «Коммерсанта», под влиянием западных санкций промышленное производство в России снизилось почти на 4% — предприятия столкнулись с дефицитом импортных компонентов, нарушились привычные партнерские связи и логистические цепочки. Если верить прогнозам инвестгруппы «Финам», отрицательная тенденция в российской промышленности в ближайшее время сохранится. Рост цен на комплектующие, увеличение затрат на транспортировку, дефицит квалифицированных кадров — «долгоиграющие» факторы. Если вашему предприятию эти трудности знакомы не понаслышке, самый верный путь — заняться оптимизацией расходов на техобслуживание и ремонт оборудования. Сегодня мы хотим поговорить о правильном формировании технологических карт, от которых напрямую зависят затраты на ТОиР.
Читать: https://habr.com/ru/post/703984/
Кейсы разметки в CVAT #1: найди отличия
Привет, дорогие читатели! Меня зовут Алина, я работаю операционным менеджером в компании Training Data, которая занимается сбором и разметкой данных. Я веду проекты по разметке, а еще благодаря знанию python пишу скрипты для автоматизации работы своей команды. У меня накопилось много интересного опыта, которым я хочу с вами поделиться.
Своей первой статьей я открываю рубрику разбора любопытных кейсов, с которыми столкнулись я и мои коллеги во время организации разметки данных в CVAT.
“Computer Vision Annotation Tool (CVAT) – это инструмент с открытым исходным кодом для разметки цифровых изображений и видео. Основной его задачей является предоставление пользователю удобных и эффективных средств разметки наборов данных. “ - цитата из статьи создателей.
Все мы с вами прекрасно знаем детскую игру на развитие внимательности и наблюдательности - поиск отличий на картинках. Она встречалась нам в журналах, на календарях, а позже - на сайтах и мемах в VK. Но кто бы мог подумать, что подобная забава дойдет и до разметки данных для обучения нейронных сетей?
Читать дальше
Читать: https://habr.com/ru/post/704160/
Привет, дорогие читатели! Меня зовут Алина, я работаю операционным менеджером в компании Training Data, которая занимается сбором и разметкой данных. Я веду проекты по разметке, а еще благодаря знанию python пишу скрипты для автоматизации работы своей команды. У меня накопилось много интересного опыта, которым я хочу с вами поделиться.
Своей первой статьей я открываю рубрику разбора любопытных кейсов, с которыми столкнулись я и мои коллеги во время организации разметки данных в CVAT.
“Computer Vision Annotation Tool (CVAT) – это инструмент с открытым исходным кодом для разметки цифровых изображений и видео. Основной его задачей является предоставление пользователю удобных и эффективных средств разметки наборов данных. “ - цитата из статьи создателей.
Все мы с вами прекрасно знаем детскую игру на развитие внимательности и наблюдательности - поиск отличий на картинках. Она встречалась нам в журналах, на календарях, а позже - на сайтах и мемах в VK. Но кто бы мог подумать, что подобная забава дойдет и до разметки данных для обучения нейронных сетей?
Читать дальше
Читать: https://habr.com/ru/post/704160/
👍2
Start your HR analytics journey with a new self-assessment tool
Use the new HR analytics self-assessment tool to score your organization’s HR analytics strategy and learn how to improve your use of people data.
Read: https://blogs.oracle.com/analytics/post/start-your-analytics-journey-with-hr-analytics-self-assessment
Use the new HR analytics self-assessment tool to score your organization’s HR analytics strategy and learn how to improve your use of people data.
Read: https://blogs.oracle.com/analytics/post/start-your-analytics-journey-with-hr-analytics-self-assessment
Oracle
Start your analytics journey with HR Analytics Self-assessment
HR Analytics Self Assessment tool from Oracle - Use this tool to score your organization’s HR Analytics or people analytic strategy and learn how to improve your use of HR data.
Business Intelligence в Уралсибе: почему мы перешли на FineBI после ухода Tableau из России
Привет! Я Дмитрий Фёдоров, главный по Business Intelligence в Уралсибе. Мне довелось выступить на первой офлайн-конференции FineBI в России. Все спикеры, и я не исключение, рассказывали об одном: как выбирались из ситуации, когда Tableau ушла из России, и пришлось искать другие варианты. Далее коротко публикую свои тезисы.
Читать подробности
Читать: https://habr.com/ru/post/704370/
Привет! Я Дмитрий Фёдоров, главный по Business Intelligence в Уралсибе. Мне довелось выступить на первой офлайн-конференции FineBI в России. Все спикеры, и я не исключение, рассказывали об одном: как выбирались из ситуации, когда Tableau ушла из России, и пришлось искать другие варианты. Далее коротко публикую свои тезисы.
Читать подробности
Читать: https://habr.com/ru/post/704370/
Optuna. Подбор гиперпараметров для вашей модели
Optuna — это фреймворк для для автоматизированного поиска оптимальных гиперпараметров для моделей машинного обучения. Она подбирает оптимальные гиперпараметры методом проб и ошибок.
В данной статье представлен обзор фреймворка Optuna, рассмотрены ее основные возможности, базовые примеры использования.
Читать: https://habr.com/ru/post/704432/
Optuna — это фреймворк для для автоматизированного поиска оптимальных гиперпараметров для моделей машинного обучения. Она подбирает оптимальные гиперпараметры методом проб и ошибок.
В данной статье представлен обзор фреймворка Optuna, рассмотрены ее основные возможности, базовые примеры использования.
Читать: https://habr.com/ru/post/704432/
Доступный AutoML: как оптимизировать работу с ML-моделями с помощью VK Cloud и FEDOT
В машинном обучении (Machine Learning, ML), чтобы обеспечить требуемые показатели метрик качества ML-моделей зачастую надо строить многокомпонентные пайплайны и комбинировать десятки алгоритмов моделирования. Нередко это сложно и долго. В таких ситуациях на помощь приходит AutoML — автоматическое машинное обучение.
Я Александр Волынский, технический менеджер продукта, отвечаю за развитие Cloud ML Platform в VK Cloud. Статья подготовлена на основе совместного вебинара с Николаем Никитиным, руководителем направления AutoML, NSS Lab, ИТМО. Мы говорили про назначение AutoML-инструментов, их разновидности, фреймворк FEDOT и возможности Cloud ML Platform для работы с AutoML-решениями.
Читать: https://habr.com/ru/post/703474/
В машинном обучении (Machine Learning, ML), чтобы обеспечить требуемые показатели метрик качества ML-моделей зачастую надо строить многокомпонентные пайплайны и комбинировать десятки алгоритмов моделирования. Нередко это сложно и долго. В таких ситуациях на помощь приходит AutoML — автоматическое машинное обучение.
Я Александр Волынский, технический менеджер продукта, отвечаю за развитие Cloud ML Platform в VK Cloud. Статья подготовлена на основе совместного вебинара с Николаем Никитиным, руководителем направления AutoML, NSS Lab, ИТМО. Мы говорили про назначение AutoML-инструментов, их разновидности, фреймворк FEDOT и возможности Cloud ML Platform для работы с AutoML-решениями.
Читать: https://habr.com/ru/post/703474/
Самостоятельный парсинг ваших конкурентов. Топ 10 расширений для Chrome, которые не требуют программирования
Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Подготовили для вас подробный обзор расширений для Chrome, с помощью которых вы можете сами заниматься парсингом без привлечения таких компаний, как наша. Сервисы зарубежные, часть бесплатные — бери и делай, это не сложно!
Иногда в сети можно услышать негодования по поводу того, что описываемые подходы к парсингу слишком сложные для обычного пользователя. И хорошо бы «взять всё и упростить», чтобы можно было справиться самостоятельно.
Что ж, вашему вниманию предлагается экспресс-обзор решений из серии «проще некуда»: рассматриваемые инструменты даже не надо устанавливать на компьютер — они настраиваются простыми движениями мыши. При этом такие инструменты нельзя назвать примитивными. Хотя некоторые — да, идут по пути минимализма возможностей, но зато другие являются по сути «тонким клиентом», за которым спряталась мощь облачного сервиса, богатство огромного пула прокси-серверов и хитрость искусственного интеллекта.
Невозможно представить современный бизнес без аналитики информации, собранной в интернете. Очевидно, что добывать данные вручную долго не получится: не хватит ни времени, чтобы просматривать страницы, ни внимания, чтобы не допускать ошибок при нескончаемых операциях копирования и вставки. URL-адреса, страницы, таблицы, картинки и скрытые от глаза данные — это лишь небольшой перечень того, что надо «прочитать» на веб-страницах, сохранить и систематизировать.
И единственным выходом в таких случаях становится автоматизация. А когда мы говорим об автоматизации сбора данных, представленных где-то в сети, то мы говорим о парсинге.
Читать: https://habr.com/ru/post/704522/
Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Подготовили для вас подробный обзор расширений для Chrome, с помощью которых вы можете сами заниматься парсингом без привлечения таких компаний, как наша. Сервисы зарубежные, часть бесплатные — бери и делай, это не сложно!
Иногда в сети можно услышать негодования по поводу того, что описываемые подходы к парсингу слишком сложные для обычного пользователя. И хорошо бы «взять всё и упростить», чтобы можно было справиться самостоятельно.
Что ж, вашему вниманию предлагается экспресс-обзор решений из серии «проще некуда»: рассматриваемые инструменты даже не надо устанавливать на компьютер — они настраиваются простыми движениями мыши. При этом такие инструменты нельзя назвать примитивными. Хотя некоторые — да, идут по пути минимализма возможностей, но зато другие являются по сути «тонким клиентом», за которым спряталась мощь облачного сервиса, богатство огромного пула прокси-серверов и хитрость искусственного интеллекта.
Невозможно представить современный бизнес без аналитики информации, собранной в интернете. Очевидно, что добывать данные вручную долго не получится: не хватит ни времени, чтобы просматривать страницы, ни внимания, чтобы не допускать ошибок при нескончаемых операциях копирования и вставки. URL-адреса, страницы, таблицы, картинки и скрытые от глаза данные — это лишь небольшой перечень того, что надо «прочитать» на веб-страницах, сохранить и систематизировать.
И единственным выходом в таких случаях становится автоматизация. А когда мы говорим об автоматизации сбора данных, представленных где-то в сети, то мы говорим о парсинге.
Читать: https://habr.com/ru/post/704522/
Мое первое серебро или как стабилизировать ML модель и подпрыгнуть на 700 мест вверх
Привет, чемпион!
Летом прошел чемпионат на Kaggle - "American Express - Default Prediction", требовалось предсказывать - выйдет ли пользователь в дефолт или нет. Табличное соревнование в 5К участников с очень плотным лидербордом.
Вот ведь парадокс, все умеют решать табличные соревнования, все знают, что бустинги "стреляют" точнее всех, но почему-то все равно не все могут забраться в топ лидерборда. В чем проблема?! Мы с командой все-таки смогли забрать серебро🥈 и сейчас я расскажу, как можно было выиграть медаль в этом чемпионате.
Читать: https://habr.com/ru/post/704440/
Привет, чемпион!
Летом прошел чемпионат на Kaggle - "American Express - Default Prediction", требовалось предсказывать - выйдет ли пользователь в дефолт или нет. Табличное соревнование в 5К участников с очень плотным лидербордом.
Вот ведь парадокс, все умеют решать табличные соревнования, все знают, что бустинги "стреляют" точнее всех, но почему-то все равно не все могут забраться в топ лидерборда. В чем проблема?! Мы с командой все-таки смогли забрать серебро🥈 и сейчас я расскажу, как можно было выиграть медаль в этом чемпионате.
Читать: https://habr.com/ru/post/704440/
The Taylor Swift ticketing fiasco
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/12/the-taylor-swift-ticketing-fiasco.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/12/the-taylor-swift-ticketing-fiasco.html