Parsing Conf – Telegram

Parsing Conf

596 subscribers

6 photos

2 videos

14 files

162 links

Data collection conference/meetup

Митап о сборе данных

Тематические объявления и посты бесплатно размещаем

По всем вопросам можно обращаться в чат
https://t.iss.one/joinchat/HvuCPzwpPJHrrDfC
или в личку @NikolayKrupiy @cuda23

Download Telegram

About

Blog

Apps

Platform

596 subscribers

#ссылка
#продукт

https://m.habr.com/ru/post/543760/

В последнее время сильно развивается no-code инструментарий. Это очень круто, хотя это часто сложно принять разработчикам. Это сильно расширяется возможности и ускоряет процесс решения задач.

Инструменты:
- Scraper API
- Octoparse
- DataOx
- ScrapingBot
- Wintr
- Import.io
- Webhose.io
- Zyte
- ParseHub
- Mozenda
- Diffbot
- Luminati
- FMiner
- Outwit
- Data streamer

15 топовых веб скрапинг решений 2021 года

За последнее десятилетие информация стала основным ресурсом для развития бизнеса, а Интернет является основным источником, где 5 миллиардов пользователей ежесекундно генерируют новые данные....

495 viewsedited 21:28

#ссылка
#github

Как и для любой сферы, для парсеров есть awesome-репозитории. Иногда про них забываешь https://github.com/BruceDone/awesome-crawler

GitHub - BruceDone/awesome-crawler: A collection of awesome web crawler,spider in different languages

A collection of awesome web crawler,spider in different languages - BruceDone/awesome-crawler

520 viewsedited 19:38

#ссылка
#продукт

octoparse.com

Один из инструментов no-code. Позволяет выстраивать пайплайны, есть возможность пагинации выгрузок. Что круто, полу-автоматически выцепляет атрибуты из страничек. Сложно сказать о качестве, потому что попробовать бывалому линуксоиду это не получится. Есть только десктоп-версия )= для windows и mscOS.

На вскидку, система пайплайнов показалась хиленькой. Но судить сложно, поскольку её не пощупал.

Есть какое-то АПИ. Судя по всему, позволяет работать с тасками. Но для инструмента no-code ценности в нём не очень много.

Сайт неудобный и навигацию осуществлять на нём мне не понравилось.

Клёвый ролик с демо https://www.youtube.com/watch?time_continue=122&v=s6pirJKtVk0 .

В целом, мне не понравилось. Нет клауд-версии.

Стоимость:
- Free (10 000 записей для выгрузки, 10 конфигураций краулеров, 2 задачи одновременно)
- 75$/month (неограниченное количество записей, 100 конфигураций краулеров, 6 задач одновременно)
- 209$/month (неограниченное количество записей, 100 конфигураций краулеров, 6 задач одновременно)
- Индивидуальные планы

How to Scrape eBay Product Data and Competitor Prices for FREE

✨ Is web scraping legal?✨What kinds of data can be scraped? ✨ What are common applications of web scraping?Check out this video and find answers for all ques...

472 viewsedited 08:01

#ссылка
#github

https://github.com/Hedgehogues/yandex-toloka-parser

Появился yandex-toloka-parser сегодня вечером. Вдруг, кому пригодится. Ничего особенного. Разобрал запросы. Получил апишки. Готово.

GitHub - Hedgehogues/yandex-toloka-parser: This parser extracts all info about your workers via private API

This parser extracts all info about your workers via private API - GitHub - Hedgehogues/yandex-toloka-parser: This parser extracts all info about your workers via private API

470 viewsedited 16:16

#ссылка

https://habr.com/ru/post/544788/

О, нет. Только собрался разбогатеть и вот опять. Закон пока не читал. Но то, что написано тут очень расстраивает и наводит тоску. Другое дело, что все как парсили так и продолжат. Или за это начнут дела шить...

Парсинг общедоступных данных запрещен с 1 марта

С 01 марта 2021 года вступают в силу новые правила обработки персональных данных, сделанных доступными неопределенному кругу третьих лиц «общедоступных персональных данных». Поправки введены ...

512 viewsedited 12:49

#ссылка
#github

https://github.com/Hedgehogues/kaggle-parser

Ещё один парсер. Он умеет собирать данные с kaggle.com

GitHub - Hedgehogues/kaggle-parser: This parser will allow you to get all users out of the competition. But you will need a proxy…

This parser will allow you to get all users out of the competition. But you will need a proxy, since kaggle blocks frequent calls to the user service - GitHub - Hedgehogues/kaggle-parser: This pars...

506 viewsedited 00:20

#ссылка
#канал

https://t.iss.one/bezsmuzi

Клёвый канал о том, как на основе данных делать деньги

Русский ИТ бизнес 👨

Рассказываю как строю свой ИТ-бизнес в России без "маркетинговой чепухи". Ежедневно делюсь нашим опытом и неудачами.

Автор - @maximkulgin

Чат, где все обсуждаем: https://t.iss.one/joinchat/C8jihRK_eQ1_SIFtzgOZLQ

https://clck.ru/3GX4rp - РКН реестр

535 viewsedited 07:01

#ссылка

https://m.habr.com/ru/company/vdsina/blog/552256/

Виртуальные личности, анонимность, одноразовые симки — суровая реальность в мире тотальной слежки

Кадр из игры Digital Resistance В публичных чатах Telegram редко встретишь человека под настоящим именем. Показывать личные фотографии и номер телефона в профиле теперь не принято. И это...

648 viewsedited 07:41

#ссылка
#github

Сбор данных через консоль браузера с помощью js скрипта

Пример реализации парсера подписчиков и подписок instagram

https://github.com/leoneedpro/instagram-parser

GitHub - leoneedpro/instagram-parser: Парсер аккаунтов подписчиков и подписок в Instagram на основе прокрутки списков

Парсер аккаунтов подписчиков и подписок в Instagram на основе прокрутки списков - leoneedpro/instagram-parser

725 viewsedited 07:47

#ссылка
#github

https://github.com/mailgun/flanker

Ещё одна утилита, которая умеет работать с email's

GitHub - mailgun/flanker: Python email address and Mime parsing library

Python email address and Mime parsing library. Contribute to mailgun/flanker development by creating an account on GitHub.

592 viewsedited 16:02

#ссылка
#github

https://github.com/GRAAL-Research/deepparse

Ещё одна библиотечка для разбора адресов. Русского, к сожалению, нет.

GitHub - GRAAL-Research/deepparse: Deepparse is a state-of-the-art library for parsing multinational street addresses using deep…

Deepparse is a state-of-the-art library for parsing multinational street addresses using deep learning - GRAAL-Research/deepparse

594 viewsedited 16:02

#ссылка
#github

Я очень люблю библиотеку ferret для парсинга. Спасибо Тиму Воронову за её создание. Основная фишка её в том, что происходит разделение логики извлечения данных с html-страницы и кода (бизнес-логики). Это позволяет оперативно исправлять парсеры без передеплаивания системы, а также позволяет легко тестировать их.

До недавнего времени эта библиотека была доступна только на golang. Но я сделал c-библиотеку и теперь её можно использовать на python. На python портирован пока что лишь ограниченный функционал, но Вы уже можете попробовать её использовать

https://github.com/MontFerret/pyfer

GitHub - MontFerret/pyfer: Python wrapper for Ferret

Python wrapper for Ferret. Contribute to MontFerret/pyfer development by creating an account on GitHub.

628 viewsedited 19:31

#ссылка
#github
https://github.com/openvenues/libpostal

Замечательная библиотека для структурирования адресов. Реализована на основе OSM. Т.е. из сырой строки она получает полноценный адрес. В том, числе и на русском. К моему большому удивленю, до сих пор жива.

GitHub - openvenues/libpostal: A C library for parsing/normalizing street addresses around the world. Powered by statistical NLP…

A C library for parsing/normalizing street addresses around the world. Powered by statistical NLP and open geo data. - openvenues/libpostal

562 viewsedited 16:03

#ссылка

В Facebook обнаружили уязвимость, которая может привести к ещё одной масштабной утечке.
Специальный инструмент "Facebook Email Search v1.0" позволяет находить учётные записи соцсети и связанные с ними адреса электронной почты, даже когда у пользователей они скрыты в настройках конфиденциальности.
Видеодоказательство:
https://youtu.be/LB_yPaHSgWs
Пока достоверно не известно, успели ли уже собрать внушительную базу соответствий Facebook id, Full name, Email.
Но было бы приятно к существующим утечкам Facebook добавить новые данные.
Работайте, парсеры 🪆

646 viewsedited 10:14

#ссылка
#работа

Если вы ищете работу, возможно, вам поможет этот канал

https://t.iss.one/meta_jobs

По всем вопросам @cuda23

663 viewsedited 12:02

#ссылка
#продукт

На волне разбора телефонов и эмейлов, обратите внимане на геокодер https://dadata.ru/. Дешёвая и очень эффективная штука.

DaData — наводим порядок в данных

Проверяем, исправляем и отдаём вагон ценной информации
по ФИО, адресам, телефонам, email, паспортам и реквизитам компаний — онлайн-сервис DaData.

648 viewsedited 07:02