Этот пост будет по большей части как self best practice.
Cпарсить можно абсолютно все что угодно!)
Если вы когда то проходили курсы по парсингу или веб скрапингу, то в жизни все не так просто, как на курсах. Большинство сайтов защищаются от ддос атак и подозрительных активностей, а парсеры могут сильно нагружать сайты. Поэтому вас на изи заблокать, но выход всегда есть.Можно почувствовать себя немного хакером и бороться с системой, пытаться её обойти. Благо для этого есть достаточно инструментов. Знайте, что если у вас есть данные - у вас есть все.
Hello world
+ Dev Ops
, потому что в дальнейшем хрен знает где мы вообще этот парсер запускать будем, а может распределенно придется парсить.После чего мы можем начать писать первую версию парсера.
jupyter notebook
, избавьте меня от этого пожалуйста.Что нам для этого понадобиться?
• request
• BS4/selenium/scrapy
• json, csv, postgresql
• pytest
• superset (или че то такое, что бы картиночки смотреть)
• multiprocessing/joblib
• fakeuseragent, proxy server
Желательно создать отдельный скрипт бекапа данных на виртуальное хранилище и подгрузка в БД, которая находится на другом сервере.Гуглим как парсить данные и пользоваться этим всем, поэтому вот вам гайд
- PythonToday[1][2][3] (Самое годное, что вы можете найти и повторить)
- Как спарсить что угодно?
- HTML не панацея [1][2]
- Request не панацея
- Distributed web parsing [1][2]
Вообще этот мужик годноту делает
Так же вам стоит знать, что запускать лучше всего свои парсеры несколько раз, на несколько параллельных джобах или серверах. (вообще лучше каждый сервер распределить на свой регион или участок, а джобы на один и тот же сектор, так получиться наиболее корректная валидация парсинга). Так вы валидируете результат, а потом просто смотрите по объему и удаляете дубликаты, это достаточно легко сделать.
Парсим че угодно и радуемся жизни. Можно продать инфу конкурентам или сделать на ней аналитический отчет.
Если вам нужно что-то спарсить
Можно всегда написать автору канала @redpf
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤2🐳2👨💻1
Удалите Anaconda с вашего PC!
В чате Karpov Courses, где я являюсь одним из модератором часто сталкиваюсь с людьми у которых какие то проблемы с Anaconda, в основном они связаны с тем какими то библиотеками, неправильной установкой зависимостей и тп.
Как правило все эти юзеры - только только вкатываются в профессию и не умеют работать с виртуальным окружением. А в дальнейшем, когда они будут работать с прод кодом, они осознают, что постоянно переносить из одного окружения в другой - гемор, тем более в окружение анаконды. Давайте разбираться!
В каком случае удобно использовать Jupyter Notebook - Когда можно быстро накидать какой-то код или вы делаете какое то исследования, аналитику (без дальнейшего использования этого кода). Однако мы все так же должны соблюдать pep8, R&R, писать код в скриптах и использовать как можно меньше локальных переменных.
Тогда лучше сразу писать в
.py
просто потому что когда вы будете переносить с юпитера, вероятнее всего вы будете сталкиваться с багами хранения глобальных перменных. А во вторых тестирования, валидации и запуск полного пайплайна. Что реализовывать в юпитере достаточно сложно. (Если вы не работаете в Netflix или не поехавший)У вас есть глобальный Python, а теперь представьте что у вас 5 проектов, каждый из которых использует разные зависимости или версии этих зависимостей. Пока вы будете чинить один, у вас будет ломаться другой. Получается некая каша библиотек. Виртуальное окружение - некая независимая оболочка для хранения ваших зависимостей для вашего проекта. (Как правило она называется VENV от слова virtual environment). То есть теперь у вас для каждого проекта будет свое место для хранения библиотек, которые не будут путаться между собой.
Подробнее про виртуальное окружение и его активацию
Есть несколько виртуальных окружений
- venvЯ использую virtualenv + pyenv, мне кажется это наиболее удобная комбинация.
- virtualenv
- conda (не анаконда)
etc
Подробнее про виртуальные окружение и как его установить
Все просто, активируем наше окружение и пишем
> pip install jupyter notebookили
> pip install jupyterlab
Да, jupyter можно поставить отдельно и запускать его командой в bash (При активированном окружении)
> jupyter notebook
> jupyter-notebook
> jupyterlab
Если вы хотите быстро сделать какой то draft - сделайте это в google colab!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38❤5😢3🐳1
На этом новости не кончаются, я открыл чат для вас!
Уникальный контент будет приходить туда, можно обсуждать и высказывать свои довольства и недовольства. Но довольства желательно побольше.
Уже есть пару идей, которые можно реализовать
Ссылочка на чат: t.iss.one/notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥3🐳2👨💻2⚡1🔥1
Нас 1700! 🎉 🎉 🎉
Не забываем заходить в чат, я там делюсь эксклюзивным контентом 😋
https://t.iss.one/notedatasciencechat
Не забываем заходить в чат, я там делюсь эксклюзивным контентом 😋
https://t.iss.one/notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Блог о Data Science💻: Chat
Телеграм канал: t.iss.one/notedatascience
🎉7
Срочная новость! 🙃 😱 👨💻
Игорь Котенков сделал канал :D👷♂️ 👷♂️
⏺ Кто такой Игорь? 🙃
⏺ А вот тут его канал 🙏
Игорь Котенков сделал канал :D
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥6🔥3😢2🏆1
Привет всем! Я совместо с RUE DS CLUB проведу митап 16 февраля!
Расскажу о
⏺ Как войтивайти
⏺ Почему kaggle не панацея
⏺ Как сделать свой пет проект и какие инструменты для этого нужны
⏺ Как набрать опыта без оффера
⏺ Несколько фишек для вас 😋
UPD: постараемся сделать запись
Подробнее
Расскажу о
UPD: постараемся сделать запись
Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27🔥10🐳2👨💻1
Думаю о том, что бы купить вебку и микро и записывать видосы 😋
Кст можете задонатить мне💳
А ещё не забываем заходить в чатик
Кст можете задонатить мне
А ещё не забываем заходить в чатик
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳28🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳47👨💻5⚡1
Подогреваю ваш интерес, перед митапом, на котором я более подробно расскажу про то как именно и где их можно развивать и дам парочку своих фишек!
В этот раз расскажу про то какими принципами я придерживаюсь в развитии хард скиллов.
> Ссылка на митап Представьте, что вы строите дом. Вам важно то, на чем он стоит? Будет ли он устойчив? Какого он будет размера?
Так это и есть софт скиллы это фундамент. А на него уже настаивают хард скиллы.
На позиции E3-E4 часто уделяют внимание развитие именно софт скиллам, потому как кандидат должен сначала правильно построить фундамент!
Возможно вы задаетесь вопросом, да ерунда это все, какой фундамент? Причем тут это всё?
Представьте, что у вас есть каждый день 16 часов, из которых работать в фокусе над одной задачей вы можете 6+-2 часа. Чем вы заполняете это время?
Ваши кирпичики фундамента уходят на тик-ток, ответы на сообщения и тп. Я с этим сам недавно столкнулся и сейчас потихоньку развиваю вектор этих навыков.
Не пользуйтесь какими то сложными нагруженными тулами, например анаконда, зачем она вам, если есть колаб?
Все доступно в облаке, все что вам нужно - написание кода и подключение к серверу.
> vscode
> google colab
> etc
Знаете почему вымерли динозавры, а вы так сильно не любите своих преподов в вузах? Потому что они не адаптируются! Они не используют современные технологии, которые сильно ускоряют ваши затраты на написание кода.
> ChatGPT
> Adrenaline
> Bing
> Copilot
> etc
На них уходит больше времени, приходится дольше разбираться, но ты познаешь новые инструменты. Желательно их куда то внедрить. Например - если участвовать в Kaggle соревнования - то предпочтительно в тех задачах, где я буду не знать как решать и разбираться по ходу дела и после.
Если Pet-Project, то такой, в котором я аналогично мало, что понимаю и смогу внедрить много интересных вещей, например NLP + RL, DWH, System Design + ML, ETL, etc.
Ой, наверное, я не смогу участвовать с этими ребятами в команде, они сильнее меня
Ой, наверное, эта задача не по мне, слишком сложная
Ой, наверное, мл не мое
Вы боитесь ошибок? Огорчить маму и папу, что не справились? Или вы учитесь на своих ошибках?
Это нормально не уметь что-то делать и решать, но чего точно не стоит делать - бояться этого. Даже если у вас не получается сейчас - почему вы решили, что не сможете в этом разобраться?
Не забываем заходить в чат и советовать пост друзьям!
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳132❤9👨💻2
120 китов 🐳 на пост выше и пишу про бесплатные AI инструменты или как написать диплом в 😀 3️⃣ 0️⃣ 0️⃣ .
Чем они могут вам помочь?
⏺ Storytelling
⏺ Media
⏺ Support with papers
⏺ Speed up coding
⏺ Picture & Audio generation
Чем они могут вам помочь?
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳55👨💻1
Вы все уже слышали про студента, который с помощью ChatGPT написал диплом. Но таких инструментов сейчас достаточно много, они могут упростить нам работу с написанием рутинных вещей.
Нужно ли объяснять, что это такое? Вы все уже много раз про него слышали, это наш основной инструмент, но нужно проверять все то, что он пишет и не верить ему сразу.
Википедия для AI инструментов, там можно найти больше подобных
сервисов на вкус и цвет.
Частично-бесплатный сервис для создания и генерации контекта на основе AI. Я от него просто в восторге!
Вроде как бесплатный, конкурент Rytr. Но не уверен, что у него есть те же функции, например генерация заголовков, ключевых слов и тд.
Сервис, который объясняет что же там написано в этих заумных научных работах. Отлично поможет перефразировать чужие работы в наш диплом для объёма.
Для любителей пейперов
Теперь с лёгкостью можно найти схожие пейперы.
300 докеров на этот пост и делаю вторую часть!
Не забываем заходить в чат и делится постом с сокурсниками!
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳154⚡1❤1❤🔥1🔥1
Блог о Data Science 💻
Привет всем! Я совместо с RUE DS CLUB проведу митап 16 февраля! Расскажу о ⏺ Как войтивайти ⏺ Почему kaggle не панацея ⏺ Как сделать свой пет проект и какие инструменты для этого нужны ⏺ Как набрать опыта без оффера ⏺ Несколько фишек для вас 😋 UPD: постараемся…
Up, жду всех на митапе в 19:00
🐳16❤3🔥3
Вся правда о том, как войти в IT.pptx
5.6 MB
Спасибо всем, кто пришёл!
Презенташка с митапа.
Если у вас остались вопросы пишите @redpf
Чуть позже выйдет несколько постов, в которых я расскажу подробнее про
> софт скиллы
> про пет-проекты
> мл систем дизайн
😋
UPD: как выйдет запись добавлю сюда ссылку
Презенташка с митапа.
Если у вас остались вопросы пишите @redpf
Чуть позже выйдет несколько постов, в которых я расскажу подробнее про
> софт скиллы
> про пет-проекты
> мл систем дизайн
😋
UPD: как выйдет запись добавлю сюда ссылку
🐳37🔥7❤2
Первый пост после митапа и начну я именно с софтов!
В этом посте я поделюсь своим опытом:
Обязательно загляните в конец, там дополнительные ссылочка на интересные посты моих друзей из канала Заскуль Питона и Тагир Анализирует
>> Читать статью
>> Читать статью
>> Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳26❤🔥3❤2⚡1🔥1👨💻1
Помог Денису Айвазову (@techmeta) превратить базу из 140+ генеративных нейросетей в удобный продукт.
Пример использования
• Текст → в более хороший текст → это к чатгпт, или грамарли, или cmdJ.
• Текст → в визуализацию-картинку → это к midjorney, граммарли, dalle2
• Резюме → в более кайфовое резюме → к resumaker, resumAI, Rezi
Более продуктово
• ✍️ →📝 Идея / Вопрос / Жалоба / Новость → в ответ / уточнение / эмпатию / обсуждение → это к чатгпт, или грамарли, или cmdJ.
• ✍️ → 🖼 Идея / Образ → в визуализацию-картинку → это к midjorney, граммарли, dalle2
• 🎵 → 📝 Длинное голосовое → в понятный текст или текстовое саммари → к SpeechBrain, AskFred, Whisper
Слева выбираете что вы хотите трансформировать/улучшить, а в горизонтали показывается то, что получится на выходе.
С фильтрами платное / бесплатное вообще удобно! 💰
Отмечайте что пробовали и давайте рейтинг по применимости соберем.
→ Пост со ссылкой на базу.
Подписывайтесь и помогите придать охват @iglushenkov x @techmeta!
Пример использования
• Текст → в более хороший текст → это к чатгпт, или грамарли, или cmdJ.
• Текст → в визуализацию-картинку → это к midjorney, граммарли, dalle2
• Резюме → в более кайфовое резюме → к resumaker, resumAI, Rezi
Более продуктово
• ✍️ →📝 Идея / Вопрос / Жалоба / Новость → в ответ / уточнение / эмпатию / обсуждение → это к чатгпт, или грамарли, или cmdJ.
• ✍️ → 🖼 Идея / Образ → в визуализацию-картинку → это к midjorney, граммарли, dalle2
• 🎵 → 📝 Длинное голосовое → в понятный текст или текстовое саммари → к SpeechBrain, AskFred, Whisper
Слева выбираете что вы хотите трансформировать/улучшить, а в горизонтали показывается то, что получится на выходе.
С фильтрами платное / бесплатное вообще удобно! 💰
Отмечайте что пробовали и давайте рейтинг по применимости соберем.
→ Пост со ссылкой на базу.
Подписывайтесь и помогите придать охват @iglushenkov x @techmeta!
🐳22🔥7❤🔥3❤1
Forwarded from Кот Масляков
Всем привет!
А вот и запись недавно прошедшего мероприятия «ML practice»!
👉🏻Посмотреть можно по ссылке: https://youtu.be/XyfIE77JQzU
В этом видео Данил Картушов из Karpov.Courses расскажет, как войти в машинное обучение, почему обработка данных перед обучением модели очень важна, и с помощью каких инструментов нарабатывать практический опыт.
А вот и запись недавно прошедшего мероприятия «ML practice»!
👉🏻Посмотреть можно по ссылке: https://youtu.be/XyfIE77JQzU
В этом видео Данил Картушов из Karpov.Courses расскажет, как войти в машинное обучение, почему обработка данных перед обучением модели очень важна, и с помощью каких инструментов нарабатывать практический опыт.
🎉22😢2🐳2
Спасибо, что вы со мной!
Нас уже так много и при этом мы сохраняем какую то аутентичность и ламповость канала. Я очень рад, что мое такое небольшое хобби выливается во что-то большее и помогает другим развиваться!
Кстати эту картинку сгенерировал ИИ по запросу
Нас уже так много и при этом мы сохраняем какую то аутентичность и ламповость канала. Я очень рад, что мое такое небольшое хобби выливается во что-то большее и помогает другим развиваться!
Кстати эту картинку сгенерировал ИИ по запросу
a party at which 2000 people subscribed to the public notes on Data Science gathered
Поздравляю вас с юбилеем!)🐳25🎉6❤3🔥1
Forwarded from Тагир Анализирует
Почему всем нужно использовать Kaggle?
Поиск хорошего комьюнити при изучении анализа данных или Data Science может быть затруднительным. Кажется, что сложно найти место, где люди делятся своим кодом, данными, идеями и поддержкой. Но есть платформа, где сходятся все эти пункты. Название ей — Kaggle🎩
Я рекомендую Kaggle всем, кто хоть как-то взаимодействует с данными. И неважно, новичок вы или профессионал — занятие по душе найдется каждому. Сейчас я расскажу, почему вам стоит зарегистрироваться на Kaggle✋
Попасть в комьюнити
Напомню, что это крупнейшее Data Science сообщество в мире. Можно подписываться на людей, следить за их успехами, общаться и обмениваться опытом. Люди указывают ссылки на свои LinkedIn профили. Заводить знакомства через Kaggle весьма просто.
Построить портфолио
Солидный профиль с медалями на Kaggle скажет о вас больше, чем любое мотивационное письмо. Потенциальный работодатель может расценивать это как стремление к развитию и самообразованию, а это то, без чего нельзя быть хорошим специалистом.
Когда новички только создают свои pet-project'ы, за датасетами я советую идти именно сюда. Статистика заболеваний COVID-19, виды растений, типы машин, нарушения разметки — данные здесь можно найти на любой вкус.
Учиться у лучших
Хотите погрузиться в NLP? Откройте соответствующее соревнование, возьмите несколько тетрадок с чужим кодом с комментариями и идите пункт за пунктом. Не знаете, как подойти иначе к решению задачи? Посмотрите, как это делают другие. Люди на реальных данных показывают, как можно решать реальные задачи. Здесь же можно задавать вопросы и предлагать свои решения.
К примеру, мой друг из @notedatascience постоянно делится своими решениями и поэтому имеет звание Notebooks Master'а. Вы только посмотрите, как он оформляет свои тетрадки на Kaggle.
Решать прикладные задачи
Многие компании и лаборатории приходят туда с реальными задачами с солидным призовым фондом. Можно заняться распознаванием жестов, отслеживанием касаний касаний игроков футбола, прогнозированием распространения микробизнеса, подбором расписания для учеников и распознаванием рака. Все, что я перечислил выше — реальные задачи с соревнований, которые идут прямо сейчас.
Ваше решение может помочь бизнесу или науке продвинуться вперед, в то время как вы можете получить хороший опыт или призы, поработав на реальных данных. Опыт участия в соревнованиях может помочь вам устроиться на работу в компанию, которая решает такие задачи.
Именно в соревновании на Kaggle я научился оптимизировать работу с текстовыми данными, понял векторизацию и стал использовать эти методы в своей работе. А ещё на эту тему я общался с кем-то на собеседовании — удобно, когда узнаешь такие вещи на практике.
Участвовать в соревнованиях
Здесь постоянно проходят денежные соревнования в самых разных сферах. Среди заказчиков — гиганты вроде MasterCard, Google, NFL, правительства разных стран и исследовательские лаборатории. Большой призовой фонд мотивирует людей улучшать свои решения, а немного азарта делает соревнования ещё интереснее.
Я искренне рекомендую всем интересующимся данными поработать с данной платформой — возможно, вы получите заряд мотивации, выйдете из цикла монотонной работы и найдёте что-то интересное для себя👀
Далее я планирую рассказывать о соревнованиях, в которых я участвовал и планирую участвовать. Рассказывайте в комментариях, знакомы ли вы с данной платформой🎲
Давайте наберем 250 китов 🐳, а пойду писать следующий пост про полезности, которые может принести ChatGPT в вашей работе. Кстати, нам осталось набрать немного реакций на прошлую статью про резюме. Спасибо за репосты🥺
Поиск хорошего комьюнити при изучении анализа данных или Data Science может быть затруднительным. Кажется, что сложно найти место, где люди делятся своим кодом, данными, идеями и поддержкой. Но есть платформа, где сходятся все эти пункты. Название ей — Kaggle
Я рекомендую Kaggle всем, кто хоть как-то взаимодействует с данными. И неважно, новичок вы или профессионал — занятие по душе найдется каждому. Сейчас я расскажу, почему вам стоит зарегистрироваться на Kaggle
Попасть в комьюнити
Напомню, что это крупнейшее Data Science сообщество в мире. Можно подписываться на людей, следить за их успехами, общаться и обмениваться опытом. Люди указывают ссылки на свои LinkedIn профили. Заводить знакомства через Kaggle весьма просто.
Построить портфолио
Солидный профиль с медалями на Kaggle скажет о вас больше, чем любое мотивационное письмо. Потенциальный работодатель может расценивать это как стремление к развитию и самообразованию, а это то, без чего нельзя быть хорошим специалистом.
Когда новички только создают свои pet-project'ы, за датасетами я советую идти именно сюда. Статистика заболеваний COVID-19, виды растений, типы машин, нарушения разметки — данные здесь можно найти на любой вкус.
Учиться у лучших
Хотите погрузиться в NLP? Откройте соответствующее соревнование, возьмите несколько тетрадок с чужим кодом с комментариями и идите пункт за пунктом. Не знаете, как подойти иначе к решению задачи? Посмотрите, как это делают другие. Люди на реальных данных показывают, как можно решать реальные задачи. Здесь же можно задавать вопросы и предлагать свои решения.
К примеру, мой друг из @notedatascience постоянно делится своими решениями и поэтому имеет звание Notebooks Master'а. Вы только посмотрите, как он оформляет свои тетрадки на Kaggle.
Решать прикладные задачи
Многие компании и лаборатории приходят туда с реальными задачами с солидным призовым фондом. Можно заняться распознаванием жестов, отслеживанием касаний касаний игроков футбола, прогнозированием распространения микробизнеса, подбором расписания для учеников и распознаванием рака. Все, что я перечислил выше — реальные задачи с соревнований, которые идут прямо сейчас.
Ваше решение может помочь бизнесу или науке продвинуться вперед, в то время как вы можете получить хороший опыт или призы, поработав на реальных данных. Опыт участия в соревнованиях может помочь вам устроиться на работу в компанию, которая решает такие задачи.
Именно в соревновании на Kaggle я научился оптимизировать работу с текстовыми данными, понял векторизацию и стал использовать эти методы в своей работе. А ещё на эту тему я общался с кем-то на собеседовании — удобно, когда узнаешь такие вещи на практике.
Участвовать в соревнованиях
Здесь постоянно проходят денежные соревнования в самых разных сферах. Среди заказчиков — гиганты вроде MasterCard, Google, NFL, правительства разных стран и исследовательские лаборатории. Большой призовой фонд мотивирует людей улучшать свои решения, а немного азарта делает соревнования ещё интереснее.
Я искренне рекомендую всем интересующимся данными поработать с данной платформой — возможно, вы получите заряд мотивации, выйдете из цикла монотонной работы и найдёте что-то интересное для себя
Далее я планирую рассказывать о соревнованиях, в которых я участвовал и планирую участвовать. Рассказывайте в комментариях, знакомы ли вы с данной платформой
Давайте наберем 250 китов 🐳, а пойду писать следующий пост про полезности, которые может принести ChatGPT в вашей работе. Кстати, нам осталось набрать немного реакций на прошлую статью про резюме. Спасибо за репосты
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳85🔥6⚡2❤1😢1