Как этот Hadoop выглядит?
Вот внешне никак. Он вообще не на вашем компьютере установлен. Он на серверах. Хабуп это просто распределенное хранение и вычисление данных. Короче ваша таблица в 100гб делится на блоки в 128мб (размер можно ставить любой) и потом они раскидываются по разным сервакам, параллельно дублируясь дважды (количество репликаций можно менять).
НО! У хабупа есть YARN. Это веб интерфейс в котором можно отслеживать как происходят вычисления в реальном времени. Это просто менеджер ресурсов, который показывает сколько у вас машин, сколько памяти, какие приложения сейчас считают и насколько нагружена вся эта канетель.
Я всегда смотрю, как вычисляются мои таблички. Вижу прогресс, сколько загрузилось, а сколько осталось. Оч нужная штука, чтобы оценить насколько вам требуется увеличение мощности в случае, если начнете считать внезапно х2 таблиц.
Вот внешне никак. Он вообще не на вашем компьютере установлен. Он на серверах. Хабуп это просто распределенное хранение и вычисление данных. Короче ваша таблица в 100гб делится на блоки в 128мб (размер можно ставить любой) и потом они раскидываются по разным сервакам, параллельно дублируясь дважды (количество репликаций можно менять).
НО! У хабупа есть YARN. Это веб интерфейс в котором можно отслеживать как происходят вычисления в реальном времени. Это просто менеджер ресурсов, который показывает сколько у вас машин, сколько памяти, какие приложения сейчас считают и насколько нагружена вся эта канетель.
Я всегда смотрю, как вычисляются мои таблички. Вижу прогресс, сколько загрузилось, а сколько осталось. Оч нужная штука, чтобы оценить насколько вам требуется увеличение мощности в случае, если начнете считать внезапно х2 таблиц.
👍6❤4
Чем pandas отличается от spark?
Это обе библиотеки Python. Это тот же sql, только написанный больше питоновским языком. Здесь можно сохранять подзапросы или целые таблицы в переменные, как в питоне. И вместо того, чтобы писать огромную портянку на sql, которая сразу выполняет весь запрос, в Спарке и пандасе можно выполнять весь код хоть построчно. Только spark умеет работать с распределенными данными, а pandas нет (ну т.е. только в пределах вашего компа)
Вот пример кода:
Pyspark
Это обе библиотеки Python. Это тот же sql, только написанный больше питоновским языком. Здесь можно сохранять подзапросы или целые таблицы в переменные, как в питоне. И вместо того, чтобы писать огромную портянку на sql, которая сразу выполняет весь запрос, в Спарке и пандасе можно выполнять весь код хоть построчно. Только spark умеет работать с распределенными данными, а pandas нет (ну т.е. только в пределах вашего компа)
Вот пример кода:
Pyspark
spark = SparkSession.builder \
.appName("halltape_data") \
.getOrCreate()
df = spark.table("schema.table.csv")\
.select("column1", "column2")\
.where(F.col("salary") > 100000)
df.show()
Pandasdf = pd.read_csv("table.csv")
df_2= df[["column1", "column2", "salary"]]
df_final = df_2[df_2["salary"] > 100000]
df_final.head()
Выглядят они в целом одинаково. Но в spark есть настройка sparksession как видите. Она позволяет настроить количество памяти, процессоров и так далее при котором Спарк будет считать это всё на кластере. Здесь я её не прописывал, там много параметров. Просто имейте в виду. Рекомендую для практики писать sql запрос, потом переписывать его на pandas или на spark.👍12❤5
Я – Дата Инженер | Евгений Виндюков pinned «Чем pandas отличается от spark? Это обе библиотеки Python. Это тот же sql, только написанный больше питоновским языком. Здесь можно сохранять подзапросы или целые таблицы в переменные, как в питоне. И вместо того, чтобы писать огромную портянку на sql, которая…»
Нужны ли оконные функции?
Да. Если вы шарите за оконки в sql, то в spark или pandas освоить будет не проблема. Все аналогично. Оконные функции конечно вызывают страх и непонимание с первого раза, но не переживайте, я попробую вам объяснить.
Представьте, что в вашей прямоугольной таблице вы очерчиваете чуть меньше прямоугольник внутри (только ширина остается прежней). И только внутри этого окошка вы считаете например сумму или сортируете столбец. За пределы этого окошка ничего не выходит.
Оконная функция бьет вашу огромную таблицу на такие мелкие таблички(окна). И внутри каждого окна вычисляется то, что вам надо.
Например, если вам нужно посчитать нарастающий итог или пронумеровать в рамках одной группы, то здесь оконка будет самое то!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥3
Что такое вывести в прод?
Прод, он же продакшен или промышленный код. Есть работающий код, который лежит в гите на ветке master. На этом чистовом виде кода и запускаются витрины, приложения и чего там еще можно запускать. А ваши черновые варианты кода лежат на ветках feature (на самом деле ветку можно назвать и super_rap или nagibator777).
Короче когда вы уверенны в своем коде, что он работает как надо, то вы делаете pull request. Это тупо заявка на то, чтобы вашу ветку nagibator777 залили уже на master. Эту заявку принимает человек, который ответственен за master ветку. Либо это вы сами, если вы очень крутой сеньор помидор сенатор Палпатин.
Собственно он проверяет ваш код, пишет комментарий в местах, где ваш код отстой. И после всех правок, если все ок, то делается merge. Ваша ветка сливается в ветку master.
При этом все изменения и версии кода сохраняются в git. Это удобно, если нужно посмотреть, что было до этого.
Гит - это наш GitHub, либо GitLab, либо Bitbucket. Каждая компания использует свою тему.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7😁2👨💻2
Код писать недостаточно!
Вот вы пишите код, крутите таблички свои, но задаетесь ли вопросом:
«А для кого это делаете?»
«А нужна ли эта штука в целом?»
«А как ей будут пользоваться?»
Любые витрины данных или приложения имеют человека, который будет ими пользоваться. Может это даже вы сами или ваш коллега. И всегда есть тех задание. Вот выдуманный пример:
Сделать витрину данных, где будут продажи молочных продуктов, а также наименования банков, по которым люди оплачивали покупки во всех магазинах сети.
И вот здесь мы выходим за пределы знаний join или spark. Это вообще не имеет смысла, если мы в душе не знаем, откуда брать данные по банковским картам. Причем источник может быть еще и составным. И нельзя найти просто таблицу с картами и банком. Может нам сначала надо как раз и собрать этот источник. А таблицы огромные и широкие и быстро их не прощелкать. И столбцы называются как-нибудь «yup_amt». Это что?
Плюсом сложность добавляется, если у нас строки с вложенностью. Какой-нибудь json или список. Это надо еще распарсить.
А по какому полю соединять? А может нужно по двум ключам соединять? А может вообще anti join нужен?
Поэтому нужна грамотно и понятная расписанная документация, ибо без бутылки водки точно не разберешься. А если это сквозная аналитика по рекламе, то надо понимать, как работает CPA сеть, Яндекс Метрика. Иначе все превращается в обезличенный текст на питоне без смысла.
Документация пишется в Confluence. Это что-то типа GitHub, только там текст. Можно делать ссылки на главы, страницы. А также всевозможное форматирование, возможность рисовать схемки, как в draw.io.
И желательно, чтобы документация была написана для бабушки, чтобы экономило время на изучение и не долбить коллег с вопросами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5🔥2🍌2
Подписывайтесь, кстати на канал Ии.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Forwarded from Госпожа аналитик 💚 Ия Зотова
Ну что, уже завтра буду выкладывать видео с новым подкастом, он получился очешуенным!
Гость: Евгений, Junior Data Engineer, сегодня закончился его испытательный срок и началась настоящая игра). Женя, поздравляю!
Женя поделится:
• как выбирал между DE и Кино
• почему не продолжил обучение в Школе21
• что помогло ему найти работу
• как он отказал Центробанку в собесе
• как работается в Сбере и как проходит адаптация
• какие инструменты сейчас использует
• и ответит на главный вопрос: по любви в профессии или за деньги
💚 Подкаст вышел супер емким, независимо от IT-профессии
Гость: Евгений, Junior Data Engineer, сегодня закончился его испытательный срок и началась настоящая игра). Женя, поздравляю!
Женя поделится:
• как выбирал между DE и Кино
• почему не продолжил обучение в Школе21
• что помогло ему найти работу
• как он отказал Центробанку в собесе
• как работается в Сбере и как проходит адаптация
• какие инструменты сейчас использует
• и ответит на главный вопрос: по любви в профессии или за деньги
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11
Forwarded from Госпожа аналитик 💚 Ия Зотова (Ия Зотова️)
https://youtu.be/tltPPLTemzE
Гость: Евгений, Junior Data Engineer в Сбере
В интервью Женя делится:
• как выбирал между DE и Кино
• почему не продолжил обучение в Школе21
• что помогло ему найти работу
• как он отказал Центробанку в собесе
• как работается в Сбере и как проходит адаптация
• какие инструменты сейчас использует
• и ответит на главный вопрос: по любви в профессии или за деньги
💚Подкаст вышел супер емким и будет полезен всем начинающим специалистам, независимо от IT-профессии
Если было полезно и словили инсайты, будем рады донатам. К задонатившим прилипает лучшая в мире работа😁:
https://pay.mysbertips.ru/92484472
Делитесь подкастом и подписывайтесь на наши каналы:
Ия: https://t.iss.one/Lady_Analyst
Женя: https://t.iss.one/halltape_data
P.S.: А еще Женя просто огненный спец по видео: он снял и смонтировал крутой подкаст, даже находясь в кадре
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Data Engineer: по любви или за деньги? | Войти в IT | Интервью с Junior Data Engineer
Гость: Евгений, Junior Data Engineer в Сбер
⚠️⚠️⚠️ IT-проект "За пределами кода" на отдельном канале: @beyond_the_code Подписывайтесь!
В интервью Женя делится:
• как выбирал между DE и Кино
• почему не продолжил обучение в Школе21
• что помогло ему найти…
⚠️⚠️⚠️ IT-проект "За пределами кода" на отдельном канале: @beyond_the_code Подписывайтесь!
В интервью Женя делится:
• как выбирал между DE и Кино
• почему не продолжил обучение в Школе21
• что помогло ему найти…
🔥12❤6👍2🤩1💩1
.
1) BI аналитик
2) Data Аналитик
3) Data Инженер
Вот теоретические вопросы, а вот задачи.
А вот ответы.
СМОТРИ интервью со мной!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Data Engineer: по любви или за деньги? | Войти в IT | Интервью с Junior Data Engineer
Гость: Евгений, Junior Data Engineer в Сбер
⚠️⚠️⚠️ IT-проект "За пределами кода" на отдельном канале: @beyond_the_code Подписывайтесь!
В интервью Женя делится:
• как выбирал между DE и Кино
• почему не продолжил обучение в Школе21
• что помогло ему найти…
⚠️⚠️⚠️ IT-проект "За пределами кода" на отдельном канале: @beyond_the_code Подписывайтесь!
В интервью Женя делится:
• как выбирал между DE и Кино
• почему не продолжил обучение в Школе21
• что помогло ему найти…
🔥20❤🔥3❤2👎1
Смотрите, рассказываю на пальцах вариант в лоб. Подходов просто несколько и они разные.
Сначала вам нужно создать телеграм бота в самой телеге. Надо написать @BotFather и там по инструкции придумать имя, псевдоним, описание и задать команды. Команды - это типа /start. Про первом запуске бота мы все с вами нажимаем эту кнопку.
Чтобы наш бот работал нам надо написать код. Поэтому создаем на компьютере файл любого имени, например nagibator_777.py. Дальше пишем свой код, который будет работать в терминале локально. А вот, чтобы бот работал, надо в коде написать строчку типа
bot_API_token: “37484948bfjxbeii374849”, где в кавычках надо вставлять токен, полученный от @BotFather. Так наш питоновский код будет напрямую обращаться к нашему боту по уникальному ключу.
Но теперь надо будет написать специальные функции и методы для телеграм бота. Для этого есть как минимум две библиотеки: telebot и aiogram. Я использовал telebot. Она проще.
С ней вы можете уже принимать на вход сообщения от пользователя, печатать и выводить разные кнопки. Если что, ChatGPT может накинуть вам рыбу кода для этого.
Скачай питон
Скачай telebot
Сделай папку
Запусти код
Если есть вопросы, пишите их в комменты к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - halltape/HalltapePassBot: Telegram bot for password generation and verification.
Telegram bot for password generation and verification. - halltape/HalltapePassBot
🔥8❤2🍌1👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥8👍2😁1💩1🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥8😁2🥱1🍌1
Эта конфа для аналитиков, дата инженеров и маркетологов..
Тут есть Авито, Яндекс, Карпов Курсы, ЦИАН, Сбермаркет и многие другие.
Сразу фишку расскажу прикольную. Сейчас выступает Алексей Никушин. Все, что он говорит в микрофон, сразу обрабатывается Yandex.GPT2, и на экране выводится краткий пересказ его речи в РЕАЛЬНОМ ВРЕМЕНИ!
Снимаю контент, слушаю лекции. Буду показывать вам, что тут за движ:). Плюс мы снимаем тут влог.
Огня накиньте и вы точно залетите в IT, а если уже в IT, то к зп будет x2!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27🌚1🍾1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥7🌭2
(если 90% слов вы поняли - респект)
P.S. Кстати, можете еще следить за моими сториз - @halltape
Туда я выкладываю видосы с конфы, фотки и вообще рабочие будни...
P.S.S. Еще проходили сегодня тест от Яндекса и нашли ошибку! Все в next постах
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1🥱1🍌1