Инжиниринг Данных
23.5K subscribers
1.99K photos
56 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Я как то писал про новые ноды Redshift - RA3, которые разделили compute и storage. Точнее их вынудил это сделать Snowflake. И я использовал RA3 один из первых в Амазоне для платформы данных “Sputnik”, еще когда они не были доступны всем. Попалась статья, которая сравнивает Snowflake и RA3. Все так у Snowflake больше возможностей, чем у Redshift.
Netflix рассказывает про Data-mesh

Netflix processes trillions of events and petabytes of data a day in the Keystone data pipeline, which is built on top of Apache Flink. As Netflix has scaled up original productions annually enjoyed by more than 150 million global members, data integration across the streaming service and the studio has become a priority. Scalably integrating data across hundreds of different data stores in a way that enables us to holistically optimize cost, performance and operational concerns presented a significant challenge. Learn how we expanded the scope of the Keystone pipeline into the Netflix Data Mesh, our real-time, general-purpose, data transportation platform for moving data between Netflix systems. The Keystone Platform’s unique approach to declarative configuration and schema evolution, as well as our approach to unifying batch and streaming data and processing will be covered in depth.
Модуль 7 будет про Apache Spark и Databricks. С удовольствием послушаем вебинары про Spark, Huidi, Delta Lake и Iceberg. Форма вебинаров в шапке!
Cloud очень сильно развивается и создает новые возможности и вакансии. Много интересных вакансий помимо аналитики попадают в категорию Security и DevOps
Очень интересный канал про то, как данные и технологии помогают городам стать удобнее для жизни, а так же обзоры и ссылки на интересные проекты, анонсы мероприятий и лекций.

https://t.iss.one/urbandata
Все так, +5 дней к отпуску🤭
Сейчас проходим Microsoft Gaming Research Summit (внутренний ивент). Я посмотрел несколько сессий, и мне очень понравились истории про создание игровых миров например Minecraft (Incredible Minecraft build in timelapse) или Microsoft Flight Simulator.

Microsoft Flight Simulator - это шедевр с точки зрения инженерии. Это реальный пример синергии. Bing maps - сервис карт Microsoft, накопил огромное кол-во данных (петабайтов), но все они 2D. С помощью стартапа BlackShark AI - они смогли построить deeplearning model, которая воссоздает дома в 3D, и это не просто статические картинки как у Google Bird Eye, тут они выглядят очень реалистично. Помимо это, они воссоздают погоду, турбулентность и множество других реальных вещей. И все это с помощью сотен виртуальных машин Azure. Таким образом, это не просто игра, но это стимулятор, который может помогать тренировать пилотов и автопилот для самолетов.

В целом, в играх очень много AI, есть множество базовых задач, есть задачки посложней. К нам недавно пришел Principal ML engineer, который перешел из Microsoft Research. Будет интересно с ними работать и смотреть какие данные они буду использовать из платформы, которую нужно будет для них создать.
В игровой индустрии есть термин - “The Door Problem”. Идея простоя, допустим вы хотите в игре добавить дверь. Звучит просто, но по факту получается это очень нетривиальная задача. У каждого будет свое понятие двери, ее функциональности и внешнего вида. Это очень хорошо ложится на кейсы аналитики.

Вот примеры вопросов из разряда Door problem из блога выше:
Creative Director: “Yes, we definitely need doors in this game.”
Project Manager: “I’ll put time on the schedule for people to make doors.”
Designer: “I wrote a doc explaining what we need doors to do.”
Concept Artist: “I made some gorgeous paintings of doors.”
Art Director: “This third painting is exactly the style of doors we need.”
Environment Artist: “I took this painting of a door and made it into an object in the game.”
Animator: “I made the door open and close.”
Sound Designer: “I made the sounds the door creates when it opens and closes.”
Audio Engineer: “The sound of the door opening and closing will change based on where the player is and what direction they are facing.”
Composer: “I created a theme song for the door.”
FX Artist: “I added some cool sparks to the door when it opens.”
Writer: “When the door opens, the player will say, ‘Hey look! The door opened!’ “
Lighter: “There is a bright red light over the door when it’s locked, and a green one when it’s opened.”
Legal: “The environment artist put a Starbucks logo on the door. You need to remove that if you don’t want to be sued.”
Character Artist: “I don’t really care about this door until it can start wearing hats.”
Gameplay Programmer: “This door asset now opens and closes based on proximity to the player. It can also be locked and unlocked through script.”
AI Programmer: “Enemies and allies now know if a door is there and whether they can go through it.”
Network Programmer: “Do all the players need to see the door open at the same time?”
Release Engineer: “You need to get your doors in by 3pm if you want them on the disk.”
Core Engine Programmer: “I have optimized the code to allow up to 1024 doors in the game.”
Tools Programmer: “I made it even easier for you to place doors.”
Level Designer: “I put the door in my level and locked it. After an event, I unlocked it.”
UI Designer: “There’s now an objective marker on the door, and it has its own icon on the map.”
Combat Designer: “Enemies will spawn behind doors, and lay cover fire as their allies enter the room. Unless the player is looking inside the door in which case they will spawn behind a different door.”
Systems Designer: “A level 4 player earns 148xp for opening this door at the cost of 3 gold.”
Monetization Designer: “We could charge the player $.99 to open the door now, or wait 24 hours for it to open automatically.”
QA Tester: “I walked to the door. I ran to the door. I jumped at the door. I stood in the doorway until it closed. I saved and reloaded and walked to the door. I died and reloaded then walked to the door. I threw grenades at the door.”
UX / Usability Researcher: “I found some people on Craigslist to go through the door so we could see what problems crop up.”
Localization: “Door. Puerta. Porta. Porte. Tür. Dør. Deur. Drzwi. Drws.
Producer: “Do we need to give everyone those doors or can we save them for a pre-order bonus?”
Publisher: “Those doors are really going to help this game stand out during the fall line-up.”
CEO: “I want you all to know how much I appreciate the time and effort put into making those doors.”
PR: “To all our fans, you’re going to go crazy over our next reveal #gamedev #doors #nextgen #retweet
Community Manager: “I let the fans know that their concerns about doors will be addressed in the upcoming patch.”
Customer Support: “A player contacted us, confused about doors. I gave them detailed instructions on how to use them.”
Player: “I totally didn’t even notice a door there.”
Forwarded from Reveal the Data
Записал подкаст с Анастасией Кузнецовой, автором канала Настенька и графики (если ещё не подписаны, то очень рекомендую).

Поговорили про то, как дизайн помогает аналитикам в работе, посмотрели работы Насти и обсудили работы с Табло Паблика в новой рубрике «дашборд-рулетка». Было круто вместе обсудить визуализации, так как Настя тоже очень заморочена с дизайном и понятностью работы для зрителя.

Аудиоверсия
Текстовая версия

0:43 — Карьерный путь
7:12 — Про работу аналитика клиентских данных
8:34 — Зачем аналитику нужно знать основы дизайна
12:42 — Примеры работ
13:14 — Наука в северной Корее
20:25 — Граф для связей в ВК
23:50 — Музыка в ВК
30:15 — Сравнение пенсий
33:00 — Дашборд рулетка
1:05:22 — За чем следит и что почитать
1:07:20 — Блиц

Как вам совместные просмотры и разборы работ?

#подкаст
Визуализация SLA, свежий блог от Airbnb https://medium.com/airbnb-engineering/visualizing-data-timeliness-at-airbnb-ee638fdf4710
А Анастасия опубликовал 4й урок курса ML&DS. В котором вы узнаете:

📌 Build and Train ML model
📌 Overfitting и Underfitting + Cross-Validation
📌 Model Evaluation
📌 Tuning hyperparameters
📌 Submission of ‘.csv’ file
Презенташка для сегодняшнего митапа, ничего нового для вас, кроме одного слайда, где-то в конце архитектура для моего решения на databricks/delta lake. https://docs.google.com/presentation/d/1HShF6AIghwlV_-0LlPoT1yWcBuglFzMCkU1H4jdDbFI/
😊работаю над задачкой парсинга результата API - JSON, в котором много уровней вложений. Хочу сделать плоскую таблицу. Использую HDInsight+Spark, и потом буду Databricks.

Накидайте пожалуйста в комменты книги, курсы, tutorial, статьи или ещё чего, как в python парсить JSON. Мне ещё потом телеметрию с Xbox предстоит разбирать, хочу поучиться как правильно делать.
Forwarded from Retail Data Engineering Community (Oleg Dobretsov)
Что читать DE в телеге?

Сегодня подборка полезных TG-каналов для дата-инженера:

Инжиниринг данных https://t.iss.one/rockyourdata Канал Дмитрия Аношина, эксперта по BI. Автор также ведет курс datalearn.ru, где обучает дата-инжиниринг (бесплатно)
Data Eng https://t.iss.one/dataeng Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.
Moscow Spark https://t.iss.one/moscowspark Чат московского community Apache Spark.
DE or DIE Chat https://t.iss.one/deordie_chat Чат сообщества DE or DIE, созданный дата инженерами. Поддерживают ребята из DoDo Engineering. Проводят митапы DE or DIE вместе с NewProLab
Smart Data https://t.iss.one/smart_data_channel Канал про Data Engineering, аналитику и данные.
Я у мамы Data Engineer! https://t.iss.one/ohmydataengineer
Data online events & Moscow meetups https://t.iss.one/data_events Очень полезный канал - все ивенты, связанные с данными
Data jobs feed https://t.iss.one/datajobschannel Канал с вакансиями в сфере обработки данных (инженеры, аналитики). Полезно для понимания тенденций на рынке и востребованных навыков

Если знаете еще полезные каналы - пишите в комментариях!