Короче. Датасету быть. Чтоб не получить комплаенсов, сделаю так:1) Никаких ФИО;
2) ID постов, ID юзеров, ID комментов — захеширую, ибо GDPR, прайваси, все дела;
2) Вложения будут описаны только типами (аудио, видео, картинка, лонгрид) и количеством на пост\коммент;
3) Текст поста вообще будет исключён из датасета, чтобы не получить страйк за использование контента опубликованного на платформе;
4) НО будет указана длина поста, чтобы можно было делать какие-то гипотезы на основе длины опубликованного художественного текста (короткий\длинный\очень длинный, например);
Остальное остаётся в датасете, как планировал.
Дальше — датасет будет включать в себя несколько таблиц.
1) Данные по открытому паблику на >100К юзеров (описанное выше)
2) Данные по закрытому паблику бесплатного\дешёвого флешмоба (данные описаны выше + стата из Обсуждений, тоже максимально обезличенная)
3) Данные по закрытому паблику платного контента (основной продукт)
4) Данные по юзерам — описанное выше + в каких пабликах состоят (для расчёта пересечений, типа Х% юзеров состоят в таком-то паблике, У% в таком-то и т.п.)
5) Ну там ещё по мелочи статки (список юзеров, перешедших из бесплатного флешмоба в платный продукт, например. Или статистика постов юзеров написанных в рамках принадлежности к этому паблику, но не на его стене, а на своих стенах).
Таблиц будет много (Ну как много. Стопка), т.к. я их хорошо так нормализую. Не хочу городить одну здоровенную 1НФ. Буду дробить.
В результате, можно будет проанализировать дофига всего, зависимости кучи параметров между собой. От соотношения длины текста + времени публикации к метрикам этого поста, до соотношения кластеров ЦА к их поведению и объёму оставленных метрик.
Кто стал клиентом. Кто не стал. Что могло повлиять на то, что юзер стал клиентом\не стал. Какие кластеры становятся клиентом, какие нет. Какие посты собирают много реакций. Какие нет. Какие дни\время публикаций наиболее удачные. Какие виды вложений собирают больше реакций. Взаимодействие юзеров между собой И т.п.
Что не получится сделать из запланированного — не получится взять этот мой датасет, и на нём обучать нейронку писать короткие художественные рассказы. Потому что прайваси и «Правила пользования ВК». Но, конечно, я могу дать готовый код сбора этих данных, и сказать где их взять😏, чтобы кому нужно, запустили скрипт, и за пару минут сами их собрали (причём сразу в том виде, который можно приджойнить к предоставленным мною таблицам), и обучали свои ML-ки.
Поэтому
ГОТОВЬТЕ ВАШИ АП-ВОУТЫ, у кого ещё нет аккаунта на Kaggle — заводите аккаунты. Мне очень понадобится ваша помощь голосом там. Кто точно поддержит там голосом (стрелкой «вверх») — поставьте 💯 к посту.
Кто поддержит, только если ему понравится датасет — поставьте 🤔к посту.
Кто не поддержит ни при каких обстоятельствах — поставьте 🤬к посту.
Идеи, советы, просто поболтать — как обычно добро пожаловать в комментарии.
[апдейт] В комментариях посотовали сделать датасет пригодным для SQL запросов сразу. Хорошая мысль, я считаю, подготовлю для датасета модель и схему данных, и сразу DDL запросы, чтоб можно было запустить их, импортировать всё в БД, и сходу начать SQL запросы писать.
💯14🥰1🤬1
Обожаю свои комментарии трёхмесячной давности.
Когда-нибудь я буду делать код для себя любимого сразу нормальным. А не «потом отрефакторю». Когда-нибудь. Но не сегодня.
Да, я не пропал, не умер, жив-здоров. У нас закончился хардкорный период миграции данных, и есть время немного выдохнуть и заняться вечерами, наконец, своими задумками.
Вот, сел приводить в порядок датасет и делать DDL-ку для вас.
Когда-нибудь я буду делать код для себя любимого сразу нормальным. А не «потом отрефакторю». Когда-нибудь. Но не сегодня.
Да, я не пропал, не умер, жив-здоров. У нас закончился хардкорный период миграции данных, и есть время немного выдохнуть и заняться вечерами, наконец, своими задумками.
Вот, сел приводить в порядок датасет и делать DDL-ку для вас.
👍8🔥2
Говорят, сегодня всемирный день СисАдмина.
Что ж, всех причастных поздравляю с праздником великого
Ох, сколько километров витухи я протянул в свои годы. Как давно это было…
13 лет назад. Как в прошлой жизни.
~200 компов обслужить (собрать, накатить винду и ПО, подключить к локалке, настроить права на группы, а потом бдить, чтоб никто порнуху не качал в рабочее время. Ржачно было смотреть на лица бухов, когда подключался к ним через удалённый доступ и крутил их мышку, чтобы «починить» то, что они «я не трогала, оно само сломалось»)
Серверную собрать, обслужить.
Зато как удобно было в серверной коньяк остужать на вечер пятницы. Мммм.
Во время было.
Что ж, всех причастных поздравляю с праздником великого
бо о бз с бс з бк к!Ох, сколько километров витухи я протянул в свои годы. Как давно это было…
13 лет назад. Как в прошлой жизни.
~200 компов обслужить (собрать, накатить винду и ПО, подключить к локалке, настроить права на группы, а потом бдить, чтоб никто порнуху не качал в рабочее время. Ржачно было смотреть на лица бухов, когда подключался к ним через удалённый доступ и крутил их мышку, чтобы «починить» то, что они «я не трогала, оно само сломалось»)
Серверную собрать, обслужить.
Зато как удобно было в серверной коньяк остужать на вечер пятницы. Мммм.
Во время было.
🔥8❤🔥5👍4❤2🤣1
Что я могу сказать ребят — по возможности не выгорайте.
Понимаю, что это звучит как «бедные не будьте бедными, будьте богатыми», но всё же.
И продуктивность пиздец, и мозги не сображают, и ничего не хочется, и «пошло оно всё в жопу» и т.п.
Чот ваще ничего не радует.
Хочется уехать в лес, в кибитку, и неделю там просто лежать.
Понимаю, что это звучит как «бедные не будьте бедными, будьте богатыми», но всё же.
И продуктивность пиздец, и мозги не сображают, и ничего не хочется, и «пошло оно всё в жопу» и т.п.
Чот ваще ничего не радует.
Хочется уехать в лес, в кибитку, и неделю там просто лежать.
😢16💯9
Наши ребята тут выпустили статью на Хабре, про причину моего выгорания, ядрёную забористую миграцию многолетнего легаси на новое хранилище данных — https://habr.com/ru/companies/skyeng/articles/756674/
Читаешь статью и такой «как красиво-то оно выглядит, если это в статью оформить».
Изнутри, конечно, хочется врубить СПЛИН, достать коньяк и…
Ещё этот даталенс, будь он не ладен.
Лан, это всё лирика, короч, гляньте статью, там как раз описан довольно жаркий период RnD этапа.
Ух, это было забористо.
Читаешь статью и такой «как красиво-то оно выглядит, если это в статью оформить».
Изнутри, конечно, хочется врубить СПЛИН, достать коньяк и…
Ещё этот даталенс, будь он не ладен.
Лан, это всё лирика, короч, гляньте статью, там как раз описан довольно жаркий период RnD этапа.
Ух, это было забористо.
Хабр
Метаданные как обезбол при миграции
Привет! Меня зовут Наташа Красильникова, я старший аналитик команды Operations Analytics в Skyeng. Мы работаем с сотней сервисов компании на уровне данных, и когда пришло время мигрировать наше...
❤3
Предположим ситуацию, в которой тебя критикуют. Но всё по делу. Не докапываются на ровном мете.
Если мне директивно скажут «Ты делаешь херню потому что Х,У,Z \ ты лажаешь по срокам \ Чот получается хрень какая-то переделай» то…
Если мне директивно скажут «Ты делаешь херню потому что Х,У,Z \ ты лажаешь по срокам \ Чот получается хрень какая-то переделай» то…
Anonymous Poll
67%
Такой фид-бек меня не огорчит, когда говорят честно и прямо — мне лучше понятно
33%
Такой фид-бек меня огорчит, и подкосит, лучше завуалированно софт-скильно и дипломатично критиковать
Пояснение к вопросу выше:
Обратную связь можно дать как «Обрати, пожалуйста, внимание, на прозрачность своей работы.»
А можно сказать «Я не вижу, что сделано по задаче. Выдели, пожалуйста, каждый день по 20 минут времени в конце дня, и приложи в таски все необходимые ссылки на ресстры, таблицы, файлы, код. Если ты делаешь исследование, оформляй его в свободной форме в качестве страницы на Конфлюенсе, и прикладывай ссылку на неё в таску.»
-
Можно сказать «Пожалуйста, обрати внимание, на … Я беспокоюсь за … ».
А можно сказать «Вот тут косяк, тут косяк, и вот тут тоже больше так не делай».
Я, наверное, хреново объясняю (не мудрено, я не гуру в софт-скиллах), но я имею ввиду те ситуации, когда инфу об ошибках обмазывают огромной кучей ванильной радуги, чтобы не дай боже, не допустить обиду.
Вам как понятнее — когда критику обмазывают ванильностью, и менеджер говорит «Мне нравится, как ты подходишь к [конкретной части работы или задаче]. Однако я заметил заметил, что некоторые задачи занимают больше времени, чем планировалось. Мне важно, чтобы наша команда работала эффективно и вовремя завершала проекты. Могу я как-то помочь или предоставить дополнительные ресурсы? Есть ли какие-то препятствия или трудности, из-за которых возникла эта ситуация?»
Или когда менеджер говорит вот так — «Привет. Ты пролетел по срокам на три дня. Стейкхолдеры не довольны и делают мне мозг. В чём проблема? Я могу помочь?»
Когда «Нам в проекте важна прозрачность, пожалуйста, учитывай это в своём ежедневном плане»
Или когда «Почему в таске пусто и доки не приложены? Выдели час приложи всё что сделано.»
- -
Обсуждение там же под опросом, чтоб не разлеталось в разные части ответов.
Обратную связь можно дать как «Обрати, пожалуйста, внимание, на прозрачность своей работы.»
А можно сказать «Я не вижу, что сделано по задаче. Выдели, пожалуйста, каждый день по 20 минут времени в конце дня, и приложи в таски все необходимые ссылки на ресстры, таблицы, файлы, код. Если ты делаешь исследование, оформляй его в свободной форме в качестве страницы на Конфлюенсе, и прикладывай ссылку на неё в таску.»
-
Можно сказать «Пожалуйста, обрати внимание, на … Я беспокоюсь за … ».
А можно сказать «Вот тут косяк, тут косяк, и вот тут тоже больше так не делай».
Я, наверное, хреново объясняю (не мудрено, я не гуру в софт-скиллах), но я имею ввиду те ситуации, когда инфу об ошибках обмазывают огромной кучей ванильной радуги, чтобы не дай боже, не допустить обиду.
Вам как понятнее — когда критику обмазывают ванильностью, и менеджер говорит «Мне нравится, как ты подходишь к [конкретной части работы или задаче]. Однако я заметил заметил, что некоторые задачи занимают больше времени, чем планировалось. Мне важно, чтобы наша команда работала эффективно и вовремя завершала проекты. Могу я как-то помочь или предоставить дополнительные ресурсы? Есть ли какие-то препятствия или трудности, из-за которых возникла эта ситуация?»
Или когда менеджер говорит вот так — «Привет. Ты пролетел по срокам на три дня. Стейкхолдеры не довольны и делают мне мозг. В чём проблема? Я могу помочь?»
Когда «Нам в проекте важна прозрачность, пожалуйста, учитывай это в своём ежедневном плане»
Или когда «Почему в таске пусто и доки не приложены? Выдели час приложи всё что сделано.»
- -
Обсуждение там же под опросом, чтоб не разлеталось в разные части ответов.
Forwarded from BI & DA events (Николай Крупий)
https://t.iss.one/yandexscale/206
https://youtu.be/4EdNiEC3Bww
@iaroslavkor,
@paveldubinin выступает, который тогда тебе всё разрулил 😁
https://youtu.be/4EdNiEC3Bww
@iaroslavkor,
@paveldubinin выступает, который тогда тебе всё разрулил 😁
Telegram
Yandex Scale
⏰ 3,2,1... Начинаем обратный отсчет до начала четвертой части тематических треков.
Доклады 4 волны:
Data Platform: DataLens: доступная аналитика любого масштаба.
Спикер — Павел Дубинин, специалист, который отвечает за развитие DataLens как внутреннего…
Доклады 4 волны:
Data Platform: DataLens: доступная аналитика любого масштаба.
Спикер — Павел Дубинин, специалист, который отвечает за развитие DataLens как внутреннего…
🔥2
Интернет — забавная штука. Побубнишь в своём сарае, а тебя потом даже в соседних деревня́х тегают)))
Но вообще, как бы я не ворчал на DL — он в целом очень даже не плох, но сегодня произошло важное событие, которое добавило плюсов в его пользу.
Все уже в курсе, но я всё равно скажу — сегодня DL стал опен сорсным.
Хвала богам, это позволит активно вкладываться в его репозиторий, и докручивать какие-то важные фичи самим, не ожидая, пока яндекс.тима его дополнит, поправит и т.п.
Наверняка, он теперь обрастёт ещё и какими-нибудь подключаемыми модулями, плагинами и свистоперделками, которые можно будет подключать на своей машине внутри компании.
Я, как и положено ворчливому душниле, продолжу на него ворчать, но респектов теперь в его адрес явно будет больше с моей стороны.
И вообще, раз уж такое дело, пришло время собрать свой докер-контейнер, для быстрой развёртки. И с коннектом сразу к постгресу и\или кликхаусу в соседних контейнерах.
@paveldubinin , спасибо за фидбек и поддержку в комментариях. Это правда ценно, и очень неожиданно для ноунейма с непопулярным каналом «о своём» (который я не продвигаю и не собираюсь).
Но вообще, как бы я не ворчал на DL — он в целом очень даже не плох, но сегодня произошло важное событие, которое добавило плюсов в его пользу.
Все уже в курсе, но я всё равно скажу — сегодня DL стал опен сорсным.
Хвала богам, это позволит активно вкладываться в его репозиторий, и докручивать какие-то важные фичи самим, не ожидая, пока яндекс.тима его дополнит, поправит и т.п.
Наверняка, он теперь обрастёт ещё и какими-нибудь подключаемыми модулями, плагинами и свистоперделками, которые можно будет подключать на своей машине внутри компании.
Я, как и положено ворчливому душниле, продолжу на него ворчать, но респектов теперь в его адрес явно будет больше с моей стороны.
И вообще, раз уж такое дело, пришло время собрать свой докер-контейнер, для быстрой развёртки. И с коннектом сразу к постгресу и\или кликхаусу в соседних контейнерах.
@paveldubinin , спасибо за фидбек и поддержку в комментариях. Это правда ценно, и очень неожиданно для ноунейма с непопулярным каналом «о своём» (который я не продвигаю и не собираюсь).
😁3❤1👍1
А тебе доводилось решать такое, при трудоустройстве?
Я вот одно понять не могу — какие такие откровения они хотят узнать, давая тест на 80 вопросов на 30 минут (где кроме скринов выше, ещё и математические задачи, и на логику, и т.п.)
Что ж за данные должны открывать такие тесты, чтобы работодатели с ними заморочились так.
Я вот одно понять не могу — какие такие откровения они хотят узнать, давая тест на 80 вопросов на 30 минут (где кроме скринов выше, ещё и математические задачи, и на логику, и т.п.)
Что ж за данные должны открывать такие тесты, чтобы работодатели с ними заморочились так.
😁8🤯6
Не, ну какой же лапочка я оказывается. Я не могу прям.
In general так-то верное описание, и in general даж возразить не на что.
Но некоторые частности и детали заставили меня орать чайкой. Особенно блок про visibility (Timid).
Уж не знаю, какие мои ответы повлияли на такой их вывод:
1) мне ОК быть на виду и активно проявляться (херли, я с детства на сцене выступаю), коммуникации и дискурс — вообще одна из моих сильных сторон;
2) мне ОК говорить в слух на созвонах об идеях, которые пришли в голову;
3) я даж могу засесть резко в ночь поработать, чтобы подготовить презу с пруфами для отстаивания идеи стейкхолдеру, и спорить могу активно (вежливо) чтобы аргументировать позицию;
Короч, странный тест.
Но за IQ=125, конечно, спасибо, почесали эго. Хоть и ненаучно.
In general так-то верное описание, и in general даж возразить не на что.
Но некоторые частности и детали заставили меня орать чайкой. Особенно блок про visibility (Timid).
Уж не знаю, какие мои ответы повлияли на такой их вывод:
1) мне ОК быть на виду и активно проявляться (херли, я с детства на сцене выступаю), коммуникации и дискурс — вообще одна из моих сильных сторон;
2) мне ОК говорить в слух на созвонах об идеях, которые пришли в голову;
3) я даж могу засесть резко в ночь поработать, чтобы подготовить презу с пруфами для отстаивания идеи стейкхолдеру, и спорить могу активно (вежливо) чтобы аргументировать позицию;
Короч, странный тест.
Но за IQ=125, конечно, спасибо, почесали эго. Хоть и ненаучно.
😁5