В очередной раз наткнулся на упоминание Frances Haugen
As Bloomberg noted, you might recognize his name if you've thumbed through the leaked material that whistleblower Frances Haugen revealed in 2021
Я несколько раз пересекался с Frances по работе, так как отвечал за user data privacy в WhatsApp, а она работала в FB messenger, который в тот момент планировал тоже стать end to end encrypted и им нужна была помощь чтобы понять, как жить после этого
Человек как человек, разумно радеющий за свое дело, но не overzealous.
Из интересного замечу, что по странному стечению обстоятельств, результаты своего расследования она обнародовала две недели спустя получения результатов перформанс ревью.
Что наводит на определенные мысли.
Одно можно сказать точно, она превзошла все ожидания
As Bloomberg noted, you might recognize his name if you've thumbed through the leaked material that whistleblower Frances Haugen revealed in 2021
Я несколько раз пересекался с Frances по работе, так как отвечал за user data privacy в WhatsApp, а она работала в FB messenger, который в тот момент планировал тоже стать end to end encrypted и им нужна была помощь чтобы понять, как жить после этого
Человек как человек, разумно радеющий за свое дело, но не overzealous.
Из интересного замечу, что по странному стечению обстоятельств, результаты своего расследования она обнародовала две недели спустя получения результатов перформанс ревью.
Что наводит на определенные мысли.
Одно можно сказать точно, она превзошла все ожидания
👍26😁17🤔7👎1
Поучаствовал в записи подкаста вместе с Ruth Pike, Adrian Martins и Jeff Watkins
Будет готов где-то через 10 дней, из сложностей - делал его с еще активной анестезией челюсти, было непросто
Ниже анонс от Ruth
Yesterday marked my 10th podcast and what a podcast it was!!
Joined by three great Tech leaders, it was such a pleasure to host and listen to you all share your knowledge and experience on the topic - Career Development within Tech.
THANK YOU
⭐️Adrian Martins VP of Technology Coyote Software
⭐️Valerii Babushkin Head of Data Science Blockchain.com
⭐️Jeff Watkins Chief Product and Technology Officer xDesign
We spoke about how anyone starting their career can stand out from the crowd plus much more!!!!😎
This will be ready 10 days - in the meantime head over to our Spotify channel for more of my episodes.
https://lnkd.in/ePKJTGtg
I would love to speak with more tech leaders about getting involved in my upcoming episodes - get in touch if you or if you know of someone
Будет готов где-то через 10 дней, из сложностей - делал его с еще активной анестезией челюсти, было непросто
Ниже анонс от Ruth
Yesterday marked my 10th podcast and what a podcast it was!!
Joined by three great Tech leaders, it was such a pleasure to host and listen to you all share your knowledge and experience on the topic - Career Development within Tech.
THANK YOU
⭐️Adrian Martins VP of Technology Coyote Software
⭐️Valerii Babushkin Head of Data Science Blockchain.com
⭐️Jeff Watkins Chief Product and Technology Officer xDesign
We spoke about how anyone starting their career can stand out from the crowd plus much more!!!!😎
This will be ready 10 days - in the meantime head over to our Spotify channel for more of my episodes.
https://lnkd.in/ePKJTGtg
I would love to speak with more tech leaders about getting involved in my upcoming episodes - get in touch if you or if you know of someone
lnkd.in
LinkedIn
This link will take you to a page that’s not on LinkedIn
👍46🔥30😍3👎1
На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey
Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных
Сначала обсуждают причины
Плохое качество данных -> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)
После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods - когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN
Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации
Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше
В целом рекомендую
Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных
Сначала обсуждают причины
Плохое качество данных -> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)
После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods - когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN
Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации
Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше
В целом рекомендую
👍145❤13🤔4👎2🔥2
Еще весной я объявлял о подготовке запуска курса по System Design, который направлен как на подготовку к собеседованию, так и на изучение того, как действительно надо проектировать системы.
Вместо вертикального подхода aka - задизайним гугл/фейсбук/инстаграмм, мы решили пойти горизонтальным. Подробно разбираем каждый блок: БД, расчет нагрузки, масштабирование системы, повышение отзывчивости и тп, с кучей примеров и затем, уже в конце, комбинируем в готовый дизайн.
Два потока уже прошло, основные шероховатости обработали и теперь можно объявить здесь о третьем Потоке, стартующем в сентябре
В качестве дополнений можно вспомнить пробные интервью по систем дизайну, которые записывали прошлой зимой
● Выпуск 1
Алексей, ученик 11 класса и победитель AIIJC — международного конкурса по искусственному интеллекту среди детей. Ему пришлось задизайнить сервис, делающий короткие ссылки.
● Выпуск 2
Али — аналитик-разработчик из Яндекса получил задачу задизайнить Instagram
● Выпуск 3
Тимлид команды ML в AliExpress Russia Евгений разрабатывал дизайн сервиса такси. Собственно с ним вместе мы и сделали System Design
● Выпуск 4
Бонус, где аналитик Егор дизайнит web crawler.
Вместо вертикального подхода aka - задизайним гугл/фейсбук/инстаграмм, мы решили пойти горизонтальным. Подробно разбираем каждый блок: БД, расчет нагрузки, масштабирование системы, повышение отзывчивости и тп, с кучей примеров и затем, уже в конце, комбинируем в готовый дизайн.
Два потока уже прошло, основные шероховатости обработали и теперь можно объявить здесь о третьем Потоке, стартующем в сентябре
В качестве дополнений можно вспомнить пробные интервью по систем дизайну, которые записывали прошлой зимой
● Выпуск 1
Алексей, ученик 11 класса и победитель AIIJC — международного конкурса по искусственному интеллекту среди детей. Ему пришлось задизайнить сервис, делающий короткие ссылки.
● Выпуск 2
Али — аналитик-разработчик из Яндекса получил задачу задизайнить Instagram
● Выпуск 3
Тимлид команды ML в AliExpress Russia Евгений разрабатывал дизайн сервиса такси. Собственно с ним вместе мы и сделали System Design
● Выпуск 4
Бонус, где аналитик Егор дизайнит web crawler.
karpov.courses
System Design
Запишитесь на курсы System Design онлайн: выгодные цены на обучение дизайн системам в школе Karpov Courses.
👍82🔥27⚡5🤔3👎2
Первое видео с анонсом hard ML мы записывали как будто на старой засаленой кухне, где пацаны собрались за столом попить пива и поговорить за жизнь. Новое видео таким харизматичным не вышло, зато оно короче в пять раз
YouTube
Зачем нужен курс Hard ML? | Валерий Бабушкин | karpov.courses
Курс Hard ML: https://bit.ly/3T5CL7x
А помните, был такой курс Hard ML? Сейчас мы готовимся к 19-му потоку, и это значит, что прошло уже полтора года с запуска программы. По этому случаю Валерий Бабушкин записал видео, в котором приглашает присоединиться…
А помните, был такой курс Hard ML? Сейчас мы готовимся к 19-му потоку, и это значит, что прошло уже полтора года с запуска программы. По этому случаю Валерий Бабушкин записал видео, в котором приглашает присоединиться…
🔥41👍15😁9🤮3
1 сентября на вебинаре буду рассказывать про Перформанс ревью, калибровку, инженерные левелы, композицию тотал компа и как это все взаимосвязано
[Регистрация]
[Регистрация]
👍80⚡14❤8🔥3
Во время написания главы про бейзлайны, вспомнил замечательную историю про хакатон Сибура.
Его затащила Светлана, прекрасный человек и специалист, с которой мне посчастливилось работать вместе.
Примечательно что она затащила его при помощи константы. Вернее ступеньки! Как любит поправлять меня Света.
Его затащила Светлана, прекрасный человек и специалист, с которой мне посчастливилось работать вместе.
Примечательно что она затащила его при помощи константы. Вернее ступеньки! Как любит поправлять меня Света.
VK Видео
Sibur Challenge ФИНАЛ
Watch Sibur Challenge ФИНАЛ 3 s from 24 November 2018 online in HD for free in the VK catalog without signing up! Views: 2185. Likes: 4.
👍45🔥4🥰1🤔1
Ищу людей на две вакансии у нас в blockchain.com
C++, Low Latency
Желателен опыт с трейдингом и криптой
Уровень - мид, синьор
Два Front End, инженера один будет работать на DeFi проектами, второй над биржей (описание здесь)
Платим как в ФБ, чуть больше даже, но сток еще не ликвидный
Писать можно мне - @VENHEADs
C++, Low Latency
Желателен опыт с трейдингом и криптой
Уровень - мид, синьор
Два Front End, инженера один будет работать на DeFi проектами, второй над биржей (описание здесь)
Платим как в ФБ, чуть больше даже, но сток еще не ликвидный
Писать можно мне - @VENHEADs
🔥32👍5😁4
Сегодняшний вебинар про перфоманс ревью провалился
Вначале какая-то тетка каждые 10 секунд механическим голосом говорила Trial, очевидно хотела денег
Как только тетку удалось утихомирить, качество звука стало хуже некуда. Однако мы не остановились
Но после того как трансляция стала временами отваливаться, пропал всякий смысл это терпеть
Поэтому вебинар перенесен
Вначале какая-то тетка каждые 10 секунд механическим голосом говорила Trial, очевидно хотела денег
Как только тетку удалось утихомирить, качество звука стало хуже некуда. Однако мы не остановились
Но после того как трансляция стала временами отваливаться, пропал всякий смысл это терпеть
Поэтому вебинар перенесен
😢92🥴33🤬26👍19😁11💩10❤4😱4
По дороге в свой зал по джиу джитсу (London Fight Factory), наткнулся на здание, напоминающее дом Зингера в Петербурге.
На удивление, вывеска на заведении подтвердила эту гипотезу: Singer Tavern
К сожалению купюры ни в пятьдесят фунтов, ни в пять тысяч рублей не разбрасывали.
Видимо за этим надо ехать в Дубай
На удивление, вывеска на заведении подтвердила эту гипотезу: Singer Tavern
К сожалению купюры ни в пятьдесят фунтов, ни в пять тысяч рублей не разбрасывали.
Видимо за этим надо ехать в Дубай
😁198👍18🤡12🤣8❤7🤔3👎1🔥1
Вышел эпизод подкаста про карьеру в тех индустрии с моим участием
Добавил альтернативную ссылку на Sound Cloud
Добавил альтернативную ссылку на Sound Cloud
👍49🔥7❤3
Интересно, будут ли пытаться кэнселить Apple, из-за чьей политики тысячи людей потеряли работу и сотни бизнесов разорились?
Статья в тему
Без пейвола
Статья в тему
Без пейвола
👍45🤯17🤔14😁1
Искал секцию по борьбе (вольной или самбо) около дома
Единственное что нашел - Oil Wrestling Parties UK Headquarters
Задумался
Единственное что нашел - Oil Wrestling Parties UK Headquarters
Задумался
😁177👍21🏆18🤔6🤩5👎2
Потребовалось отмерить небольшое количество воды с большой точностью. Инсулиновый шприц для этого подходит идеально.
С Амазона ждать день, но в трехстах метрах от меня аптека. Пошел туда
Спросил про шприцы - сказали не продают. Удивился
Затем спросили есть ли рецепт. Удивился еще сильнее
Оказалось нужно обратиться к GP, он даст рецепт, по рецепту бесплатно дают шприцы.
При таких раскладах видимо продавать нет смысла
Дикая страна
С Амазона ждать день, но в трехстах метрах от меня аптека. Пошел туда
Спросил про шприцы - сказали не продают. Удивился
Затем спросили есть ли рецепт. Удивился еще сильнее
Оказалось нужно обратиться к GP, он даст рецепт, по рецепту бесплатно дают шприцы.
При таких раскладах видимо продавать нет смысла
Дикая страна
😁90🤯30🤔5👍1👏1🤮1
Прохожу курс по Дата Инженерии. Подтема - Slowly changing dimension.
Рассматриваем SCD 0 - The Type 0 dimension attributes never change and are assigned to attributes that have durable values or are described as 'Original'.
Лектор привел в пример пол студентов. Я тут же подумал что это не может быть SCD 0.
Культурные особенности разных стран
P.S. Вспомнил историю когда работал в банке Открытие
Некоторые клиенты регулярно меняли пол (сто и более раз за 3-5 лет)
Бывало даже воскресали
Рассматриваем SCD 0 - The Type 0 dimension attributes never change and are assigned to attributes that have durable values or are described as 'Original'.
Лектор привел в пример пол студентов. Я тут же подумал что это не может быть SCD 0.
Культурные особенности разных стран
P.S. Вспомнил историю когда работал в банке Открытие
Некоторые клиенты регулярно меняли пол (сто и более раз за 3-5 лет)
Бывало даже воскресали
🔥78😁67👍9🤔9🤮5❤4👏2
Прочитал статью CoLES: Contrastive Learning for Event Sequences with Self-Supervision, в который ребята рассказывают, как используя contrastive learning получать эмбединги для дискретной последовательности событий. Говорят, что применяют это в большой финансовой компании в Европе. По интересному совпадению, ряд авторов этой статьи читают канал
Пишут что генерить эмбединги вещь не новая, но если брать текст или картинки, то там контекст крайне помогает (соседние слова или пиксели), но так хорошо бывает не всегда.
For example, log entries, IoT telemetry, industrial maintenance, user behavior, travel patterns, transactional data, and other industrial and financial event sequences typically consist of interleaved relatively independent sub-streams.
Добавляют что популярные SOTA могут не выдать ничего путного с такими данными.
Используют новую хитрую аугментацию, генерируя подстроки из основной строки и используют их как высокоразмерные репрезентации изначальной строки. Применили метод на 4 датасетах и он везде зарешал
Какая цель? Сгенерировать такие эмбединги, чтобы они были близки, если произведены одним процессом и далеко, если разными (подстроки одного пользователя генерированы одним процессом)
Собственно на этом все; нарезали подстрок, отправили подстроки одного пользователя как позитивы, разных пользователей как негативы
Как меру близости использую Euclidian Distance (дополнительно обсудили как решать проблему negative samples)
Из интересного, решили использовать GRU для Sequence encoder
В целом - хорошая, прикладная инженерная статья. Не уверен что это будет state of the art, но рассмотреть как вариант для своих задач вполне можно
Из недочетов - 4 датасета кажется недостаточным для надежной оценки
P.S. Возможно в algorithm 1 (в статье) имеет смысл дополнительно слегка перемешивать соседние события?
#ArticleReview
Пишут что генерить эмбединги вещь не новая, но если брать текст или картинки, то там контекст крайне помогает (соседние слова или пиксели), но так хорошо бывает не всегда.
For example, log entries, IoT telemetry, industrial maintenance, user behavior, travel patterns, transactional data, and other industrial and financial event sequences typically consist of interleaved relatively independent sub-streams.
Добавляют что популярные SOTA могут не выдать ничего путного с такими данными.
Используют новую хитрую аугментацию, генерируя подстроки из основной строки и используют их как высокоразмерные репрезентации изначальной строки. Применили метод на 4 датасетах и он везде зарешал
Какая цель? Сгенерировать такие эмбединги, чтобы они были близки, если произведены одним процессом и далеко, если разными (подстроки одного пользователя генерированы одним процессом)
Собственно на этом все; нарезали подстрок, отправили подстроки одного пользователя как позитивы, разных пользователей как негативы
Как меру близости использую Euclidian Distance (дополнительно обсудили как решать проблему negative samples)
Из интересного, решили использовать GRU для Sequence encoder
В целом - хорошая, прикладная инженерная статья. Не уверен что это будет state of the art, но рассмотреть как вариант для своих задач вполне можно
Из недочетов - 4 датасета кажется недостаточным для надежной оценки
P.S. Возможно в algorithm 1 (в статье) имеет смысл дополнительно слегка перемешивать соседние события?
#ArticleReview
🥰23👍22🔥11❤🔥1👏1🤔1🤯1