Вопрос к тем, кто нанимает дата саентистов:
1. К вам на собеседование пришел человек без опыта работы в DS, что будете спрашивать?
2. Тот же вопрос про человека с опытом работы в DS
Во всех случаях речь не про синьорскую вакансию, а про рядового работягу.
Пишите в комментариях свои ответы, потом устроим голосование
1. К вам на собеседование пришел человек без опыта работы в DS, что будете спрашивать?
2. Тот же вопрос про человека с опытом работы в DS
Во всех случаях речь не про синьорскую вакансию, а про рядового работягу.
Пишите в комментариях свои ответы, потом устроим голосование
🔥16❤6
Никита тут опять выдал базу, как всегда с огоньком :) Подтверждаю, что ровно так и устроена работа в компаниях, причем тупо во всех поголовно без исключений. От студенческого стартапа до fortune500, причем не только между коллегами, но и в ролях исполнитель-подрядчик и в партнерских проектах. И конечно же к этому добавляются постоянные обвинения в неэффективности.
Например, был в одном месте товарищ, который больше всех обвинял моих ребят в том, что на работу потратили кучу денег и мало что сделали. Куча денег в том случае были 2 миллиона, мало что - прототип, который работал корректно, но не на том принципе, который чел хотел видеть внутри как большой знаток AI. На словах товарищ раздувал траты до 30 млн. Недавно же услышал байку, как его команда навыдавала промо-скидок на лярд и забыла их отключить.
История про «мы вам дадим показать эффект на задаче, где три копейки, а сами будем делать там, где лярд» тоже классика, когда внедряешь AI в чей-то процесс или когда кто-то пришел внедрять первым.
Еще есть другой распространенный корпоративный ритуал: принять какие-то решения про чужую задачу и чужую область ответственности без собственно человека, который за это отвечает. Это тоже прям классика-классика, так что нужно уметь вовремя оказаться на том совещании, куда вас не звали, и насовать аргументов против. Или наоборот сознательно не пойти на такую встречу, чтобы слить агрессору тухлую задачу😁
Надо ли удивляться, как же все стремно в компаниях организовано? Да конечно нет. Все перечисленное - свойство людей и их поведения в принципе, а в компаниях обычно работает более одного человека, вот и начинается неизбежное безобразие.
Например, был в одном месте товарищ, который больше всех обвинял моих ребят в том, что на работу потратили кучу денег и мало что сделали. Куча денег в том случае были 2 миллиона, мало что - прототип, который работал корректно, но не на том принципе, который чел хотел видеть внутри как большой знаток AI. На словах товарищ раздувал траты до 30 млн. Недавно же услышал байку, как его команда навыдавала промо-скидок на лярд и забыла их отключить.
История про «мы вам дадим показать эффект на задаче, где три копейки, а сами будем делать там, где лярд» тоже классика, когда внедряешь AI в чей-то процесс или когда кто-то пришел внедрять первым.
Еще есть другой распространенный корпоративный ритуал: принять какие-то решения про чужую задачу и чужую область ответственности без собственно человека, который за это отвечает. Это тоже прям классика-классика, так что нужно уметь вовремя оказаться на том совещании, куда вас не звали, и насовать аргументов против. Или наоборот сознательно не пойти на такую встречу, чтобы слить агрессору тухлую задачу😁
Надо ли удивляться, как же все стремно в компаниях организовано? Да конечно нет. Все перечисленное - свойство людей и их поведения в принципе, а в компаниях обычно работает более одного человека, вот и начинается неизбежное безобразие.
🔥22😁17❤8👎1🤔1
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Про внутреннюю конкуренцию пост
Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем ктокруче хитрее
Но есть нюанс, канал же про каналий 🤡
В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)
Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».
Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.
Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?
Следите заруками словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏
По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰
Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫
Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто
Но есть нюанс, канал же про каналий 🤡
В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)
Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».
Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.
Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?
Следите за
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏
По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰
Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
1🎉34❤9🔥2🤯1
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
по факту -- one-hot на всем что было 🤦♂️
🤦♂️
😁
👏🙌
👏
🤦♂️
🤦♂️
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
🤔
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков
по факту -- one-hot на всем что было 🤦♂️
а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому
🤦♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно
😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом
👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных
👏
tf-idf - это не эмбеддинги это численное представление
🤦♂️
tf-idf - это низкоуровневные эмбеддинги
🤦♂️
Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
а зачем ты логарифмируешь цену? так хуже качество будет
🤔
🔥15😁15❤6
Please open Telegram to view this post
VIEW IN TELEGRAM
1💯20😁15🫡5🔥4❤1👍1
🚀 Запускаю новый поток «Базы ML»
Всем привет!
Сегодня запускаю третий поток «Базы ML» — курса, в который я вложил опыт 15 лет работы в индустрии, преподавания в МФТИ, ВШЭ и топ-компаниях, сотен собеседований и главный принцип обучения ML: разумный баланс теории и практики.
Что внутри?
🧠 Не edutainment с пустыми обещаниями, а системное погружение — все формулы, все «почему» и «как работает внутри».
👨🏫 Гибкий формат — можно идти в своем темпе, но с живыми вебинарами и поддержкой.
🔥 Программа-концентрат — только то, что реально спросят на собеседовании в ML.
😎 Команда мечты — это единственный базовый курс ML, который я знаю, где целых три автора с опытом работы Chief Data Scientist и Chief Data Officer у каждого, еще и в топ-1 компаниях в своих сферах (Яндекс, Сбер, МТС) объединили свой опыт, чтобы достичь оптимального сочетания строгости и наглядности в курсе.
Почему для меня это важно?
Каждая тема выверена до атома, потому что ML — это не «повтори за мной», а понимание на уровне интуиции и математики.
Этот курс — моя личная ставка на будущее индустрии. Если вы хотите не просто сертификат, а фундамент — добро пожаловать.
🔗 Программа и запись на курс: mlinside.ru
По промокоду KANTOR10 сегодня скидка 10%
📌 Старт: уже сегодня в 19:00
‼️На первый вебинар могут присоединиться все желающие, подключайтесь сегодня вечером: https://us06web.zoom.us/j/81515908205?pwd=QgXyirb5ZQ6G3eW7tIabHWT5FXgVMO.1
#MLinside #База_ML
Всем привет!
Сегодня запускаю третий поток «Базы ML» — курса, в который я вложил опыт 15 лет работы в индустрии, преподавания в МФТИ, ВШЭ и топ-компаниях, сотен собеседований и главный принцип обучения ML: разумный баланс теории и практики.
Что внутри?
🧠 Не edutainment с пустыми обещаниями, а системное погружение — все формулы, все «почему» и «как работает внутри».
Почему для меня это важно?
Каждая тема выверена до атома, потому что ML — это не «повтори за мной», а понимание на уровне интуиции и математики.
Этот курс — моя личная ставка на будущее индустрии. Если вы хотите не просто сертификат, а фундамент — добро пожаловать.
🔗 Программа и запись на курс: mlinside.ru
По промокоду KANTOR10 сегодня скидка 10%
📌 Старт: уже сегодня в 19:00
‼️На первый вебинар могут присоединиться все желающие, подключайтесь сегодня вечером: https://us06web.zoom.us/j/81515908205?pwd=QgXyirb5ZQ6G3eW7tIabHWT5FXgVMO.1
#MLinside #База_ML
Please open Telegram to view this post
VIEW IN TELEGRAM
mlinside.ru
Курс Базовый ML
🔥12❤5👍3💩3