Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Про внутреннюю конкуренцию пост
Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем ктокруче хитрее
Но есть нюанс, канал же про каналий 🤡
В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)
Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».
Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.
Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?
Следите заруками словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏
По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰
Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫
Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто
Но есть нюанс, канал же про каналий 🤡
В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)
Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».
Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.
Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?
Следите за
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏
По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰
Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
1🎉34❤9🔥2🤯1
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
по факту -- one-hot на всем что было 🤦♂️
🤦♂️
😁
👏🙌
👏
🤦♂️
🤦♂️
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
🤔
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков
по факту -- one-hot на всем что было 🤦♂️
а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому
🤦♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно
😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом
👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных
👏
tf-idf - это не эмбеддинги это численное представление
🤦♂️
tf-idf - это низкоуровневные эмбеддинги
🤦♂️
Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
а зачем ты логарифмируешь цену? так хуже качество будет
🤔
🔥15😁15❤6
Please open Telegram to view this post
VIEW IN TELEGRAM
1💯20😁17🫡5🔥4❤1👍1
🚀 Запускаю новый поток «Базы ML»
Всем привет!
Сегодня запускаю третий поток «Базы ML» — курса, в который я вложил опыт 15 лет работы в индустрии, преподавания в МФТИ, ВШЭ и топ-компаниях, сотен собеседований и главный принцип обучения ML: разумный баланс теории и практики.
Что внутри?
🧠 Не edutainment с пустыми обещаниями, а системное погружение — все формулы, все «почему» и «как работает внутри».
👨🏫 Гибкий формат — можно идти в своем темпе, но с живыми вебинарами и поддержкой.
🔥 Программа-концентрат — только то, что реально спросят на собеседовании в ML.
😎 Команда мечты — это единственный базовый курс ML, который я знаю, где целых три автора с опытом работы Chief Data Scientist и Chief Data Officer у каждого, еще и в топ-1 компаниях в своих сферах (Яндекс, Сбер, МТС) объединили свой опыт, чтобы достичь оптимального сочетания строгости и наглядности в курсе.
Почему для меня это важно?
Каждая тема выверена до атома, потому что ML — это не «повтори за мной», а понимание на уровне интуиции и математики.
Этот курс — моя личная ставка на будущее индустрии. Если вы хотите не просто сертификат, а фундамент — добро пожаловать.
🔗 Программа и запись на курс: mlinside.ru
По промокоду KANTOR10 сегодня скидка 10%
📌 Старт: уже сегодня в 19:00
‼️На первый вебинар могут присоединиться все желающие, подключайтесь сегодня вечером: https://us06web.zoom.us/j/81515908205?pwd=QgXyirb5ZQ6G3eW7tIabHWT5FXgVMO.1
#MLinside #База_ML
Всем привет!
Сегодня запускаю третий поток «Базы ML» — курса, в который я вложил опыт 15 лет работы в индустрии, преподавания в МФТИ, ВШЭ и топ-компаниях, сотен собеседований и главный принцип обучения ML: разумный баланс теории и практики.
Что внутри?
🧠 Не edutainment с пустыми обещаниями, а системное погружение — все формулы, все «почему» и «как работает внутри».
Почему для меня это важно?
Каждая тема выверена до атома, потому что ML — это не «повтори за мной», а понимание на уровне интуиции и математики.
Этот курс — моя личная ставка на будущее индустрии. Если вы хотите не просто сертификат, а фундамент — добро пожаловать.
🔗 Программа и запись на курс: mlinside.ru
По промокоду KANTOR10 сегодня скидка 10%
📌 Старт: уже сегодня в 19:00
‼️На первый вебинар могут присоединиться все желающие, подключайтесь сегодня вечером: https://us06web.zoom.us/j/81515908205?pwd=QgXyirb5ZQ6G3eW7tIabHWT5FXgVMO.1
#MLinside #База_ML
Please open Telegram to view this post
VIEW IN TELEGRAM
mlinside.ru
Курс Базовый ML
🔥17❤6💩6👍4