Kantor.AI
11.6K subscribers
141 photos
12 videos
5 files
185 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Про внутреннюю конкуренцию пост

Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто круче хитрее

Но есть нюанс, канал же про каналий 🤡

В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)

Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».

Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.

Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?

Следите за руками словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏

По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰

Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫

Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
1🎉349🔥2🤯1
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков

по факту -- one-hot на всем что было 🤦‍♂️

а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому

🤦‍♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно

😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом

👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных

👏
tf-idf - это не эмбеддинги это численное представление

🤦‍♂️

tf-idf - это низкоуровневные эмбеддинги

🤦‍♂️

Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет

Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡

а зачем ты логарифмируешь цену? так хуже качество будет

🤔
🔥15😁156
🎧 Спарсили плейлисты в Spotify Альтмана, Суцкевера, Карпаты, Ле Куна, Ванга и других интересных личностей. Мы с вами это все категорически осуждаем как вопиющее нарушение личных границ и ни в коем случае не переходим по ссылке, чтобы послушать
Please open Telegram to view this post
VIEW IN TELEGRAM
1💯20😁17🫡5🔥41👍1
🚀 Запускаю новый поток «Базы ML»

Всем привет!

Сегодня запускаю третий поток «Базы ML» — курса, в который я вложил опыт 15 лет работы в индустрии, преподавания в МФТИ, ВШЭ и топ-компаниях, сотен собеседований и главный принцип обучения ML: разумный баланс теории и практики.

Что внутри?

🧠 Не edutainment с пустыми обещаниями, а системное погружение — все формулы, все «почему» и «как работает внутри».

👨‍🏫 Гибкий формат — можно идти в своем темпе, но с живыми вебинарами и поддержкой.

🔥Программа-концентрат — только то, что реально спросят на собеседовании в ML.

😎 Команда мечты — это единственный базовый курс ML, который я знаю, где целых три автора с опытом работы Chief Data Scientist и Chief Data Officer у каждого, еще и в топ-1 компаниях в своих сферах (Яндекс, Сбер, МТС) объединили свой опыт, чтобы достичь оптимального сочетания строгости и наглядности в курсе.


Почему для меня это важно?

Каждая тема выверена до атома, потому что ML — это не «повтори за мной», а понимание на уровне интуиции и математики.

Этот курс — моя личная ставка на будущее индустрии. Если вы хотите не просто сертификат, а фундамент — добро пожаловать.

🔗 Программа и запись на курс: mlinside.ru
По промокоду KANTOR10 сегодня скидка 10%

📌 Старт: уже сегодня в 19:00
‼️На первый вебинар могут присоединиться все желающие, подключайтесь сегодня вечером: https://us06web.zoom.us/j/81515908205?pwd=QgXyirb5ZQ6G3eW7tIabHWT5FXgVMO.1


#MLinside #База_ML
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥176💩6👍4