Kantor.AI
11.5K subscribers
141 photos
12 videos
5 files
183 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Вот уж не думал, что доживу до времени, когда по телеканалу «Звезда» будет идти реклама со сноской, кто такой ML-инженер
😁667👍5🔥4🫡3💩2💯1
Время выглянуть за рамки мониторов и взять в руки удочку

Сделайте паузу от тасков и митов на летнем IT-фестивале от Selectel против выгорания!

🗓 27 июля
📍 Флагшток, Санкт-Петербург или онлайн


В программе:
- доклады и воркшопы о том, как встроить отдых в свой плотный график,
- жизненные выступления на IT-стендапе,
- возможность попробовать разные активности, чтобы найти новое хобби: скалолазание, бокс, кастом вещей, рыбалка

Участие бесплатное, нужно просто зарегистрироваться: https://slc.tl/11bkc

А чтобы посмотреть полную программу, заглянуть за кулисы подготовки и поучаствовать в розыгрыше лимитированного тирекса, подписывайтесь на @Selectel_Events
💩9👍73👎3🔥3
Вопрос к тем, кто нанимает дата саентистов:

1. К вам на собеседование пришел человек без опыта работы в DS, что будете спрашивать?

2. Тот же вопрос про человека с опытом работы в DS

Во всех случаях речь не про синьорскую вакансию, а про рядового работягу.

Пишите в комментариях свои ответы, потом устроим голосование
🔥156
Никита тут опять выдал базу, как всегда с огоньком :) Подтверждаю, что ровно так и устроена работа в компаниях, причем тупо во всех поголовно без исключений. От студенческого стартапа до fortune500, причем не только между коллегами, но и в ролях исполнитель-подрядчик и в партнерских проектах. И конечно же к этому добавляются постоянные обвинения в неэффективности.

Например, был в одном месте товарищ, который больше всех обвинял моих ребят в том, что на работу потратили кучу денег и мало что сделали. Куча денег в том случае были 2 миллиона, мало что - прототип, который работал корректно, но не на том принципе, который чел хотел видеть внутри как большой знаток AI. На словах товарищ раздувал траты до 30 млн. Недавно же услышал байку, как его команда навыдавала промо-скидок на лярд и забыла их отключить.

История про «мы вам дадим показать эффект на задаче, где три копейки, а сами будем делать там, где лярд» тоже классика, когда внедряешь AI в чей-то процесс или когда кто-то пришел внедрять первым.

Еще есть другой распространенный корпоративный ритуал: принять какие-то решения про чужую задачу и чужую область ответственности без собственно человека, который за это отвечает. Это тоже прям классика-классика, так что нужно уметь вовремя оказаться на том совещании, куда вас не звали, и насовать аргументов против. Или наоборот сознательно не пойти на такую встречу, чтобы слить агрессору тухлую задачу😁

Надо ли удивляться, как же все стремно в компаниях организовано? Да конечно нет. Все перечисленное - свойство людей и их поведения в принципе, а в компаниях обычно работает более одного человека, вот и начинается неизбежное безобразие.
🔥12😁95
Про внутреннюю конкуренцию пост

Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто круче хитрее

Но есть нюанс, канал же про каналий 🤡

В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)

Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».

Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.

Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?

Следите за руками словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏

По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰

Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫

Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
1🎉252
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков

по факту -- one-hot на всем что было 🤦‍♂️

а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому

🤦‍♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно

😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом

👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных

👏
tf-idf - это не эмбеддинги это численное представление

🤦‍♂️

tf-idf - это низкоуровневные эмбеддинги

🤦‍♂️

Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет

Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡

а зачем ты логарифмируешь цену? так хуже качество будет

🤔
😁12🔥116