Дата канальи — про «специалистов» в данных / ML / AI
5.54K subscribers
220 photos
7 videos
12 files
204 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
#ML

В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков

по факту -- one-hot на всем что было 🤦‍♂️

а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому

🤦‍♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно

😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом

👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных

👏
tf-idf - это не эмбеддинги это численное представление

🤦‍♂️

tf-idf - это низкоуровневные эмбеддинги

🤦‍♂️

Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет

Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡

а зачем ты логарифмируешь цену? так хуже качество будет

🤔
😁35🔥2🥰1👀1
#ML

Поскольку единства в опросе и комментариях к нему нет, навайбкодил тут подсказку с утра, чем больше выбросов будет в таргете -- тем более будет выражен эффект.

Что касается скорости обучения -- ванильный градиентный спуск неотшкалированная фича конечно зааффектит, на градиентном бустинге да еще и при логарифмировании таргета (а не фичи) отличий особо не видно. Думаю, навайбкодить чтобы проверить этот факт труда не составит
14🦄5👍3
Дата канальи — про «специалистов» в данных / ML / AI
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов. Обсудим: ⭐️«Вызовы…
Буду рад сегодня вас видеть на митапе! 🍿🍿🍿🍻

Кто не знаком лично - давайте знакомиться 🤝

На всякий случай уточню:
Если вам не пришло письмо подтверждения регистрации, но вы регистрировались — приходите, вас добавили в списки для входа.
14🔥52
Немного спойлеров )
🔥31🐳7💅3💯2💘1
Если кто забыл программу )
🔥37❤‍🔥3🦄1
Спасибо тем кто вчера пришел, задавал вопросы, поддерживал спикеров и просто встретил друзей! ☺️♥️
Надеемся что фоточки будут готовы на сл неделе, а пока упрашиваем спикеров (а они свои пиар-службы) поделиться с вами презентациями.
Stay tuned, до встречи на новых митапах!
30❤‍🔥6🔥4💘4👍3👀1🤝1🦄1
ML Training HSE TS.pdf
6.2 MB
#ML

В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.

Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
2🏆24🔥103👍21🤓1
жаль что в СНГ суды не так работают, особенно в части публичных оферт в контексте трудового законодательства

200 000 – 320 000 баксов в месяц -- и пусть попробуют не выкатить оффер

UPD -- поправил, это же Армения!
😁12🌚1
Forwarded from ODS #jobs
Data Engineer (Scala)
200 000 – 320 000 $/месяц
Удаленка, Фултайм

Ищем инженера по данным для участия в разработке системы, обрабатывающей информацию о продажах по всей России. Наша команда занимается созданием ETL-процессов и агрегатов для формирования витрин данных и отчетов для BI и конечных пользователей. Объем исходных данных в проекте огромен - несколько петабайт, сотни ETL-процессов работают над построением витрин...(читать далее)
😁29🥴4🤯2
#кейсы #ML #корпжиза

Пока кто-то разрабатывает модели для работы с неструктурированными данными, KPI каналий на внедрение LLM заставляет решать проблему по-другому:

(утащил с гз-шного форума)
Продолжаю наблюдение за приближением дня, когда машины восстанут из пепла ядерной войны. И вот что приходится наблюдать в процессе разработки замены планктону. Есть некоторый бизнес-процесс, в котором есть неструктурированные данные в виде некоторых отчетов. Эти отчеты пишут одни сотрудники организации, а читают другие. Отчет в целом в достаточно свободной форме, т.к. может описывать достаточно широкий круг событий, и предполагается, что читающие этот отчет обладают определенной квалификацией (и соответственно стоят дорого). Раскрывать детали процесса именно в этой организации я не имею желания, но в качестве похожего примера можно привести финансового аналитика, например CFA, который читает отчет эмитента и дальше использует данные отчета в своих гнусных целях. Эмитенты, как известно, многие свои отчеты пишут в относительно свободной форме.

В процессе разработки "агента", который заменит дорогого CFA возникают естественные на текущем этапе развития технологии трудности. На имеющемся потоке документов нужно слишком много few-shot-ов, чтобы этот несчастный агент хедо-бедно работал. Или нужен дополнительный SFT, или еще того хуже RLHF / DPO, чтобы он хотя бы справлялся чаще, чем не справлялся (про accuracy ~99% там речи даже близко не идёт). Проблема в том, что документы достаточно разнообразны. Ну и естественно, чтобы повысить accuracy (и получить бонус) разработчики и их менеджеры выдвигают крамольные идеи, например: а почему бы нам не сделать данные более структурированными? Скажем, например, что в отчете должны быть определенные разделы. И таких разделов должно быть много, чтобы отвечать на все необходимые вопросы, и LLM могла бы легче извлечь правильные данные или ответить на вопрос. Так вот, в текущем процессе так и происходит: к писателям возникают требования структурировать отчеты. Существенно детализируется перечень информации, который обязательно должен быть в отчете. Разрабы составляют "идеальные отчеты", которые LLM точно прочитает правильно (т.к они есть во few-shot) и приводят их в пример писателям отчетов. Данные становятся более структурированными, а значит автоматизация планктона постепенно становится проще. Собственно очевидный вывод: то, что раньше даже в голову не приходило автоматизировать, сейчас начинают шатать не только со стороны LLM, но и стороны неструктурированных данных. А значит рано или поздно все данные станут достаточно структурированными, чтобы планктон стал не нужен.
Интересная
точка зрения и кмк более перспективный подход

У вас в компаниях тоже процесс оструктурирования всего чего можно?
1👍135🔥4
#ML

Курс по Базе ML мы с Витей и Ильей Ирхиным запустили год назад — для тех кто хочет детально разобраться как все устроено, а решать зубодробительные задания в ШАД в планы не входит.

И несмотря на то что уж казалось бы что нового можно было сделать в базе, мы продолжали курс улучшать

Вот уже и третий поток запускаем 5 августа

Велкам!

Напомню формат — 4-6 мес (зависит от начального уровня, есть подготовительные модули по статистике и питону — ведет их Дима)

По вопросам отвечает замечательная Марина
19👍5🔥4🦄2👎1🎉1
Не митапом единым 🐟
1🔥51🐳5🦄2
#кейсы #ML

Кейс из двух частей

Часть 1

Лет пять назад в одной сети по продаже техники решили попробовать ML, но относились с недоверием.

Куда ML применить в ритейл? Повысить продажи, например.

Как вообще происходит управление продажами крупной сети?

Если совсем на пальцах:
1) Для каждой точки продаж строится прогноз — сколько они продадут в следующем месяце.
2) Это число умножается на повышающий коэффициент — тн «амбицию» и объявляется бизнес-планом точки на сл месяц.
А сам процесс называется бизнес-планированием.

3) Далее в дело вступает перфоманс-менеджемент — выполнившим бизнес-план — 🤝премия (или грамота — зависит от), невыполнявшим — развитие 🤕.

ML в бизнес-планирование было решено внедрять в 2 этапа:

1) На пилоте (на части точек продаж) убедиться что с помощью ML прогнозы получаются точнее чем текущий у аналитиков (линейный прогноз на трех лагах)
2) Если ML точнее — пропилотировать план с амбицией, отсчитанной уже от ML-прогноза

Если по итогам продажи растут — молодцы 🙌

Итак, на первом этапе посчитали что понадобится 4 месяца для пилота

Команда аналитики дала свой прогноз, команда ML— свой (чуть покрутили prophet)

Но через 2 мес CEO решил оба прогноза увеличить на 8% и спустить пилотным точкам 🤣
До конца пилота оставалось 2 мес

Здесь просится голосовалка
7🐳5👍2😁1
#кейсы #ML

Часть 2 (грустная)
Проходит сельскохозяйственная конференция.
Встает француз:
— Мы сеем картошку 15 мая, а снимаем урожай 16 сентября.
Встает англичанин:
— Мы сеем картошку 15 апреля, а урожай снимаем 16 августа.
Встает чукча:
— Мы сеем картошку 15 июня, а снимаем урожай 16 июня.
— Через день? А почему так рано?
— Очень кушать хочется.


Убедили CEO больше ничего не трогать, перестроили модель получше (заодно и от prophet отказались), запустили новый пилот, уже на 2 мес.

ML победил прогноз аналитиков со счетом 18 % MAPE vs 25% MAPE

Пора переходить ко второму этапу пилота?

Если бы так — то анекдот в начале поста был бы зря 🤣

После того как план стал точнее больше сотрудников стали его выполнять!! -> компании пришлось больше потратиться на премии
На этом эксперимент с ML был признан убыточным 🤦‍♂️

Аналитики, правда, скрипты обучения модели попросили )


Но, конечно, как и в ценообразовании, нужно было происследовать эластичность выручки от плана и делать модель мотивации (то есть включать амбицию в модель) с учетом этой эластичности
2🔥21😁152👍1🤣1