Когда не взял удочки и пришлось знакомиться с зубрами 🦬
❤37🔥9👍3🖕1
#ML
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
по факту -- one-hot на всем что было 🤦♂️
🤦♂️
😁
👏🙌
👏
🤦♂️
🤦♂️
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
🤔
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков
по факту -- one-hot на всем что было 🤦♂️
а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому
🤦♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно
😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом
👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных
👏
tf-idf - это не эмбеддинги это численное представление
🤦♂️
tf-idf - это низкоуровневные эмбеддинги
🤦♂️
Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
а зачем ты логарифмируешь цену? так хуже качество будет
🤔
😁35🔥2🥰1👀1
Кстати, про последний вопрос, тк я не в курсе что за модель и цена фича или таргет, как думаете, логарифмирование в общем способно повлиять на качество?
Anonymous Poll
52%
Логарифмирование фичи или таргета может влиять на качество
13%
Логарифмирование фичи или таргета как правило, существенно не влияет на качество
41%
Логарифмирование в лин. моделях помогает бороться с гетероскедастичностью -> модель качественнее
39%
Лог-ние снижает разброс -> градиентный спуск быстрее сходится, реже застревает в лок. минимумах
🐳4
#ML
Поскольку единства в опросе и комментариях к нему нет, навайбкодил тут подсказку с утра,чем больше выбросов будет в таргете -- тем более будет выражен эффект.
Что касается скорости обучения -- ванильный градиентный спуск неотшкалированная фича конечно зааффектит, на градиентном бустинге да еще и при логарифмировании таргета (а не фичи) отличий особо не видно. Думаю, навайбкодить чтобы проверить этот факт труда не составит
Поскольку единства в опросе и комментариях к нему нет, навайбкодил тут подсказку с утра,
❤14🦄5👍3
Дата канальи — про «специалистов» в данных / ML / AI
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов. Обсудим: ⭐️ «Вызовы…
Буду рад сегодня вас видеть на митапе! 🍿🍿🍿🍻
Кто не знаком лично - давайте знакомиться 🤝
На всякий случай уточню:
Кто не знаком лично - давайте знакомиться 🤝
На всякий случай уточню:
Если вам не пришло письмо подтверждения регистрации, но вы регистрировались — приходите, вас добавили в списки для входа.
❤14🔥5⚡2
Спасибо тем кто вчера пришел, задавал вопросы, поддерживал спикеров и просто встретил друзей! ☺️♥️
Надеемся что фоточки будут готовы на сл неделе, а пока упрашиваем спикеров (а они свои пиар-службы) поделиться с вами презентациями.
Stay tuned, до встречи на новых митапах!
Надеемся что фоточки будут готовы на сл неделе, а пока упрашиваем спикеров (а они свои пиар-службы) поделиться с вами презентациями.
Stay tuned, до встречи на новых митапах!
❤30❤🔥6🔥4💘4👍3👀1🤝1🦄1
ML Training HSE TS.pdf
6.2 MB
#ML
В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.
Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab
Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.
Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab
Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
2🏆24🔥10✍3👍2❤1🤓1
Холивар от Саши 😈 -- что реально работает в прогнозировании TS -- выберите плиз любимый метод или библиотеку
Anonymous Poll
31%
AR(I)MA
5%
GARCH
11%
Хольт-Винтерс и прочие экспоненциальные сглаживания
33%
Prphet
4%
Tsururu
8%
Etna
21%
TS Fresh + бустинг
22%
Сразу (не crazy) бустинг
8%
Foundation Models for TS -- выше в канале где-то была моя лекция в МФТИ
19%
Другое
жаль что в СНГ суды не так работают, особенно в части публичных оферт в контексте трудового законодательства
200 000 – 320 000 баксов в месяц -- и пусть попробуют не выкатить оффер
UPD -- поправил, это же Армения!
200 000 – 320 000 баксов в месяц -- и пусть попробуют не выкатить оффер
UPD -- поправил, это же Армения!
😁12🌚1
Forwarded from ODS #jobs
Data Engineer (Scala)
200 000 – 320 000 $/месяц
Удаленка, Фултайм
Ищем инженера по данным для участия в разработке системы, обрабатывающей информацию о продажах по всей России. Наша команда занимается созданием ETL-процессов и агрегатов для формирования витрин данных и отчетов для BI и конечных пользователей. Объем исходных данных в проекте огромен - несколько петабайт, сотни ETL-процессов работают над построением витрин...(читать далее)
200 000 – 320 000 $/месяц
Удаленка, Фултайм
Ищем инженера по данным для участия в разработке системы, обрабатывающей информацию о продажах по всей России. Наша команда занимается созданием ETL-процессов и агрегатов для формирования витрин данных и отчетов для BI и конечных пользователей. Объем исходных данных в проекте огромен - несколько петабайт, сотни ETL-процессов работают над построением витрин...(читать далее)
😁29🥴4🤯2
#кейсы #ML #корпжиза
Пока кто-то разрабатывает модели для работы с неструктурированными данными, KPI каналий на внедрение LLM заставляет решать проблему по-другому:
(утащил с гз-шного форума)
У вас в компаниях тоже процесс оструктурирования всего чего можно?
Пока кто-то разрабатывает модели для работы с неструктурированными данными, KPI каналий на внедрение LLM заставляет решать проблему по-другому:
(утащил с гз-шного форума)
Продолжаю наблюдение за приближением дня, когда машины восстанут из пепла ядерной войны. И вот что приходится наблюдать в процессе разработки замены планктону. Есть некоторый бизнес-процесс, в котором есть неструктурированные данные в виде некоторых отчетов. Эти отчеты пишут одни сотрудники организации, а читают другие. Отчет в целом в достаточно свободной форме, т.к. может описывать достаточно широкий круг событий, и предполагается, что читающие этот отчет обладают определенной квалификацией (и соответственно стоят дорого). Раскрывать детали процесса именно в этой организации я не имею желания, но в качестве похожего примера можно привести финансового аналитика, например CFA, который читает отчет эмитента и дальше использует данные отчета в своих гнусных целях. Эмитенты, как известно, многие свои отчеты пишут в относительно свободной форме.точка зрения и кмк более перспективный подход
В процессе разработки "агента", который заменит дорогого CFA возникают естественные на текущем этапе развития технологии трудности. На имеющемся потоке документов нужно слишком много few-shot-ов, чтобы этот несчастный агент хедо-бедно работал. Или нужен дополнительный SFT, или еще того хуже RLHF / DPO, чтобы он хотя бы справлялся чаще, чем не справлялся (про accuracy ~99% там речи даже близко не идёт). Проблема в том, что документы достаточно разнообразны. Ну и естественно, чтобы повысить accuracy (и получить бонус) разработчики и их менеджеры выдвигают крамольные идеи, например: а почему бы нам не сделать данные более структурированными? Скажем, например, что в отчете должны быть определенные разделы. И таких разделов должно быть много, чтобы отвечать на все необходимые вопросы, и LLM могла бы легче извлечь правильные данные или ответить на вопрос. Так вот, в текущем процессе так и происходит: к писателям возникают требования структурировать отчеты. Существенно детализируется перечень информации, который обязательно должен быть в отчете. Разрабы составляют "идеальные отчеты", которые LLM точно прочитает правильно (т.к они есть во few-shot) и приводят их в пример писателям отчетов. Данные становятся более структурированными, а значит автоматизация планктона постепенно становится проще. Собственно очевидный вывод: то, что раньше даже в голову не приходило автоматизировать, сейчас начинают шатать не только со стороны LLM, но и стороны неструктурированных данных. А значит рано или поздно все данные станут достаточно структурированными, чтобы планктон стал не нужен.
Интересная
У вас в компаниях тоже процесс оструктурирования всего чего можно?
1👍13❤5🔥4
#ML
Курс по Базе ML мы с Витей и Ильей Ирхиным запустили год назад — для тех кто хочет детально разобраться как все устроено, а решать зубодробительные задания в ШАД в планы не входит.
И несмотря на то что уж казалось бы что нового можно было сделать в базе, мы продолжали курс улучшать
Вот уже и третий поток запускаем 5 августа
Велкам!
Напомню формат — 4-6 мес (зависит от начального уровня, есть подготовительные модули по статистике и питону — ведет их Дима)
По вопросам отвечает замечательная Марина
Курс по Базе ML мы с Витей и Ильей Ирхиным запустили год назад — для тех кто хочет детально разобраться как все устроено, а решать зубодробительные задания в ШАД в планы не входит.
И несмотря на то что уж казалось бы что нового можно было сделать в базе, мы продолжали курс улучшать
Вот уже и третий поток запускаем 5 августа
Велкам!
Напомню формат — 4-6 мес (зависит от начального уровня, есть подготовительные модули по статистике и питону — ведет их Дима)
По вопросам отвечает замечательная Марина
mlinside.ru
Курс "База ML"
Курс по основам машинного обучения для подготовки к ML-секции собеседования
1❤9👍5🔥4🦄2👎1🎉1
Вот и фоточки с митапа подъехали
belofoto.ru
MTC True Tech, Summer Cinema by KION
Фотограф Ольга Белова
🔥9❤4
#кейсы #ML
Кейс из двух частей
Часть 1
Лет пять назад в одной сети по продаже техники решили попробовать ML, но относились с недоверием.
Куда ML применить в ритейл? Повысить продажи, например.
Как вообще происходит управление продажами крупной сети?
Если совсем на пальцах:
1) Для каждой точки продаж строится прогноз — сколько они продадут в следующем месяце.
2) Это число умножается на повышающий коэффициент — тн «амбицию» и объявляется бизнес-планом точки на сл месяц.
А сам процесс называется бизнес-планированием.
3) Далее в дело вступает перфоманс-менеджемент — выполнившим бизнес-план — 🤝премия (или грамота — зависит от), невыполнявшим — развитие 🤕.
ML в бизнес-планирование было решено внедрять в 2 этапа:
1) На пилоте (на части точек продаж) убедиться что с помощью ML прогнозы получаются точнее чем текущий у аналитиков (линейный прогноз на трех лагах)
2) Если ML точнее — пропилотировать план с амбицией, отсчитанной уже от ML-прогноза
Если по итогам продажи растут — молодцы 🙌
Итак, на первом этапе посчитали что понадобится 4 месяца для пилота
Команда аналитики дала свой прогноз, команда ML— свой (чуть покрутили prophet)
Но через 2 мес CEO решил оба прогноза увеличить на 8% и спустить пилотным точкам 🤣
До конца пилота оставалось 2 мес
Здесь просится голосовалка
Кейс из двух частей
Часть 1
Лет пять назад в одной сети по продаже техники решили попробовать ML, но относились с недоверием.
Куда ML применить в ритейл? Повысить продажи, например.
Как вообще происходит управление продажами крупной сети?
Если совсем на пальцах:
1) Для каждой точки продаж строится прогноз — сколько они продадут в следующем месяце.
2) Это число умножается на повышающий коэффициент — тн «амбицию» и объявляется бизнес-планом точки на сл месяц.
А сам процесс называется бизнес-планированием.
3) Далее в дело вступает перфоманс-менеджемент — выполнившим бизнес-план — 🤝премия (или грамота — зависит от), невыполнявшим — развитие 🤕.
ML в бизнес-планирование было решено внедрять в 2 этапа:
1) На пилоте (на части точек продаж) убедиться что с помощью ML прогнозы получаются точнее чем текущий у аналитиков (линейный прогноз на трех лагах)
2) Если ML точнее — пропилотировать план с амбицией, отсчитанной уже от ML-прогноза
Если по итогам продажи растут — молодцы 🙌
Итак, на первом этапе посчитали что понадобится 4 месяца для пилота
Команда аналитики дала свой прогноз, команда ML— свой (чуть покрутили prophet)
Но через 2 мес CEO решил оба прогноза увеличить на 8% и спустить пилотным точкам 🤣
До конца пилота оставалось 2 мес
Здесь просится голосовалка
❤7🐳5👍2😁1
Какой прогноз оказался ближе всего к факту (считали по MAPE) по итогам пилота?
Anonymous Quiz
24%
Прогноз аналитиков
25%
Прогноз аналитиков, увеличенный на 8%
29%
Прогноз ML
22%
Прогноз ML, увеличенный на 8%