Классно видеть результаты своей работы в индустриальных фреймворках. Релиз использует мой код для бенчмаркинга, мой код в качестве референсной имплементации SASRec/gSASRec, и поддерживает лоссы из моих статей.
🔥5❤3
Forwarded from Daria Tikhonovich
Релиз RecTools 0.11.0. Трансформеры в RecTools!
BERT4Rec и SASRec в
Поддерживают сборку с конфигов, кастомизацию, коллбэки, чекпойнты, логи, кастомную валидацию и мульти-гпу обучение.
Архитектура:
- Dot product связывание (+ можно кастомизировать свою логику)
- Из коробки используют в эмбеддингах категориальные фичи айтемов (+ можно подключать и отключать эмбеддинги на айди айтемов) (+ можно кастомизировать свою логику для эмбеддингов)
- Поддерживают softmax, BCE и gBCE лоссы с варьируемым количеством негативов (+ можно поддерживать кастомные лоссы)
- MLM и Shifted Sequence задачи обучения (+ как и всё остальное можно кастомизировать)
Все актуальные туториалы тут:
- Теория и практика
- Обучение с кастомной валидацией
- Модульная кастомизация моделей
Результаты на публичных бенчмарках против других имплементаций: наш BERT4Rec выиграл 2 из 4 датасетов, SASRec на софтмаксе 3 из 4.
Также в релизе:
-
- обучение на GPU для PureSVD
-
BERT4Rec и SASRec в
fit / recommend парадигме, без необходимости в специальной подготовке данных. Поддерживают сборку с конфигов, кастомизацию, коллбэки, чекпойнты, логи, кастомную валидацию и мульти-гпу обучение.
Архитектура:
- Dot product связывание (+ можно кастомизировать свою логику)
- Из коробки используют в эмбеддингах категориальные фичи айтемов (+ можно подключать и отключать эмбеддинги на айди айтемов) (+ можно кастомизировать свою логику для эмбеддингов)
- Поддерживают softmax, BCE и gBCE лоссы с варьируемым количеством негативов (+ можно поддерживать кастомные лоссы)
- MLM и Shifted Sequence задачи обучения (+ как и всё остальное можно кастомизировать)
Все актуальные туториалы тут:
- Теория и практика
- Обучение с кастомной валидацией
- Модульная кастомизация моделей
Результаты на публичных бенчмарках против других имплементаций: наш BERT4Rec выиграл 2 из 4 датасетов, SASRec на софтмаксе 3 из 4.
Также в релизе:
-
from_params метод для моделей и общая функция model_from_params для инициализации моделей с "плоского" словаря- обучение на GPU для PureSVD
-
TorchRanker для ранжирования айтемов по полученным скорам от моделейGitHub
Release 0.11.0 · MobileTeleSystems/RecTools
✨ Highlights ✨
Transformer models are here!
BERT4Rec and SASRec are fully compatible with RecTools fit / recommend paradigm and require NO special data processing. We have proven top performance on...
Transformer models are here!
BERT4Rec and SASRec are fully compatible with RecTools fit / recommend paradigm and require NO special data processing. We have proven top performance on...
👍13❤1
О, RecSys опубликовали записи выступлений за 2023 год.
Нашел себя с презентацией той самой статьи которая получила best paper. В вопросах еще и @lashinin засветился.
https://www.youtube.com/watch?v=r69BYuq5mfU&t=133s
Нашел себя с презентацией той самой статьи которая получила best paper. В вопросах еще и @lashinin засветился.
https://www.youtube.com/watch?v=r69BYuq5mfU&t=133s
YouTube
gSASRec
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
👍20
ОБЗОР СТАТЬИ
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation
Yupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng
Ссылка: https://arxiv.org/pdf/2502.13581
Свежая статья от Google DeepMind и Университета Сан-Диего по generative recommendation. В соавторах оба автора SASRec (Kang, McAuley), а также небезызвестный Ed Chi.
Идея: айтемы токенизируют на основе их фичей (title, price, brand, feature, categories, description), затем объединяют часто встречающиеся пары токенов (по аналогии с BPE в GPT). Это позволяет выделять часто встречаемые комбинации фичей и обучать эмбеддинги для них целиком. Далее используют генеративный подход с TIGER (из той самой статьи [5] про semantic IDs, трансформер на основе T5). Фичи авторы считают неупорядоченными, поэтому ищут не просто фичи идущие подряд, а в целом комбинации фичей привязанных к одному айтему.
Data Split: Leave-one-out (LOO); Это самый часто используемый подход для оценки Sequential Recommendation. Я тоже раньше использовал, но это не всем нравится (критикуют в статьях [1,6], привет @kkhrylchenko).
Датасеты: только Amazon reviews – неоднозначный выбор, т.к. Sequential Recommendation модели там нестабильны [2], а сам датасет не всегда соответствует задачам последовательных рекомендаций [1] (последовательность ревью это не то же самое что последовательность действий в системе). Последовательности очень короткие (средняя длина 8-14), не факт в принципе что для таких коротких последовательностей вообще нужны трансформеры. С другой стороны, @antklen и соавторы говорят что в Amazon Beauty датасете в целом довольно неплохо выражены sequential паттерны[7].
Бейзлайны: И̶с̶п̶о̶л̶ь̶з̶у̶ю̶т̶ ̶р̶а̶з̶н̶ы̶е̶ ̶м̶о̶д̶е̶л̶ь̶к̶и̶ ̶R̶e̶c̶B̶o̶l̶e̶ ̶–̶ ̶л̶е̶г̶к̶о̶ ̶п̶о̶л̶у̶ч̶и̶т̶ь̶ ̶н̶е̶д̶о̶т̶р̶е̶н̶и̶р̶о̶в̶а̶н̶н̶у̶ю̶ ̶м̶о̶д̶е̶л̶ь̶[̶2̶]̶,̶ ̶и̶ ̶п̶о̶х̶о̶ж̶е̶,̶ ̶ч̶т̶о̶ ̶а̶в̶т̶о̶р̶ы̶ ̶н̶е̶д̶о̶т̶р̶е̶н̶и̶р̶о̶в̶а̶л̶и̶ ̶б̶е̶й̶з̶л̶а̶й̶н̶ы̶.̶ ̶Н̶а̶п̶р̶и̶м̶е̶р̶,̶ ̶S̶A̶S̶R̶e̶c̶ ̶н̶а̶ ̶B̶e̶a̶u̶t̶y̶ ̶c̶ ̶т̶е̶м̶ ̶ж̶е̶ ̶с̶е̶т̶а̶п̶о̶м̶ ̶п̶о̶к̶а̶з̶ы̶в̶а̶е̶т̶ ̶N̶D̶C̶G̶@̶1̶0̶ ̶≈̶ ̶0̶.̶0̶3̶2̶7̶ ̶[̶3̶]̶,̶ ̶0̶.̶0̶3̶1̶8̶ ̶[̶4̶]̶,̶ ̶а̶ ̶в̶ ̶э̶т̶о̶й̶ ̶с̶т̶а̶т̶ь̶е̶ ̶–̶ ̶т̶о̶л̶ь̶к̶о̶ ̶0̶.̶0̶1̶9̶2̶.̶ ̶П̶р̶и̶ч̶е̶м̶ ̶и̶х̶ ̶s̶t̶a̶t̶e̶-̶o̶f̶-̶t̶h̶e̶-̶a̶r̶t̶ ̶м̶о̶д̶е̶л̶ь̶ ̶п̶о̶л̶у̶ч̶и̶л̶а̶ ̶0̶.̶0̶2̶6̶4̶,̶ ̶ч̶т̶о̶ ̶в̶с̶ё̶ ̶р̶а̶в̶н̶о̶ ̶с̶и̶л̶ь̶н̶о̶ ̶н̶и̶ж̶е̶,̶ ̶ч̶е̶м̶ ̶о̶б̶ы̶ч̶н̶ы̶й̶ ̶S̶A̶S̶R̶e̶c̶ ̶в̶ ̶[̶3̶,̶4̶]̶.̶ ̶
UPD: Не туда посмотрел. Как правильно заметил @Kukullkaan, цифры 1-в-1 соответствуют другим статьям, например тот же TIGER (для датасетов Beauty и и Sports). Формально у авторов наверное был доступ к оригинальным экспериментам TIGER, поэтому они их наверное просто с копипастили, и даже могли померять всякие confidence intervals. ИМХО конечно копипастить результаты из других статей, без упоминания что они скопипащены так себе практика; результаты могут быть другими.
Код: как обычно, у Google кода на GitHub нет. Справедливости ради, в аппендиксе есть кусок кода и перечислены гиперпараметры, но для воспроизведения сначала нужно повторить TIGER [5] и разобраться с используемыми фичами.
Вывод: идея интересная – объединение часто встречающихся фичей в единый токен может быть полезно, особенно на больших датасетах. Но к экспериментам большие вопросы, поэтому выводов делать пока рано. В любом случае, это направление стоит изучать, если интересны генеративные рекомендации. Ну и Yupeng Hou получил публикацию с ребятами из DeepMind, что уже неплохо.
References
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation
Yupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng
Ссылка: https://arxiv.org/pdf/2502.13581
Свежая статья от Google DeepMind и Университета Сан-Диего по generative recommendation. В соавторах оба автора SASRec (Kang, McAuley), а также небезызвестный Ed Chi.
Идея: айтемы токенизируют на основе их фичей (title, price, brand, feature, categories, description), затем объединяют часто встречающиеся пары токенов (по аналогии с BPE в GPT). Это позволяет выделять часто встречаемые комбинации фичей и обучать эмбеддинги для них целиком. Далее используют генеративный подход с TIGER (из той самой статьи [5] про semantic IDs, трансформер на основе T5). Фичи авторы считают неупорядоченными, поэтому ищут не просто фичи идущие подряд, а в целом комбинации фичей привязанных к одному айтему.
Data Split: Leave-one-out (LOO); Это самый часто используемый подход для оценки Sequential Recommendation. Я тоже раньше использовал, но это не всем нравится (критикуют в статьях [1,6], привет @kkhrylchenko).
Датасеты: только Amazon reviews – неоднозначный выбор, т.к. Sequential Recommendation модели там нестабильны [2], а сам датасет не всегда соответствует задачам последовательных рекомендаций [1] (последовательность ревью это не то же самое что последовательность действий в системе). Последовательности очень короткие (средняя длина 8-14), не факт в принципе что для таких коротких последовательностей вообще нужны трансформеры. С другой стороны, @antklen и соавторы говорят что в Amazon Beauty датасете в целом довольно неплохо выражены sequential паттерны[7].
Бейзлайны: И̶с̶п̶о̶л̶ь̶з̶у̶ю̶т̶ ̶р̶а̶з̶н̶ы̶е̶ ̶м̶о̶д̶е̶л̶ь̶к̶и̶ ̶R̶e̶c̶B̶o̶l̶e̶ ̶–̶ ̶л̶е̶г̶к̶о̶ ̶п̶о̶л̶у̶ч̶и̶т̶ь̶ ̶н̶е̶д̶о̶т̶р̶е̶н̶и̶р̶о̶в̶а̶н̶н̶у̶ю̶ ̶м̶о̶д̶е̶л̶ь̶[̶2̶]̶,̶ ̶и̶ ̶п̶о̶х̶о̶ж̶е̶,̶ ̶ч̶т̶о̶ ̶а̶в̶т̶о̶р̶ы̶ ̶н̶е̶д̶о̶т̶р̶е̶н̶и̶р̶о̶в̶а̶л̶и̶ ̶б̶е̶й̶з̶л̶а̶й̶н̶ы̶.̶ ̶Н̶а̶п̶р̶и̶м̶е̶р̶,̶ ̶S̶A̶S̶R̶e̶c̶ ̶н̶а̶ ̶B̶e̶a̶u̶t̶y̶ ̶c̶ ̶т̶е̶м̶ ̶ж̶е̶ ̶с̶е̶т̶а̶п̶о̶м̶ ̶п̶о̶к̶а̶з̶ы̶в̶а̶е̶т̶ ̶N̶D̶C̶G̶@̶1̶0̶ ̶≈̶ ̶0̶.̶0̶3̶2̶7̶ ̶[̶3̶]̶,̶ ̶0̶.̶0̶3̶1̶8̶ ̶[̶4̶]̶,̶ ̶а̶ ̶в̶ ̶э̶т̶о̶й̶ ̶с̶т̶а̶т̶ь̶е̶ ̶–̶ ̶т̶о̶л̶ь̶к̶о̶ ̶0̶.̶0̶1̶9̶2̶.̶ ̶П̶р̶и̶ч̶е̶м̶ ̶и̶х̶ ̶s̶t̶a̶t̶e̶-̶o̶f̶-̶t̶h̶e̶-̶a̶r̶t̶ ̶м̶о̶д̶е̶л̶ь̶ ̶п̶о̶л̶у̶ч̶и̶л̶а̶ ̶0̶.̶0̶2̶6̶4̶,̶ ̶ч̶т̶о̶ ̶в̶с̶ё̶ ̶р̶а̶в̶н̶о̶ ̶с̶и̶л̶ь̶н̶о̶ ̶н̶и̶ж̶е̶,̶ ̶ч̶е̶м̶ ̶о̶б̶ы̶ч̶н̶ы̶й̶ ̶S̶A̶S̶R̶e̶c̶ ̶в̶ ̶[̶3̶,̶4̶]̶.̶ ̶
UPD: Не туда посмотрел. Как правильно заметил @Kukullkaan, цифры 1-в-1 соответствуют другим статьям, например тот же TIGER (для датасетов Beauty и и Sports). Формально у авторов наверное был доступ к оригинальным экспериментам TIGER, поэтому они их наверное просто с копипастили, и даже могли померять всякие confidence intervals. ИМХО конечно копипастить результаты из других статей, без упоминания что они скопипащены так себе практика; результаты могут быть другими.
Код: как обычно, у Google кода на GitHub нет. Справедливости ради, в аппендиксе есть кусок кода и перечислены гиперпараметры, но для воспроизведения сначала нужно повторить TIGER [5] и разобраться с используемыми фичами.
Вывод: идея интересная – объединение часто встречающихся фичей в единый токен может быть полезно, особенно на больших датасетах. Но к экспериментам большие вопросы, поэтому выводов делать пока рано. В любом случае, это направление стоит изучать, если интересны генеративные рекомендации. Ну и Yupeng Hou получил публикацию с ребятами из DeepMind, что уже неплохо.
References
🔥10👍1
[1] Hidasi, B. and Czapp, Á.T., 2023, September. Widespread Flaws in Offline Evaluation of Recommender Systems. In Proceedings of the 17th ACM Conference on Recommender Systems (pp. 848-855).
[2] Petrov, A. and Macdonald, C., 2022, September. A systematic review and replicability study of bert4rec for sequential recommendation. In Proceedings of the 16th ACM Conference on Recommender Systems (pp. 436-447).
[3] Zeng, Kexiang, Xiaoyu Shi, Hong Xie, and Mingsheng Shang. "Contrastive Learning based Item Representation with Asymmetric Augmentation for Sequential Recommendation." In Proceedings of the 2023 2nd International Conference on Algorithms, Data Mining, and Information Technology, pp. 68-73. 2023.
[4] Hua, Wenyue, Shuyuan Xu, Yingqiang Ge, and Yongfeng Zhang. "How to index item ids for recommendation foundation models." In Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region, pp. 195-204. 2023.
[5] Rajput, S., Mehta, N., Singh, A., Hulikal Keshavan, R., Vu, T., Heldt, L., Hong, L., Tay, Y., Tran, V., Samost, J. and Kula, M., 2024. Recommender systems with generative retrieval. Advances in Neural Information Processing Systems, 36.
[6] Ji, Y., Sun, A., Zhang, J. and Li, C., 2023. A critical study on data leakage in recommender system offline evaluation. ACM Transactions on Information Systems, 41(3), pp.1-27.
[7] Klenitskiy, A., Volodkevich, A., Pembek, A. and Vasilev, A., 2024, October. Does It Look Sequential? An Analysis of Datasets for Evaluation of Sequential Recommendations. In Proceedings of the 18th ACM Conference on Recommender Systems (pp. 1067-1072).
[2] Petrov, A. and Macdonald, C., 2022, September. A systematic review and replicability study of bert4rec for sequential recommendation. In Proceedings of the 16th ACM Conference on Recommender Systems (pp. 436-447).
[3] Zeng, Kexiang, Xiaoyu Shi, Hong Xie, and Mingsheng Shang. "Contrastive Learning based Item Representation with Asymmetric Augmentation for Sequential Recommendation." In Proceedings of the 2023 2nd International Conference on Algorithms, Data Mining, and Information Technology, pp. 68-73. 2023.
[4] Hua, Wenyue, Shuyuan Xu, Yingqiang Ge, and Yongfeng Zhang. "How to index item ids for recommendation foundation models." In Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region, pp. 195-204. 2023.
[5] Rajput, S., Mehta, N., Singh, A., Hulikal Keshavan, R., Vu, T., Heldt, L., Hong, L., Tay, Y., Tran, V., Samost, J. and Kula, M., 2024. Recommender systems with generative retrieval. Advances in Neural Information Processing Systems, 36.
[6] Ji, Y., Sun, A., Zhang, J. and Li, C., 2023. A critical study on data leakage in recommender system offline evaluation. ACM Transactions on Information Systems, 41(3), pp.1-27.
[7] Klenitskiy, A., Volodkevich, A., Pembek, A. and Vasilev, A., 2024, October. Does It Look Sequential? An Analysis of Datasets for Evaluation of Sequential Recommendations. In Proceedings of the 18th ACM Conference on Recommender Systems (pp. 1067-1072).
UPD по метрикам. Как верно заметили в коментах, метрики все-таки соответствуют другим статьям, а я не туда посмотрел. НО, они соответствуют настолько, что похоже что часть из них прямо скопипащена из других статей. ИМХО копипастить без явного указания что "мы скопипастили" это не очень хорошая практика, так как "я запустил эксперимент сам" и "я нашел статью где зарепорчены удобные метрики для бейзлайнов" это разные уровни доверия к экспериментам. Если такую статью отправлять на конференцию, и ревьюер заметит что метрики скопипащены без явного указания на это, то очень большой шанс что статья будет реджекнута на этом основании.
👍2
PhD в Великобритании
Я заканчиваю PhD в Великобритании. Меня часто спрашивают о том, как поступить на PhD в Великобритании и как здесь учиться, поэтому в этом посте я расскажу о своем опыте. Сразу оговорюсь, что это только мой опыт, и он относится только к Университету Глазго. В других университетах все может быть иначе. Опять же, в первую очередь, мой опыт касается нашей области (computer science, в частности RecSys/IR).
1. Стоимость обучения
В отличие от многих других стран, по умолчанию PhD-программы в Великобритании платные. В других странах часто PhD воспринимается как "работа", и студентам платят, но здесь это не так. При этом стоимость зависит от вашего статуса. Например, на нашем факультете для домашних студентов цена в год составляет £5005, а для международных £31 800 (разница в 6,35 раза!). То есть, если вы международный студент, то за полную PhD-программу (4 года) стоимость составит £127 200 (~14,3 млн рублей), и это не включая расходы на жилье, еду и т. д. Для большинства студентов это непозволительно дорого, поэтому они стараются получить стипендию.
2. Гранты и стипендии
В университетах часто есть проекты с уже готовой стипендией. Их можно искать, например, здесь: https://www.jobs.ac.uk/phd. Там же можно проверить, что покрывает стипендия (например, если вы международный студент, надо искать проекты, которые покрывают international fees). К сожалению, большинство стипендий предназначены для местных студентов, а на международные стипендии большой конкурс.
3. Стипендии без привязки к проекту
В университетах также есть стипендии, которые покрывают обучение даже международных студентов и не привязаны к конкретному проекту. Это значит, что даже если вы подаетесь со своим предложением, у вас есть шанс получить финансирование. Однако таких стипендий значительно меньше (стипендий для местных студентов гораздо больше). Как правило, стипендия покрывает стоимость обучения и включает стипендию на жизнь (~£1600 в месяц за пределами Лондона).
4. Мой путь
Лично я поступал как "местный" студент. Уже после переезда в Великобританию я получил Exceptional Talent (ныне Global Talent) визу, которая позволила мне получить ПМЖ. С ПМЖ я мог подаваться как "местный" студент. Получить стипендию мне было довольно легко: нужно было просто поставить галочку в заявке, а университет все сделал сам. Моя стипендия от EPSRC — государственной организации, финансирующей исследования в инженерии, физических науках и технологиях.
5. Процесс поступления
Процесс поступления включает несколько шагов:
(i) Найти научного руководителя в университете. Ищите тех кто публикуется по интересующей вас теме — это важно, иначе вы 3 года будете работать над чем-то что вам вообще не интересно.
(ii) Обсудить с ним тему исследования.
(iii) Написать проектное предложение (Proposal).
(iv) Подготовить документы: диплом, рекомендательные письма, сертификат по английскому языку.
Если университет одобрит заявку, предложат место. Иногда проводят дополнительное интервью.
6. Как повысить шансы на поступление
6.1. Качественный Proposal
Самый важный фактор — заинтересованность научного руководителя. Нужно написать хороший Proposal, следуя этим шагам:
(i) Найти научного руководителя, изучить его профиль, статьи и публикации.
(ii) Ознакомиться с близкими темами (например, из раздела Background/Related Work в его статьях).
(iii) Написать Proposal, соответствующий его научным интересам. Включить:
- Background (обзор литературы и работ научного руководителя);
- Research gap (можно подсмотреть в разделе Future Work в недавних статьях);
- Research questions (исследовательские вопросы, над которыми будете работать 3-4 года);
- План работы (например, 1-й год — обзор литературы и публикация survey paper, 2-3-й годы — основная методология и публикации, 4-й год — написание диссертации);
- Риски (недостаток данных, вычислительные ресурсы, быстрое развитие области);
- References (основные работы в теме и работы научного руководителя).
(v) Связаться с научным руководителем, отправить Proposal и запросить фидбек.
Я заканчиваю PhD в Великобритании. Меня часто спрашивают о том, как поступить на PhD в Великобритании и как здесь учиться, поэтому в этом посте я расскажу о своем опыте. Сразу оговорюсь, что это только мой опыт, и он относится только к Университету Глазго. В других университетах все может быть иначе. Опять же, в первую очередь, мой опыт касается нашей области (computer science, в частности RecSys/IR).
1. Стоимость обучения
В отличие от многих других стран, по умолчанию PhD-программы в Великобритании платные. В других странах часто PhD воспринимается как "работа", и студентам платят, но здесь это не так. При этом стоимость зависит от вашего статуса. Например, на нашем факультете для домашних студентов цена в год составляет £5005, а для международных £31 800 (разница в 6,35 раза!). То есть, если вы международный студент, то за полную PhD-программу (4 года) стоимость составит £127 200 (~14,3 млн рублей), и это не включая расходы на жилье, еду и т. д. Для большинства студентов это непозволительно дорого, поэтому они стараются получить стипендию.
2. Гранты и стипендии
В университетах часто есть проекты с уже готовой стипендией. Их можно искать, например, здесь: https://www.jobs.ac.uk/phd. Там же можно проверить, что покрывает стипендия (например, если вы международный студент, надо искать проекты, которые покрывают international fees). К сожалению, большинство стипендий предназначены для местных студентов, а на международные стипендии большой конкурс.
3. Стипендии без привязки к проекту
В университетах также есть стипендии, которые покрывают обучение даже международных студентов и не привязаны к конкретному проекту. Это значит, что даже если вы подаетесь со своим предложением, у вас есть шанс получить финансирование. Однако таких стипендий значительно меньше (стипендий для местных студентов гораздо больше). Как правило, стипендия покрывает стоимость обучения и включает стипендию на жизнь (~£1600 в месяц за пределами Лондона).
4. Мой путь
Лично я поступал как "местный" студент. Уже после переезда в Великобританию я получил Exceptional Talent (ныне Global Talent) визу, которая позволила мне получить ПМЖ. С ПМЖ я мог подаваться как "местный" студент. Получить стипендию мне было довольно легко: нужно было просто поставить галочку в заявке, а университет все сделал сам. Моя стипендия от EPSRC — государственной организации, финансирующей исследования в инженерии, физических науках и технологиях.
5. Процесс поступления
Процесс поступления включает несколько шагов:
(i) Найти научного руководителя в университете. Ищите тех кто публикуется по интересующей вас теме — это важно, иначе вы 3 года будете работать над чем-то что вам вообще не интересно.
(ii) Обсудить с ним тему исследования.
(iii) Написать проектное предложение (Proposal).
(iv) Подготовить документы: диплом, рекомендательные письма, сертификат по английскому языку.
Если университет одобрит заявку, предложат место. Иногда проводят дополнительное интервью.
6. Как повысить шансы на поступление
6.1. Качественный Proposal
Самый важный фактор — заинтересованность научного руководителя. Нужно написать хороший Proposal, следуя этим шагам:
(i) Найти научного руководителя, изучить его профиль, статьи и публикации.
(ii) Ознакомиться с близкими темами (например, из раздела Background/Related Work в его статьях).
(iii) Написать Proposal, соответствующий его научным интересам. Включить:
- Background (обзор литературы и работ научного руководителя);
- Research gap (можно подсмотреть в разделе Future Work в недавних статьях);
- Research questions (исследовательские вопросы, над которыми будете работать 3-4 года);
- План работы (например, 1-й год — обзор литературы и публикация survey paper, 2-3-й годы — основная методология и публикации, 4-й год — написание диссертации);
- Риски (недостаток данных, вычислительные ресурсы, быстрое развитие области);
- References (основные работы в теме и работы научного руководителя).
(v) Связаться с научным руководителем, отправить Proposal и запросить фидбек.
👍11🙏2❤1
(vi) Если вы отправляйте proposal нескольким научникам, важно персонализировать Proposal для каждого университета и профессора.
6.2. Академический бэкграунд
Будут смотреть на оценки и репутацию университета, где вы учились. Если оценки невысокие или вуз малоизвестен, можно сначала пройти магистратуру в более престижном университете.
6.3. Рекомендательные письма
Лучше всего, если одно из писем будет от вашего научного руководителя, а остальные — от экспертов в предметной области. Письма должны быть персонализированными и поддерживать вашу кандидатуру.
6.4. Публикации
Наличие публикаций по теме значительно повышает шансы. Например, если вы хотите делать PhD по рекомендательным системам, публикации на RecSys или SIGIR выделят вашу заявку. Если сложно попасть на основную конференцию, можно опубликоваться на воркшопах — это тоже хороший показатель. Также полезно упомянуть другие достижения (например, призовые места в соревнованиях).
6.5. Английский язык
Обычно требуется уровень не ниже B2, но C1/C2 повысит шансы.
—
В целом не смотря на сложности, поступить на PhD и получить стипендию вполне возможно. Буду рад ответить на вопросы в комментариях.
Этот пост опубликован в канале @Recsys_IR_Travel. Если вы читаете его в другом месте, подпишитесь!
6.2. Академический бэкграунд
Будут смотреть на оценки и репутацию университета, где вы учились. Если оценки невысокие или вуз малоизвестен, можно сначала пройти магистратуру в более престижном университете.
6.3. Рекомендательные письма
Лучше всего, если одно из писем будет от вашего научного руководителя, а остальные — от экспертов в предметной области. Письма должны быть персонализированными и поддерживать вашу кандидатуру.
6.4. Публикации
Наличие публикаций по теме значительно повышает шансы. Например, если вы хотите делать PhD по рекомендательным системам, публикации на RecSys или SIGIR выделят вашу заявку. Если сложно попасть на основную конференцию, можно опубликоваться на воркшопах — это тоже хороший показатель. Также полезно упомянуть другие достижения (например, призовые места в соревнованиях).
6.5. Английский язык
Обычно требуется уровень не ниже B2, но C1/C2 повысит шансы.
—
В целом не смотря на сложности, поступить на PhD и получить стипендию вполне возможно. Буду рад ответить на вопросы в комментариях.
Этот пост опубликован в канале @Recsys_IR_Travel. Если вы читаете его в другом месте, подпишитесь!
Jobs.ac.uk
Find PhDs | PhD Programs | Scholarships - jobs.ac.uk
Search for PhDs, research studentships, professional doctorates & more opportunities on jobs.ac.uk. Plus funding & careers advice and FREE...
❤7
ZDF (один из крупнейших броадкастеров в Германии) рассказывает как они используют наши модельки для того чтобы уменьшить Popularity Bias (На 5:15 прямая отсылка к нашей статье как источник вдохновения).
Одна из проблем академического рисерча заключается в том что он не всегда напрямую связан с продакшеном, поэтому я всегда кайфую когда кто-то использует наши результаты в проде и публикует результаты A/B тестов.
https://youtu.be/Ar7cz4c80s4?si=UL8Ubd4rp1nBTBhJ&t=315
Одна из проблем академического рисерча заключается в том что он не всегда напрямую связан с продакшеном, поэтому я всегда кайфую когда кто-то использует наши результаты в проде и публикует результаты A/B тестов.
https://youtu.be/Ar7cz4c80s4?si=UL8Ubd4rp1nBTBhJ&t=315
YouTube
Enhancing Recommendation Quality of the SASRec Model by Mitigating Popularity Bias
by Venkata Harshit Koneru (ZDF), Xenija Neufeld (Accso – Accelerated Solutions GmbH), Sebastian Loth (ZDF) and Andreas Grün (ZDF)
Abstract:
ZDF is a Public Service Media (PSM) broadcaster in Germany that uses recommender systems on its streaming service…
Abstract:
ZDF is a Public Service Media (PSM) broadcaster in Germany that uses recommender systems on its streaming service…
🔥12❤1
Forwarded from ML — это ОК
🎤После стольких лет (шести!) на ридинг-группе наконец-то будет полезный доклад. 20 марта Дарья Тихонович, наша гостья из МТС, представит библиотеку RecTools. Недавно библиотека получила большое обновление, в котором популярные рекомендательные трансформеры прокачаны до уровня SOTA-статей.
SASRec можно обучать из коробки в парадигме fit/recommend, а можно кастомизировать так, что даже Саша Петров не узнает. Приходите послушать Дарью в 18:00.
Зум: ссылка
Номер: 777 282 2791
Код: 1
SASRec можно обучать из коробки в парадигме fit/recommend, а можно кастомизировать так, что даже Саша Петров не узнает. Приходите послушать Дарью в 18:00.
Зум: ссылка
Номер: 777 282 2791
Код: 1
🔥19😁9
Сегодня начинаю работу в индустрии. Угадаете компанию ? Подсказка в названии канала 😉
UPD: Угадали.
Буду пилить рекомендашки и поиск в TripAdvisor, а конкретнее в Viator.
UPD: Угадали.
Буду пилить рекомендашки и поиск в TripAdvisor, а конкретнее в Viator.
🔥24👏9❤2
Netflix опубликовали интересный блогпост:
Foundation Model for Personalized Recommendation
(https://netflixtechblog.medium.com/foundation-model-for-personalized-recommendation-1a0bd8e02d39)
Основная идея – в Netflix много разных рекомендательных алгоритмов (например, «Continue Watching» или «Top Picks for You»). Авторы предлагают вместо того, чтобы обучать модель с нуля для каждого отдельного алгоритма, сначала обучить большую поведенческую модель, а потом уже файнтюнить её под конкретные задачи. Несмотря на то, что идея в целом не новая (я сам работал над похожим подходом в больших компаниях), в этой статье интересны детали.
Авторы описывают подход на основе трансформеров (аналогично SASRec), но с большим количеством улучшений:
Incremental Training. Вместо того, чтобы переобучать модель с нуля, авторы переиспользуют веса «вчерашней» модели. Эмбеддинги новых айтемов предлагают инициализировать как взвешенную сумму уже существующих похожих айтемов, но говорят, что способ инициализации весов не критичен.
- Метаинформация. Учат отдельные эмбеддинги для жанров, тональности, сюжетных линий, а затем конкатенируют их и смешивают с обученным эмбеддингом айтемов через специальный «mixing layer». Он определяет, как именно сочетать контентные и коллаборативные эмбеддинги в зависимости от того, насколько «старый» айтем.
- Токены – это не только сами айтемы, но и разные признаки самого действия (длительность просмотра, локаль, тип устройства), а также признаки айтемов (жанр, страна).
- Большинство токенов – категориальные фичи, но некоторые требуют тщательной обработки. Например, токены, относящиеся ко времени, нужно аккуратно парсить, чтобы использовать одновременно относительное и абсолютное время.
- Токены делятся на «Request-Time Features» (доступные во время интеракции, например, тип устройства) и «Post-Action Features» (например, длительность просмотра). Их смешивают вместе для получения наилучшего результата.
- Модель предсказывает не 1 токен вперёд, а сразу N токенов; это помогает лучше улавливать длинные зависимости.
- Прежде чем предсказать сам айтем, модель сначала предсказывает его признаки (жанр, язык и т.д.). Это позволяет сузить пространство выбора и делает модель более устойчивой (с моей точки зрения, это чем-то похоже на «reasoning»).
- Авторы рассуждают о том, чтобы мёржить частые токены с помощью BPE, но я не до конца понял, применяют они это на практике или нет.
- Так как токенов много и описан каждый экшен, используются механизмы работы с длинными последовательностями (sparse attention) и sliding window для эффективного использования всех доступных данных.
- Size Matters – Больше параметров модели приводит к лучшим результатам. Однако улучшения нелинейны; судя по приведённой картинке, рост логарифмический. Тут нужно учесть, что у Netflix практически бесконечное количество данных, и на меньших датасетах совершенно не факт, что тренд сохранится.
В целом блогпост мне понравился. К сожалению, не хватает большого количества деталей и не очевидно, насколько каждая описанная идея влияет на финальный результат, но это и не научная статья, чтобы приводить подобные детали. Многие идеи уже были известны, но классно, что Netflix собрали их в едином решении (опять же, интересно именно то, что используют большие компании в продакшене).
—
Этот пост опубликован в канале @Recsys_IR_Travel. Если вы читаете его в другом месте, подпишитесь!
Foundation Model for Personalized Recommendation
(https://netflixtechblog.medium.com/foundation-model-for-personalized-recommendation-1a0bd8e02d39)
Основная идея – в Netflix много разных рекомендательных алгоритмов (например, «Continue Watching» или «Top Picks for You»). Авторы предлагают вместо того, чтобы обучать модель с нуля для каждого отдельного алгоритма, сначала обучить большую поведенческую модель, а потом уже файнтюнить её под конкретные задачи. Несмотря на то, что идея в целом не новая (я сам работал над похожим подходом в больших компаниях), в этой статье интересны детали.
Авторы описывают подход на основе трансформеров (аналогично SASRec), но с большим количеством улучшений:
Incremental Training. Вместо того, чтобы переобучать модель с нуля, авторы переиспользуют веса «вчерашней» модели. Эмбеддинги новых айтемов предлагают инициализировать как взвешенную сумму уже существующих похожих айтемов, но говорят, что способ инициализации весов не критичен.
- Метаинформация. Учат отдельные эмбеддинги для жанров, тональности, сюжетных линий, а затем конкатенируют их и смешивают с обученным эмбеддингом айтемов через специальный «mixing layer». Он определяет, как именно сочетать контентные и коллаборативные эмбеддинги в зависимости от того, насколько «старый» айтем.
- Токены – это не только сами айтемы, но и разные признаки самого действия (длительность просмотра, локаль, тип устройства), а также признаки айтемов (жанр, страна).
- Большинство токенов – категориальные фичи, но некоторые требуют тщательной обработки. Например, токены, относящиеся ко времени, нужно аккуратно парсить, чтобы использовать одновременно относительное и абсолютное время.
- Токены делятся на «Request-Time Features» (доступные во время интеракции, например, тип устройства) и «Post-Action Features» (например, длительность просмотра). Их смешивают вместе для получения наилучшего результата.
- Модель предсказывает не 1 токен вперёд, а сразу N токенов; это помогает лучше улавливать длинные зависимости.
- Прежде чем предсказать сам айтем, модель сначала предсказывает его признаки (жанр, язык и т.д.). Это позволяет сузить пространство выбора и делает модель более устойчивой (с моей точки зрения, это чем-то похоже на «reasoning»).
- Авторы рассуждают о том, чтобы мёржить частые токены с помощью BPE, но я не до конца понял, применяют они это на практике или нет.
- Так как токенов много и описан каждый экшен, используются механизмы работы с длинными последовательностями (sparse attention) и sliding window для эффективного использования всех доступных данных.
- Size Matters – Больше параметров модели приводит к лучшим результатам. Однако улучшения нелинейны; судя по приведённой картинке, рост логарифмический. Тут нужно учесть, что у Netflix практически бесконечное количество данных, и на меньших датасетах совершенно не факт, что тренд сохранится.
В целом блогпост мне понравился. К сожалению, не хватает большого количества деталей и не очевидно, насколько каждая описанная идея влияет на финальный результат, но это и не научная статья, чтобы приводить подобные детали. Многие идеи уже были известны, но классно, что Netflix собрали их в едином решении (опять же, интересно именно то, что используют большие компании в продакшене).
—
Этот пост опубликован в канале @Recsys_IR_Travel. Если вы читаете его в другом месте, подпишитесь!
❤19🔥3