Открытый код ФКН ВШЭ
816 subscribers
28 photos
90 links
Показываем новости по открытому коду ФКН ВШЭ.

Контакты: Михаил Гущин @mhushchyn
Download Telegram
gflownet-tlm

В репозитории представлен код для оптимизации обратной стратегии в GFlowNets методом Trajectory Likelihood Maximization. Идея простая: учим обратную стратегию, максимизируя правдоподобие полных траекторий, сэмплированных текущей прямой стратегией; затем обновляем прямую стратегию в эквивалентной задаче soft-RL (энтропийно-регуляризованный MDP) с вознаграждениями, задаваемыми новой обратной политикой. Такой чередующийся шаг легко встраивается в TB/DB/SubTB и офф-полиси RL и закрывает ограничение теории фиксированного обратного прохода, принятой в недавних связках GFlowNets — soft-RL. Авторы также обсуждают практические трюки для стабильности и дают условие сходимости при стабильных обновлениях PB и регрет-минимизации для PF. Эксперименты на Hypergrid, Bit Sequences, QM9 и sEH показывают более быструю сходимость и лучшее mode discovery в сложных и менее структурированных средах, особенно QM9; на сильно структурированной sEH выигрыш скромнее и сопоставим с фиксированным равномерным обратным проходом. Код и обучающие скрипты — открыты. Работа будет полезна исследователям GFlowNets и RL, а также практикам из областей дизайна биомолекул и материалов, где важно эффективно исследовать пространство дискретных объектов пропорционально награде.

статья | код
🔥62👍2
tabpfn-finetuning

В репозитории представлен код для систематического изучения дообучения табличной фундаментальной модели TabPFNv2. Авторы сравнивают различные стратегии адаптации — полный fine-tuning, частичный — последние слои/LayerNorm/голова/эмбеддинги, параметро-эффективные LoRA, а также добавочные числовые эмбеддинги — и показывают, что при корректном подборе гиперпараметров именно полное дообучение даёт наилучший баланс точности и скорости сходимости. Ключевой вывод: после адаптации скалярные произведения запрос–ключ в последнем слое inter-sample внимания лучше согласуются с близостью объектов по целевой переменной; за счёт этого модель точнее собирает предсказание из релевантных контекстных примеров. Практически авторы демонстрируют дообучение на наборах до 1 млн ячеек и до 50 тыс. объектов: на академических i.i.d.-разбиениях затюненая версия достигает или превосходит современный уровень, тогда как на задачах с временным сдвигом и богатыми признаками стабильность ниже и сильные не фундаментальные DL/GBDT бейзлайны иногда предпочтительнее. Дополнительно отмечено: полный fine-tuning сходится быстрее альтернатив; увеличение числа объектов, участвующих в одном градиентном шаге предсказаний, стабильно улучшает качество; ансамбли из нескольких дообученных копий дают дополнительный прирост. Код и конфигурации доступны в открытом виде. Работа будет полезна практикам табличного DL и AutoML, выбирающим стратегию адаптации под конкретные данные, и исследователям, изучающим механизмы in-context-обучения в табличных моделях.

статья | код
🔥53