Boris Burkov
994 subscribers
706 photos
33 videos
2 files
803 links
Download Telegram
Forwarded from Жирные коты
В Швейцарии на 89 году жизни скончался Дмитрий Зимин, основатель «Билайна» и Фонда «Династия». @fatcat18
Завтра 24 декабря в 18:00 делаю большой разбор DeepMind AlphaFold2 в Сберлоге с позиции ML-инженерии. Ссылка на Zoom появится в группе незадолго до начала семинара.

AlphaFold2 - это коктейль из примерно 20 достаточно свежих инженерных идей, собранных воедино в короткие сроки небольшим НИИ.

Доклад сделан на основе детального разбора статьи и supplementary materials с эпизодическими нырками в исходный код. Также коротко расскажу про работы, из которых AlphaFold2 почерпнул основные идеи.

Уровень входа достаточно демократичный, студент 2-3 курса должен потянуть, но бэкграунд в машинном обучении и/или биоинформатике крайне желателен. Дам вводную по предментной области, объясню постановку и значимость задачи, коротко расскажу про базовый механизм внимания и трансформеры, и далее буду разбирать содержательно целеполагание и принцип действия каждой подсистемы, плюс, отдельно остановлюсь на чисто инженерных приемчиках, использованных здесь, которыми можно и нужно пользоваться и в других задачах.

Содержание доклада:
* Problem statement and principle of operation
* Data flow
* Sequence data: Uniprot, Mgnify; software: HMMER
* Structure data: PDB; software: HHpred, OpenMM
* Evoformer: MSA embeddings and pair distances iterative refinement
* Structure module: 3D structure from a sequence in MSA embedding
* Evoformer: MSA embeddings and pair distances refinement
* Attention mechanism
* Criss-cross (axial) attention
* Row-wise gated self-attention, augmented with pair distances information
* Column-wise gated self-attention
* Pair distances update from MSA embedding through outer product
* Triangle multiplicative update
* Triangle attention
* Structure module
* Invariant-point attention (IPA), SE(3)-equivariance
* Refinement/recycling
* Self-distillation
* Loss function(s): FAPE and auxiliary losses
* Training protocol and ablations
Через несколько минут начинаем разбирать AlphaFold2.
А пока вы отвлеклись на Новый Год, борьба за “суверенный интернет” вошла в решающую фазу. Путин руками РКН приучает интернет-гигантов Google и Facebook к простым командам типа “служить” и “к ноге”.

Разумеется, все делается исключительно из гуманистических соображения - для борьбы с антиваксерами и синим китом, а не мы все знаем зачем.

Интернетчикам объясняют, что либо они будут сотрудничать и по звонку оперативно убирать контент, либо на российском рынке их место займет отечественный производитель - живем же без LinkedIn и Twitter.

Гугл для начала заплатит $100 миллионов - чувствительные 3% из своей российской годовой выручки в $3 миллиарда. По “закону” можно отобрать не более $300 миллионов, но какие проблемы переписать закон? “Кто контролирует спайс (или, в данном случае, конечных потребителей), тот контролирует Вселенную.”

В мечтах я представляю, как Гугл в ответ просто повышает тарифы в РФ на 3%, переложив штраф на плечи российских потребителей - это будет показательный плевок в наше первое лицо. Все-таки прогибаться в Китае - это одно, а “Нигерия в снегах” для Сергея Брина вроде бы не чужая.

И все же подобное приведет к гарантированному изгнанию с российского рынка, такое принципиальное решение могут принять только владельцы компании. А им оперативное управление давно опостылело.

Поэтому гораздо больше верится в то, что внутри Гугла вопрос спустят на мелких трусливых топ-менеджеров, а те из карьерных соображений предпочтут “не ссориться”, попытаются отделываться полумерами, динамить, спускать на тормозах и поменьше отсвечивать. Но так шаг за шагом лет за 5-10 Гугл ссучится до типичной российской компании “вне политики”, управляемой по звонку из администрации президента. Скорее всего, это и случится.
Опубликовал материалы доклада с разбором DeepMind AlphaFold2 в виде длинного блог-поста.
Да что ж за ударный Новый Год-то такой? Только пережили log4shell, и вот опять.

Собянинский ДИТ забыл убрать .git из раздаваемых апачем файлов, в итоге исходники всей ЕСИА (аутентификации на Госуслугах) и самих Госуслуг благополучно утекли в сеть. С сертификатами, все как мы любим.

Одно радует - через ЕСИА организовывали вбросы-переголосования на прошедших ДЭГ в Думу. Ребята уже ковыряют, посмотрим, что найдется.

P.S. А помните, 22 декабря прошла новость, что с 2022 в Госуслугах включат двухфаторную аутентификацию по умолчанию для всех? Я вот теперь думаю: с чего бы это?

Лучше на всякий случай сменить пароль и включить двухфакторную аутентификацию уже сейчас.
С юности у меня в мышечной памяти остались несколько десятков вещей, которые не на чем было записать. Решил вынуть кое-что, нечего добру пропадать. Увы, в отличие от предобученной нейронки, дообучение которой дешево, довести вещь от состояния “более-менее готово” до состояния “готово” - это часов 30 работы. Не уверен, что в 2022 они будут появляться, но пока вот.

Сыграю кое-что из Chrono Trigger - одного из лучших саундтреков из видео-игр, написанного в 1995 22-летним программистом по звуку Yasounori Mitsuda в компании Square.

Блестящие фортепианные арранжировки его музыки в конце 2000-ых начал выкладывать на только что появившийся Youtube пользователь под ником Zohar002, имени которого до сих пор никто не знает, хотя для музыкантов-миллениалов он стал классиком. Когда открывается какой-нибудь очередной хостинг для нот, первое, что на нем обычно появляется - это арранжировки Chrono Trigger от Zohar’а (и Final Fantasy Piano Collections).

10 лет назад после Фукусимы он совсем пропал (писал, что жив, но пострадал в материальном плане). Пару лет назад фанаты смогли разыскать его страницу в соцсетях среди множества лжедмитриев-подражателей, где Zohar в районе 2015 писал, что он жив-здоров и работает на какую-то корпорацию в Токио. К музыке с тех пор он так и не вернулся. Но его наследие живет, и каждый год появляются все новые исполнения. Вот еще одно.

Всех с Наступающим!

Ноты:
Yasounori Mitsuda, Zohar002 - Secret of the Forest 1
Yasounori Mitsuda, Zohar002 - Secret of the Forest 2
Skynet-2022 или с Новым Годом!

Вчера обсуждал с товарищем Github Copilot. Ратовал за прогресс, так сказать, а он меня попросил потестировать написанное им аппаратное ускорение шифрования под мою архитектуру процессора.

Ну и вот сижу я, никого не трогаю, компилирую эту ускорялку. Внезапно меня триггерит уведомление, что какой-то пользователь в коммите добавляет меня в список мейнтейнеров своего репозитория. Я лезу смотреть, что за коммит и что за репозиторий, вижу там некого Виктора Кузнецова (а я знаю минимум двоих), и какую-то бешеную мешанину из кода на C и комментариев про javascript.

Лезу смотреть репозиторий - он выглядит как гигантская кодовая база какого-то компилятора по типу GCC с десятками тысяч коммитов. Однако если посмотреть на коммиты, они все содержат только добавление и удаление каких-то псевдоосмысленных комментариев. Более того, каждую минуту число коммитов растет где-то на тысячу.

Думаю: бот-зловред? Вроде бы не похож.

Похоже, комментарии в этом репоизтории просто генерит какая-то нейронка, которая обучилась на гитхабе, выучила коммит, где меня добавляют в мейнтейнеры, и воспроизвела его.

Представляю теперь, каково будет какому-нибудь Синдре Сорхусу, если Copilot или JetBrains-Сберовский Jarvis начнут генерить код с такими вот упоминаниями его в бесконечных количествах. Вот так прогресс!
Forwarded from Boris A. Burkov
Все что вы хотели знать об официальных данных по инфляции доллара, которая, якобы, 7% за 2021 (при росте денежной массы за пандемию в 40%!).

Американская компания DollarTree, ранее известная как “Only $1.00”, и работавшая по бизнес-модели “все за $1”, в сентябре-ноябре 2021 объявила, что планирует сделать “все за $1.25 а кое-что - за $1.5”.

Опасно привязывать бренд к фиатной валюте. Потом переименовываться в DollarAndAQuarterTree денег не хватит.
“Покупай, когда на улицах льется кровь, даже если эта кровь - твоя.”

Ох, давненько завет барона Ротшильда не был так близок к буквальному воплощению. Очень надеюсь, что до реальной крови все-таки дело не дойдет, а нынешние уровни российского рынка в сочетании с ожидаемым многолетним максимумом ключевой ставки, который, вероятно, наступит 11 февраля, выглядят как один из лучших инвестиционных “верняков” за последние год-два. Это мое субъективное мнение, не является инвестиционной рекомендацией и т.д. и т.п.
“Я такая пост-пост, я такая мета-мета.”

А пока на одном конце света российские войска входят в Белоруссию, вызывая новый обвал на финансовых рынках, на другом его конце продолжается NFT-истерия.

Состояние экосистемы web 3.0 вызывает большие вопросы (отсылаю к экспериментам Мокси из Signal и критике Proof of Stake как нерабочего механизма византийского консенсуса), но тут я услышал настолько изящную историю, что просто не мог пройти мимо.

Стартап Burnt Finance на днях привлек очередной раунд финансирования на $8M. Он замечателен эпатажной стратегией, использованной для привлечения к себе внимания: они купили оригинал картины Бэнкси “Кретины” (“Morons”), на котором изображены участники аукциона Christie’s, готовые за безумные деньги купить картину с надписью “I can’t believe you morons actually buy this.", сделали цифровые копии этой картины и выпустили NFT-токены под них, а потом сожгли оригинал картины в прямом эфире. Тайлер Дерден бы одобрил - к IPO ждем сожжения Мона-Лизы.
Игорь Сысоев официально закончил с Nginx. Видимо, это повод еще раз подвести итоги.

Итак, спустя 20 лет все, что осталось от Рамблера кроме неприятных воспоминаний для всех причастных - это сайд-проекты, которые достаточно случайно к нему прилипли - Nginx, Lenta.ru, Gazeta.ru, Championat.ru и Okko. Останки Рамблера в итоге были выкуплены Сбером за сумму порядка $100M, в основном ради толково написанного Okko.

В то же время cтратегический инвестор F5 Networks, которому несколько лет назад отошел Nginx, вошел в S&P 500 с капитализацией $13.5B (то есть на 2 порядка дороже) и стабильно растет в последние 10-20 лет. В том числе благодаря самому популярному в мире веб-серверу Nginx.

Таких людей, как Сысоев на свете достаточно много, я их люблю и ценю, но их беспечность меня все-таки удивляют. Требуется очень своеобразный склад ума, чтобы вот так уйти куда глаза глядят и посвятить главные 20 лет жизни с 2002 по 2022 одному-единственному опен-сорс проекту, включая 7-10 лет, когда Игорь тащил Nginx “в одно лицо”.

Мне не так давно случалось чуть-чуть поковыряться в его исходниках. Никогда бы не подумал, что подобное нужно будет вытворять в кровавом ынтырпрайзе, но как-то в Сбере мне пришлось перекомпилировать Nginx, чтобы добавить в нем поддержку устаревшей пробитой версии SSLv3.

Мы интегрировались с легаси-системой, которая не могла в TLS, и мне пришлось поставить Nginx с SSLv3 перед HAProxy OpenShift’а, на котором было развернуто наше приложение, чтобы два робота смогли поговорить по пробитому устаревшему протоколу шифрования.

Если вы считаете, что это идиотское костыльное решение и непроизводительная трата рабочего времени, могу только сказать, что впоследствии выяснилось, что основная команда облачных инженеров Сбера, поддерживавшая OpenShift и централизованно внедрявшая Service Mesh на базе Istio на весь банк, независимо решила эту проблему ровно так же, как и я.

Так вот, судя по исходникам, несмотря на миллиардные капитализации, Nginx в последние 10 лет все так же тащит почти что в одно лицо преемник Игоря, Максим Доунин. Треть всего мирового http(s)-траффика держится на его плечах.

“The quiet ones are the ones, who change the universe. The loud ones only take credit.”
Опубликовал пост с моими экспериментами по составлению диверсифицированного портфеля акций западных компаний из S&P 500 с помощью Modern Portfolio Theory.

Суть: если мы консервативные инвесторы и какую-то часть своих сбережений хотим не столько преумножить, сколько сохранить, то нести их в банк или покупать на них облигации в условиях, когда денежная масса растет на 10-20% в год бессмысленно, потому что даже если мы получаем 3% дохода по купонам с каких-нибудь treasuries в лучшие годы, само тело нашей облигации/депозита обесценивается на эти самые 10-20% в год за счет роста денежной массы. Поэтому нужно покупать собственность, и самый удобный и традиционный способ это сделать - набрать портфель из акций.

Однако, мы хотим, чтобы цена этого портфеля вела себя максимально предсказуемо, как будто это банковский вклад. Так мы в любой момент сможем его продать и получить живые деньги на руки - мало ли что может в жизни случиться. Обычно чем портфель более предсказуем, тем он менее доходен. Поэтому мы должны выбрать какой-то баланс между дисперсией стоимости портфеля и его ожидаемой доходностью.

Кроме того, обычно вкладывая в компании с западных бирж, мы выбираем баланс между инструментами инвестирования “с кандачка”. Как понять, хотите вы купить 2 акции Амазон и 1 Nvidia или наоборот? Можно, конечно, купить индекс и не мучиться, но индекс не позволяет продать подешевевшую часть портфеля в конце года, зафиксировать убыток и таким образом законным путем уклониться от налогов на дивиденды. Кроме того, мы можем подобрать портфель, который будет иметь ожидаемую дисперсию меньше индекса (или, наоборот, ожидаемую доходность больше).

В довершение ко всему мы хотим, чтобы наш портфель был разреженным, то есть чтобы в нем были не все 500 компаний из S&P 500, а только какое-то небольшое подмножество, и здесь нам поможет L1-регуляризация. Вообще, математически данная задача сводится к условной минимизации квадратичной формы с линейными ограничениями в виде равенств+неравенств, что решается с помощью того же квадратичного программирования, которое используется в lasso-регрессии или SVM и приводит к разреженным решениям, что очень полезно.

Даже в моих полуигрушечных экспериментах с черновыми данными получается рабочий результат, хотя лучше все-таки допилить дата-инженерную часть, чтобы существенно повысить качество предсказания. Вот такое элементарное составление портфеля для Individual Savings Accounts (ISA, прототип наших ИИС) HSBC продает как целую финансовую услугу, раздавая клиентам красивые проспекты с различающимися по риску/прибыли портфелями и т.п. А научиться это делать самостоятельно запросто может за пару недель второкурсник околоматематического факультета.