Boris Burkov
989 subscribers
702 photos
33 videos
2 files
802 links
Download Telegram
Bloomberg пишет, что Evergrande произвела два из трёх просроченных платежа по своим облигациям.

Предыдущая новость, которую мы разместили в канале, это, похоже, пустое. Немецкое скрининговое агентство DSMA попыталось таким образом пропиариться.

Сага с Evergrande и китайскими девелоперами продолжается. Риски большие. И с этой стороны может ещё сильно прилететь…

https://www.bloomberg.com/news/articles/2021-11-10/evergrande-said-to-pay-delayed-interest-on-at-least-two-bonds?srnd=premium-europe
Закончился научный день на AI Journey, и я в полном восторге от доклада Ветрова, который по-моему абсолютно интуитивно объяснил двойной спуск, и теперь кажется, что это было почти очевидно.

Что такое двойной спуск вообще? Есть классическая теория машинного обучения, согласно которой с ростом числа параметров модель сначала модель учится, а потом переобучается.

Это как если вы учитесь водить и прорешиваете билеты к экзамену по теории. Если вы прорешаете 50 билетов, то с каждым следующим вы все лучше усваиваете правила дорожного движения, и когда вам дадут новый билет совершенно нового образца, вы его решите лучше, если прорешали 50 билетов, чем если прорешали 40.

Но если вы просмотрели те же 50 билетов 500 раз, вы уже учитесь не правилам дорожного движения, а зазубриваете все билеты и привыкаете в формату экзамена. Если вам дать билет нового формата, вы прорешав обучающие билеты 500 раз справитесь хуже, чем прорешав 50, потому что вы просто их запомнили, а правила уже забыли.
Этот режим описывается левой картинкой выше.

Так вот, для очень жирных нейронок в конце 2010-ых выяснилось, что эта логика почему-то не работает. У них наблюдается двойной спуск. Году в 2018 многие стали замечать, что лучший результат для толстых нейронок достигается, если поставить ее учиться надолго. Она сначала обучится, потом переобучится, а потом снова обучится (правая картинка). Ссылаюсь на классические пост Карпатого, статью Белкина и статью Карпатого (по абсциссе может быть и число параметров, и число эпох обучения).

Этим загадочным явлением заинтересовался ряд машинистов по всему миру, в частности, группа Дмитрия Ветрова. И, кажется, с блеском его раздраконила.

Как мы знаем благодаря Рэдфорду Нилу с середины 90-ых, очень широкий слой нейронки аппроксимирует гауссовский процесс, который в свою является другим языком описания ядерной регрессии. Широченная нейронка вообще мало отличается от линейной модели с гигантским количеством предикторов.

Ядерная регрессия - это что такое? Это такой волшебный трюк, когда мы генерируем из конечного количества признаков бесконечное пространство их комбинаций. Например, мы хотим предсказать вес человека, зная предикторы - его рост и окружность талии. Интуитивно ясно, что вес примерно равен рост*(окружность талии)^2. Обычная линейная регрессия такую зависимость не найдет.

Поэтому используют ядра, которые генерируют нам из этих 2 базовых предикторов (талии и роста) бесконечное количество разных их комбинаций (например, всевозможные их степени, произведения и т.п.), и вот уже эти хитрые составные предикторы подаются на вход регрессии.

Поскольку предикторов бесконечное число, можно подобрать бесконечное же число способов описать конечное количество данных обучающей выборки ими. Это похоже на то, как Михаэль Шумахер в формуле-1 славился избыточной поворачиваемостью колес. Пока колеса можно поворачивать под самыми безумными углами, крутой гонщик может миллионом траекторий “обтечь” обучающую выборку и переобучиться.

Как же выбрать из всех возможных траекторий ту, которая лучше сработает на новых данных? Ответ - нужно брать ту, которая более гладкая - она обычно лучше опишет и новые данные. (ну, кроме того, если посмотреть со стороны линала и численных методов просто необходимо регуляризовывать сингулярную матрицу Грама, чтобы найти ее обратную, но это уже технические детали).
Поэтому в функцию потерь вносят второй компонент - регуляризацию, которая запрещает колесам поворачиваться под этими безумными углами, и как бы утяжеляет машину формулы-1, исключая резкие зигзаги. Функции, которые разрешено находить, становятся гораздо более гладкими, и получившаяся модель лучше обобщает.

Так получается, что функция потерь состоит из 2 компонент. Первая и более жирная компонента - это ошибка на тестовой обучающей выборке. Вторая компонента - это регуляризация весов.

И теперь ясно, почему перепараметризованные нейронки дают двойной спуск по времени. На первой фазе двойного спуска нейронка ищет любую функцию, которая идеально описывает данные. Довольно быстро приближается к ней и начинает переобучаться. А на второй фазе уже медленно и постепенно гуляя только по многообразию таких идеальных функций, находит ту из них, которая является наиболее гладкой.

Возможно, я спрямляю углы, поэтому лучше посмотреть доклад Ветрова (прошлогодняя версия), он с кучи других ракурсов изучил этот процесс.
Forwarded from Коммерсантъ
Путин поручил дать разработчикам ИИ доступ к базам обезличенных данных россиян

Президент России Владимир Путин поручил на законодательном уровне обеспечить российским разработчикам искусственного интеллекта, бизнесу и науке доступ к массивам обезличенных данных государства. По его словам, сейчас любая попытка установить монополию на данные ограничивает свободную конкуренцию.

«Прошу как можно быстрее принять законодательные решения, которые обеспечат доступ российских разработчиков искусственного интеллекта, научных организаций, бизнеса к массивам обезличенных данных государства, тем более что такие, выражаясь профессиональным сленгом, "дата-сеты" министерствами и ведомствами уже сформировывались», сказал господин Путин на международной конференции по искусственному интеллекту и анализу данных AI Journey 2021.
Вынужден признать, что мои посты про скорую смерть закона Мура отчасти некорректны: в каких-то смыслах он мертв с 2006 или 2011, а в каком-то - перешел в другое измерение и живее всех живых.

Дело в том, что когда маркетологи говорят, что чип произведен по техпроцессу 5 нм, это уже нельзя понимать буквально! Это значит, что плотность транзисторов на единицу площади такова, что если бы их делали плоскими, как прежде, то нужно было бы чтобы размер их затвора составлял 5 нм, чтобы добиться такой же плотности.

Смысл маркетингового понятия техпроцесса менялся с годами. Поначалу, с 1972 по 1995, маркетинговый техроцесс отражал длину затвора транзистора. С 1997 по 2009 Intel принялся немного прибедняться: транзистор, продававшийся под брендом 250 нм, имел гейт 200 нм и т.д. В районе техпроцесса 45 нм Intel довел размер затвора до минимума, 25 нм, и ±таким он и остался до техпроцесса 22 нм в 2011. С тех пор длина гейта превышает техпроцесс. В техпроцессе “10 нм” затвор имеет длину 20 нм, в “5 нм” - 10.
Просто транзисторы стали трехмерными. Начиная с техпроцесса 22 нм базовым строительным блоком являются не плоские транзисторы, а так называемые плавниковые полевые транзисторы (FinFET), а начиная с “2 нм” техпроцесса в 2024-2025 планируется переход на Gate-all-around FET (GAAFET).
В нынешних FinFET затвор окружает канал между source и drain благодаря трем плавникам, работающим как единое целое (см. видео). С тех пор в длину транзисторы уменьшились несильно, а в высоту - выросли.
Разные производители называют одним и тем же брендом, например, “5 нм” разные плотности транзисторов на единицу площади (см. сравнительную табличку википедии). Порядок величины таков, что на квадратный микрон поверхности сейчас помещается около 100-200 транзисторов. Источник картинки.
Таким образом, если что-то и угрожает жизни и здоровью дедушки Мура, то это скорее не физика с размером атома, а экономика.

До 2006 можно было просто каждые 2 года масштабировать точность фотолитографии в полтора раза, и получать двукратный прирост мощности, особо не заморачиваясь инженерными изысканиями. Когда же тактовая частота перестала расти, упершись в тепловыделение, эта бизнес-модель рухнула. Спасением стали многоядерные процессоры на плавниковых полевых транзисторах, но вот теперь и их эра подходит к концу.

Сейчас для каждого нового техпроцесса нужно проводить одноразовое R&D, и надеяться, что оно успеет “отбиться” за те несколько лет, что эти чипы будут продаваться. Расходы на строительство новых фабов также сильно выросли: одна только TSMC планирует истратить на строительство новых мощностей $100B в ближайшие 3 года.

Однако, человечество насколько плотно “подсело” на иглу полупроводникового прогресса, что мне не верится в то, что с нее можно слезть. Мур жил, Мур жив, Мур будет жить!
Умершего Александра Градского журналюги (кстати, это словечко придумал именно он) с НТВ окрестили “папой русского рока”. Я, как и многие, этот пафосный штамп ассоциирую с другим человеком.

Что заставило меня задуматься: Градский был единственным, кого я мог всерьез рассматривать в качестве какой-то альтернативы Валерию Кипелову как лучшему российскому певцу всех времен, но при всех своих немыслимых талантах он проигрывает последнему световой год.

Голос?
Градский, безусловно, обладал большей мощью голоса, чем Кипелов, выдавая в середине первой-начале второй октавы нечеловеческую плотность энергии. Ему приписывают диапазон в 3.5 октавы. Я смог найти только три - от си большой октавы внизу до нереальной си-бемоль второй октавы наверху, впрочем, взятой фальцетом (из нот спетых грудным голосом я нашел максимум ми-бемоль2, но охотно верю, что он мог и выше).

Кипелов как обычно скромничает, называя своим диапазоном всего 2 октавы - он точно свободно закрывает всю малую октаву внизу, выходит на пик в первой и в порядке выпендрежа систематически добирается в ряде песен до середины второй (фа#-соль2) настоящим грудным голосом.

Но мощь с диапазоном - не главное. Что с того, что голос Градского мог разрывать бокалы, если голос Кипелова может разрывать души? Градский тоже обладал большой выразительностью, но такого волшебства в его тембре не было.

Ум и общий культурный уровень?
Опять сравнение не в пользу бога металла. Градский несопоставимо умнее, что отражается на взглядах, текстах и ориентирах. Валерий Александрович происходит из гораздо более простой среды, и его огромная заслуга в том, что, он смог подняться на уровень настоящего искусства. Да и чтобы петь о душе ум - не главное.

Владение музыкальными инструментами?
Поищите, что творил Градский на своем двенадцатиструнном вестерне. Любительский баян Кипелова ни в какое сравнение не идет.

Композиторский талант?
Кипелов, не будучи основным композитором в Арии, все-таки создал лирические “Закат”, “Возьми мое сердце”, “Без тебя”, а затем в собственной группе - “Я свободен”, “Ночь в июле”, "Я здесь”, “На грани”, “Косово Поле”. Одних этих песен, вероятно, хватило бы, чтобы прославить автора. Достаточно сказать, что “Я свободен”, это - 4-ая по популярности песня в России вообще и 15-ый самый популярный стихотворный текст.

Градский был крайне производителен, он - автор музыки к 40 с лишним фильмам. Например, помните милые мультики вроде Принцессы и Людоеда и Голубого Щенка? Прославил его фильм “Романс о Влюбленных” (кроме того, в ряде фильмов он выступал как певец, вспомним ту же Артемьевскую “Песню о Корабле” из "Своего среди чужих…”). Он также написал несколько рок-опер и балетов. Послушайте, к примеру, “Stadium” - очень прилично. Однако его песни, на мой скромный взгляд, не очень, а крупные формы тяжеловаты для восприятия. Для большинства людей он навсегда останется лишь исполнителем “Как молоды мы были”.

Социальные навыки?
Кипелов - замкнутый и независимый человек, не любящий ни к кому ходить со своими инициативами. Можно по пальцам пересчитать, сколько раз он появлялся в телевизоре. Однако, медийное небытье не мешает ему собирать по всей стране стадионы одним своим голосом. Можно сказать, что толчком его карьере послужило то, что он оказался в одной группе с моторным администратором и производительным композитором Виталием Дубининым и другими активными гитаристам-сочинителями (в первую очередь, Владимиром Холстининым и Сергеем Мавриным), которые написали большую часть репертуара Арии.

Градский тоже был прекрасно знаком с этой компанией, Дубинин с Беркутом даже присутствуют в клипе рок-ателье (кстати, Дубинин с Мавриным неожиданно воссоединились после 35-летия “Арии” и на днях выпустили новую песню). В отличие от Кипелова, он был организатором, участвовал в огромном количество коллабораций. Часто появлялся в “ящике" - вспоминаются участие в телепрограммах вроде “Что? Где? Когда?” и “Голос”. В последние годы он вообще во-многом выполнял роль менеджера “Градский-центра", проталкивая отличных певцов вроде Шарипа Умханова или Андрея Лефлера.

Вывода у меня нет.
Log4Shell💣

Java, говорили они, надежный статически типизированный язык для ынтырпрайз-разработки, говорили они…

Первое, что вспомнилось - логирование в Кафке и Zookeeper’е, естественно, через log4j реализовано. А все современные платежные системы типа Stripe и Эвотор реализованы как думаете через что? Несовременные, впрочем, тоже на Яве. Шаг 1: вскрываем JBoss, шаг 2: вскрываем Кафку, шаг 3: кладем все платежи по всей стране. Ну и природа бага - чистейшая клоунада, конечно…

Одно хорошо - может, корпоративные дятлы, сидящие на Java 6 со своими IBM WebSphere и IBM MQ, все-таки обновятся наконец.

Притом обычно такие эксплойты выкатывают аккурат под елку, когда админы валяются пьяные. Вот как было с HashDoS в Руби в конце 2011, когда выяснилось, что разрешение коллизий хешей занимает сильно больше, чем O(N), и аккурат в Новый Год по всем Ruby-on-Rails сайтам началась DOS-бомбежка запросами со словарями в POST-параметрах, в которых хеши всех ключей давали коллизии, что бодро клало эти сайты.
💻🔧Уязвимость Log4Shell, обнаруженная в библиотеке Log4j, которая, в свою очередь, используется практически в каждом приложении Java, - угрожает многим российским игрокам из различных отраслей. Эксперты компаний, работающих в области информбезопасности, уже зафиксировали тысячи попыток взлома с помощью указанной уязвимости, в том числе успешные. В последнем случае хакеры закрепляются в инфраструктуре, чтобы затем красть деньги, распространять шифровальщики или майнить криптовалюту.

Открытая библиотека Log4j является очень популярной и могла использоваться в приложениях дистанционного банковского обслуживания, в интернет-магазинах, при разработке корпоративных порталов или любой форме обратной связи на сайтах компаний и др. Она применялась как при разработке программ для внутреннего пользования, так и в решениях, которые компании брали у сторонних разработчиков, и, как говорят эксперты, главная проблема сейчас заключается в том, чтобы выявить все программы, содержащих Log4j и обновить ее. Ранее компания LunaSec, которая развивает софт для защиты информации, сообщала в своем блоге, что среди пострадавших от Log4Shell облачные сервисы Apple и Steam, а также приложение Minecraft.7
Forwarded from Alex
1971: Бреттон-Вудс, Вьетнам, Никсон, Гувер, бой века ичисленная оптимизация

Физик Уильям Дэвидон известен как изобретатель первого квазиньютоновского метода численной оптимизации.

В середине 1950-ых он пытался оптимизировать некую функцию на древнем компьютере методом покоординатного спуска, и нестабильный компьютер все время “падал” раньше, чем покоординатный спуск успевал сойтись. Чтобы ускорить расчет, он придумал собственный алгоритм. Алгоритм породил ряд подобных, вроде двойственного ему (L)BFGS, но его не приняли к публикации, и он так и просуществовал в виде технической записки до 1991, когда Билл ушел на пенсию, а алгоритм, наконец, был опубликован в первом же номере SIAM Journal on Optimization.

Долго? Ничего, о другом своем важнейшем проекте Биллу пришлось молчать 42 года!

В 2013 году через несколько месяцев после разоблачений Сноудена и за несколько месяцев до смерти Билла выяснилось, что в 1971 году Уильям Дэвидон создал тайную группу под названием “Гражданская комиссия по расследованию деятельности ФБР”. Дэвидон спланировал взлом офиса ФБР в городке Медиа, штат Пенсильвания, который успешно осуществили участники его тайной организации.

К началу 1970-ых послевоенный миропорядок доживал свои последние дни. Бреттон-Вудская экономическая система рушилась, поражение США во Вьетнаме стало неизбежным, чернокожие американцы ценой огромных жертв отстаивали свое право считаться людьми, призрак коммунизма продолжал ужасать истеблишмент.

8 марта 1971 года состоялся величайший бой в истории бокса между Мохаммедом Али и Джо Фрейзером, победу в котором несправедливо отдали Джо, поскольку Али отказался воевать во Вьетнаме и отстаивал права черных, за что власти лишили его паспорта и права драться, приговорили к 5 годам тюрьмы и штрафу, а также всячески очерняли в СМИ, опасаясь, что он послужит примером гражданского неповиновения для других; так величайший боксер всех времен провел свои лучшие годы между 25 и 29 вне бокса.

Ночью, пока вся страна смотрела бой, участники “гражданской комиссии” проникли в офис ФБР и похитили документы, свидетельствовавшие о том, что всесильное ведомство Гувера с 1956 года вело программу COINTELPRO (“контрразведовательная программа”), в ходе которой осуществлялась тотальная слежка за любыми гражданскими и политическими активистами в США. Неугодных “нейтрализовывали” путем убийства, незаконных арестов, обвинений с привлечением лжесвидетелей, нападений, запугивания, очернения в прессе, внедрения провокаторов и т.д.

Ошарашивающие документы были переданы прессе. После долгих колебаний редакторы Washington Post и других газет осмелились их опубликовать (поступи они иначе в этот раз, позднее и Watergate’а бы не случилось).

Гувер был в ярости. Ранее за подобную попытку ограбления офиса ФБР другой группе вынесли приговоры на сроки около 2-3 лет, хотя обвинение запрашивало 38. В этот раз ФБР пригнало в этот район Филадельфии 150 агентов в штатском расследовать инцидент. Спецслужба пыталась запугать всех и каждого, в дома к филадельфийским журналистам врывались, вынося дверь топорами. По уникальным точкам, которые оставляют ксероксы на скопированных документах, пытались выяснить, на каком именно аппарате утекшие документы перепечатали.

Однако, благодаря тщательному планированию и строгому соблюдению секретности никто из участников “Гражданской комиссии по расследованию деятельности ФБР” не был пойман и арестован. Когда позднее за другую операцию по уничтожению списков воинского призыва двум участникам группы обвинение затребовало срок в 47 лет, присяжные, вдоволь натерпевшиеся произвола спецслужб, всех оправдали. В середине 1970-ых конгресс расследовал программу COINTELPRO, и серьезно ограничил полномочия ФБР.

Не поленитесь, посмотрите документальный фильм, приложенный к данному посту. После его просмотра я не уверен, который из двух главных подарков, оставленных миру Уильямом Дэвидоном, ценнее.
В январе должно случиться одно из самых важных событий за всю историю человечества.

На горизонте 10 лет оно может изменить структуру общества не меньше, чем отказ от золотого стандарта, схема секьюритизации Льюиса Раньери и изобретение блокчейна.

Я не про GPT-4, не про GAAFET-транзисторы и не про квантовый компьютер.

Центробанки вводят цифровые версии национальных валют.

С 1971 года и до сего момента в экономиках существовало 2 вида денег: фиатные деньги центробанков и цифровые деньги коммерческих банков, которые они создают из воздуха в момент выдачи кредита. Когда вам говорят, что эти цифровые деньги чем-то обеспечены - это, по большому счету, ерунда. Они “обеспечены” только уверенностью банка в том, что этот кредит вернут (а если банк будет слишком доверчив и слишком часто будет выдавать кредиты, которые будут плохо возвращать, это грозит ему потерей части собственного капитала и разорением; если же, наоборот, он будет слишком консервативен, то потенциальные заемщики просто уйдут к конкурентам; таким образом баланс страха и жадности на финансовых рынках приводит к сравнительно справедливым оценкам заемщиков и делает фиат “обеспеченным”).

И вот сейчас эта модель мира, прожившая ровно полвека, ломается.

Теперь появляется третий вид денег - безналичные деньги центробанков (технической реализации не знаю, будет ли это какой-то “МадамБрошкинаКойн”, основанный на permissioned-блокчейне, или просто какая-то отказоустойчивая шина транзакций типа Кафки - вопрос).

Два прямых последствия этого события очевидны.

Во-первых, это отнимает маржу у коммерческих банков, которую они раньше сдирали с населения ни за что. Переводы между физлицами? Бесплатно. Обмен валют по биржевому курсу? Бесплатно. Эквайринг? Бесплатно. Из рук коммерческих банков уплывает целый ряд ключевых источников дохода от обслуживания физлиц. А “Физики” - это около половины их дохода. Например, для Сбера - 45%.

Очень правильно будет, если ЦБ будет осуществлять демпинг по отношению к коммерческим банкам, срезая маржу с любых финансовых услуг, предлагая их государственный аналог по себестоимости (то есть более-менее бесплатно). Был бы рад, если бы рано или поздно следом за этим появились госкредит/депозит и госдоступ на мосбиржу для частников под ~нулевые комиссии.

Второе очевидное последствие еще важнее: это выбивает из рук частных банков контроль над персональными данными физиков. Вы впервые купили в магазине детское питание, заплатив картой/телефоном? СберМаркет тут же начал вас таргетировать памперсами и детским автокреслом, банк пересчитал стоимость кредита для вас с учетом изменения семейного положения, потребностей и перспектив на рынке труда, и то же самое сделали всевозможные СберNetflix, СберУбер и Сбер<все остальное>.

Вся эта драгоценная информация, позволяет ее обладателю зарабатывать на вас лучше, чем это делают наивные нишевые бизнесы, и потенциально выигрывать у них конкуренцию, даже проигрывая в качестве сервиса. Судя по недавним высказываниям, Эльвира Сахипзадовна и ко. осознали, что это слишком большая власть, чтобы оставлять ее корпоративным экосистемам.

А вот более отдаленные и косвенные последствия мне пока неочевидны, но точно будут. Если есть соображения - прошу в чат.
Печально. Один из самых достойных людей в России, среди обладавших большой властью и деньгами. Обычно наших богатеев ехидно называют “уважаемыми людьми”, вот так, в кавычках. Зимин - без кавычек.

Я боюсь, что очень многие активные творческие люди очень скоро почувствуют его отсутствие. Видимо, теперь Сергей Дмитриев из JetBrains перенимает эстафету самого достойного человека среди российских богачей.
Forwarded from Жирные коты
В Швейцарии на 89 году жизни скончался Дмитрий Зимин, основатель «Билайна» и Фонда «Династия». @fatcat18
Завтра 24 декабря в 18:00 делаю большой разбор DeepMind AlphaFold2 в Сберлоге с позиции ML-инженерии. Ссылка на Zoom появится в группе незадолго до начала семинара.

AlphaFold2 - это коктейль из примерно 20 достаточно свежих инженерных идей, собранных воедино в короткие сроки небольшим НИИ.

Доклад сделан на основе детального разбора статьи и supplementary materials с эпизодическими нырками в исходный код. Также коротко расскажу про работы, из которых AlphaFold2 почерпнул основные идеи.

Уровень входа достаточно демократичный, студент 2-3 курса должен потянуть, но бэкграунд в машинном обучении и/или биоинформатике крайне желателен. Дам вводную по предментной области, объясню постановку и значимость задачи, коротко расскажу про базовый механизм внимания и трансформеры, и далее буду разбирать содержательно целеполагание и принцип действия каждой подсистемы, плюс, отдельно остановлюсь на чисто инженерных приемчиках, использованных здесь, которыми можно и нужно пользоваться и в других задачах.

Содержание доклада:
* Problem statement and principle of operation
* Data flow
* Sequence data: Uniprot, Mgnify; software: HMMER
* Structure data: PDB; software: HHpred, OpenMM
* Evoformer: MSA embeddings and pair distances iterative refinement
* Structure module: 3D structure from a sequence in MSA embedding
* Evoformer: MSA embeddings and pair distances refinement
* Attention mechanism
* Criss-cross (axial) attention
* Row-wise gated self-attention, augmented with pair distances information
* Column-wise gated self-attention
* Pair distances update from MSA embedding through outer product
* Triangle multiplicative update
* Triangle attention
* Structure module
* Invariant-point attention (IPA), SE(3)-equivariance
* Refinement/recycling
* Self-distillation
* Loss function(s): FAPE and auxiliary losses
* Training protocol and ablations