Борис опять
15.1K subscribers
1.44K photos
72 videos
30 files
1.48K links
life = curiosity + irreducible noise

Whois: https://t.iss.one/boris_again/3400

Лс: @btseytlin
Download Telegram
## “IT”: 7/7

I saw a lab. It had tables in it with deformed men. Vats. Organs in containers. Robots working non-stop. Metal and flesh mixed.

Now I know. I think I know. Robots are hard to maintain, they need energy and precious metals. But an organic creature, genetically engineered to be the perfect workforce, entirely loyal, self-reproducing? You just need to feed it plants and water it.

It has a fate worse than death prepared for me. I am the prototype.
🔥61👍1
Под эту тему завел себе Substack:
https://borisagain.substack.com/p/it

В телеграме неудобно делать большие тексты, а иногда хочется.

Там сейчас ничего нет, но, если вы подпишитесь, с некоторой вероятностью появится. Например, я давно вынашиваю пост про интуитивное понимание нормального распределения: как происходит переход от понятных распределений про монетки к какой-то странной штуке с 1/2pi и экспонентной от какого-то отрицательного числа.

Подпишитесь если хочется меня поблагодарить/замотивировать 🥺👉👈
14
Forwarded from partially unsupervised
Предсказание: в ближайшие пару лет Rust наконец-то пойдет в массы.

Rust уже давно был в странной позиции самого любимого языка, на котором пишут в основном пет-проекты и редкие системы с повышенными требованиями к безопасности (читай веб3 и криптографию). Порог входа относительно высокий, разработчиков на рынке мало - нужно быть довольно рисковым, чтобы стартовать новый проект на нем. Но кажется, что для него есть еще две созревшие ниши:
1) очевидная - язык для dev-инструментов,
2) неочевидная - быть вторым языком в проекте.

Эти две ниши хорошо сочетаются.

Rust хорошо интегрируется с двумя самыми популярными языками современности: c Python через maturin, с JS через WebAssembly. Я не знаком с миром JS, видел краем глаза пару примеров дев-тулов на расте. В Python тусовке знаю больше: набирающий популярность линтер, два популярных токенайзера
(второй используют OpenAI!), новая версия валидатора pydantic. Уверен, что в течение пары лет появится популярный Python веб-фреймворк типа FastAPI/Starlite с ядром, написанным на расте.

И тут я наконец вверну кусок про LLM. У нас на работе Rust уже давно использовался именно как второй язык бэкенда, для ускорения узких мест, и за день перед отпуском (не начинать же Большую Задачу) в обучающих целях я решил слегка ускорить кусок препроцессинга. Нашел профайлером пару относительно медленных функций, скормил их в GPT-4, получил аналог на расте, поправил пару мест, повозился с интеграцией, получил комментарий на ревью от человека, который, в отличие от меня, на расте писать умеет, починил, смержил. Короче, оно уже в проде (люблю запах деплоя пятничными вечерами!), экономит 1 ms на запрос (в масштабах тысяч RPS имеет некоторый смысл), а ведь я даже учебник по расту не дочитал.

В мире JS уже есть даже специальные курсы типа Rust for JS devs. Думаю, автор учебника Rust for Python developers будет крайне успешен. Если кто-то из читателей хочет этим заняться, но не знает, как начать, пишите - поделюсь опытом работы с издательством.
👍152
Украдено у: @YallenGusev
😁32
#обзор_статьи
# Not Really: “ChatGPT Outperforms Crowd-Workers For Text-Annotation Tasks”

Недавно на arxiv появилась статья, где утверждается, что ChatGPT круче людей на задачах разметки текста. Как человек, работавший в рисерче Толоки, я изначально отнесся к ней с большим скепсисом. И был прав. Легендарная по своей хреновости статья.

Саммари:
* Исследователи не из ML
* Взяли ноунейм датасет из 2382 твитов на тему модерации контента, который собрали и разметили руками (руками ровно двух студентов), но не опубликовали. Изначально было 3000 твитов, но они отсеяли те, где два студента не совпали в лейблах.
* Четыре задачи: определение релевантности твита теме, определение отношения к Section 230 (закон о том, что сайты не несут ответственности за контент, запосченный пользователями), выделение темы, определение фрейма
* Размечают датасет ChatGPT и крауд разметчиками с MTurk
* Для ChatGPT делают два набора разметки. Далее повторяют и делают еще два набора с другой настройкой температуры.
* Для MTurk отбирают только разметчиков с высоким рейтингом. Каждое задание размечают два крауд воркера.
* Меряют accuracy и intercoder agreement. Accuracy считается как доля корректных ответов относительно ручных лейблов. Вторая метрика это согласованность, которая не смотрит на ручные лейблы: чем чаще разметчики совпадают в ответах на одно задание, тем выше метрика.
* Приводят график, что у ChatGPT accuracy лучше, чем у людей, на всех задачах кроме одной. Intercoder agreement у модели лучше на всех задачах с большим отрывом.

## Проблемы
Вся эта статья одна большая проблема, но пройдемся по конкретике.

1. Конечно согласованность ChatGPT с самой собой выше, чем согласованность между двумя разными людьми. Два разных лейбла от разных людей даже несут больше информации, чем два одинаковых лейбла от модели. Если бы посчитали согласованность одного разметчика с самим собой, то было бы не меньше, чем у ChatGPT с самой собой. Кто вообще придумал приводить это как метрику качества? Это манипуляции на грани мошенничества: выглядит важно, на самом деле полная чушь.
2. Исследователи идут дальше и считают Accuracy для задачи многоклассовой классификации. При этом в одной из задач я насчитал 15 классов. Вам двойка по предмету ML 101, давайте дневник и маму в школу.
3. Как они вообще посчитали accuracy имя ответы только двух разметчиков на каждое задание? Пусть у нас задача проще: размечаем картинки на кошек и собак. Делаем как авторы и берем двух разметчиков. На первую картинку один говорит “кошка”, а другой “собака”. Какой лейбл будем сравнивать с настоящим? Да никакой, потому что нельзя сделать majority vote для двух ответов. Как авторы считали свои метрики остается загадкой.

UPD: разобравшись стало ясно, что считают accuracy для каждого разметчика отдельно, а потом усредняют. Это странно, так не делают, но наверное для целей исследователей можно.
4. Не приводят стоимость крауд аннотаций, но утверждают, что ChatGPT дешевле.
5. Не приводят баланс классов в датасете или какой-либо другой информации. Плюс не приводят confidence interval для метрик. Ничего вообще не приводят кроме результатов. SUS
6. Загадочным образом люди победили ChatGPT по accuracy на одной задаче из шести. Эта задача: определение темы. При этом на задаче попроще (релевантность) и задаче посложнее (определение фрейма) они проиграли. Авторы не объясняют эту нестыковку.
7. Датасет очень маленький и собран самими авторами. Как минимум сложно верить в репрезентативность результата.

ChatGPT действительно крутая штука для текстовых задач. Обходит ли она людей? Мы не знаем, и эта статья точно этого не демонстрирует.
👍1914
Тем не менее надо сказать, что ChatGPT действительно может заменить людей в части текстовых задач, которые традиционно решаются краудом. Например, простую модерацию. Стоимость действительно сопоставима с платформами разметки данных, а трудность настройки ниже. Если же вам нужно тренировать модель, то лучше прибегнуть к разметке людьми. Если вы не планируете дистиллировать ChatGPT конечно.

Ожидаю, что в дата лейблинге станет популярна такая тема:
1. Генерируем много ответов ChatGPT
2. Нанимаем умелых разметчиков верифицировать ответы
Это уже сейчас так работает, но на первом этапе используются люди, так что переход органичный.
👍12
#лабораторный_журнал

С джуном сейчас тяжело. Запуск на носу. Пока он несколько дней пишет один скрипт я тестирую наш проект, нахожу проблему, решаю, обнаруживаю в проблему в решении, делаю патч, понимаю, что надо все немного поменять и переделываю. Даже держать его в курсе изменений очень тяжело и по всей видимости бесполезно. По-хорошему надо бы делать это все в режиме парного программирования с ним, чтобы он мог впитывать. Но тогда мы бы двигались со скоростью улитки, а запуск ведь на носу. Мы уже за датой, когда обещали запустить проект. Да и просто очень влом: хочется все поправить и получить удовлетворение от проекта, который делает наконец бррр.

Прогресс есть: джун стал понимать о чем речь, выдавать умные мысли и дельные предложения. Но я все еще не могу на него положиться. Делает слишком медленно и всегда находятся проблемы в решении, иногда критичные. Например, сейчас делает скрипт, чтобы просто переместить кучу старых файлов из одного S3 бакета в другой. Сначала сделал скрипт, который съедал бы эксепшены, то есть в теории мог бы оставить систему в непонятном состоянии. Это исправили и оказалось, что скрипт слишком медленный. Теперь идет новая итерация.

Я надеюсь на то, что после запуска смогу запрячь его делать пайплайны для сбора данных. Тогда ему будет чем заняться несложным, полезным и несрочным.

В целом же наши отношения потеплели. Больше всего помогают регулярные 1х1, которые мы теперь проводим гуляя по природе вокруг офиса. К тому же его синдром самозванца поубавился: видимо спустя месяцы он поверил, что его не уволят через пару дней. Да и в целом понял, что я не кусаюсь, а просто неопытный менеджер.

Забавный факт: для команды сейчас проводится технический коучинг. Внешний специалист учит писать тесты, рефакторить код, думать об архитектуре. Действительно хорошо учит. Я во многом несогласен, но мотаю на ус. В основном это делается для джунов. Так вот в этом процессе мой джун самый активный и показывает больше всех смекалки.
👍6213😢11
#искусственный_интеллект

На днях Элизер Юдковский опубликовался в Тайм с текстом о том, что люди недооценивают угрозу AI и что прогресс в AI Safety отстает от прогресса в AI Development на 30 лет или более. В конце статьи Юдковский пишет, что по его мнению мы катимся в пропасть и остановить это можно только полным запретом на разработку больших текстовых моделей. Вплоть до готовности бомбить датацентры авиаударами.

Если вы ничего не знаете про вопрос опасности ИИ, то в первой части статьи Элизер приводит краткое введение почему по его мнению ИИ скорее всего опасен. Там же ответы на типичные контраргументы. Хорошее чтиво, если вы ничего не знаете про AI Risk.

Никогда не думал, что увижу в Таймс Тайм (хех, я перепутал) статью про AI Safety, тем более от Юдковского. Произошел прорыв пузыря, что внушает мне надежду, что проблема будет воспринята серьезнее. С другой стороны все восприняли призывы бомбить датацентры как истеричные (и их можно понять), что явно не помогает нормализации обсуждений рисков ИИ. Я лично понял посыл так, что Элизер пытается подчеркнуть, насколько мало делается в направлении безопасности AI и насколько много надо сделать, чтобы снизить риски.

Все цитируют пассажи про бомбежки датацентров, но я бы лучше обратил внимание на этот: “If we held anything in the nascent field of Artificial General Intelligence to the lesser standards of engineering rigor that apply to a bridge meant to carry a couple of thousand cars, the entire field would be shut down tomorrow.”

Если же текст согласуется с вашими убеждениями, то вам может быть интересно почитать самый сильный из известных мне аргумент против ИИ апокалипсиса: Why I Am Not (As Much Of) A Doomer (As Some People). Не волнуйтесь, там не будет “но люди когда-то боялись электротока и ничего, выжили!” и других изъезженных или слабых аргументов.
👍13😁2👎1
# Воспроизводим взрыв и затухание градиентов

Сделал коллаб про взрыв и затухание градиентов. Сначала вызываем проблемы захутания и взрыва, анализируем, в том числе с помощью Wandb, и наконец чиним. Материал для того, чтобы поиграться с практикой, а не изучать теорию.

https://colab.research.google.com/drive/1Sek-YbosXLIhOwpX4BNRdsHMo4j109d4?usp=sharing

Когда я что-то изучаю мне нравится делать прототип-демонстрацию. Взять и вызвать взрыв градиентов, а затем попытаться починить. Я провел много маленьких экспериментов, так как мне надо было повторить эту тему. Теперь собрал материалы в один стройный коллаб, причесал и получилась этакая лабораторная работа.

Ставьте лайки, если материал нравится и хочется, чтобы я делал такое еще.
🔥128👍26
😁32👍6
В Anywhere Club опубликовали интервью со мной, немного присыпав кликбейтом заголовок. Внутри коротко про то, как устроены техничесике интервью. Будет полезно новичкам

https://aw.club/global/ru/blog/work/how-to-pass-a-technical-interview
🔥18👍53
Про петиции

История с петицией (https://t.iss.one/gonzo_ML/1444) как-то заметно поляризовала общество. Выход статьи Юдковского (https://t.iss.one/gonzo_ML/1441) добавил масла в огонь, особенно его пассажи про бомбардировку датацентров.

По моему ощущению от того, что я вижу вокруг, сторонников петиции (той, которая про сделать паузу на 6 месяцев) сильно меньше, чем противников. Аргументация противников, которую я чаще всего наблюдаю, при этом сосредоточивается вокруг утверждений, которые я бы сгруппировал в такие кучки:

1)
- Прогресс не остановить
- Это придумали конкуренты OpenAI
- Китай ждать не будет

2)
- Бояться надо не AI, а людей.
- У GPT нет сознания, воли, стремлений, агентности, поэтому бояться нечего
- GPT-4 безумно далека от порабощения мира потому что она ничего не понимает, совершает глупые ошибки, и вообще тупая
- GPT-4 не сможет поработать мир потому что у неё нет ручек/ножек

3)
- Третья кучка обычно связана с переходом на личности в духе, что те, кто опасается, ничего в технологиях не понимают.

Кажется, из больших кучек это всё. Добавьте, если я что-то упустил, обновлю пост.

Хочу добавить свои пять копеек к этим разговорам.

Хочется сразу выкинуть третью кучку, потому что, во-первых, она не по сути (было бы по сути, были бы конкретные претензии не к людям), а во-вторых ну тот же Юдковский настолько глубже большинства в этой теме, что даже не знаю как это серьёзно можно обсуждать. Что конечно не отменяет, что есть люди и непонимающие тоже, но они есть с обеих сторон.

Про первую кучку и неостановимость прогресса в силу разных причин. Содержание у перечисленных тезисов несколько разное, но, кажется, что в пределе все эти тезисы как минимум не отрицают способности и перспективы текущих подходов к AI.

Первый тезис про неостановимость прогресса -- это имхо просто лозунг, не обязанный быть правдой. Какие-то биологические эксперименты люди вроде как остановили, а сколько ещё прогресса в прошлом было остановлено инквизицией, сжиганием книг и убийствами учёных в Китае, или просто какими-то иными причинами, связанными с конкретными людьми (умер, влюбился, муза/музык улетел/а, отвлекли, …), мы и близко не знаем, ибо survivorship bias.

Другие тезисы про то, что надо просто бежать дальше, потому что “если не мы, то они”, более понятные, и я сходу не знаю какое правильное решение этой проблемы, но это всё очень походе на дилемму заключённого и теория игр знает, что делать, и видимо нужна какая-то критическая масса здравомыслящих людей в разных местах, чтобы такие проблемы решались. В современном мире многое вызывает сомнения относительно наделённости всех мест достаточным количеством таких людей.

Вторая кучка самая интересная, и я с ней по фактам даже согласен, но есть несколько но.

Да, нет сознания, воли, агентности и вот этого всего. Ну нет, но можно придумать кучу сценариев, когда такая штука делает своё дело и перечисленные атрибуты ей для этого не нужны. У коронавируса тоже ничего из этого нет, и у более опасных вирусов тоже, но можно представить, что какой-нибудь вирус потенциально выкосит всю популяцию. И не надо апеллировать к тому, что вирус не sustainable, если он выкашивает популяцию и ему негде дальше себя поддерживать, он не обязан быть sustainable, и так же может исчезнуть с лица Земли по завершению этой оказии.
👍13👎4🔥3
https://today.yougov.com/topics/technology/survey-results/daily/2023/04/03/ad825/3

Интересно: я бы предполагал, что разделение будет близко к 90% и 10% не в пользу позиции “AI bad"
😁66🔥6
#ml_digest
# ML дайджест: начало апреля

https://borisagain.substack.com/p/ml-digest-april-i

Не знаю как у вас, но лично у меня голова взрывается в попытках следить за происходящим в ML и AI. Каждый день выходит новая вундервафля, но большая часть из них забывается через пару дней. Было бы клево вместо обрывочных релизов читать выжимку самого важного, что произошло за две недели или месяц. Вероятно я такой не один. Поэтому пробую новый формат: дайджест нового в ML и ИИ.

Предлагаю вам первую пробную версию дайджеста, покрывающую первые недели апреля. Следующие будут выходить каждые две недели.

Если такая штука была бы вам полезна, то ставьте лайки / подписывайтесь на substack.
👍1016👎1🔥1
Кстати, из дайджеста.

Предлагаю сравнить позиции OpenAI и Anthropic по AI Safety.
OpenAI: https://openai.com/blog/our-approach-to-ai-safety
Anthroic: https://www.anthropic.com/index/core-views-on-ai-safety

Заметьте кто льет больше воды, дает меньше специфики и и в целом не особо потрудился раскрыть свою позицию. Явно видно кто больше беспокоится о безопасности своих решений.
6
#лонгрид
https://borisagain.substack.com/p/understanding-the-normal-distribution

Мой первый лонгрид: как по-настоящему понять Нормальное распределение.

Внутри:
* Разбираем каждый кусочек формулы PDF до тех пор, пока не получится объяснить “на пальцах" зачем он нужен.
* Исследуем связь между Биномиальным и Нормальным распределениями. Я стараюсь показать, что про Нормальное тоже можно думать через интуитивно понятные вещи как монетки, шары и прочее.
* Рассматриваем основные этапы вывода Нормального распределения.

@boris_again
🔥46👍65👎1