Техножрица 👩‍💻👩‍🏫👩‍🔧

Техножрица 👩‍💻👩‍🏫👩‍🔧

Почему так сложно популярно рассказывать про алгебраическую топологию? (Часть 3).

Один из примеров - мостиков между аппаратом алгебраической топологии в высших размерностях и реальным миром можно усмотреть в такой концепции, как равновесие Нэша (по ссылке - видео с рассказом простым языком, что это такое). Оказывается, что доказательство существования равновесия Нэша для широкого класса игр опирается на теорему о неподвижной точке на n-мерной сфере , которая, в свою очередь, доказывается с помощью подсчета фундаментальной группы этой сферы. Правда, и здесь выходит загвоздка: если само равновесие Нэша можно понять без знания университетской математики, то доказательство существования этого равновесия и доказательство самой теоремы Брауэра можно понять только используя соответствующий математический аппарат, в чем можно убедиться, проследовав по двум последним ссылкам. 🤷‍♀️

Вот так и получается, что в алгебраической топологии происходит много всего интересного, а объяснить без сложной математики получается только ее крошечную часть, которая едва ли дает представление о богатстве этой науки. Можно сделать такое сравнение: пытаться показать, в чем прикол алгебраической топологии, пользуясь лишь повседневными терминами да двумерными рисунками - это все равно, что пытаться показать, в чем прикол небоскреба Бурдж-Халифа, пользуясь тремя камешками.
Конечно, можно положить три камешка друг на друга и сказать "Бурдж-Халифа - это очень высокое здание, в котором этажи построены друг над другом, так же, как я положила друг на друга эти камни". Но много ли особенностей удивительного здания раскроет это объяснение? Можно ли с помощью трех камешков изобразить длинные и массивные подземные сваи, на которых покоится небоскреб и объяснить, почему они нужны? Можно ли с их помощью показать, какие ухищрения придумывают во время строительства таких сверхвысоких домов и почему они получаются такими дорогими? Или показать на примере "башенки" из трех камешков, почему небоскребы делают не жесткими, а гибкими, позволяя им раскачиваться под порывами ветра, но они все равно не падают? Для таких объяснений понадобится явно больше инструментов и понятий, чем три камня.

Таково свойство самой области: основная часть алгебраической топологии уходит так же далеко от наглядных и привычных нам понятий, как башня Бурдж-Халифа - от поверхности земли, теряясь в утреннем тумане. Вдали от привычных нам повседневных образов и понятий, только очень точный математический аппарат позволяет вникнуть во все тонкости и не потеряться во всех этих высших размерностях, также, как он же помогает башне Бурдж-Халифа не упасть и не сломаться.

#математика

YouTube

Синица против журавля. Равновесие Нэша

Принятие неэффективных решений, которые, тем не менее, всех устраивают – важная область теории игр. Что интересно, такие ситуации встречаются сплошь и рядом, и характеризуются они как равновесие Нэша. Это равновесие хорошо описывается пословицей – лучше синица…

❤21🔥12❤‍🔥7👍2🤯1🖕1

1.91K views20:17

Техножрица 👩‍💻👩‍🏫👩‍🔧

Интересный материал попался на YouTube: https://www.youtube.com/watch?v=McM3CfDjGs0&ab_channel=KyleHill
Тут автор научпоп-канала рассказывает о новом явлении на этой платфоме, которое он называет Science Spam. Science Spam - это видеоролики, которые имитируют научно-популярный контент, но на деле представляют собой мусор, слепленный из кусков чужого контента - возможно, с использованием сгенерированного сценария, парафразинга, Text-to-Speech и т.п. Я решила проверить его слова и поискала названия тех каналов, которые он упоминал.

И действительно, я очень быстро нашла такие примеры:
- https://www.youtube.com/watch?v=SuBYyH4h7xo&ab_channel=FutureUnity - нарезка не связанных между собой кусков видео, взятых из чужих источников, под столь же бессвязный набор высказываний, либо нарезанных из интервью этого человека, либо созданных с помощью технологии Voice Cloning по мотивам его интервью;
- https://www.youtube.com/watch?v=Pi0yOqCcb4o&ab_channel=Ridddle - повествование под аналогичную нарезку, сделанное с помощью Text-to-Speech модели, при чем в данном ролике TTS как будто простудился. 😂
Единственное, что под этими видео (больше?) нет того дисклеймера, о котором чел говорил в своем видеоролике.
Сами видео, впрочем, смотреть не рекомендую, у меня от 10 минут просмотра IQ упал на 10 пунктов.

На рис. 1 изображен фулл хаус из видео типа "It happened!" и "This is bad news!" на одном из таких каналов. Это полный треш. Люди, конечно, и без нейросетей успешно клепали мусорные видео, но с нейросетями и современными видеоредакторами делают это вообще как из пулемета.

#ИИнфобизнес

Please open Telegram to view this post

VIEW IN TELEGRAM

😱15👍5❤2😁1💩1🥱1🖕1

1.9K views07:53

Техножрица 👩‍💻👩‍🏫👩‍🔧

Долго собиралась посмотреть фильм "Доктор Стрейнджлав, или Как я научился не волноваться и полюбил атомную бомбу" (1963), потому что несколько раз видела комментарии о том, что это очень хороший образец сатиры (а я люблю сатиру), а также, что к этому фильму (и другим фильмам Кубрика) есть много отсылок в современных фильмах. Но каждый раз когда мой курсор наводился на значок скачанного файла, я в нерешительности отводила его обратно, потому что думала "а вдруг это окажется что-то очень странное, доступное к осмыслению только для 3,5 специалистов по истории кино, а мне будет просто непонятно и неинтересно?".

У меня вообще всегда были сложные взаимоотношения с артхаусом и "классическим" кино.
Когда я была подростком, я посмотрела по телевизору фильмы "Солярис", а затем "Сталкер" Тарковского, и они мне очень понравились. Но, естественно, в школе и техникуме никто их не смотрел и не обсуждал. Я не понимала, почему. Потом я узнала, что есть такой тип фильмов, как "артхаус", и эти фильмы являются его представителями. Я стала находить обсуждения этих и других артхаусных фильмов в интернете, но эти обсуждения были больше похожи на соревнования в том, кто лучше всех знает историю кино и биографию режиссера да кто заметит больше всего отсылок, чем на обмен личными эмоциями и впечатлениями. В этих обсуждениях было очень много одинаковых, написанных под копирку "глубокомысленных" восторгов в духе "филигранная режиссерская работа", "тонкие исторические отсылки", "гениальный режиссерский ход", "тонкая интеллектуальная игра" и очень мало искренних высказываний про то, так было ли в итоге человеку интересно смотреть этот фильм или нет. В итоге у меня сложилось впечатление, что большинство комментаторов смотрели эти фильмы не для того, чтобы хорошо провести время, а для того, чтобы потом похвастаться перед другими тем, какой у них тонкий вкус и глубокое понимание искусства. 🤣 (К тем людям, которые действительно разбираются в тонкостях режиссерской работы претензий не имею, но боюсь, что таких меньшинство 😏).
Кстати, позже мне также сильно запал в душу такой артхаусный фильм как "Седьмая печать". Меня очень сильно взволновал этот фильм, но нормально обсудить свои личные впечатления от него удалось только с парой знакомых - в интернете же царствовали типичные для таких случаев обсуждения "филигранной режиссерской работы".
Многие обсуждения классического кино, которые я находила, также были по структуре похожи на обсуждения артхауса - даже если на момент выхода фильм был мейнстримным. Только еще добавляются дополнительные глубокомысленные штампы: "изумительная игра актеров", "классика на все времена" и "оказал глубокое влияние на мировой кинематограф". Поэтому у меня начало складываться впечатление, что современные люди эти фильмы смотрят также чаще с целью удивить всех своим вкусом, чем для того, чтобы хорошо провести вечер.

Тем не менее, сегодня я все-таки отбросила сомнения и посмотрела "Доктора Стрейнджлава" и ни капли не пожалела. Фильм поначалу показался мне неожиданно мрачным, а потом держал в напряжении все полтора часа, лишь иногда разряжая обстановку неожиданной странностью или шуткой. Сцены с очевидным наложением кадров самолетика на кадры пейзажа поначалу портили впечатление (да, я в курсе, что в то время были объективные проблемы со спецэффектами), но очень быстро я перестала обращать на это всякое внимание, увлекшись фильмом. К концу сюжет разыгрался и действительно вышел в настолько злую, ядреную (😏) сатиру, что с некоторых сцен я проорала в голос. Теперь я знаю, откуда пошел мем про попытки удержать зигующую руку и почему фильм так называется.

😂

Что ж, теперь на очереди также давно откладываемая "2001 год: Космическая одиссея" (1968)...

#о_себе

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥36👍7❤4🖕1

1.74K viewsedited 19:43

Техножрица 👩‍💻👩‍🏫👩‍🔧

Кстати, появилась гипотеза, откуда берут начало эти однотипные глубокомысленные комментарии про филигранность. Возможно, это влияние того, как нас заставляют писать сочинения в школе.

Я помню, что в тех школах, где я училась, учителя считали постыдным, когда ученик говорит или пишет, что не понял литературное произведение, либо что оно ему не понравилось и ругали за это (конечно, я часто так делала и получала люлей 🤭).
Но ведь любить или не любить абсолютно любое произведение и любых его персонажей это совершенно нормально. Каждый человек имеет право на свое мнение и чувства. И ещё более нормально и естественно, что современному ребенку очень нелегко понять, что хотел сказать взрослый автор, живший пару столетий назад. Это происходит не потому что ребенок "тупой", а потому что в данной ситуации у писателя и читателя бэкграунд объективно радикально отличается, и потому задача установления понимания между ними объективно непростая (как сказали в комментариях, есть такая вещь, как границы компетентности, и понимать их довольно важно).
А что люди начинают делать, когда не могут справиться со сложной задачей, но и отказаться от ее выполнения также не могут? Конечно же, имитируют бурную деятельность. В данном случае, механически копируя в свои сочинения глубокомысленные цитаты, увиденные у литературных критиков либо услышанные от учителя (хорошо, что в наше время этот бессмысленный процесс можно автоматизировать 🤭).

Возможно, школьная привычка прудить в сочинениях глубокомысленные высказывания и воспроизводить навязанное мнение о том, что не любить или не понимать классику или артхаус это якобы нечто постыдное, как раз и приводит к тому, что комментарии на соответствующие фильмы полны "филигранности".
Кстати, может быть, я в предыдущем посте переборщила с жесткостью, с которой описала эти комментарии и их создателей. Вполне может быть, что какие-то авторы этих комментариев действительно смотрели фильм с интересом и имеют о нем какое-то свое индивидуальное мнение, но сказать не могут потому что учили другому...

#о_себе #рассуждения

👍22🤔2💯2❤1🖕1

1.73K viewsedited 08:34

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from DLStories

Статья с ICLR 2023: Кривизна внутреннего представления данных в vision моделях является хорошим показателем робастности моделей

Звучит, наверное, страшно и непонятно, но на самом деле все очень просто. Давайте по порядку. Для начала, что такое "кривизна внутреннего представления":

В двух словах — это то, насколько сильно отличаются между собой внутренние представления (эмбеддинги) модели для последовательных кадров видео.

Считается кривизна так: берем vision модель. Например, ResNet18. Берем видео. Например, мультик про Чебурашку. Подаем кадры видео один за одним в модель, получаем эмбеддинг для каждого кадра. Обозначим эти эмбеддинги как {x_t}. Теперь вычисляем разность между парами последовательных эмбеддингов: v_t = x_t - x_{t-1}. Получаем последовательность {v_t}. Теперь вычисляем косинусную близость между последовательными векторами v_{t-1} и v_t. Среднее значение косинусной близости между всеми парами последовательных векторов v_{t-1} и v_t и будет значением кривизны внутреннего представления данных для нашей модели.

Было показано, что у людей внутренние представления картинок, получаемые из органов зрения, имеют меньшую кривизну, чем сами эти картинки (если считать кривизну между пиксельными представлениями картинок). То есть, представление потока картинок как бы "выпрямляется" у нас в голове, становится более стабильным во времени. Кажется, это свойство может иметь что-то общее с генерализуемостью и робастностью моделей для классификации. Типа, стабильность внутренних представлений модели во времени говорит о том, что эти представления довольно общие и хорошо генерализуемые.

Эксперименты показывают, что смысл в этом действительно есть. В целом, чем кривизна меньше, тем выше робастность модели. Вот какие выводы получились по итогам экспериментов:
- CNN модели, обученные с помощью adversarial training, имеют меньшую кривизну, чем те же модели без adversarial training;
- кривизна self-supervised ViT (DINO-v1) меньше, чем кривизна supervised ViT. Возможно, это говорит о том, что self-supervised обучение позволяет выучивать более робастные и общие представления, чем supervised обучение (но тут, имхо, надо больше экспериментов);
- У модели, в устройстве которых используются идеи из биологии (biologically-inspired models), внутренние представления оказываются более "выпрямленными". Причем чем глубже слой сети, тем меньше становится кривизна эмбеддингов. Прям как у людей.
Однако у одной из таких моделей (VOneNet) кривизна перестает уменьшаться начиная с некоторой глубины слоя. При этом эта нейросеть довольно робастна к состязательным атакам. Это означает, что нельзя отождествлять кривизну внутреннего представления с робастностью модели. Т.е. из того, что модель робастна, не обязательно следует, что ее внутренние представления будут стабильны.

В общем, кажется, кривизна внутренних представлений модели может быть одним из показателей робастности и генерализуемости этой модели. Но, кажется, further research is needed, чтобы лучше понять связь кривизны с качеством vision моделей.

📄 Статья

👍17❤6🔥1🖕1

1.36K views14:12

Техножрица 👩‍💻👩‍🏫👩‍🔧

Как же мне надоели насмешки над Григорием Перельманом, которые длятся годами. Сколько лет уже прошло, но люди продолжают демонстрировать свою глупость, выставляя математика сумасшедшим за его отказ от премии за доказательство гипотезы Пуанкаре, в том числе подобными дурацкими "опросами", в которых большинство вариантов по сути одинаковые, пропитанные одинаковым ядом: https://t.iss.one/obznam/1209
Григорий Яковлевич яснее ясного сказал, что не согласился с решением института им. Клэя, потому что счел, что вклад другого математика в решение данной проблемы был не меньше, чем его собственный.
Человек выразил свое несогласие с решением комитета таким образом, зачем его травить годами? Какое кому дело до того, взял он эту премию или не взял, почему человек не имеет право своего выбора и своего мнения на эту премию без того, чтобы не стать изгоем? Мне больно, очень больно видеть эту травлю в адрес этого очень достойного математика каждый раз.
Очень интересно было бы послушать больше мыслей на эту тему от самого математика. Тем более, что судя по всему, у него уже давно был конфликт с математическим сообществом. Но его уже так все достали преследованиями и бесконечными попытками выдавить из него очередные слова, которые можно будет вырвать из контекста и обсосать как очередную "сенсацию", чтобы привлечь ещё больше внимания и насмешек, вместо того, чтобы понять человека и разобраться, что, конечно, человек не хочет уже ни с кем общаться.
Если бы меня так травили и доставали годами, я бы тоже, наверное, забила на попытки что либо до кого либо донести.

#математика

Wikipedia

Гипотеза Пуанкаре

доказанная математическая теорема

❤46👍4😢3👎2👏2🖕1

1.8K views18:38

Техножрица 👩‍💻👩‍🏫👩‍🔧

Хорошо. Если для кого-то это не очевидно, давайте разберем этот опрос более подробно и поймем, почему он является примером травли Перельмана.

Заголовок:
"Ваше отношение с поступку Гриши Перельмана, отказавшегося от $1 млн."
Неуважение к ученому начинается уже с заголовка. Григорий Яковлевич говорил, что ему неприятно, когда его в прессе называют "Гришей", но, конечно, никто его не слушал. Вот цитата (источник): "Он сказал мне, что не общается с российскими журналистами из-за неуважительного к нему отношения. Например, в прессе его называют «Гришей». И эта фамильярность его обижает." Здесь же используется как раз такое произношение имени, которое неприятно ученому.

Варианты ответа:

1. "Завидую. Хотел бы тоже так знать математику, чтобы так плевать на деньги".
С чего автор взял, что Перельман "плевал на деньги", и что отношение ученого к деньгам в целом как-то связано со знанием математики?
В одном из интервью Григорий ясно сказал: "Я отказался (от премии. - "ИФ"). Вы знаете, у меня было очень много причин и в ту, и в другую сторону. Поэтому я так долго решал". Если бы он якобы "плевал на деньги", он бы не раздумывал над своим решением. Из данного высказывания очевидно, что были у него причины так поступить.
А насчет связи отношения к деньгам и знанием математики: есть много сильных математиков, которые очень охотно ищут и находят способы заработать на своих знаниях. В том числе это и лауреаты премии Филдса, и других престижных математических премий. Отсюда ясно, что знание математики само по себе не мешает любить деньги.

2. "Понимаю его. Он же внятно объяснил, что управляет Вселенной - какой еще $1 млн?"
Это ложь и клевета. Перельман такого точно не говорил. Оригинальная цитата из интервью (сама статья по ссылке, впрочем, также преисполнена глупости; я даю на нее ссылки только для того, чтобы показать, из какого первоисточника пошла цитата) Перельмана звучит следующим образом: "Я знаю, как управлять Вселенной. И скажите - зачем же мне бежать за миллионом?!" Даже про эту дословную цитату мы точно не знаем, правдива ли она в точности или журналист все-таки приукрасил; но уж про то, что Перельман "управляет Вселенной" там точно не было. Перевирать слова ученого, чтобы выставить его сумасшедшим - это травля.

3. "Уважаю поступок, но, думаю, надо было взять. Маме бы помог, сам бы получше жить стал".
Что автор вообще может знать об уважении, после того, как он придумал настолько неуважительный заголовок и варианты ответа выше, остается загадкой.

4. "Он живет в своем мире, нам не понять".
Опять попытка выставить ученого сумасшедшим.

5. "Странно отказываться от новых возможностей, не попробовав".
Дословно то же самое, что и 3 вариант.

6. "Глупо. Взял бы, да мне хотя бы отдал".
Опять то же самое, что и 3 вариант. Видимо, автору опроса настолько трудно взять себя в руки и справиться с эмоциями, что он решил написать варианты с одной и той же навязчивой мыслью аж три раза.

Варианта "Я думаю, что Перельман не сумасшедший. Раз он так поступил, значит, у него были причины." опрос не предусматривает. В третьем варианте есть слова "Уважаю поступок", но из продолжения того же самого варианта и остальных вариантов совершенно ясно, что по сути ни о каком уважении речи не идет.

Автору не интересно разбираться, в чем именно заключается открытие ученого или почему произошла эта история с премией. Ему интересно лишь обсасывать свои негативные эмоции по поводу ученого и создавать шум в интернете.
Автор не дает ученому кредита доверия. Не думает о том, что Григорий Перельман - это такой же человек, как и мы, со своими чувствами и мыслями. Что если Григорий как-то поступил, значит, есть причины, есть чувства и мысли, которые его к этому привели. Нет, такой мысли не допускается.
Это и есть травля. Когда человека перестают воспринимать как человека, как существо с мыслями и чувствами, достойными хотя бы попытки их понять и проявить хоть какое-то уважение. Перестают воспринимать как субъект - только как объект.

#математика

Общий знаменатель

Ваше отношение с поступку Гриши Перельмана, отказавшегося от $1 млн
Завидую. Хотел бы тоже так знать математику, чтобы так плевать на деньги / Понимаю его. Он же внятно объяснил, что управляет Вселенной — какой еще $1 млн? / Уважаю поступок, но, думаю, надо…

👍44👏16❤7🤗3❤‍🔥1🔥1🥱1🥴1🖕1

1.96K viewsedited 06:58

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from New Yorko Times (Yury Kashnitsky)

Внезапная скромность OpenAI про 26% полноты
#ml #chatgpt

Кто-то из Эффективных Менеджеров паснул в мою сторону статью Forbes про yet another (для меня) и революционный (для менеджера) детектор текста, сгенерированного chatGPT, у которого 99% accuracy. Мол цени, че свяжемся, потестируем?

Читаю статью. Ну, датасет из 128 статей это уже и не смешно. Интересно подбить списочек по метрикам:

- TurnitIn: 98% accuracy
- Copyleaks: 99% accuracy
- Winston AI: 99% accuracy
- AI Writing check: 80-90% accuracy
- OpenAI classifier: 26% recall, 91% specificity, 58.5% accuracy (если я тут все верно посчитал)

Кекьх. Отчего это вдруг у OpenAI такая скромность? Они создали chatGPT, нанимают лучшие умы, которые потом пашут по 60-90 часов в неделю. И что, они проигрывают универу Канзаса в задаче детекции chatGPT-контента?

Конечно, нет. Задача, в общем-то не так проста. Или, как говорят спецы по мемам, есть нюанс. Описал в новом посте, почему это так. Подкрепляется моим опытом организации COLING 2022 трека с примерно той же задачей. Вот полный пост, а выжимка такова:

- модели участников соревнования выбили по 99%, явно переобучившись на фичи датасета (например, что модель-пересказчик, всегда начинает с какой-то одной фразы-открытия)
- один из победителей соревнования Domenic Rosati опубликовал папирус, где показал, что модели, обученные на данных моего соревнования, не обобщаются на новую похожую выборку, полученную немного другими DL-моделями

Задача пока вообще не решена. И чем дальше, тем сложнее будет сказать, где человеческий текст, а где машинный.

А пока… можно заявлять 95% и толкать свой продукт. Как Дороничев c новым стартапом в смежной задаче распознавания фейк-изображений. Если вы где-то слышите про "99% точности» в этой задаче, перешлите людям этот пост или английский вариант.

Ps. я все же разобью текст своего выступления на DataFest на несколько постов. Stay tuned.

❤10🖕1

2.06K views19:14

Техножрица 👩‍💻👩‍🏫👩‍🔧

Автор соседнего паблика недавно завершил цикл постов про проблемы методологии в статьях, посвященных применению Reinforcement Learning в задачах построения рекомендательных систем.

Звучит, может, на первый взгляд и душновато, но на деле проблема интересная и важная. При постановке экспериментов и написании научных статей очень важно соблюдать подходящую методологию, чтобы не принять желаемое за действительное, а получить объективно полезный результат. Ну а читателям статей полезно уметь детектировать нарушения методологии в этих статьях, чтобы критически оценивать их выводы.

Вот сами посты:
https://t.iss.one/knowledge_accumulator/61
https://t.iss.one/knowledge_accumulator/63
https://t.iss.one/knowledge_accumulator/64
https://t.iss.one/knowledge_accumulator/65
https://t.iss.one/knowledge_accumulator/66

Финальный вывод:
https://t.iss.one/knowledge_accumulator/67

Я не являюсь специалистом в Reinforcement Learning, поэтому с интересом послушаю, если кто-то, кто глубже это погружен, дополнит рассказ из постов новыми наблюдениями на тему или заметит ошибку.

#объяснения_статей

Knowledge Accumulator

Как исследователи усложняют мне работу

К сожалению, в современных исследованиях многое завязано на количество статей, на их публикации в каких-то местах, на их продаваемость менеджменту, а не качестве выводов и поиске истины. У этого есть свои институциональные…

👍14❤‍🔥5❤5

2.33K viewsedited 10:13

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from Математика не для всех

😁59❤4👍2👎2👏2

2.19K views19:27

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from Записки Ппилифа (Ppilif [GMT+4])

Возобновляем портал в ад, мне в личку накидали новую порцию всратой рекламы DS-курсов. Вы готовы стать НЕЙРОХИЩНИКАМИ?

😁27😱7👍1

2.47K views15:10

Техножрица 👩‍💻👩‍🏫👩‍🔧

Вдумайтесь: Техножрица репостит сообщение Дата-шрушера про нейрохищника...
What a time to be alive!

🔥21😁6🐳3🌚3

3.1K views16:10

Техножрица 👩‍💻👩‍🏫👩‍🔧

Учебный материал 2.pdf

861.3 KB

Кое-как доделала вторую часть презентации с планом обучения Machine Learning с нуля, за ноль рублей.

Первую часть, где рассказано про то, где можно получить базу в плане математики и программирования, можно увидеть здесь. Ну, а в только что дописанной второй части (см. вложение) раскрывается следующая часть учебного плана: а именно, какие бесплатные курсы, лекции и дополнительные материалы использовать, чтобы изучить классические алгоритмы машинного обучения (Classic ML) и глубокое обучение (DL).

#учебные_материалы

❤‍🔥91👍19❤5🥰3🔥2🤩2👎1🦄1

14.1K viewsedited 20:49

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ладно, напишу пару слов о том, почему у меня так бомбит с реакции людей на Перельмана.

Дело в том, что меня саму другие люди тоже много раз осуждали за отказ от того, что считается безусловным благом (хотя, разумеется, и в намного меньшем масштабе - миллион мне никто не предлагал). В результате, в конце концов мне это так надоело, что меня начал триггерить сам факт такого осуждения, даже если оно со мной лично уже не связано.
Например, в промежутке между 2020-2022 мне 3-4 раза писали HR из Google с новыми предложениями full-time вакансий разработчика; в других временных промежутках приходили аналогичные приглашения от HR Amazon, Apple, NVidia и т.п. Я читала описания вакансий, которые мне предлагались; они либо не соответствовали моим текущим научным интересам, либо мне не нравилась сама компания; в результате я решала, что не буду тратить время и усилия на подготовку к собеседованиям на вакансии, которые мне не нужны и писала отказ. По мне так, все логично.
Но нет, у многих из тех людей, которым я рассказывала про эти ситуации, возникало возмущение. У них не укладывалось в голове, как можно игнорировать призывы FAANG'а. Они начинали спорить, убеждать меня в том, что я идиотка, если не прихожу на эти собеседования, обвинять в снобизме и гордыне, спрашивать с издевкой "Тебе что, вообще деньги не нужны? Считаешь себя выше этого, да?".
Иногда вызывал возмущение даже мой рассказ про собеседование в Huawei. Дело в том, что я также несколько раз игнорировала их HR, прежде чем все-таки ответить, а потом, придя на собеседование, сказала, что, честно говоря, даже не знаю, хочу ли у них работать и хочу ли вообще работать в области машинного обучения... (у меня тогда был депрессивный эпизод). Тем не менее после непосредственного общения с будущими коллегами мне начала нравиться идея у них работать, и теперь я работаю у них уже три года. Кто-то из знакомых в ответ на этот рассказ просто смеялись вместе со мной над этой историей. А кто-то злился: "Так им еще и уговаривать тебя пришлось?!!".

Еще одна ситуация, которая вызывала зависть и злость, заключалась в следующем. В Лондоне я познакомилась с итальянцем, который приехал туда учиться, и у нас завязались какие-то отношения. После того, как я вернулась в Москву, он начал мне написывать и звать съездить в Италию за его счет. Я оформила Шенгенскую визу, чтобы поехать, но потом в итоге все-таки не поехала, потому что мне не удалось достичь с ним взаимопонимания по важным для меня вопросам, и общение с ним начало меня утомлять. Знакомые, с которыми я пыталась поделиться данной ситуацией, не понимали этого решения - они начинали спрашивать "Он что, для тебя недостаточно красивый? Или недостаточно умный?", на что я отвечала - мол, нет, он достаточно умный и красивый, просто мне перестало быть с ним интересно. И каждый раз начиналось одно и то же... собеседник смотрел на меня, как на сумасшедшую и спрашивал в разных формулировках: "Так если он умный и красивый, почему бы тебе не дать ему второй шанс? Тем более, что можно бесплатно в Италию слетать!", на что мне не оставалось ответить ничего, кроме как "Не хочу". Просто не хочу и, по-большому-то счету, не обязана никак это объяснять.

Самое неприятное для меня в этих ситуациях было не то, что люди озвучивали свое мнение, отличное от моего; это-то я как раз считаю абсолютно нормальным. Нет, мне было неприятно то, что они вели себя так, как будто я не имела морального права поступать так, как поступала и заслуживаю всяческого осуждения и порицания. Хотя как справедливо отметил один комментатор к ролику про Преображенского:

"Мне кажется Булгаков хотел показать, что в свободном обществе человек что-то делает или не делает из своего желания или нежелания, а не из-за призывов, агитаций и т.д. Эта женщина шокирована. Профессор говорит, что ему не жалко денег, но просто не хочет покупать. Её забитая лозунгами, песнями, призывами к свершениям голова не может понять такого простого аргумента, как "не хочу"."

#о_себе

YouTube

Собачье сердце - в пользу детей Германии

Вяземская: ...предлагаю вам взять несколько журналов - в пользу детей Германии. По полтиннику штука!
Преображенский: Нет, не возьму.
Вяземская: Но почему вы отказываетесь?
Преображенский: Не хочу.
Вяземская: Вы не сочувствуете детям Германии?
Преображенский:…

❤63👍28🔥7😁2💯2💔2❤‍🔥1🤡1🤝1

3.42K views19:09

Техножрица 👩‍💻👩‍🏫👩‍🔧

#ML_в_мемах

😁58🤡6😨4👍2🔥2❤1🌚1

2.8K views19:25

Техножрица 👩‍💻👩‍🏫👩‍🔧

В честь 3000 подписчиков расскажу про наш новый препринт, в котором тексты, сгенерированные ChatGPT, детектируются с помощью анализа их внутренней размерности:

https://arxiv.org/abs/2306.04723

Итак, здесь мои коллеги и я продолжили заниматься полюбившейся с 2021 года темой - детекцией сгенерированного контента. Особое внимание, конечно, уделили детекции текста, сгенерированного моделями семейства GPT-3.5 (davinci, chatgpt). А делали мы это с помощью такой интересной штуки, как дробная размерность. Первое знакомство с ней можно осуществить, посмотрев видео 3blue1brown: https://www.youtube.com/watch?v=gB9n2gHsHN4 (рассказ про размерность начинается со второй половины видео).
Хоть введенная в видео размерность и называется "фрактальной", на деле можно получать приближенные оценки такой размерности не только для фракталов, но и просто для облаков точек, если формы облаков достаточно сложные. И вот возник вопрос: а почему бы не построить облако точек по тексту на естественном языке и не посмотреть, какой будет его размерность?

Далее последовательность действий была такая:
1) Брался достаточно длинный текст (написанный человеком либо сгенерированный ChatGPT/другой моделью) с большим количеством токенов;
2) Текст подавался на вход модели RoBERTa;
3) С последнего слоя RoBERTы извлекались эмбеддинги каждого токена текста;
4) Эти эмбеддинги рассматривались как точки в многомерном пространстве - получалось облако точек;
5) С помощью нескольких довольно технически сложных процедур ( вдохновленных https://arxiv.org/abs/1808.01079 ) оценивалась дробная размерность этого облака точек.

Таким образом, каждому тексту сопоставлялось число - эта самая размерность. И - о чудо! - оказывалось, что средняя размерность текстов, сгенерированных с помощью GPT-3.5 (ChatGPT или davinci), была в среднем существенно меньше, чем размерность текстов, написанных человеком. Эта средняя размерность практически не менялась при смене домена и при замене GPT-3.5 на large GPT-2 или OPT (со стандартными параметрами генерации); даже при применении парафразера DIPPER, специально созданного для избегания детекции, размерность менялась не сильно - в среднем примерно на 3%. Благодаря этому нам удалось сделать пороговый детектор по этой размерности, неожиданно устойчивый к атакам.
Теперь любители генерировать тексты могут менять промпты, тематику или даже модель, но наш детектор не проведешь! 😈

При смене домена и модели точность детекции (true positive) по один раз зафиксированному порогу не опускалась ниже 75% при условии, что false positive rate (FPR) оставался не более 1%. При применении DIPPER к генерации GPT-3.5 точность падала до 40%, снова при FPR 1%. Но даже этот результат оказался лучше всех остальных существующих детекторов - в том числе, и от самих OpenAI. 🫡
(Пояснение: мы зафиксировали низкий FPR потому что хотели как можно меньше дискриминировать настоящих людей при детекции).

Кроме прочего, при использовании мультиязычной RoBERTы можно было получать аналогичный детектор не только для английского, но и для других языков. Средняя внутренняя размерность эмбеддингов, соответствующих текстам на других языках, менялась от языка к языку, но размерность искусственных текстов все равно оставалась в среднем ниже, чем человеческих, для каждого конкретного языка по отдельности.

Главной же слабостью нашего детектора является неустойчивость к большим температурам генерации и к примитивным генераторным моделям. У генераторов с высокой температурой (так сказать, бредящих) внутренняя размерность текстов может быть и выше человеческой, поэтому на них этот детектор сломается. С другой стороны, такие генераторы и так детектятся другими методами. Также остается открытым вопрос, является ли RoBERTa оптимальным средством для извлечения эмбеддингов текстов, ведь их можно получать и с помощью других моделей тоже.

#объяснения_статей #детекция_искусственных_текстов

arXiv.org

Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts

Rapidly increasing quality of AI-generated content makes it difficult to distinguish between human and AI-generated texts, which may lead to undesirable consequences for society. Therefore, it...

🔥82👍6🎉5❤4🤔2🤯2😭2❤‍🔥1

12.1K viewsedited 17:50

Техножрица 👩‍💻👩‍🏫👩‍🔧

#о_себе

🤔32😁9👍8❤‍🔥3😢2❤1

2.4K views18:46

About

Blog

Apps

Platform