Small Data Science for Russian Adventurers

#книга
Терренс Сейновски «Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет»
Очень интересная - про развитие ИИ, центральных персон (фотка в предыдущем посте взята оттуда), эволюцию их взглядов. Никакой математики - просто описание событий и оценочные суждения. Спектр тем огромен - от клеточных автоматов до операционных систем и теории сознания (про каждую что-то написано и даны иллюстрации), но больше «в историческом ракурсе». Из минусов - оригинал 2018 года (т.е. современные достижения здесь не отражены, кстати дословное название оригинала «Революция глубокого обучения»).

👍32👎1

9.16K viewsedited 12:44

Small Data Science for Russian Adventurers

#видео
Несколько месяцев назад принял участие в беседе на «Силы тока». Видео вышло только сейчас. Многие вопросы были похожи на те, что задавал Роман Васильев, но я изо всех сил старался, чтобы это получились разные беседы. Ещё тут специфика в более широкой аудитории, поэтому многое я старался объяснить с нуля или говорить не очень строго. Больше я пока в последние полгода никаких интервью не давал;)
https://youtu.be/3DOoeYB_k3c

YouTube

Александр Дьяконов - Решение реальных бизнес-задач с помощью анализа данных / Подкаст «Сила Тока»

В гостях у «Силы Тока» Александр Геннадьевич Дьяконов - доктор физико-математических наук, профессор кафедры математических методов прогнозирования факультета ВМК МГУ, профессор РАН.
Мы поговорили о том, что такое искусственный интеллект и как он работает…

👍84🔥3

9.47K views20:49

Small Data Science for Russian Adventurers

#образование
Рейтинги российских школ
https://raex-rr.com/education/schools/best_schools_2022

👍15🔥1

8.33K views13:40

Small Data Science for Russian Adventurers

#интересно
Любопытный факт: как появились лотереи. Из книги (кстати, очень хорошей) Джордана Элленберга «Как не ошибаться. Сила математического мышления»

🔥62👍16🤔4

8.08K views22:01

Small Data Science for Russian Adventurers

#мысли

В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.

GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:

- Вы любите кофе?

Ответ "зелёный" - неадекватный, а "Да" - адекватный, но он всё равно плохой, т.к. не учитывает контекст.
Ответ "Нет, от него чернеют зубы" - учитывает, но и он может быть не очень хорошим, т.к. довольно банальный.
А вот ответ "

Только африканский, он более полезен, как выяснили учёные из Калифорнии

" небанальный, т.к. параллельно сообщает интересный факт.

Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...

Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)

П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.

Хабр

Мечтает ли нейросеть LaMDA об отмене законов робототехники?

В конце июля 2022 года из Google был уволен инженер Блэйк Лемойн (Blake Lemoine) из Сан-Франциско, известный в Твиттере как CajunDiscordian . Корпорация официально заявила, что его утверждения о...

👍68❤6🥰1😁1

6.89K views15:56

Small Data Science for Russian Adventurers

#задача
В комментариях спросили,
может ли быть F1-мера около 1, а ROC_AUC маленьким?
Отвечаю, может даже ROC_AUC=0!

Пусть у нас задача бинарной классификации, упорядочим объекты по убыванию оценки вероятности за класс 1, пусть их метки при этом упорядочены так:
0 1 ... 1 (один ноль и N-1 единица).
Если порог бинаризации выбрать так, что все объекты относятся к классу 1, тогда
Precision = (N - 1) / N
Recall = 1
A ROC_AUC тут = 0.

👍67😱9❤4

6.94K views10:27

Small Data Science for Russian Adventurers

#история
Забавно, что практически всё в математике появляется из решения конкретных задач (а не из абстрактных умозаключений).
Вот как появились смеси распределений, ну и потом отсюда всякие EM-алгоритмы?

Карл Пирсон подружился с зоологом Велдоном и его женой, и решил помочь им проанализировать данные о параметрах популяции крабов (там были ширина и высота лба). Ну и очень удивился, что данные не подчинены нормальному распределению. Он делает вывод, что популяция крабов неоднородна, а состоит из однородных подгрупп! Поверить, что каждая подгруппа ненормальная он не может, поэтому получаем смесь нормальных распределений...

Странно, что крабовый датасет не стал таким же известным как ирисы Фишера.

👍86🔥47🥰9🤔3

8.35K viewsedited 14:09

Small Data Science for Russian Adventurers

#история
Ещё про исходные практические задачи...

Есть такая задача Бюффона о вероятности пересечения брошенной иголкой стыка на дощатом полу (предполагаются, что все доски равной ширины). Когда решают, то вместо иглы - отрезок, вместо стыков - параллельные прямые с одинаковым шагом. Задача известная, поскольку в ответе фигурирует число pi, т.е. его можно так приближённо вычислять: "бросая иголку на пол".

Всегда думал, что эта задача родилась просто из размышлений о пересечениях, иголка и пол тут для наглядности, но оказалось, что в 18 веке была такая азартная игра: на плиточный пол кидали какой-то предмет и смотрели, находится ли он внутри одной из плиток или пересекает границы плиток. Сначала кидали монетки, потом стали кидать всё, что в голову придёт:)

П.С. Из интересного: задача поставлена в 1733 году, а решена в 1777 (хотя сейчас лёгкая для математика-первокурсника), привела к появлению "Стохастической геометрии".

👍51🔥15❤4

7.5K views10:38

Small Data Science for Russian Adventurers

Вопрос по Python. Что выведется, если в ячейке питон-ноутбука набрать {True: 'да', 1: 'нет', 1.0: 'возможно'}?

Anonymous Quiz

32%

{True: 'да', 1: 'нет', 1.0: 'возможно'}

{True: 'да', 1: 'нет'}

12%

{True: 'да', 1: 'возможно'}

👍57🤯25😱6🤔5😁4

2.34K voters9.08K views22:05

Small Data Science for Russian Adventurers

#соревнование
На кэгле когда-то было соревнование Abstraction and Reasoning Challenge, очень классное по постановке задачи - научиться на нескольких примерах, чаще даже на одном (причём человек это точно делает с лёгкостью). На картинке пример подобной задачи: по левой картинке сделать правую. Соревнование хотят продолжить - будет ARC2, сейчас собирают выборку, сделали даже такую песочницу для составления датасета. Организатор - автор популярных книг Франсуа Шолле. Не смотря на простоту, очень нетривиально, классно придумано и заставляет не просто "тренировать нейронки"! Можно почитать решение победителя первого соревнования.

👍52🔥16

9.74K views15:24

Small Data Science for Russian Adventurers

#код
В прошлом опросе по питону в комментариях есть ссылки на хорошие ресурсы. Большинство из них я использовал, когда когда-то готовил занятия по питону. Из "странностей" языка моя любимая, пожалуй, эта -

a = [lambda: i for i in range(3)]
b = [f() for f in a]
print (b)

(ниже опрос). Легко объясняется, но совсем нетривиальна до тех пор, пока сам не столкнёшься.

🔥10👍1

7.85K views10:36

Small Data Science for Russian Adventurers

Что выдаст код, описанный выше?

Anonymous Quiz

🤯107👍16🤨6

1.87K voters8.5K views10:37

Small Data Science for Russian Adventurers

#книга
Недавно на ArXive появилась книга Benedikt Ahrens, Kobe Wullaert "Category Theory for Programming"
https://arxiv.org/pdf/2209.01259.pdf
По стилю напоминает конспект лекций, но сделана аккуратно, есть задания.

Есть книга со схожим названием Б. Милевски, уже давно переведённая на русский язык (но написана совсем по-другому, больше в сторону популярного учебника):
https://rdf.ru/files/bartozh-teorcat.pdf

👍29

6.75K views19:33

Small Data Science for Russian Adventurers

#опрос
Недавно были опубликованы результаты опроса специалистов по обработке естественного языка. Интересно, что на подавляющее большинство вопросов примерно половина отвечает "да", а другая половина - "нет", т.е. в среднем специалисты ничего конкретного сказать не могут. Вот на картинке пример - статистика ответов на вопрос о понимании языка современными моделями.

Из мнений, где всё-таки есть консенсус:
- крутые статьи будут выходить из индустрии, а не академии,
- все слишком помешаны на бенчмарках ("побьём SotA-у любой ценой"),
- нужно больше взаимодействовать со смежными дисциплинами,
- NLP даёт и будет давать хороший вклад в науку.

👍23🤔10🕊1

6.43K viewsedited 09:58

Small Data Science for Russian Adventurers

#интересно
В прошлом месяце фейсбук выпустил новую "болталку" - BlenderBot 3 (доступна в США). Об этом уже многие писали, но пропустили одну фишку, которая мне понравилась. Бот состоит из модулей, каждый из которых решает определённую задачу. Например, есть модуль определения, нужно ли гуглить в интернете, чтобы ответить на вопрос пользователя. Есть модуль, который составляет запрос и гуглит. Такой же механизм применяется для определения: нужно ли что-то сохранять в память, что сохранять, нужно ли читать из памяти и что читать. А теперь самое интересное: при беседе можно понять, почему был дан такой ответ: какие модули были задействованы и как (пример на рисунке).

В целом, это неплохая идея для интерпретации сложных моделей: разбивать их на понятные блоки и показывать их функциональность по запросу.

🔥35👍12❤1🤔1

7.61K viewsedited 13:33

Small Data Science for Russian Adventurers

#статистика
Топ российских AI-исследователей по версии этого ресурса. А самая цитируемая статья, у которой только российские авторы: Artem Babenko, Anton Slesarev, Alexandr Chigorin & Victor Lempitsky "Neural Codes for Image Retrieval" (ECCV 2014).

🔥59🤮7👎4😢3👍2❤1

9.91K views13:53

Small Data Science for Russian Adventurers

#видео
Решил дозалить видео с прошлогоднего семинара - вдруг кому-то пригодятся (не везде, правда, получился качественный звук). Первый ролик - Generalized Anomaly Detection от Бориса Михеева.
https://youtu.be/5KK9hR67oL0

YouTube

SEM2021: Михеев Борис "Generalized Anomaly Detection"

22.12.2021 доклад про обнаружение аномалий
докладчик: Михеев Борис (417 группа ВМК МГУ)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20211222_MiheevB_Anomaly.pdf
руководитель семинара: Дьяконов Александр (https://dyakonov.org/ag/)

🔥22👍20🐳3

6.71K views07:59

Small Data Science for Russian Adventurers

#термин
Extreme learning machine (ELM) - это нейросеть, в которой все слои, кроме последнего случайно инициализированы и фиксированы, а последний обучается (т.е. "логистическая регрессия" на случайных признаках). До 2012 года было целое научное направление под руководством Guang-Bin Huang из Сингапура, которое занималось развитием таких методов. В частности, были доказаны, что они являются универсальными аппроксиматорами. На основную статью Guang-Bin Huang 2006 года более 12000 ссылок.

Потом (после 2012) нейронки смогли относительно быстро обучать "целиком" и направление ELM забылось... Знаменитый профессор уже 7 лет не выпускает крутых статей, но у него есть сын (я так думаю: фамилии совпадают и он начинал в его научной группе), который в глазах современников превзошёл отца - Gao Huang. Он соавтор ансамблей Snapshot ensembles, концепции Stochastic Depth и, наконец самое известное, сети DenseNet (более 28500 ссылок на статью).

Wikipedia

Extreme learning machine

type of artificial neural network

🔥37👍18🤯9😢1

7.05K views11:33

Small Data Science for Russian Adventurers

#полезно
Лучшие решения кэгловских конкурсов в одном месте:
https://farid.one/kaggle-solutions/

farid.one

Kaggle Solutions

Kaggle Solutions and Ideas by Farid Rashidi

👍104🔥6😱1

10K views20:09