AI для Всех
15K subscribers
1.33K photos
181 videos
11 files
1.52K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Майкрософтовские задачки по питону.

Вообще их GPT-3 решает, но какие-то можно на отборочном использовать

#Отборочные
Хороший гитхаб и блог на медиум.

Например, он там разбирает модифицию LIME для интерпретации моделей. И много чего еще интересного

GitHub
Medium

#resources
был очень хороший доклад. Когда появится на канале сберлоги на ютубе - надо будет скинуть сюда. Куча примеров из науки. Для лекций по разным конволюциям, сегментации, детекции, interpetation
Forwarded from Sberloga (Alexander C)
🚀 Онлайн DS доклад от @SBERLOGA
👨‍🔬 Анвар Курмуков (Сбер Институт Искусственного Интеллекта, ВШЭ, ИППИ) "Проблемы Deep learning/Computer Vision при анализе медицинских изображений."
⌚️ Четверг 17 июня, 19.00 по Москве

Данные медицинской визуализации такие как компьютерная томография (КТ) и магнитно-резонансная томография (МРТ) используются для диагностики и лечения целого ряда патологий (различные поражения легких, опухоли органов, переломы и др.). Для автоматической обработки таких изображений используются методы компьютерного зрения и глубинные нейронные сети. В докладе будут рассмотрены ключевые проблемы, с которыми приходится бороться при построении алгоритмов автоматической разметки, связанные с особенностями:
- данных (малые размеры выборок, трехмерность, множество различных источников данных и др.)
- формулировок задач (сегментация, локализация/key points, классификация)
- клинических требований (устойчивость к доменным сдвигам, консистентность/интерпретируемость предсказаний и др.)

Ссылка на зум будет доступна через тг чат t.iss.one/sberlogadataclub ближе к началу доклада.
Forwarded from TechSparks
В каждой шутке есть доля не только шутки ;))
Наконец выложили в открытый доступ прекрасный проект «Балабоба»: в нем нейросеть Яндекса из семейства YaLM не просто продолжает заданное вами начала текста — но и окрашивает его в выбранный стиль.
Как всегда с хорошими генеративными текстами — иногда уморительно, иногда тревожно.
«Этот пост не целиком написан нейросетью, хотя: - частично он является правдой.
- я старался подбирать факты, чтобы пост был интересен.
Поэтому я буду благодарен за комментарии и ваши вопросы по теме.
PS: Я не являюсь автором этих слов.»
Играйтесь, друзья, пока игрушка свежа ;))

https://yandex.ru/lab/yalm
Мы с ребятами из EleutherAI зарелизили text-to-image сетку CogView на колаб.

Prompt можно писать на любом языке (он под капотом переводится на китайский все равно)

#Text2Image #Generative
Напишу немного про проклятье размерности. Это термин, которым, в частности, называют странности многомерных пространств, от которых человеческая интуиция начинает давать сбои.

Один популярный пример выглядит так: возьмём квадрат на плоскости и впишем в него круг. Ясно, что круг закроет большую часть площади квадрата. Дальше, возьмём куб и впишем в него шар. Опять же, шар займёт большую часть объёма куба. Но вот в четырёхмерном случае гиперсфера займёт меньше трети объёма гиперкуба, а при дальнейшем повышении размерности отношение их объёмов сходится к нулю. При этом евклидово расстояние от центра n-мерного куба до любого из его 2^n углов растёт как sqrt(n), т.е. неограниченно; а основной объём пространства (т.е., например, основная часть равномерно случайно взятых точек) внутри такого куба оказывается на расстоянии от центра с матожиданием sqrt(n/3) и с убывающей к нулю дисперсией. Короче, n-мерный куб — это очень странное место, с кучей углов и пустым центром.

Другой пример — гипотеза Борсука о возможности разбиения n-мерного тела диаметром 1 на n+1 тел диаметром меньше 1. Она доказана для n<=3 и опровергнута для n>=64. Посредине — томящая неизвестность.

Всё это обычно выглядит как игры разума, не отягощённого бытовыми мелочами, однако бум нейросетей принес нам популярность всяких многомерных эмбеддингов и представлений — слов, текстов или картинок, и там такие пакости случаются регулярно. Недавно, в одной из задач мне пришлось столкнуться с такой штукой:

Возьмём, скажем, 100-мерное пространство и выберем в нём равномерно случайно из единичного гиперкуба 42 точки. Пронумеруем их в некотором случайном, но фиксированном порядке, от 1 до 42. Какова вероятность, что в нашем пространстве найдётся такая ось, в проекции на которую наши точки выстроятся в нужном порядке? Ответ: больше 99%. Кому интересно, можете посмотреть мой скрипт на питоне, которым это эмпирически можно проверить (работает довольно долго, решает системы линейных неравенств, пересекая полупространства для каждой пары точек).
👍1
Интересная статья (и код) от Яндекса про DL с табличными данными.

GitHub

#tabular
Интересная статья про метрики. Пару хороших картинок и неплохих оюъяснений. К сожалению есть откровенные лажи (например, рисунок с расстоянием минковского и помещение определения метрики в требования к дистанции минковского). Потому использовать можно, но аккуратно

Medium

#metrics
Хорошая статья.

Ее можно вставить как пример подхода к проблеме, когла можно разделить задачу классификации на предсказание стиля и предсказание собственно класса.

Например для клеточной биологии - предсказываем отдельно тип клетки и "нормальная", "раковая", "разрушенная". Ведь данных размеченных там тоже не так уж и много и учить предсказывать все комбинации напрямую - сложно. Тем более, это может помочь биться с переобучением - когда у нас есть только раковые клетки от одного пациента и не раковые от другого. Разбиением предсказания на две части мы заставляем нейросетку использовать информацию о раковых клетках и просто для опредедения типа, а не только комбинации тип+рак. То есть заучивать пациента чуть менее выгодно.

Второй подход из статьи - про мультимодальность, а именно - использовать сразу несколько типов данных, в случае их сетки - текстовые описания и картинки. Подход интересный, тоже можно рассказать. Например - передавать вместе с фотографией список симптомов/анализы.
К сожалению, для мед данных тут будет нюанс, что без transfer learning мы точно переобучимся на такое - данных мало и инфа о пациенте поможет нейросетке просто заучивать пациентов. А если делать transfer, то не факт, что предобученеые на данных преимущественно другого рода сетки будут хорошо работать.
Еще один минус - даже на словах из статьи видно, что чтобы получить выигрыш от модальности им пришлось очень много "химичить". Не факт, что в рамках небольшего коллектива это возможно

Еще статья хороша для вводных примеров - используется много разного, что позволяет склеивать разные темы

#classification #images
Ну и продолжение в источнике