Художники дружат: почему знаменитости знамениты
В 2012 году в Музее Современного Искусства MoMA в Нью-Йорке прошла выставка, посвященная зарождению абстракции. Кураторы всячески подчеркивали, что художники, представленные в МоМА, оказывали друг на друга сильное влияние, а в первом зале находилась схема, изображающая отношения художников в зависимости от степени их взаимодействия.
На куратора выставки во многом повлиял курс лекций Пола Ингрэма, профессора Колумбийской школы бизнеса и старшего научного сотрудника института Chazen. Его курс был посвящен использованию кураторами своих профессиональных связей для достижения успеха.Сам же Ингрэм использовали результаты, полученные на выставке, для изучения роли, которую творчество и социальные связи сыграли для художников в зависимости от уровня их известности.
Ингрэм, вместе с коллегой Митали Банерджи, обратились к базе данных Google, записали количество упоминаний каждого художника между 1910 и 1925 годами, проанализировали их социальные круги и приняли во внимание информацию об их национальности, поле, возрасте и месте жительства, а также о средствах массовой информации, которые они использовали, и художественных школах, к которым принадлежали. А чтобы определить оригинальность работ художников, использовалось машинное обучение и учитывалось мнение четырех историков искусств.
В то время как прошлые исследования полагали, что существует связь между креативностью и популярностью, Ингрэм и Банерджи, напротив, обнаружили, что такая корреляция отсутствует. Обнаружилось, что художники с большей и более разнообразной сетью знакомых вероятнее будут известны, независимо от оригинальности их работ. В частности, самым большим залогом славы для художника оказывается сеть его контактов из других стран.
Что же касается показателей креативности, они обнаружили, что ни оценки, полученные с помощью машинного обучения, ни экспертные мнения искусствоведов не были достаточными показателями популярности художника. А о том, как анализ данных предсказывает успех художника мы рассказывали тут.
Михаил Совин
В 2012 году в Музее Современного Искусства MoMA в Нью-Йорке прошла выставка, посвященная зарождению абстракции. Кураторы всячески подчеркивали, что художники, представленные в МоМА, оказывали друг на друга сильное влияние, а в первом зале находилась схема, изображающая отношения художников в зависимости от степени их взаимодействия.
На куратора выставки во многом повлиял курс лекций Пола Ингрэма, профессора Колумбийской школы бизнеса и старшего научного сотрудника института Chazen. Его курс был посвящен использованию кураторами своих профессиональных связей для достижения успеха.Сам же Ингрэм использовали результаты, полученные на выставке, для изучения роли, которую творчество и социальные связи сыграли для художников в зависимости от уровня их известности.
Ингрэм, вместе с коллегой Митали Банерджи, обратились к базе данных Google, записали количество упоминаний каждого художника между 1910 и 1925 годами, проанализировали их социальные круги и приняли во внимание информацию об их национальности, поле, возрасте и месте жительства, а также о средствах массовой информации, которые они использовали, и художественных школах, к которым принадлежали. А чтобы определить оригинальность работ художников, использовалось машинное обучение и учитывалось мнение четырех историков искусств.
В то время как прошлые исследования полагали, что существует связь между креативностью и популярностью, Ингрэм и Банерджи, напротив, обнаружили, что такая корреляция отсутствует. Обнаружилось, что художники с большей и более разнообразной сетью знакомых вероятнее будут известны, независимо от оригинальности их работ. В частности, самым большим залогом славы для художника оказывается сеть его контактов из других стран.
Что же касается показателей креативности, они обнаружили, что ни оценки, полученные с помощью машинного обучения, ни экспертные мнения искусствоведов не были достаточными показателями популярности художника. А о том, как анализ данных предсказывает успех художника мы рассказывали тут.
Михаил Совин
Cибирские пожары из космоса
Лесные пожары в Сибири - одна из самых обсуждаемых проблем последнего времени грозящая серьезными экологическими последствиями. Cреди способов мониторинга пожаров есть и космическая съемка. В 1999 году NASA по программе MODIS запустила спутник Terra, предназначенный для мелкомасштабного (то есть покрывающего большие площади в низком разрешении) мониторинга земной поверхности, и уже в течении 20 лет съемка с этого спутника используется, в том числе, и для мониторинга пожаров.
Это возможно при помощи данных с датчика VIIRS, позволяющего снимать Землю в инфракрасном диапазоне, особенно чувствительном к температурным аномалиям. Вспомните тепловизоры, которые так же улавливают инфракрасное излучение объектов и позволяют наблюдать разницу в их температуре — датчик VIIRS и является таким тепловизором для всей планеты.
На основе данных со спутника было создано несколько сервисов, позволяющих отслеживать аномалии температуры в почти реальном времени — например, сервис «Карта пожаров» компании СКАНЭКС и «Пожары FIRMS» - дополнительный набор данных со спутников NASA
https://sysblok.ru/urban/cibirskie-pozhary-iz-kosmosa/
Лесные пожары в Сибири - одна из самых обсуждаемых проблем последнего времени грозящая серьезными экологическими последствиями. Cреди способов мониторинга пожаров есть и космическая съемка. В 1999 году NASA по программе MODIS запустила спутник Terra, предназначенный для мелкомасштабного (то есть покрывающего большие площади в низком разрешении) мониторинга земной поверхности, и уже в течении 20 лет съемка с этого спутника используется, в том числе, и для мониторинга пожаров.
Это возможно при помощи данных с датчика VIIRS, позволяющего снимать Землю в инфракрасном диапазоне, особенно чувствительном к температурным аномалиям. Вспомните тепловизоры, которые так же улавливают инфракрасное излучение объектов и позволяют наблюдать разницу в их температуре — датчик VIIRS и является таким тепловизором для всей планеты.
На основе данных со спутника было создано несколько сервисов, позволяющих отслеживать аномалии температуры в почти реальном времени — например, сервис «Карта пожаров» компании СКАНЭКС и «Пожары FIRMS» - дополнительный набор данных со спутников NASA
https://sysblok.ru/urban/cibirskie-pozhary-iz-kosmosa/
Данные нас связали: где и как применяют статью 20.2 КоАП РФ
«Системный Блокъ» открывает серию материалов по анализу применения статьи 20.2 КоАП — той самой, которую сегодня массово используют против задержанных на митингах и шествиях. В первом посте рассказываем о том, какие данные по 20.2 собрал правозащитный проект ОВД-Инфо и как мы нашли в этих данных два нестандартных случая применения статьи.
27 июля, 3 августа и 10 августа в Москве прошли массовые акции против ограничения допуска кандидатов на выборы в Мосгордуму. По данным ОВД-Инфо, суммарно на трех акциях полиция задержала более 2600 человек (некоторых — повторно). Это далеко не первые митинги в России, которые завершились массовыми задержаниями участников. Также в автозаках оказалось немало случайных прохожих, неудачно вышедших из метро или на пробежку.
За задержаниями следуют административные дела по статье 20.2 КоАП — с недавних пор это одно из главных средств борьбы с уличной активностью граждан. Оправдаться по таким делам достаточно сложно: за 2018 год по стране было обжаловано всего 301 дело — меньше 7 % от общего числа.
Откуда данные?
Недавно ОВД-Инфо опубликовало датасет по применению статьи 20.2 за 15 лет (с начала 2004 по конец 2018 года). Датасет сопровождается тепловой картой, которая позволяет увидеть динамику и географию митингующего населения. Статистика по статье 20.2 с разбиением на регионы была получена ОВД-Инфо по запросу в Судебном департаменте при Верховном суде РФ.
Когда регионы обгоняют Москву
По ряду абсолютных показателей за 2018 год (сколько всего поступило дел, сколько из них рассмотрено, общее число осужденных и др.) Москва и Санкт-Петербург лидируют с большим отрывом. Но если посмотреть относительные цифры — количество дел на 100 тысяч жителей региона, то картина меняется на глазах.
На фоне других ярко-красной точкой выделяется Кабардино-Балкария. Тут в 2018 году на 100 тысяч населения было составлено больше 17 дел, это максимальный показатель по стране. Что же там случилось?
Конный поход под суд
Для многих публичные волнения на Кавказе в 2018 году ассоциируются с переделом границ «где-то в районе Чечни». И действительно, конфликт вокруг уточнения чечено-ингушской границы сопровождался задержаниями. Но именно в Кабардино-Балкарии произошел совершенно уникальный прецедент: значительная часть митингующих по сути не митинговала! Это становится понятным, если изучить сводки региональных СМИ и открытые данные ГАС «Правосудие».
Поводом к задержанию стал конный поход в честь 310-летия Канжальской битвы. Формально суды наказывали участников за блокировку дорог. Суть же проблемы в том, что факт Канжальской битвы и ее значимость по-разному оценивается кабардинцами и балкарцами. Это и стало предметом конфликта. И здесь уже подключились административные рычаги воздействия на национальные интересы и толкование истории народов.
Баптисты на Камчатке тоже «митингуют»
Другой пример — Камчатский край. Тут в 2018 году было чуть больше 9 дел на 100 тысяч населения, что, кстати, тоже опережает Москву. На Камчатке статья 20.2 стала средством борьбы с баптистами. Они конечно не выдвигали политических требований, а якобы вели публичную проповедь, раздавая листовки прохожим. Получается, что с точки зрения закона не все листовки «одинаково полезны». Например, вряд ли кому-то придет в голову задерживать двух студентов, раздающих флаеры на концерт, а потом судить их по 20.2 как «нарушителей порядка проведения массового мероприятия».
За цифрами всегда стоят люди
Данные хорошо, а их анализ — еще лучше. Здорово видеть аналитику и данные, представленные ОВД-Инфо, но нам хочется большего — видеть за цифрами людей и настоящие причины их задержаний. План максимум – понять, каким инструментом становится сегодня состав 20.2 КоАП и не превращается ли он в универсальный «швейцарский ножик», которым хоть колбасу нарезай, хоть вино открывай (т.е. хоть баптистов прижимай, хоть межнациональные конфликты модерируй, хоть гражданских активистов запугивай).
«Системный Блокъ» открывает серию материалов по анализу применения статьи 20.2 КоАП — той самой, которую сегодня массово используют против задержанных на митингах и шествиях. В первом посте рассказываем о том, какие данные по 20.2 собрал правозащитный проект ОВД-Инфо и как мы нашли в этих данных два нестандартных случая применения статьи.
27 июля, 3 августа и 10 августа в Москве прошли массовые акции против ограничения допуска кандидатов на выборы в Мосгордуму. По данным ОВД-Инфо, суммарно на трех акциях полиция задержала более 2600 человек (некоторых — повторно). Это далеко не первые митинги в России, которые завершились массовыми задержаниями участников. Также в автозаках оказалось немало случайных прохожих, неудачно вышедших из метро или на пробежку.
За задержаниями следуют административные дела по статье 20.2 КоАП — с недавних пор это одно из главных средств борьбы с уличной активностью граждан. Оправдаться по таким делам достаточно сложно: за 2018 год по стране было обжаловано всего 301 дело — меньше 7 % от общего числа.
Откуда данные?
Недавно ОВД-Инфо опубликовало датасет по применению статьи 20.2 за 15 лет (с начала 2004 по конец 2018 года). Датасет сопровождается тепловой картой, которая позволяет увидеть динамику и географию митингующего населения. Статистика по статье 20.2 с разбиением на регионы была получена ОВД-Инфо по запросу в Судебном департаменте при Верховном суде РФ.
Когда регионы обгоняют Москву
По ряду абсолютных показателей за 2018 год (сколько всего поступило дел, сколько из них рассмотрено, общее число осужденных и др.) Москва и Санкт-Петербург лидируют с большим отрывом. Но если посмотреть относительные цифры — количество дел на 100 тысяч жителей региона, то картина меняется на глазах.
На фоне других ярко-красной точкой выделяется Кабардино-Балкария. Тут в 2018 году на 100 тысяч населения было составлено больше 17 дел, это максимальный показатель по стране. Что же там случилось?
Конный поход под суд
Для многих публичные волнения на Кавказе в 2018 году ассоциируются с переделом границ «где-то в районе Чечни». И действительно, конфликт вокруг уточнения чечено-ингушской границы сопровождался задержаниями. Но именно в Кабардино-Балкарии произошел совершенно уникальный прецедент: значительная часть митингующих по сути не митинговала! Это становится понятным, если изучить сводки региональных СМИ и открытые данные ГАС «Правосудие».
Поводом к задержанию стал конный поход в честь 310-летия Канжальской битвы. Формально суды наказывали участников за блокировку дорог. Суть же проблемы в том, что факт Канжальской битвы и ее значимость по-разному оценивается кабардинцами и балкарцами. Это и стало предметом конфликта. И здесь уже подключились административные рычаги воздействия на национальные интересы и толкование истории народов.
Баптисты на Камчатке тоже «митингуют»
Другой пример — Камчатский край. Тут в 2018 году было чуть больше 9 дел на 100 тысяч населения, что, кстати, тоже опережает Москву. На Камчатке статья 20.2 стала средством борьбы с баптистами. Они конечно не выдвигали политических требований, а якобы вели публичную проповедь, раздавая листовки прохожим. Получается, что с точки зрения закона не все листовки «одинаково полезны». Например, вряд ли кому-то придет в голову задерживать двух студентов, раздающих флаеры на концерт, а потом судить их по 20.2 как «нарушителей порядка проведения массового мероприятия».
За цифрами всегда стоят люди
Данные хорошо, а их анализ — еще лучше. Здорово видеть аналитику и данные, представленные ОВД-Инфо, но нам хочется большего — видеть за цифрами людей и настоящие причины их задержаний. План максимум – понять, каким инструментом становится сегодня состав 20.2 КоАП и не превращается ли он в универсальный «швейцарский ножик», которым хоть колбасу нарезай, хоть вино открывай (т.е. хоть баптистов прижимай, хоть межнациональные конфликты модерируй, хоть гражданских активистов запугивай).
Машины, корабли, посевы: что можно посчитать на снимках с орбиты?
Данные дистанционного зондирования Земли (ДЗЗ) или космические снимки — именно так называется то, что мы видим каждый раз, когда переключаемся в режим «Спутник» в Яндекс.Картах или Google Maps. Дешифрирование космических снимков и данных ДЗЗ начало развиваться с того самого момента, когда из космоса была сделана первая фотография Земли, но именно с появлением машинного обучения и нейросетей, распознавание объектов во многом удалось автоматизировать.
Теперь стало чрезвычайно легко посчитать, например, машины на парковках торговых центров, чтобы оценить оборот и загруженность моллов в определенные часы. Также алгоритмы распознавания неплохо работают для кораблей — можно осуществлять мониторинг объемов и путей морских перевозок, незаконного вылова рыбы, работы верфей. Такие технологии чрезвычайно важны и для гуманитарных организаций — для более точных оценок численности населения в тех или иных районах, транспортной доступности, последствий стихийных бедствий или катастроф.
https://sysblok.ru/urban/sputnik-v-nebe-nejroset-na-zemle/
Данные дистанционного зондирования Земли (ДЗЗ) или космические снимки — именно так называется то, что мы видим каждый раз, когда переключаемся в режим «Спутник» в Яндекс.Картах или Google Maps. Дешифрирование космических снимков и данных ДЗЗ начало развиваться с того самого момента, когда из космоса была сделана первая фотография Земли, но именно с появлением машинного обучения и нейросетей, распознавание объектов во многом удалось автоматизировать.
Теперь стало чрезвычайно легко посчитать, например, машины на парковках торговых центров, чтобы оценить оборот и загруженность моллов в определенные часы. Также алгоритмы распознавания неплохо работают для кораблей — можно осуществлять мониторинг объемов и путей морских перевозок, незаконного вылова рыбы, работы верфей. Такие технологии чрезвычайно важны и для гуманитарных организаций — для более точных оценок численности населения в тех или иных районах, транспортной доступности, последствий стихийных бедствий или катастроф.
https://sysblok.ru/urban/sputnik-v-nebe-nejroset-na-zemle/
Системный Блокъ
Спутник в небе, нейросеть на земле - Системный Блокъ
Что может увидеть компьютер на космических снимках?
Подборка статей Блока по цифровой филологии
Уже больше года «Системный Блокъ» рассказывает о технологической революции в гуманитарных науках. Из этих статей вы узнаете, как во вселенную слов и смыслов приходит IT, какое отношение имеют стихи Пушкина к Терминатору, кто громче всех кричит в «Идиоте» Достоевского, а также из чего сделаны песни «ГрОба» и других проектов Егора Летова.
📕 Что такое кросс-языковая морфология и зачем она нужна
В статье рассказывается, как технологии помогают изучать редкие языки и детально разобраться в сходствах и различиях экзотических диалектов.
🚀 Пушкин, терминатор и звездолет
Если по ночам вы не можете заснуть, потому что никак не вспоминается одна пушкинская цитата, советуем обратить внимание на статью о поисковике, работающему по принципу семантических векторов.
📔 Персональный склерозник: от альбома XVII века до цифровых тетрадей
Разбираемся в игре Google с текстом и как интернет стал нашей главной записной книжкой.
🎶 Жутко громко, запредельно тихо: звуки в романах
Каким образом создается звуковое пространство текста, и можно ли проанализировать музыку художественного произведения.
📝 Новый, мертвый, хороший: визуализация текстов «Гражданской Обороны»
Из каких слов и метафор состоят песни Егора Летова — кажется, все идет по плану.
💻 Зачем нужны гуманитарии в эпоху машинного обучения?
Из статьи вы узнаете, почему тандем физиков и лириков не только сохранился на фотографиях из Политехнического музея, но и стал жизненной необходимостью.
Уже больше года «Системный Блокъ» рассказывает о технологической революции в гуманитарных науках. Из этих статей вы узнаете, как во вселенную слов и смыслов приходит IT, какое отношение имеют стихи Пушкина к Терминатору, кто громче всех кричит в «Идиоте» Достоевского, а также из чего сделаны песни «ГрОба» и других проектов Егора Летова.
📕 Что такое кросс-языковая морфология и зачем она нужна
В статье рассказывается, как технологии помогают изучать редкие языки и детально разобраться в сходствах и различиях экзотических диалектов.
🚀 Пушкин, терминатор и звездолет
Если по ночам вы не можете заснуть, потому что никак не вспоминается одна пушкинская цитата, советуем обратить внимание на статью о поисковике, работающему по принципу семантических векторов.
📔 Персональный склерозник: от альбома XVII века до цифровых тетрадей
Разбираемся в игре Google с текстом и как интернет стал нашей главной записной книжкой.
🎶 Жутко громко, запредельно тихо: звуки в романах
Каким образом создается звуковое пространство текста, и можно ли проанализировать музыку художественного произведения.
📝 Новый, мертвый, хороший: визуализация текстов «Гражданской Обороны»
Из каких слов и метафор состоят песни Егора Летова — кажется, все идет по плану.
💻 Зачем нужны гуманитарии в эпоху машинного обучения?
Из статьи вы узнаете, почему тандем физиков и лириков не только сохранился на фотографиях из Политехнического музея, но и стал жизненной необходимостью.
Системный Блокъ
Зачем нужны гуманитарии в эпоху машинного обучения? - Системный Блокъ
Если ты гуманитарий — не отчаивайся. Если технарь — дружи с гуманитариями!
Нейросеть расшифровала древний язык
Ручная расшифровка древних надписей — процесс долгий и трудоёмкий. Например, знаменитое линейное письмо Б, при помощи которого писали на острове Крит в XV-XIII вв. до н.э., известно западным исследователям с конца XIX века. Однако на расшифровку и прочтение текстов ушло 67 лет — и это несмотря на то, что язык критских книжников был одной из архаичных форм древнегреческого языка, хорошо известного ученым.
В эпоху Big Data можно попытаться ускорить процесс расшифровки, поручив его искусственному интеллекту. Именно этому посвятила своё исследование команда из Массачусетского технологического института и исследовательского подразделения Google — Google Brain.
В 2010 году одна из соавторок исследования, Регина Барзилай, работала над программой для расшифровки древних надписей. Материалом исследования тогда послужил угаритский — мёртвый язык семитской группы, распространённый в Сирии примерно в то же время, что и линейное письмо Б на Крите. Угаритский известен среди специалистов по древним языкам тем, как быстро он был расшифрован: первые надписи открыли в 1929 году, а в 1931 ученые уже объявили о полной расшифровке.
Программа, созданная Региной Барзилай была основана на порождающей Байесовской модели и повторяла процессы, характерные для ручной расшифровки: сначала сопоставлялись родственные буквы в иврите и угаритском, затем — морфемы, в конце — когнаты, т.е. похожие друг на друга слова общего происхождения. Программа показала неплохие результаты: она верно сопоставляла 29 из 30 букв и 60% когнатов.
В новой программе Барзилай и ее коллеги попытались решить более сложную задачу и сопоставить разные виды письма: линейное письмо Б было силлабическим, а греческое письмо — консонантно-вокалическое. При этом ученые намеревались повысить точность работы алгоритма.
В основе программы — нейросеть типа sequence-to-sequence, т.е. и на входе, и на выходе есть некоторая последовательность элементов. Архитектура стандартная: сначала нейросеть-энкодер обрабатывает входные данные, преобразуя их в числа, а затем нейросеть-декодер генерирует ответ. Алгоритм, который исследователи назвали NeuroCipher, сопоставляет когнаты по знакам, причем его работа обусловлена набором закономерностей: к примеру, родственные знаки в когнатах должны идти в одинаковом порядке и иметь одинаковые контексты.
Алгоритм протестировали на трёх наборах когнатов: для угаритского и иврита, для линейного письма Б и греческого алфавита и контрольном наборе для поиска когнатов в родственных романских языках. Результаты получились значительно лучше по сравнению с исследованием 2010 года: NeuroCipher правильно сопоставил 65.9% угаритских слов их когнатами в иврите, 67.3% слов на линейном Б с когнатами, записанными греческим письмом, и 91.6% когнатов в романских языках.
Сейчас авторы исследования продолжают улучшать показатели NeuroCipher и учат алгоритм сопоставлять не только когнаты. А несколько научных изданий уже задумались, не станет ли эта нейросеть ключом к расшифровке языков, на которых пока не удалось прочитать ни одной надписи, главным образом, линейного письма А. Вряд ли расшифровать линейное письмо А удастся в ближайшее время, но исследование MIT и Google Brain — впечатляющий шаг в эту сторону.
Дарья Оверникова
Ручная расшифровка древних надписей — процесс долгий и трудоёмкий. Например, знаменитое линейное письмо Б, при помощи которого писали на острове Крит в XV-XIII вв. до н.э., известно западным исследователям с конца XIX века. Однако на расшифровку и прочтение текстов ушло 67 лет — и это несмотря на то, что язык критских книжников был одной из архаичных форм древнегреческого языка, хорошо известного ученым.
В эпоху Big Data можно попытаться ускорить процесс расшифровки, поручив его искусственному интеллекту. Именно этому посвятила своё исследование команда из Массачусетского технологического института и исследовательского подразделения Google — Google Brain.
В 2010 году одна из соавторок исследования, Регина Барзилай, работала над программой для расшифровки древних надписей. Материалом исследования тогда послужил угаритский — мёртвый язык семитской группы, распространённый в Сирии примерно в то же время, что и линейное письмо Б на Крите. Угаритский известен среди специалистов по древним языкам тем, как быстро он был расшифрован: первые надписи открыли в 1929 году, а в 1931 ученые уже объявили о полной расшифровке.
Программа, созданная Региной Барзилай была основана на порождающей Байесовской модели и повторяла процессы, характерные для ручной расшифровки: сначала сопоставлялись родственные буквы в иврите и угаритском, затем — морфемы, в конце — когнаты, т.е. похожие друг на друга слова общего происхождения. Программа показала неплохие результаты: она верно сопоставляла 29 из 30 букв и 60% когнатов.
В новой программе Барзилай и ее коллеги попытались решить более сложную задачу и сопоставить разные виды письма: линейное письмо Б было силлабическим, а греческое письмо — консонантно-вокалическое. При этом ученые намеревались повысить точность работы алгоритма.
В основе программы — нейросеть типа sequence-to-sequence, т.е. и на входе, и на выходе есть некоторая последовательность элементов. Архитектура стандартная: сначала нейросеть-энкодер обрабатывает входные данные, преобразуя их в числа, а затем нейросеть-декодер генерирует ответ. Алгоритм, который исследователи назвали NeuroCipher, сопоставляет когнаты по знакам, причем его работа обусловлена набором закономерностей: к примеру, родственные знаки в когнатах должны идти в одинаковом порядке и иметь одинаковые контексты.
Алгоритм протестировали на трёх наборах когнатов: для угаритского и иврита, для линейного письма Б и греческого алфавита и контрольном наборе для поиска когнатов в родственных романских языках. Результаты получились значительно лучше по сравнению с исследованием 2010 года: NeuroCipher правильно сопоставил 65.9% угаритских слов их когнатами в иврите, 67.3% слов на линейном Б с когнатами, записанными греческим письмом, и 91.6% когнатов в романских языках.
Сейчас авторы исследования продолжают улучшать показатели NeuroCipher и учат алгоритм сопоставлять не только когнаты. А несколько научных изданий уже задумались, не станет ли эта нейросеть ключом к расшифровке языков, на которых пока не удалось прочитать ни одной надписи, главным образом, линейного письма А. Вряд ли расшифровать линейное письмо А удастся в ближайшее время, но исследование MIT и Google Brain — впечатляющий шаг в эту сторону.
Дарья Оверникова
Очень большой... датасет: как порноиндустрия подсела на анализ данных
Просмотр порно — это довольно интимный процесс, в детали которого мы обычно не посвящаем всех вокруг. Однако сегодня порносайты отслеживают каждое наше действие: они знают, что мы любим смотреть, на каких моментах ставим видео на паузу, а на какие моменты перематываем. За простой и легальный доступ к всевозможному контенту для взрослых приходится платить данными.
Например, MindGeek — холдинг, которому принадлежит множество порносайтов и порностудий, в том числе Pornhub. В холдинге работают более 1000 технических специалистов, многие из которых заняты сбором и интерпретацией пользовательских данных. А результаты анализа MindGeek использует для настройки таргетированной рекламы.
Таким образом, порнотьюбы зарабатывают деньги как и социальные сети типа ВКонтакте или Facebook. Более того, они не только продают рекламу, но и, опираясь на данные, создают контент с высоким ER (Engagement Rate — оценка вовлечения пользователей), чтобы пользователи проводили еще больше времени на сайте, а значит — генерировали еще больше данных.
Мы знаем, о чем ты мечтаешь
Недавнее исследование Нью-Йоркского университета показывает как скрупулезно MindGeek подходит к удовлетворению пользовательских вкусов: в сценарии для порновидео указана одежда актеров, её цвет и стиль, а жирным шрифтом выделены важные детали, например, «Девушка 1 и девушка 2 остаются в одежде во время секса, парень 3 раздет».
Видео на сайтах типа Pornhub часто длятся меньше 20 минут. Среднестатистический пользователь проводит на сайте около 10 минут и за это время он обычно переключается между несколькими видео. Это позволяет собрать огромное количество данных с каждого пользователя. При этом производство порнороликов обходится дешевле, чем, например, производство сериалов или фильмов на Netflix, поэтому MindGeek может быстро подстроиться к новым трендам. И тренды в порно меняются с той же скоростью, что и тренды в новостях.
Данные об этих трендах выкладываются на сайте Pornhub Insights. Его главный хит — Year in Review — определяет новостную секс-повестку как минимум на месяц после публикации отчета. Социальные сети и СМИ активно обсуждают странные фантазии и фетиши пользователей, сексуальные предпочтения миллениалов и приносят огромное количество трафика обратно на Pornhub.
Sex Tech
Порнокомпании постоянно берут на вооружение новые технологии, чтобы быть готовыми к будущим пользовательским запросам. Например, YouPorn использовал нейросети для предсказания самых популярных поисковых запросов в 2018 году — первое место пророчилось Т’чалле и Шури, брату и сестре из фильма «Черная пантера» (к слову о табуированных темах). Также сайт ввел поиск по Emoji, т.к. все больше пользователей смотрят порно на мобильных устройствах.
Порно всегда было областью, в которой быстро приживались новые технологии. Оно также способствовало их массовому распространению. Вот несколько ярких примеров: VHS, мгновенные сообщения, интернет-магазины, стриминг. Хотя порноиндустрия не создала эти инновации, она их популяризировала и помогла им развиться. Так, VR активнее всего используется игровой и порноиндустрией. Ведь новые технологии позволяют собрать еще больше данных.
Технологии, в свою очередь, помогают порноиндустрии выглядеть, как это ни парадоксально, более человечно. Современные IT-гиганты сегодня не могут запросто игнорировать социальные проблемы, начиная от гендерного равенства и заканчивая безопасностью данных. Если порнокомпания хочет стоять с ними в одном ряду, ей необходимо учитывать эти правила и уметь реагировать на общественные вопросы, которые и сейчас довольно часто возникают к индустрии порно.
Мария Федотова
Просмотр порно — это довольно интимный процесс, в детали которого мы обычно не посвящаем всех вокруг. Однако сегодня порносайты отслеживают каждое наше действие: они знают, что мы любим смотреть, на каких моментах ставим видео на паузу, а на какие моменты перематываем. За простой и легальный доступ к всевозможному контенту для взрослых приходится платить данными.
Например, MindGeek — холдинг, которому принадлежит множество порносайтов и порностудий, в том числе Pornhub. В холдинге работают более 1000 технических специалистов, многие из которых заняты сбором и интерпретацией пользовательских данных. А результаты анализа MindGeek использует для настройки таргетированной рекламы.
Таким образом, порнотьюбы зарабатывают деньги как и социальные сети типа ВКонтакте или Facebook. Более того, они не только продают рекламу, но и, опираясь на данные, создают контент с высоким ER (Engagement Rate — оценка вовлечения пользователей), чтобы пользователи проводили еще больше времени на сайте, а значит — генерировали еще больше данных.
Мы знаем, о чем ты мечтаешь
Недавнее исследование Нью-Йоркского университета показывает как скрупулезно MindGeek подходит к удовлетворению пользовательских вкусов: в сценарии для порновидео указана одежда актеров, её цвет и стиль, а жирным шрифтом выделены важные детали, например, «Девушка 1 и девушка 2 остаются в одежде во время секса, парень 3 раздет».
Видео на сайтах типа Pornhub часто длятся меньше 20 минут. Среднестатистический пользователь проводит на сайте около 10 минут и за это время он обычно переключается между несколькими видео. Это позволяет собрать огромное количество данных с каждого пользователя. При этом производство порнороликов обходится дешевле, чем, например, производство сериалов или фильмов на Netflix, поэтому MindGeek может быстро подстроиться к новым трендам. И тренды в порно меняются с той же скоростью, что и тренды в новостях.
Данные об этих трендах выкладываются на сайте Pornhub Insights. Его главный хит — Year in Review — определяет новостную секс-повестку как минимум на месяц после публикации отчета. Социальные сети и СМИ активно обсуждают странные фантазии и фетиши пользователей, сексуальные предпочтения миллениалов и приносят огромное количество трафика обратно на Pornhub.
Sex Tech
Порнокомпании постоянно берут на вооружение новые технологии, чтобы быть готовыми к будущим пользовательским запросам. Например, YouPorn использовал нейросети для предсказания самых популярных поисковых запросов в 2018 году — первое место пророчилось Т’чалле и Шури, брату и сестре из фильма «Черная пантера» (к слову о табуированных темах). Также сайт ввел поиск по Emoji, т.к. все больше пользователей смотрят порно на мобильных устройствах.
Порно всегда было областью, в которой быстро приживались новые технологии. Оно также способствовало их массовому распространению. Вот несколько ярких примеров: VHS, мгновенные сообщения, интернет-магазины, стриминг. Хотя порноиндустрия не создала эти инновации, она их популяризировала и помогла им развиться. Так, VR активнее всего используется игровой и порноиндустрией. Ведь новые технологии позволяют собрать еще больше данных.
Технологии, в свою очередь, помогают порноиндустрии выглядеть, как это ни парадоксально, более человечно. Современные IT-гиганты сегодня не могут запросто игнорировать социальные проблемы, начиная от гендерного равенства и заканчивая безопасностью данных. Если порнокомпания хочет стоять с ними в одном ряду, ей необходимо учитывать эти правила и уметь реагировать на общественные вопросы, которые и сейчас довольно часто возникают к индустрии порно.
Мария Федотова
Word2Vec: покажи мне свой контекст, и я скажу, кто ты
Технология Word2Vec работает с большим текстовым корпусом и присваивает каждому слову уникальный набор чисел — семантический вектор. Вся идея векторов основана на дистрибутивной гипотезе, по которой смысл слова заключается не в наборе его собственных звуков и букв, а в том, среди каких слов оно чаще всего встречается. То есть между элементами его возможных контекстов, отсюда и название — дистрибутивная гипотеза.
Но в любом большом корпусе количество уникальных слов часто переваливает за сотни тысяч, и рассчитывать семантические вектора для каждого из них совсем не просто. Решение для этой проблемы предложил ученый из Чехии Томаш Миколов. Он придумал две нейросетевые архитектуры: CBOW и Skip-Gram.
Skip-Gram тренирует и обучает нейросеть чтобы запомнить веса нейронов (которые в нашем случае как раз и станут семантическими векторами). Skip-Gram много раз заставляет нейросеть предсказать, какие слова вероятнее всего встретить рядом с «абажуром». Она много раз ошибется и смотрит на то, какие вектора должны были получиться. В конце концов методом проб и ошибок алгоритм понемногу корректирует изначальные случайные значения и подбирает те самые веса, на которые нужно умножать вектор абажура, чтобы получить вектора правильных слов. А потом приходит человек, забирает веса и говорит, что это — семантический вектор абажура.
https://sysblok.ru/knowhow/word2vec-pokazhi-mne-svoj-kontekst-i-ja-skazhu-kto-ty/
Технология Word2Vec работает с большим текстовым корпусом и присваивает каждому слову уникальный набор чисел — семантический вектор. Вся идея векторов основана на дистрибутивной гипотезе, по которой смысл слова заключается не в наборе его собственных звуков и букв, а в том, среди каких слов оно чаще всего встречается. То есть между элементами его возможных контекстов, отсюда и название — дистрибутивная гипотеза.
Но в любом большом корпусе количество уникальных слов часто переваливает за сотни тысяч, и рассчитывать семантические вектора для каждого из них совсем не просто. Решение для этой проблемы предложил ученый из Чехии Томаш Миколов. Он придумал две нейросетевые архитектуры: CBOW и Skip-Gram.
Skip-Gram тренирует и обучает нейросеть чтобы запомнить веса нейронов (которые в нашем случае как раз и станут семантическими векторами). Skip-Gram много раз заставляет нейросеть предсказать, какие слова вероятнее всего встретить рядом с «абажуром». Она много раз ошибется и смотрит на то, какие вектора должны были получиться. В конце концов методом проб и ошибок алгоритм понемногу корректирует изначальные случайные значения и подбирает те самые веса, на которые нужно умножать вектор абажура, чтобы получить вектора правильных слов. А потом приходит человек, забирает веса и говорит, что это — семантический вектор абажура.
https://sysblok.ru/knowhow/word2vec-pokazhi-mne-svoj-kontekst-i-ja-skazhu-kto-ty/
Системный Блокъ
Word2Vec: покажи мне свой контекст, и я скажу, кто ты - Системный Блокъ
Разбираемся, как компьютеры понимают смысл наших текстов
Йоханн-Маттис Лист — исторический лингвист и программист-самоучка, применяющий в своих исследованиях цифровые методы. В интервью Системному Блоку учёный рассказал:
— как количественные методы популяризировали генеалогические деревья в лингвистике и раскрывают секреты праязыков.
— как начать применять компьютерные методы в исследованиях, не имея технического образования.
— что продвинутые технологии не заберут работу у гуманитариев. Точно не в ближайшем будущем.
— что филолог и инженер могут работать вместе, но им нужно понять друг друга.
— что лингвистика и биология близки, но не сильно.
— что ученые многого не знают, и это нормально.
— как лингвистический программный пакет LingPy автоматически распознает родственные слова на разных языках.
— как ученый справляется с неудачами в работе с помощью... жонглирования.
https://sysblok.ru/interviews/obedinit-klassicheskih-filologov-i-specialistov-po-cifre/
— как количественные методы популяризировали генеалогические деревья в лингвистике и раскрывают секреты праязыков.
— как начать применять компьютерные методы в исследованиях, не имея технического образования.
— что продвинутые технологии не заберут работу у гуманитариев. Точно не в ближайшем будущем.
— что филолог и инженер могут работать вместе, но им нужно понять друг друга.
— что лингвистика и биология близки, но не сильно.
— что ученые многого не знают, и это нормально.
— как лингвистический программный пакет LingPy автоматически распознает родственные слова на разных языках.
— как ученый справляется с неудачами в работе с помощью... жонглирования.
https://sysblok.ru/interviews/obedinit-klassicheskih-filologov-i-specialistov-po-cifre/
Системный Блокъ
"Объединить классических филологов и специалистов по цифре" - Системный Блокъ
Какие возможности даёт историческому лингвисту программирование? Об этом в интервью Системному Блоку рассказал Йоханн-Маттис Лист — исследователь в области исторической лингвистики и разработчик цифровых методов для сравнительного анализа языков
Что случилось с самыми унылыми стихотворениями XIX века
Элегия — ключевой поэтический жанр «золотого века» русской поэзии. Но что происходило с элегией за 20 лет ее развития (с 1815 по 1835)? Ответить на этот вопрос нам может помочь корпус из 390 элегий, напечатанных в журналах начала 19 века.
Первое и самое простое, что можно сделать с таким жанрово-единообразным корпусом, — посмотреть, какие слова отличают его от поэзии вообще. Для этого можно сравнить наиболее частотные слова в элегиях и в поэтическом подкорпусе НКРЯ. Сравнение показывает, что среди первых 40 частотных слов в обоих корпусах элегии отличают слова «милый», «небо», «слеза» и «мечта». Если смотреть на сочетания из двух слов (биграммы), то для элегий характерны: «последний раз», «милый друг», «вся радость», «юные годы», «слезы лить», «сладкий сон».
Рассматривая эволюцию жанра элегии, мы в первую очередь обращаем внимание на развитие и изменение содержания. Метод тематического моделирования позволяет проанализировать развитие отдельных тем через распределение слов в текстах корпуса. За основу берется количество появлений отдельного слова *** в каждом стихотворении (например, для элегии Пушкина «Поедем, я готов…»: «поехать»: 2, «я»: 4, «готовый»: 3 и т.д.), составляется таблица со всеми словами. Далее алгоритм анализирует, какие слова встречаются друг с другом в каждом тексте, и на основании общего распределения в корпусе вычленяет в текстах темы.
Для корпуса элегий была построена такая тематическая модель из 12 тем. Заметно, что в текстах конца 1810-х — начала 1820-х годов больше, чем в другие периоды встречаются историческая тема (11), ключевые слова: «слава», «страна», «меч», «родина», «сын», «герой», «враг», «бой» и тема «поэта и поэзии» (10), ключевые слова: «бог», «сердце», «певец», «лира», «слава», «муза».
Интересно, что начиная с середины 1820-х годов все большую долю в корпусе занимает «любовная» тема (5), и все чаще встречаются слова: «я», «ты», «любовь», «душа», «друг», «она», «любить».
Тоня Мартыненко
Элегия — ключевой поэтический жанр «золотого века» русской поэзии. Но что происходило с элегией за 20 лет ее развития (с 1815 по 1835)? Ответить на этот вопрос нам может помочь корпус из 390 элегий, напечатанных в журналах начала 19 века.
Первое и самое простое, что можно сделать с таким жанрово-единообразным корпусом, — посмотреть, какие слова отличают его от поэзии вообще. Для этого можно сравнить наиболее частотные слова в элегиях и в поэтическом подкорпусе НКРЯ. Сравнение показывает, что среди первых 40 частотных слов в обоих корпусах элегии отличают слова «милый», «небо», «слеза» и «мечта». Если смотреть на сочетания из двух слов (биграммы), то для элегий характерны: «последний раз», «милый друг», «вся радость», «юные годы», «слезы лить», «сладкий сон».
Рассматривая эволюцию жанра элегии, мы в первую очередь обращаем внимание на развитие и изменение содержания. Метод тематического моделирования позволяет проанализировать развитие отдельных тем через распределение слов в текстах корпуса. За основу берется количество появлений отдельного слова *** в каждом стихотворении (например, для элегии Пушкина «Поедем, я готов…»: «поехать»: 2, «я»: 4, «готовый»: 3 и т.д.), составляется таблица со всеми словами. Далее алгоритм анализирует, какие слова встречаются друг с другом в каждом тексте, и на основании общего распределения в корпусе вычленяет в текстах темы.
Для корпуса элегий была построена такая тематическая модель из 12 тем. Заметно, что в текстах конца 1810-х — начала 1820-х годов больше, чем в другие периоды встречаются историческая тема (11), ключевые слова: «слава», «страна», «меч», «родина», «сын», «герой», «враг», «бой» и тема «поэта и поэзии» (10), ключевые слова: «бог», «сердце», «певец», «лира», «слава», «муза».
Интересно, что начиная с середины 1820-х годов все большую долю в корпусе занимает «любовная» тема (5), и все чаще встречаются слова: «я», «ты», «любовь», «душа», «друг», «она», «любить».
Тоня Мартыненко
Сегодня 1 сентября📚 И хотя не всем завтра предстоит снова отправиться в школу, день знаний — отличный повод научиться чему-нибудь новому. «Системный Блокъ» подготовил для вас подборку образовательных статей о русском языке, шахматах и учителях — в общем, о том, с чем у нас с детства ассоциируются школьные годы.
Как аннотация текстов связана с шахматами?
Как благодаря знаменитой игре можно не только повторить ход гроссмейстера Е2-Е4, но и определить лингвистическую сложность текста?
Помедленнее, я записываю
Речь грузчиков, субтитры, русский язык в иностранном исполнении и другие жемчужины коллекции самых необычных корпусов.
Не стыдно и весело: чем хороши языковые боты
Робот — друг человека? Рассказываем, как живут голосовые помощники для изучения языков и можно ли с ними подружиться.
Пощады не будет: учителей меняют на роботов
В продолжение предыдущей статьи «Системный Блокъ» исследует обратную сторону медали: может ли робот не просто стать лучшим другом человека, но и оставить его без работы (спойлер: искусственный интеллект не стоит недооценивать).
Дефенестрация? Не, не слышал!
Как алгоритмы помогают определить словарный запас человека и какую неочевидную выгоду сулит написание кандидатской.
Как аннотация текстов связана с шахматами?
Как благодаря знаменитой игре можно не только повторить ход гроссмейстера Е2-Е4, но и определить лингвистическую сложность текста?
Помедленнее, я записываю
Речь грузчиков, субтитры, русский язык в иностранном исполнении и другие жемчужины коллекции самых необычных корпусов.
Не стыдно и весело: чем хороши языковые боты
Робот — друг человека? Рассказываем, как живут голосовые помощники для изучения языков и можно ли с ними подружиться.
Пощады не будет: учителей меняют на роботов
В продолжение предыдущей статьи «Системный Блокъ» исследует обратную сторону медали: может ли робот не просто стать лучшим другом человека, но и оставить его без работы (спойлер: искусственный интеллект не стоит недооценивать).
Дефенестрация? Не, не слышал!
Как алгоритмы помогают определить словарный запас человека и какую неочевидную выгоду сулит написание кандидатской.
Системный Блокъ
Как аннотация текстов связана с шахматами? - Системный Блокъ
Как аннотировать тексты, используя метод для подсчёта рейтинга шахматистов?
Накануне войны: что можно увидеть в сети родства монархов Европы 1914 года
Историк Михаил Щегольков проанализировал международную обстановку последнего мирного месяца перед Первой мировой войной, изучив родственные связи европейских монархов с помощью сетевого анализа.
Узлами сети европейских монархов стали 21 монарх и 6 претендентов на престол, а толщина ребер означает количество общих предков либо общих потомков у двух человек.
Сетевой метод дает интересные результаты: например, на построенном графе становятся видно, что практически вся Европа делится на католиков и протестантов. Нидерланды оказываются единственной страной, связанной только с нейтральными странами, а Норвегия, Дания и Греция так тесно взаимодействуют между собой, потому что ими правили родные братья.
https://sysblok.ru/history/nakanune-vojny-chto-mozhno-uvidet-v-seti-rodstva-monarhov-evropy-1914-goda/
Историк Михаил Щегольков проанализировал международную обстановку последнего мирного месяца перед Первой мировой войной, изучив родственные связи европейских монархов с помощью сетевого анализа.
Узлами сети европейских монархов стали 21 монарх и 6 претендентов на престол, а толщина ребер означает количество общих предков либо общих потомков у двух человек.
Сетевой метод дает интересные результаты: например, на построенном графе становятся видно, что практически вся Европа делится на католиков и протестантов. Нидерланды оказываются единственной страной, связанной только с нейтральными странами, а Норвегия, Дания и Греция так тесно взаимодействуют между собой, потому что ими правили родные братья.
https://sysblok.ru/history/nakanune-vojny-chto-mozhno-uvidet-v-seti-rodstva-monarhov-evropy-1914-goda/
Чему учат в современной началке, и как корпус из учебников русского языка для начальной школы может помочь ответить на этот вопрос?
Подавляющее большинство заданий в корпусе учебников 1-4 классов представлено в форме императива, т.е. повелительного наклонения (запиши, подумайте и т.д.) С огромным отрывом лидирует предложение прочитать, далее следуют несколько форм заданий на письмо: от списывания с образца до написания собственных примеров.
Затем идут задания на поиск и различные виды обработки информации: Порадуйтесь и вы тому, что вас окружает в природе; «Попутешествуй» по картине.
Интересно проследить, способны ли формулировки заданий отражать учебную программу, разный набор тем в зависимости от класса. График ниже показывает частоту трех глаголов — произнести, образовать и спрягать в инструкциях к упражнениям с 1 по 4 класс. "Произносить" задания чаще всего нужно в 1-2 классах. В третьем классе появляется необходимость образовывать новые слова и предложения. Понятие глагольных спряжений вводится лишь в четвертом классе, что тоже явно отражено на графике.
Интересно, что в серии учебников под ред. Нечаевой мы столкнулись с разными заданиями для мальчиков и девочек — находка для гендерных исследователей! Но если вернуться к вопросу, чему же учат в начальной школе на уроках русского языка, можем с уверенностью сказать, что ЧИТАТЬ, ПИСАТЬ И СПИСЫВАТЬ, а потом уже всему остальному.
Антонина Лапошина
Подавляющее большинство заданий в корпусе учебников 1-4 классов представлено в форме императива, т.е. повелительного наклонения (запиши, подумайте и т.д.) С огромным отрывом лидирует предложение прочитать, далее следуют несколько форм заданий на письмо: от списывания с образца до написания собственных примеров.
Затем идут задания на поиск и различные виды обработки информации: Порадуйтесь и вы тому, что вас окружает в природе; «Попутешествуй» по картине.
Интересно проследить, способны ли формулировки заданий отражать учебную программу, разный набор тем в зависимости от класса. График ниже показывает частоту трех глаголов — произнести, образовать и спрягать в инструкциях к упражнениям с 1 по 4 класс. "Произносить" задания чаще всего нужно в 1-2 классах. В третьем классе появляется необходимость образовывать новые слова и предложения. Понятие глагольных спряжений вводится лишь в четвертом классе, что тоже явно отражено на графике.
Интересно, что в серии учебников под ред. Нечаевой мы столкнулись с разными заданиями для мальчиков и девочек — находка для гендерных исследователей! Но если вернуться к вопросу, чему же учат в начальной школе на уроках русского языка, можем с уверенностью сказать, что ЧИТАТЬ, ПИСАТЬ И СПИСЫВАТЬ, а потом уже всему остальному.
Антонина Лапошина
VR в образовании: от Древнего Египта до высадки на Луну
Дополненная, виртуальная и смешанная реальность в образовании — давно не фантастика. С каждым годом AR, VR и XR завоевывают новые позиции в школах, университетах и музеях. «Системный Блокъ» перевел рассказ эксперта Стива Бембери о лучших образовательных VR-новинках прошлого года:
1.Number Hunt (Vive/Rift/WMR)
В формате шутера вы мчитесь вокруг арен, населенных антропоморфизированными числами, стреляя в числовые NPC из пистолета, который может выполнять четыре математические операции (сложение, деление, вычитание, умножение). Это очень веселый и необычный подход к математике.
2. Nanome (Vive / Rift/WMR)
Nanome предоставляет пользователю возможность выбрать огромное количество химических веществ для экспериментов. Нанотехнологии представлены так, как если бы ученик был человеком-муравьем.
3. Nefertari: Journey to Eternity (HTC Vive)
Приложение позволяет гулять по гробнице Нефертити, слушая первоклассные исторические комментарии. А интерактивные точки знакомят учеников с историей, культурой и конструированием гробниц.
4. Becoming Homeless (HTC Vive)
приложение Becoming Homeless (Стать бездомным). Это короткий, но мощный опыт, позволяющий вам встать на место кого-то, кто оказался на улице. По мере того, как ваше положение ухудшается, вы испытываете суровые реалии жизни бездомного от первого лица.
5. Hold The World (Rift/WMR)
Удивительный виртуальный музей. Выбрав объект, о котором вы хотели бы больше узнать, вы можете сфокусироваться на его частях или углубиться в историю. Невероятно и захватывающе в равной мере.
6. Google Tour Creator (Web)
Tour Creator — это веб-инструмент, позволяющий создавать интерактивные виртуальные туры с несколькими сценами. Это безусловно самый доступный инструмент для преподавателей, которые ищут способы интегрировать 360о туры в учебную программу.
7. Apollo 11 VR HD — (Vive/Rift/WMR)
Виртуальный полет на луну (переиздание приложения 2016 года) в более высоком разрешении и с новыми демонстрационными режимами.
8. Anne Frank House VR (Rift/Go/Gear)
Созданное при поддержке музея Анны Франк, приложение детально воссоздает Secret Annex — печально известное тайное убежище, где Анна Франк и её семья скрывались во время Второй Мировой войны.
9. The Kremer Collection VR Museum
Это виртуальная галерея содержит более 70 работ классиков старой школы, таких как Рембрандт, воссозданных в потрясающих деталях, позволяющих вам приблизиться к искусству как никогда раньше. Каждая сопровождается не только текстовым, но и аудио описанием.
10. HoloLab Champions (Vive/Rift)
Химическое приложение в котором ученики вступают в соревнование, где нужно завершить эксперимент быстро, но безопасно, чтобы стать чемпионом и разблокировать разные достижения.
Дополненная, виртуальная и смешанная реальность в образовании — давно не фантастика. С каждым годом AR, VR и XR завоевывают новые позиции в школах, университетах и музеях. «Системный Блокъ» перевел рассказ эксперта Стива Бембери о лучших образовательных VR-новинках прошлого года:
1.Number Hunt (Vive/Rift/WMR)
В формате шутера вы мчитесь вокруг арен, населенных антропоморфизированными числами, стреляя в числовые NPC из пистолета, который может выполнять четыре математические операции (сложение, деление, вычитание, умножение). Это очень веселый и необычный подход к математике.
2. Nanome (Vive / Rift/WMR)
Nanome предоставляет пользователю возможность выбрать огромное количество химических веществ для экспериментов. Нанотехнологии представлены так, как если бы ученик был человеком-муравьем.
3. Nefertari: Journey to Eternity (HTC Vive)
Приложение позволяет гулять по гробнице Нефертити, слушая первоклассные исторические комментарии. А интерактивные точки знакомят учеников с историей, культурой и конструированием гробниц.
4. Becoming Homeless (HTC Vive)
приложение Becoming Homeless (Стать бездомным). Это короткий, но мощный опыт, позволяющий вам встать на место кого-то, кто оказался на улице. По мере того, как ваше положение ухудшается, вы испытываете суровые реалии жизни бездомного от первого лица.
5. Hold The World (Rift/WMR)
Удивительный виртуальный музей. Выбрав объект, о котором вы хотели бы больше узнать, вы можете сфокусироваться на его частях или углубиться в историю. Невероятно и захватывающе в равной мере.
6. Google Tour Creator (Web)
Tour Creator — это веб-инструмент, позволяющий создавать интерактивные виртуальные туры с несколькими сценами. Это безусловно самый доступный инструмент для преподавателей, которые ищут способы интегрировать 360о туры в учебную программу.
7. Apollo 11 VR HD — (Vive/Rift/WMR)
Виртуальный полет на луну (переиздание приложения 2016 года) в более высоком разрешении и с новыми демонстрационными режимами.
8. Anne Frank House VR (Rift/Go/Gear)
Созданное при поддержке музея Анны Франк, приложение детально воссоздает Secret Annex — печально известное тайное убежище, где Анна Франк и её семья скрывались во время Второй Мировой войны.
9. The Kremer Collection VR Museum
Это виртуальная галерея содержит более 70 работ классиков старой школы, таких как Рембрандт, воссозданных в потрясающих деталях, позволяющих вам приблизиться к искусству как никогда раньше. Каждая сопровождается не только текстовым, но и аудио описанием.
10. HoloLab Champions (Vive/Rift)
Химическое приложение в котором ученики вступают в соревнование, где нужно завершить эксперимент быстро, но безопасно, чтобы стать чемпионом и разблокировать разные достижения.
Как власти в Гонконге используют технологии, чтобы найти протестующих, а протестующие — чтобы спрятаться от властей
В Гонконге не прекращаются протесты, которые начались в июне с мирных шествий против нового закона об экстрадиции. И полиция, и протестующие используют современные технологии, чтобы обойти соперника. Какие именно устройства и приложения участвуют в битве?
Протестующие
1. Лазеры
Чтобы скрыться от системы распознавания лиц, манифестанты пытались использовать лазерные указки, которыми засвечивали камеры. Однако ход оказался неэффективным: попасть в небольшие камеры наблюдения, которые к тому же высоко закреплены, весьма непросто. Так что лазеры часто направляют в глаза полицейским, которым, в отличие от бездушных железок, это навредить может.
2. Социальные сети
Для координирования движения участники протестов создают сообщества и анонимные чаты в Facebook и Telegram. В них они обсуждают места проведения акций, способы защиты от контрмер полиции, дальнейшие действия. Существуют даже группы, в которых участники обсуждают последующие встречи для сбора мусора и уборки после маршей.
3. Мессенджеры
Однако даже анонимные чаты не могут обеспечить безопасность участников. Так, Telegram предположил, что за DDOS-атаками на сервис стоит китайское правительство. Многие протестующие используют Air-drop как средство связи — чтобы быстро обмениваться информацией о местоположении полицейских нарядов и времени следующей встречи.
4. Никакого WeChat и банковских карт
Большинство протестующих очень внимательно относятся к электронным следам. Чтобы избежать поимки, они не используют банковские карты, электронные проездные в метро, многоразовые sim-карты. Только старые мобильники, только незаписывающие устройства.
Государство
1. Система опознавания лиц
Система опознавания лиц дает свои результаты. Как оказалось, медицинской маски и зонтика недостаточно, чтобы ее обмануть. Система отслеживает даже телодвижения и комплекцию.
2. Социальные сети
Китай подозревают в обрушении серверов Telegram. Кроме этого Twitter и Facebook провели внутренние расследования и выяснили, что власти Китая использовали некоторые аккаунты этих социальных сетей в своих интересах (фабрика троллей, made in China). Эти страницы обвиняли участников протестов в насилии и незаконном проведении акций.
Эвелина Григорьян
В Гонконге не прекращаются протесты, которые начались в июне с мирных шествий против нового закона об экстрадиции. И полиция, и протестующие используют современные технологии, чтобы обойти соперника. Какие именно устройства и приложения участвуют в битве?
Протестующие
1. Лазеры
Чтобы скрыться от системы распознавания лиц, манифестанты пытались использовать лазерные указки, которыми засвечивали камеры. Однако ход оказался неэффективным: попасть в небольшие камеры наблюдения, которые к тому же высоко закреплены, весьма непросто. Так что лазеры часто направляют в глаза полицейским, которым, в отличие от бездушных железок, это навредить может.
2. Социальные сети
Для координирования движения участники протестов создают сообщества и анонимные чаты в Facebook и Telegram. В них они обсуждают места проведения акций, способы защиты от контрмер полиции, дальнейшие действия. Существуют даже группы, в которых участники обсуждают последующие встречи для сбора мусора и уборки после маршей.
3. Мессенджеры
Однако даже анонимные чаты не могут обеспечить безопасность участников. Так, Telegram предположил, что за DDOS-атаками на сервис стоит китайское правительство. Многие протестующие используют Air-drop как средство связи — чтобы быстро обмениваться информацией о местоположении полицейских нарядов и времени следующей встречи.
4. Никакого WeChat и банковских карт
Большинство протестующих очень внимательно относятся к электронным следам. Чтобы избежать поимки, они не используют банковские карты, электронные проездные в метро, многоразовые sim-карты. Только старые мобильники, только незаписывающие устройства.
Государство
1. Система опознавания лиц
Система опознавания лиц дает свои результаты. Как оказалось, медицинской маски и зонтика недостаточно, чтобы ее обмануть. Система отслеживает даже телодвижения и комплекцию.
2. Социальные сети
Китай подозревают в обрушении серверов Telegram. Кроме этого Twitter и Facebook провели внутренние расследования и выяснили, что власти Китая использовали некоторые аккаунты этих социальных сетей в своих интересах (фабрика троллей, made in China). Эти страницы обвиняли участников протестов в насилии и незаконном проведении акций.
Эвелина Григорьян
Тест Тьюринга для киберпоэтов
Тест Тьюринга был создан английским математиком и пионером компьютерных наук Аланом Тьюрингом. Основная задача теста — определить, может ли машина мыслить. Согласно теории учёного, если компьютер может в текстовом режиме вести беседу так, чтобы человек не догадался о природе своего собеседника, у машины есть интеллект.
В 2013 году Бенджамин Лэйрд и Оскар Шварц решили использовать идеи теста Тьюринга, чтобы выяснить, может ли компьютер писать стихи наравне с человеком.
Слова, фразы и конструкции, составляющие язык, — это строительный материал. Алгоритм может взять любой язык, использовать корпус стихотворений конкретного поэта или, может быть, целого стихотворного жанра и затем научиться писать собственные стихи.
Участникам эксперимента «Bot or not» предлагалось выбрать из двух стихотворений «человеческое». Согласно теории Тьюринга, компьютер проходит тест на интеллект, если ему удаётся обмануть человека в 30% случаев. В базе данных программы Бенджамина Лэйрда и Оскара Шварца есть «компьютерные» стихотворения, убедившие 65% читателей, что они были написаны людьми.
https://sysblok.ru/philology/test-tjuringa-dlja-kiberpojetov/
Тест Тьюринга был создан английским математиком и пионером компьютерных наук Аланом Тьюрингом. Основная задача теста — определить, может ли машина мыслить. Согласно теории учёного, если компьютер может в текстовом режиме вести беседу так, чтобы человек не догадался о природе своего собеседника, у машины есть интеллект.
В 2013 году Бенджамин Лэйрд и Оскар Шварц решили использовать идеи теста Тьюринга, чтобы выяснить, может ли компьютер писать стихи наравне с человеком.
Слова, фразы и конструкции, составляющие язык, — это строительный материал. Алгоритм может взять любой язык, использовать корпус стихотворений конкретного поэта или, может быть, целого стихотворного жанра и затем научиться писать собственные стихи.
Участникам эксперимента «Bot or not» предлагалось выбрать из двух стихотворений «человеческое». Согласно теории Тьюринга, компьютер проходит тест на интеллект, если ему удаётся обмануть человека в 30% случаев. В базе данных программы Бенджамина Лэйрда и Оскара Шварца есть «компьютерные» стихотворения, убедившие 65% читателей, что они были написаны людьми.
https://sysblok.ru/philology/test-tjuringa-dlja-kiberpojetov/
Системный Блокъ
Тест Тьюринга для киберпоэтов - Системный Блокъ
Как обычный «слепой тест» по отделению машинной поэзии от той, что написана людьми, приводит ученых к философскому спору об относительности понятия «человека» в искусстве
Знакомый почерк: цифровые технологии для юристов
Любой текст, написанный от руки, имеет много особенностей: форма, размер и расположение букв, сила, с которой ручка отпечаталась на бумаге. Эти и другие признаки выделяют юристы, когда проводят почерковедческую экспертизу. Главная задача экспертизы — установление автора рукописи. Можно ли использовать для этого цифровые технологии?
Точный подход к анализу почерка — количественный или графометрический основан на выделении количественных признаков и их статистическом анализе. Для этого применяются компьютерные технологии. Одна из них — инструмент GRAPHJ. Он работает с отсканированными документами и может использоваться на разных этапах экспертизы.
Как работает GRAPHJ?
GRAPHJ распознает строки текста. По умолчанию, текстовая строка делится на три области — нижнюю, среднюю и верхнюю. Сначала в документе находятся все средние области.
Отсканированная картинка разбивается на пиксели и бинаризируется (переводится в черно-белый вариант): все пиксели темнее определенной границы получают значение 0 (черный), а остальные — 1 (белый). Картинка делится на h линий (h — высота картинки), и из нее создается гистограмма, каждая точка которой — число нулей в определенной линии.
Границы слов определяются по разрывам на гистограмме. Затем распознаются отдельные символы и подсчитываются их вхождения. Пользователь сам выделяет в тексте образец символа, а программа ищет совпадения.
Биометрия и технологии
Еще один точный подход — биометрический, основанный на измерении биологических и поведенческих характеристик человека. Перед экспертизой почерка открылись новые горизонты с появлением цифровой биометрической подписи. Существуют различные приложения для ее создания, мы расскажем про GrafoCerta (итал. «достоверная подпись») — разработку итальянской компании Namirial.
У цифровых подписей много преимуществ: они не требуют печати бумаги, могут быть использованы повторно. Для их создания даже не обязательно иметь специальный планшет: у GrafoCerta есть мобильные приложения для Windows, Android и IOS! Гарантируется безопасность и юридическая сила цифровой подписи: приложение фиксирует биометрические характеристики человека.
Преимущество приложения в том, что оно фиксирует скорость письма и силу давления на ручку — важнейшие признаки, обусловенные моторной памятью человека, которые рука «помнит» сама.
Дарья Балуева
Любой текст, написанный от руки, имеет много особенностей: форма, размер и расположение букв, сила, с которой ручка отпечаталась на бумаге. Эти и другие признаки выделяют юристы, когда проводят почерковедческую экспертизу. Главная задача экспертизы — установление автора рукописи. Можно ли использовать для этого цифровые технологии?
Точный подход к анализу почерка — количественный или графометрический основан на выделении количественных признаков и их статистическом анализе. Для этого применяются компьютерные технологии. Одна из них — инструмент GRAPHJ. Он работает с отсканированными документами и может использоваться на разных этапах экспертизы.
Как работает GRAPHJ?
GRAPHJ распознает строки текста. По умолчанию, текстовая строка делится на три области — нижнюю, среднюю и верхнюю. Сначала в документе находятся все средние области.
Отсканированная картинка разбивается на пиксели и бинаризируется (переводится в черно-белый вариант): все пиксели темнее определенной границы получают значение 0 (черный), а остальные — 1 (белый). Картинка делится на h линий (h — высота картинки), и из нее создается гистограмма, каждая точка которой — число нулей в определенной линии.
Границы слов определяются по разрывам на гистограмме. Затем распознаются отдельные символы и подсчитываются их вхождения. Пользователь сам выделяет в тексте образец символа, а программа ищет совпадения.
Биометрия и технологии
Еще один точный подход — биометрический, основанный на измерении биологических и поведенческих характеристик человека. Перед экспертизой почерка открылись новые горизонты с появлением цифровой биометрической подписи. Существуют различные приложения для ее создания, мы расскажем про GrafoCerta (итал. «достоверная подпись») — разработку итальянской компании Namirial.
У цифровых подписей много преимуществ: они не требуют печати бумаги, могут быть использованы повторно. Для их создания даже не обязательно иметь специальный планшет: у GrafoCerta есть мобильные приложения для Windows, Android и IOS! Гарантируется безопасность и юридическая сила цифровой подписи: приложение фиксирует биометрические характеристики человека.
Преимущество приложения в том, что оно фиксирует скорость письма и силу давления на ручку — важнейшие признаки, обусловенные моторной памятью человека, которые рука «помнит» сама.
Дарья Балуева
Оцифровать Французскую революцию: Парламентские архивы
Заниматься историей Французской революции сегодня значительно проще, чем тридцать лет назад. Документы, которые некогда были доступны лишь в читальном зале Национальных архивов, становятся общественным достоянием.
Один из самых значительных примеров этого процесса — оцифровка Парламентских архивов (Archives parlementaires).
Первые восемьдесят два тома были оцифрованы в рамках сотрудничества Университетских библиотек Стэнфорда с Национальной библиотекой Франции. А в 2014 году в Париже Институт Французской революции и Библиотека Сорбонны начали превращать текст архивов в полноценную базу данных.
Теперь к этому огромному массиву текста (80 000 страниц в оригинальном издании) стало возможно, например, применять методы вычислительной лингвистики.
https://sysblok.ru/history/ocifrovat-francuzskuju-revoljuciju-parlamentskie-arhivy/
Заниматься историей Французской революции сегодня значительно проще, чем тридцать лет назад. Документы, которые некогда были доступны лишь в читальном зале Национальных архивов, становятся общественным достоянием.
Один из самых значительных примеров этого процесса — оцифровка Парламентских архивов (Archives parlementaires).
Первые восемьдесят два тома были оцифрованы в рамках сотрудничества Университетских библиотек Стэнфорда с Национальной библиотекой Франции. А в 2014 году в Париже Институт Французской революции и Библиотека Сорбонны начали превращать текст архивов в полноценную базу данных.
Теперь к этому огромному массиву текста (80 000 страниц в оригинальном издании) стало возможно, например, применять методы вычислительной лингвистики.
https://sysblok.ru/history/ocifrovat-francuzskuju-revoljuciju-parlamentskie-arhivy/
Картинка вместо тысячи слов: 10 визуализаций, нужных каждому ученому
Большинство людей предпочитают визуализацию данных большим таблицам чисел. Поэтому именно визуализация часто знакомит широкую аудиторию с результатами исследования в понятной для нее форме.
В этой статье рассматриваем 10 основных способов визуализации данных:
Гистограммы — способ графического представления табличных данных или числовой переменной. Диапазон значений переменной разбивается на несколько равных интервалов, которые откладываются на горизонтальной оси. По вертикальной оси отражается, сколько значений попадает в интервал: чем больше значений, тем выше столбик гистограммы.
Столбчатые/Круговые диаграммы — аналог гистограмм для работы с категориальной переменной, которая принимает фиксированное количество значений: низкий, нормальный или высокий; да или нет. (Чтобы выбрать между столбчатой и круговой диаграммой иногда стоит создать и ту, и другую, и посмотреть, какая будет лучше восприниматься).
Точечные/Линейные диаграммы — графики, которые отображают данные в двух измерениях в прямоугольной системе координат и позволяют своими глазами увидеть взаимосвязи между двумя переменными и изучить их.
Временные ряды — разновидность точечной диаграммы, у которой по оси X всегда откладывается время. Время непрерывно, поэтому диаграмма получается линейной. Отлично подходят для исследования значения переменной в определенный период времени.
Карты отношений — диаграммы для визуализации взаимосвязи между разными категориями и группами данных, на основе которых можно сформулировать ряд гипотез.
Тепловые карты — способ отображения дополнительного измерения на 2D графике. Вся таблица или карта закрашивается цветами разных оттенков, а интенсивность цвета может выделять частотность или выявлять тенденции и зоны повышенного интереса.
Географические карты — инструмент для визуализации географических данных (долготы и широты, почтовых индексов или данных аэропортов и т.д.) А дополнительные инструменты, например цветовой спектр и ранжирование, седлают визуализацию еще нагляднее.
3-D (трехмерные) диаграммы — интерактивный график с дополнительным измерением позволяет получить более полное представление о данных. Добавив к точечной диаграмме третье измерение, пользователь может вращать диаграмму, изменять ее масштаб и даже устанавливать настройки ее представления.
Многомерные диаграммы — удобная визуализация для данных с большим колличеством параметров. Многомерные диаграммы позволят визуализировать взаимовлияние четырех, пяти или более функций одновременно.
Облако слов (или облако тегов) — график для визуализации текстового корпуса, позволяющий увидеть наиболее характерную лексику. Например, с помощью облака можно наглядно провизуализировать используемые выражения в негативных отзывах на фильмы/товары. И не забудьте лемматизировать и отфильтровать стоп-слова («и», «в», «на» и т.д.) для более качественного результата!
https://sysblok.ru/visual/10-vizualizacij-nuzhnyh-kazhdomu-uchenomu/
Большинство людей предпочитают визуализацию данных большим таблицам чисел. Поэтому именно визуализация часто знакомит широкую аудиторию с результатами исследования в понятной для нее форме.
В этой статье рассматриваем 10 основных способов визуализации данных:
Гистограммы — способ графического представления табличных данных или числовой переменной. Диапазон значений переменной разбивается на несколько равных интервалов, которые откладываются на горизонтальной оси. По вертикальной оси отражается, сколько значений попадает в интервал: чем больше значений, тем выше столбик гистограммы.
Столбчатые/Круговые диаграммы — аналог гистограмм для работы с категориальной переменной, которая принимает фиксированное количество значений: низкий, нормальный или высокий; да или нет. (Чтобы выбрать между столбчатой и круговой диаграммой иногда стоит создать и ту, и другую, и посмотреть, какая будет лучше восприниматься).
Точечные/Линейные диаграммы — графики, которые отображают данные в двух измерениях в прямоугольной системе координат и позволяют своими глазами увидеть взаимосвязи между двумя переменными и изучить их.
Временные ряды — разновидность точечной диаграммы, у которой по оси X всегда откладывается время. Время непрерывно, поэтому диаграмма получается линейной. Отлично подходят для исследования значения переменной в определенный период времени.
Карты отношений — диаграммы для визуализации взаимосвязи между разными категориями и группами данных, на основе которых можно сформулировать ряд гипотез.
Тепловые карты — способ отображения дополнительного измерения на 2D графике. Вся таблица или карта закрашивается цветами разных оттенков, а интенсивность цвета может выделять частотность или выявлять тенденции и зоны повышенного интереса.
Географические карты — инструмент для визуализации географических данных (долготы и широты, почтовых индексов или данных аэропортов и т.д.) А дополнительные инструменты, например цветовой спектр и ранжирование, седлают визуализацию еще нагляднее.
3-D (трехмерные) диаграммы — интерактивный график с дополнительным измерением позволяет получить более полное представление о данных. Добавив к точечной диаграмме третье измерение, пользователь может вращать диаграмму, изменять ее масштаб и даже устанавливать настройки ее представления.
Многомерные диаграммы — удобная визуализация для данных с большим колличеством параметров. Многомерные диаграммы позволят визуализировать взаимовлияние четырех, пяти или более функций одновременно.
Облако слов (или облако тегов) — график для визуализации текстового корпуса, позволяющий увидеть наиболее характерную лексику. Например, с помощью облака можно наглядно провизуализировать используемые выражения в негативных отзывах на фильмы/товары. И не забудьте лемматизировать и отфильтровать стоп-слова («и», «в», «на» и т.д.) для более качественного результата!
https://sysblok.ru/visual/10-vizualizacij-nuzhnyh-kazhdomu-uchenomu/
Системный Блокъ
Картинка вместо тысячи слов: 10 визуализаций, нужных каждому ученому - Системный Блокъ
Археологам часто приходится подолгу исследовать густые джунгли или бескрайние леса. Но вот они находят руины древних построек, и наступает Момент Истины: становятся доступными новые знания. Анализировать информацию ничуть не легче, чем искать древние артефакты.…
Чат-бот подбирает парфюм
Описать запах сложнее, чем, например, цвет или звук. Обычно аромат связывают с его источником: пахнет лимоном, сиренью; и реже — с абстрактными образами. Но как найти подходящий аромат, если не хватает слов для обозначения своих ольфакторных предпочтений?
Специалистка по рекомендательным системам Клэр Лонго (Claire Longo) создала бота, который подбирает парфюм по текстовому описанию ситуации или образа.
Эта работа была вдохновлена богатым тезаурусом нишевой парфюмерии — редкими, эксклюзивными ароматами от небольших брендов. Их подробные и поэтичные описания помогают выстроить семантический образ и найти нечто подобное тому или иному парфюмерному образцу.
Как это работает?
Данные для бота собраны с популярного сайта нишевой парфюмерии. Каждый документ с информацией о парфюме имеет два векторных представления, построенных с помощью латентно-семантического анализа (LSA) и Doc2Vec. Использование двух разных векторов помогает учитывать как конкретные описания («запах ванили»), так и более абстрактные («запах утреннего леса»).
Когда пользователь вводит свой запрос, бот определяет эмоциональную окрашенность каждого предложения и затем группирует их: позитивные и нейтральные — с одной стороны, негативные — с другой. Затем с помощью усредненного косинусного расстояния в двух векторных пространствах бот ищет парфюм, чьё описание наиболее близко к положительным и нейтральным предложениям из запроса пользователя. Если описание парфюма ближе к негативно окрашенным предложениям, он исключается из рекомендаций. В итоге бот предлагает на выбор 5 самых подходящих ароматов. (Код проекта опубликован в открытом доступе)
«Системный Блокъ», например, узнал чем пахнет Digital Humanities
Анастасия Бодрова
Описать запах сложнее, чем, например, цвет или звук. Обычно аромат связывают с его источником: пахнет лимоном, сиренью; и реже — с абстрактными образами. Но как найти подходящий аромат, если не хватает слов для обозначения своих ольфакторных предпочтений?
Специалистка по рекомендательным системам Клэр Лонго (Claire Longo) создала бота, который подбирает парфюм по текстовому описанию ситуации или образа.
Эта работа была вдохновлена богатым тезаурусом нишевой парфюмерии — редкими, эксклюзивными ароматами от небольших брендов. Их подробные и поэтичные описания помогают выстроить семантический образ и найти нечто подобное тому или иному парфюмерному образцу.
Как это работает?
Данные для бота собраны с популярного сайта нишевой парфюмерии. Каждый документ с информацией о парфюме имеет два векторных представления, построенных с помощью латентно-семантического анализа (LSA) и Doc2Vec. Использование двух разных векторов помогает учитывать как конкретные описания («запах ванили»), так и более абстрактные («запах утреннего леса»).
Когда пользователь вводит свой запрос, бот определяет эмоциональную окрашенность каждого предложения и затем группирует их: позитивные и нейтральные — с одной стороны, негативные — с другой. Затем с помощью усредненного косинусного расстояния в двух векторных пространствах бот ищет парфюм, чьё описание наиболее близко к положительным и нейтральным предложениям из запроса пользователя. Если описание парфюма ближе к негативно окрашенным предложениям, он исключается из рекомендаций. В итоге бот предлагает на выбор 5 самых подходящих ароматов. (Код проекта опубликован в открытом доступе)
«Системный Блокъ», например, узнал чем пахнет Digital Humanities
Анастасия Бодрова