Оцифровка писем Толстого: от Ленина до телеграм-канала
Сохранение наследия Льва Толстого началось еще при жизни писателя и активно продолжилось в советские годы. Ленин много писал о Толстом, называл его «зеркалом русской революции» и «матерым человечищем», так что у официальных советских идеологов не оставалось иного выбора: канонизировать писателя надо было с максимальными почестями, несмотря на очевидные расхождения идей Толстого и практики большевизма.
В 1928-м, в год столетия Толстого, начался выпуск полного собрания сочинений писателя. Эта работа продолжалась до 1958 года, за 30 лет были напечатаны 90 томов — в сумме это 46820 страниц.
В компьютерную эпоху встал вопрос о цифровом сохранении наследия Толстого. Проект оказался многоступенчатым и продолжается до сих пор. Основные вехи в истории оцифровки:
— В 2006 году издание, ставшее к тому моменту библиографической редкостью, было отсканировано музеем Толстого и Российской государственной библиотекой.
— В 2014 году в рамках проекта Толстой в один клик музей Толстого и компания ABBYY организовали распознавание и вычитку полного собрания сочинений в 90 томах. Силами тысяч волонтеров книги были распознаны и выложены в открытый доступ в виде электронных текстов. Каждая страница 90-томника после автоматического распознавания была вычитана не менее чем тремя волонтерами и проверена модератором.
— В рамках проекта Толстой.Digital готовится семантическое издание Толстого — издание, в котором распознаны и помечены не только слова, но и значения, факты, даты, цитаты, связи, контексты. Издание использует мировой стандарт оцифровки текстового культурного наследия TEI.
С опорой на результаты работы Толстой.Digital и при поддержке музея Толстого мы запустили телеграм-канал From:Толстой, начав с публикации писем Толстого в модном-молодежном оформлении — с эмоджи и хэштегами. Пласт писем является не самым известным широкой публике фрагментом издания, но важен для понимания фигуры писателя: Толстой был значимым инфлюенсером своего времени и оказывал влияние на многих современников.
Присоединяйтесь: @FromTolstoy
В качестве бонуса подписчикам мы будем выкладывать в канал сканы рукописных оригиналов писем и прочие редкости :)
Сохранение наследия Льва Толстого началось еще при жизни писателя и активно продолжилось в советские годы. Ленин много писал о Толстом, называл его «зеркалом русской революции» и «матерым человечищем», так что у официальных советских идеологов не оставалось иного выбора: канонизировать писателя надо было с максимальными почестями, несмотря на очевидные расхождения идей Толстого и практики большевизма.
В 1928-м, в год столетия Толстого, начался выпуск полного собрания сочинений писателя. Эта работа продолжалась до 1958 года, за 30 лет были напечатаны 90 томов — в сумме это 46820 страниц.
В компьютерную эпоху встал вопрос о цифровом сохранении наследия Толстого. Проект оказался многоступенчатым и продолжается до сих пор. Основные вехи в истории оцифровки:
— В 2006 году издание, ставшее к тому моменту библиографической редкостью, было отсканировано музеем Толстого и Российской государственной библиотекой.
— В 2014 году в рамках проекта Толстой в один клик музей Толстого и компания ABBYY организовали распознавание и вычитку полного собрания сочинений в 90 томах. Силами тысяч волонтеров книги были распознаны и выложены в открытый доступ в виде электронных текстов. Каждая страница 90-томника после автоматического распознавания была вычитана не менее чем тремя волонтерами и проверена модератором.
— В рамках проекта Толстой.Digital готовится семантическое издание Толстого — издание, в котором распознаны и помечены не только слова, но и значения, факты, даты, цитаты, связи, контексты. Издание использует мировой стандарт оцифровки текстового культурного наследия TEI.
С опорой на результаты работы Толстой.Digital и при поддержке музея Толстого мы запустили телеграм-канал From:Толстой, начав с публикации писем Толстого в модном-молодежном оформлении — с эмоджи и хэштегами. Пласт писем является не самым известным широкой публике фрагментом издания, но важен для понимания фигуры писателя: Толстой был значимым инфлюенсером своего времени и оказывал влияние на многих современников.
Присоединяйтесь: @FromTolstoy
В качестве бонуса подписчикам мы будем выкладывать в канал сканы рукописных оригиналов писем и прочие редкости :)
Музей оцифрованный: как выжить в век промышленного производства медианарративов
Музей, как публичная социальная институция, сегодня активно внедряется в пространство цифровых технологий. В России ключевой игрок оцифровки музейных коллекций и предметов — Государственный каталог Музейного Фонда Российской Федерации.
И с одной стороны, сложившийся механизм оцифровки худо-бедно работает — на конец августа 2019 г. в Гос.каталог занесено около 14,5 миллионов экспонатов. Но на этом плюсы заканчиваются; дальше начинаются сложности: процесс оцифровки — это дополнительная нагрузка на работников музеев, трудоемкая и дорогостоящая.
Но главная проблема, которая уведет нас к рассмотрению зарубежного опыта оцифровки культурного наследия и его виртуального использования — практически полное отсутствие в Гос.каталоге инструментов для анализа размещаемых данных.
Примером «умного» внедрения цифровых технологий в музейное пространство выступает опыт «Музея дизайна Купер-Хьюит». Если мы соберемся его посетить, то на входе вместе с билетом нам дадут интерактивную ручку. По ходу знакомства с экспозицией мы прикасаемся ей к интересующим нас предметам, тем самым скачивая в свой личный кабинет нужные сведения о них.
Параллельно с этим сведения о нашем выборе собираются сотрудниками музея и анализируются с целью более глубокого понимания интересов посетителей. Вот здесь можно прочитать текст аналитика музея — о том, какие данные они получают напрямую от ручек посетителей, как их используют и почему это полезно для музея.
Одним из первых европейских музеев, который выложил большую часть своей коллекции (около 460 000 экспонатов) в открытый доступ, стал в 2013 г. амстердамский музей Rijksmuseum. А в 2017 г. Метрополитен-музей (The Metropolitan Museum of Art; США, Нью-Йорк) открыл виртуальный доступ к своей коллекции (около 375 000 экспонатов).
В конце 2018 г. Метрополитен-музей начал сотрудничество с Microsoft и Массачусетским технологическим институтом с целью дальнейшего совершенствования механизмов интеграции музейных коллекций в виртуальное пространство.
На сегодняшний день, кроме описанных выше случаев, также оцифрованы коллекции таких музеев как The National Gallery of Art (США), The Walters Art Museum (США), The Museum of Modern Art (США), The Art Insttitute of Chicago (США), Statens Museum for Kunst (Дания), Designmuseo (Финляндия), и далее, далее, далее…
И если зарубежное музейное сообщество с помощью «цифры» открывает свои коллекции для всех желающих, создавая совершенно новые практики восприятия, исследования и модели научных публикаций об искусстве, то у наших музейщиков такой опыт еще только впереди.
Александр Симонов
Музей, как публичная социальная институция, сегодня активно внедряется в пространство цифровых технологий. В России ключевой игрок оцифровки музейных коллекций и предметов — Государственный каталог Музейного Фонда Российской Федерации.
И с одной стороны, сложившийся механизм оцифровки худо-бедно работает — на конец августа 2019 г. в Гос.каталог занесено около 14,5 миллионов экспонатов. Но на этом плюсы заканчиваются; дальше начинаются сложности: процесс оцифровки — это дополнительная нагрузка на работников музеев, трудоемкая и дорогостоящая.
Но главная проблема, которая уведет нас к рассмотрению зарубежного опыта оцифровки культурного наследия и его виртуального использования — практически полное отсутствие в Гос.каталоге инструментов для анализа размещаемых данных.
Примером «умного» внедрения цифровых технологий в музейное пространство выступает опыт «Музея дизайна Купер-Хьюит». Если мы соберемся его посетить, то на входе вместе с билетом нам дадут интерактивную ручку. По ходу знакомства с экспозицией мы прикасаемся ей к интересующим нас предметам, тем самым скачивая в свой личный кабинет нужные сведения о них.
Параллельно с этим сведения о нашем выборе собираются сотрудниками музея и анализируются с целью более глубокого понимания интересов посетителей. Вот здесь можно прочитать текст аналитика музея — о том, какие данные они получают напрямую от ручек посетителей, как их используют и почему это полезно для музея.
Одним из первых европейских музеев, который выложил большую часть своей коллекции (около 460 000 экспонатов) в открытый доступ, стал в 2013 г. амстердамский музей Rijksmuseum. А в 2017 г. Метрополитен-музей (The Metropolitan Museum of Art; США, Нью-Йорк) открыл виртуальный доступ к своей коллекции (около 375 000 экспонатов).
В конце 2018 г. Метрополитен-музей начал сотрудничество с Microsoft и Массачусетским технологическим институтом с целью дальнейшего совершенствования механизмов интеграции музейных коллекций в виртуальное пространство.
На сегодняшний день, кроме описанных выше случаев, также оцифрованы коллекции таких музеев как The National Gallery of Art (США), The Walters Art Museum (США), The Museum of Modern Art (США), The Art Insttitute of Chicago (США), Statens Museum for Kunst (Дания), Designmuseo (Финляндия), и далее, далее, далее…
И если зарубежное музейное сообщество с помощью «цифры» открывает свои коллекции для всех желающих, создавая совершенно новые практики восприятия, исследования и модели научных публикаций об искусстве, то у наших музейщиков такой опыт еще только впереди.
Александр Симонов
Пусти пожить болельщика: чемпионат в Москве и рынок Airbnb
Крупные спортивные события, например чемпионаты мира по футболу или олимпиады, создают кратковременный, но очень мощный приток туристов. Существующей гостиничной инфраструктуры может не хватить на всех желающих, однако нельзя просто взять и открыть больше гостиниц.
Мы задались вопросом: как развивался рынок краткосрочной аренды в Москве в период Чемпионата мира по футболу летом 2018 года. Сервис Airbnb появился в России лишь в 2012, тогда как в мире он функционирует с 2008 года, то есть развитие феномена краткосрочной аренды жилья в Москве только начиналось и Чемпионат мира мог стать катализатором интенсивного развития сервиса.
При статистическом анализе становится видно, что в период проведения Чемпионата мира предложение Airbnb выросло приблизительно в 3 раза. Взрывной рост наблюдался в непосредственной близости от мест проведения соревнований и в типичных периферийных районах.
https://sysblok.ru/urban/pusti-pozhit-bolelshhika-chempionat-v-moskve-i-rynok-airbnb/
Крупные спортивные события, например чемпионаты мира по футболу или олимпиады, создают кратковременный, но очень мощный приток туристов. Существующей гостиничной инфраструктуры может не хватить на всех желающих, однако нельзя просто взять и открыть больше гостиниц.
Мы задались вопросом: как развивался рынок краткосрочной аренды в Москве в период Чемпионата мира по футболу летом 2018 года. Сервис Airbnb появился в России лишь в 2012, тогда как в мире он функционирует с 2008 года, то есть развитие феномена краткосрочной аренды жилья в Москве только начиналось и Чемпионат мира мог стать катализатором интенсивного развития сервиса.
При статистическом анализе становится видно, что в период проведения Чемпионата мира предложение Airbnb выросло приблизительно в 3 раза. Взрывной рост наблюдался в непосредственной близости от мест проведения соревнований и в типичных периферийных районах.
https://sysblok.ru/urban/pusti-pozhit-bolelshhika-chempionat-v-moskve-i-rynok-airbnb/
Соцсети русской драмы. Основы сетевого анализа
«Системный Блокъ» уже не раз писал о сетевом анализе взаимосвязей между людьми, литературными героями и другими объектами реального и вымышленного мира. Теперь мы рассказываем про пять основных мер центральности узла.
Степень (Degree)
Степень вершины отражает количество связей этой вершины. Например, в сети на основе литературного произведения степень узла покажет, со сколькими персонажами взаимодействует герой на протяжении действия или главы.
Взвешенная степень (Weighted degree, strength)
Взвешенная степень — это расширенная версия обычной степени, учитывающая не только количество соседних вершин, но и веса рёбер. Например, в соцсетях пьес веса показывают сколько раз персонажи общаются друг с другом в течение всего произведения.
Степень близости (Closeness centrality)
Эта характеристика показывает, насколько легко попасть из данной вершины в другие узлы сети. В пьесах такая метрика может означать, напрямую ли взаимодействуют с этим персонажем или нет.
Степень посредничества (Betweenness centrality)
Степень посредничества показывает, насколько связующим является узел. В терминах пьесы можно сказать, что она определяет вероятность того, что два персонажа связаны через этого персонажа-посредника.
Степень влиятельности (Eigenvector centrality)
Степень влиятельности показывает важность персонажа, учитывая влиятельность других персонажей, с которыми он взаимодействует. В пьесах эта метрика позволяет разделить действующих лиц на «центральных» и «периферийных».
https://sysblok.ru/philology/socseti-russkoj-dramy-chast-i-osnovy-setevogo-analiza/
«Системный Блокъ» уже не раз писал о сетевом анализе взаимосвязей между людьми, литературными героями и другими объектами реального и вымышленного мира. Теперь мы рассказываем про пять основных мер центральности узла.
Степень (Degree)
Степень вершины отражает количество связей этой вершины. Например, в сети на основе литературного произведения степень узла покажет, со сколькими персонажами взаимодействует герой на протяжении действия или главы.
Взвешенная степень (Weighted degree, strength)
Взвешенная степень — это расширенная версия обычной степени, учитывающая не только количество соседних вершин, но и веса рёбер. Например, в соцсетях пьес веса показывают сколько раз персонажи общаются друг с другом в течение всего произведения.
Степень близости (Closeness centrality)
Эта характеристика показывает, насколько легко попасть из данной вершины в другие узлы сети. В пьесах такая метрика может означать, напрямую ли взаимодействуют с этим персонажем или нет.
Степень посредничества (Betweenness centrality)
Степень посредничества показывает, насколько связующим является узел. В терминах пьесы можно сказать, что она определяет вероятность того, что два персонажа связаны через этого персонажа-посредника.
Степень влиятельности (Eigenvector centrality)
Степень влиятельности показывает важность персонажа, учитывая влиятельность других персонажей, с которыми он взаимодействует. В пьесах эта метрика позволяет разделить действующих лиц на «центральных» и «периферийных».
https://sysblok.ru/philology/socseti-russkoj-dramy-chast-i-osnovy-setevogo-analiza/
Системный Блокъ
Соцсети русской драмы, часть I: основы сетевого анализа - Системный Блокъ
Сегодня модно исследовать художественную литературу методами анализа социальных сетей. Мы начинаем серию постов по сетевому анализу русской драматургии. В первом посте мы расскажем, как сетевой анализ позволяет посчитать «влиятельность» литературного героя
Я/МЫ НКРЯ: что происходит с национальным корпусом
8 сентября ряд функций Национального корпуса русского языка (НКРЯ) стал недоступен: об этом в фейсбуке сообщила профессор русистики Университета Тромсе Лора Янда. В этом же посте Лора высказала опасение, что проект может быть окончательно закрыт 1 января 2020 года. В сообществе ученых-лингвистов пост вызвал тревогу; стали появляться призывы спасти корпус.
Так закрывают или нет?
В комментариях к посту Лоры Янды директор по распространению технологий Яндекса Григорий Бакунов заявил, что компания не намерена закрывать проект. Разработчики опубликовали обращение к пользователям, где объяснили ошибки переходом корпуса на новую технологию поиска.
Разгорелась дискуссия между Иваном Бегтиным и Григорием Бакуновым. По мнению Ивана, данные и исходный код проекта должны стать открытыми. В ответ на это представитель Яндекса заявил, что выложить код в open source сейчас невозможно, поскольку проект содержит большое количество внутренних инструментов, открывать которые Яндекс не готов.
Наконец, через две с половиной недели появился комментарий от самого НКРЯ, основной посыл которого — корпус вне опасности.
Почему национальный академический проект вообще связан с коммерческой компанией?
Корпус стал доступен для широкого пользователя с 29 апреля 2004 года, но его открытию предшествовали годы серьезной подготовки. У истоков НКРЯ стояли В.А. Плунгян, Д.В. Сичинава, М.А. Даниэль, И.С.Красильщик, С.К.Ландо, С.А.Шаров, Е.В. Рахилина и многие другие. А программно-техническую и финансовую поддержку НКРЯ оказала компания Яндекс.
Яндекс поддерживает ресурс, которым пользуются тысячи исследователей в России и за рубежом уже 15 лет. Участие крупнейшей российской IT-компании — без сомнения, мощная поддержка, но даже ее недостаточно, если появляются подобные проблемы. Национальный проект нуждается в охране и финансировании, чтобы развиваться дальше; остальным игрокам IT-рынка стоит присоединиться к сохранению важного ресурса.
Но все-таки коммерческие и академические проекты существуют в разных мирах: всегда остается опасность, что поддержка станет экономически невыгодной и будет прекращена. Поэтому управление такими ресурсами должно быть в руках сообщества — людей, которые лучше всего понимают их научную ценность и не измеряют ее в коммерческих KPI. В 2019 году это не просто «круто» — это очевидный путь развития.
https://sysblok.ru/society/ja-my-nkrja-chto-proishodit-s-nacionalnym-korpusom/
8 сентября ряд функций Национального корпуса русского языка (НКРЯ) стал недоступен: об этом в фейсбуке сообщила профессор русистики Университета Тромсе Лора Янда. В этом же посте Лора высказала опасение, что проект может быть окончательно закрыт 1 января 2020 года. В сообществе ученых-лингвистов пост вызвал тревогу; стали появляться призывы спасти корпус.
Так закрывают или нет?
В комментариях к посту Лоры Янды директор по распространению технологий Яндекса Григорий Бакунов заявил, что компания не намерена закрывать проект. Разработчики опубликовали обращение к пользователям, где объяснили ошибки переходом корпуса на новую технологию поиска.
Разгорелась дискуссия между Иваном Бегтиным и Григорием Бакуновым. По мнению Ивана, данные и исходный код проекта должны стать открытыми. В ответ на это представитель Яндекса заявил, что выложить код в open source сейчас невозможно, поскольку проект содержит большое количество внутренних инструментов, открывать которые Яндекс не готов.
Наконец, через две с половиной недели появился комментарий от самого НКРЯ, основной посыл которого — корпус вне опасности.
Почему национальный академический проект вообще связан с коммерческой компанией?
Корпус стал доступен для широкого пользователя с 29 апреля 2004 года, но его открытию предшествовали годы серьезной подготовки. У истоков НКРЯ стояли В.А. Плунгян, Д.В. Сичинава, М.А. Даниэль, И.С.Красильщик, С.К.Ландо, С.А.Шаров, Е.В. Рахилина и многие другие. А программно-техническую и финансовую поддержку НКРЯ оказала компания Яндекс.
Яндекс поддерживает ресурс, которым пользуются тысячи исследователей в России и за рубежом уже 15 лет. Участие крупнейшей российской IT-компании — без сомнения, мощная поддержка, но даже ее недостаточно, если появляются подобные проблемы. Национальный проект нуждается в охране и финансировании, чтобы развиваться дальше; остальным игрокам IT-рынка стоит присоединиться к сохранению важного ресурса.
Но все-таки коммерческие и академические проекты существуют в разных мирах: всегда остается опасность, что поддержка станет экономически невыгодной и будет прекращена. Поэтому управление такими ресурсами должно быть в руках сообщества — людей, которые лучше всего понимают их научную ценность и не измеряют ее в коммерческих KPI. В 2019 году это не просто «круто» — это очевидный путь развития.
https://sysblok.ru/society/ja-my-nkrja-chto-proishodit-s-nacionalnym-korpusom/
Системный Блокъ
Я/МЫ НКРЯ: что происходит с национальным корпусом - Системный Блокъ
...зачем в этом разбираться и почему мы волнуемся за НКРЯ
Языки музыки
Музыка состоит из множества параметров, которые можно отобразить письменными средствами: высота звука, его продолжительность, громкость, тембр и другие. И хотя нотную запись нельзя в полной мере назвать языком программирования, тем не менее в ней содержатся управляющие структуры, такие как повторения или опциональные окончания.
В первой части рассказываем о том, почему запись музыки — это нетривиальная задача, способная расширить возможности компьютерных наук. Оказывается, при создании цифровых языков разметки для записи музыки приходится учитывать множество параметров. Ведь музыка чаще всего состоит из нескольких голосов, звучащих одновременно в гармоническом или полифоническом сочетании, а традиционные компьютерные архитектуры и языки программирования, напротив, являются последовательными.
Во второй части говорим о принципиальных отличиях музыки от других видов данных и об особенностях музыкальной компьютерной разметки. Например, о категории времени, которая важна для музыкальных произведений ничуть не меньше чем содержание. И о том, как разные языки ищут для выражения особенных музыкальных категорий разные компьютерные средства: Music V имеет отдельные подразделы — «партитура» и «оркестр», а Max MSP — разную семантику для управления аудиосигналом и обработки изображений.
Музыка состоит из множества параметров, которые можно отобразить письменными средствами: высота звука, его продолжительность, громкость, тембр и другие. И хотя нотную запись нельзя в полной мере назвать языком программирования, тем не менее в ней содержатся управляющие структуры, такие как повторения или опциональные окончания.
В первой части рассказываем о том, почему запись музыки — это нетривиальная задача, способная расширить возможности компьютерных наук. Оказывается, при создании цифровых языков разметки для записи музыки приходится учитывать множество параметров. Ведь музыка чаще всего состоит из нескольких голосов, звучащих одновременно в гармоническом или полифоническом сочетании, а традиционные компьютерные архитектуры и языки программирования, напротив, являются последовательными.
Во второй части говорим о принципиальных отличиях музыки от других видов данных и об особенностях музыкальной компьютерной разметки. Например, о категории времени, которая важна для музыкальных произведений ничуть не меньше чем содержание. И о том, как разные языки ищут для выражения особенных музыкальных категорий разные компьютерные средства: Music V имеет отдельные подразделы — «партитура» и «оркестр», а Max MSP — разную семантику для управления аудиосигналом и обработки изображений.
Авторский стиль, его распознание и перенос
Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или научить его распознавать другие тонкие материи?
Один из вариантов обучения машины стилистическому копированию основывается на статистическом распределении величин, присутствующих во всех текстах. Так, при помощи средней длины слова, количества знаков препинания или уникальных слов можно создать текст в стилистике Оксимирона с правдоподобной грамматикой и лексикой. А при помощи рекуррентной нейросети записать целый альбом «Нейронной обороны».
https://sysblok.ru/nlp/avtorskij-stil-ego-raspoznanie-i-perenos/
Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или научить его распознавать другие тонкие материи?
Один из вариантов обучения машины стилистическому копированию основывается на статистическом распределении величин, присутствующих во всех текстах. Так, при помощи средней длины слова, количества знаков препинания или уникальных слов можно создать текст в стилистике Оксимирона с правдоподобной грамматикой и лексикой. А при помощи рекуррентной нейросети записать целый альбом «Нейронной обороны».
https://sysblok.ru/nlp/avtorskij-stil-ego-raspoznanie-i-perenos/
Системный Блокъ
Перенос стиля нейросетями: Дрейк, Летов, Оксимирон - Системный Блокъ
Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или…
Нейросеть-предатель: алгоритм обучили выявлять тексты-подделки
Алгоритмы искусственного интеллекта позволяют генерировать текст достаточно убедительный для того, чтобы обмануть обычного человека. Для этого они используют языковые модели, на основе которых компьютер может научиться предсказывать следующее слово в заданном контексте.
Опасность этой технологии заключается в том, что она открывает большие возможности для поточного создания фейковых новостей, отзывов или аккаунтов в социальных сетях. К счастью, алгоритмы ИИ теперь могут и распознавать фейковый текст.
Исследователи Гарвардского университета и лаборатории MIT-IBM Watson AI Lab на основе открытого OpenAI кода разработали инструмент для распознавания текста, сгенерированного с помощью искусственного интеллекта — (the Giant Language Model Test Room, GLTR).
GLTR анализирует текст с точки зрения вероятности появления одних слов после других и для визуализации работы алгоритма подсвечивает их разными цветами. Так, статистически наиболее вероятные слова (топ-10) подсвечиваются зеленым; менее вероятные — желтым (100) и красным (1000); наименее — фиолетовым.
Так, при анализе статьи о предсказуемости результата CRISPR редактирования, опубликованной в журнале «Nature», инструмент выдает значительно большее количество красных и фиолетовых слов, что является маркером текста, написанного человеком.
«Наша цель — создать системы для сотрудничества человека и искусственного интеллекта», — говорит аспирант Себастьян Германн, один из разработчиков GLTR. А протестировать систему распознавания автоматически сгенерированных текстов можно здесь.
Екатерина Смирнова
Алгоритмы искусственного интеллекта позволяют генерировать текст достаточно убедительный для того, чтобы обмануть обычного человека. Для этого они используют языковые модели, на основе которых компьютер может научиться предсказывать следующее слово в заданном контексте.
Опасность этой технологии заключается в том, что она открывает большие возможности для поточного создания фейковых новостей, отзывов или аккаунтов в социальных сетях. К счастью, алгоритмы ИИ теперь могут и распознавать фейковый текст.
Исследователи Гарвардского университета и лаборатории MIT-IBM Watson AI Lab на основе открытого OpenAI кода разработали инструмент для распознавания текста, сгенерированного с помощью искусственного интеллекта — (the Giant Language Model Test Room, GLTR).
GLTR анализирует текст с точки зрения вероятности появления одних слов после других и для визуализации работы алгоритма подсвечивает их разными цветами. Так, статистически наиболее вероятные слова (топ-10) подсвечиваются зеленым; менее вероятные — желтым (100) и красным (1000); наименее — фиолетовым.
Так, при анализе статьи о предсказуемости результата CRISPR редактирования, опубликованной в журнале «Nature», инструмент выдает значительно большее количество красных и фиолетовых слов, что является маркером текста, написанного человеком.
«Наша цель — создать системы для сотрудничества человека и искусственного интеллекта», — говорит аспирант Себастьян Германн, один из разработчиков GLTR. А протестировать систему распознавания автоматически сгенерированных текстов можно здесь.
Екатерина Смирнова
Чем фрейдовский банан отличается от огурца: большие данные в психологии
Для большинства не является секретом, что многие компании собирают данные о своих клиентах и используют их для создания таргетированной рекламы. Но большие данные могут изучать не только маркетологи, но и психологи. Большие данные, например, помогут понять, почему люди часто не до конца откровенны даже в анонимных тестах и опросах.
Примеры использования Big Data в психологии приводит Сет Стивенс-Давидовиц в книге «Все лгут. Поисковики, Big Data и Интернет знают о вас всё».
Поисковик знает лучше
Первый любопытный кейс — сексуальная ориентация. В Америке количество мужчин, открыто заявляющих о своей гомосексуальности, сильно различается в зависимости от штата: в Род-Айленде живет больше гомосексуалов, чем в Миссисипи. Исследователь изучил аккаунты респондентов в Фейсбуке и выяснил, что внутренняя миграция действительно объясняет некоторый дисбаланс в распределении. Однако данные о поисках порно стабильны: 5 процентов запросов приходится на гомосексуальную порнографию повсеместно.
Сны по Фрейду
Другой интересный пример из книги — сны. Фрейд утверждал, что форма бананов и огурцов имеет глубокий смысл, особенно в сновидениях. Использовав данные пользователей, которые записывали содержание своих снов, исследователь нашел в них все описания еды. Первый вывод — продукты снятся чаще, если их есть. Второй — огурец на седьмом месте среди овощей, появляющихся в снах, и на седьмом месте среди покупаемых овощей вообще. Кажется, банан — это все-таки просто банан.
Психология и большие данные: что дальше
Сегодня большие данные используются для анализа поведения людей. Они позволяют составить более точный психологический портрет человека. С помощью компьютерного зрения возможно отслеживать эмоции людей и их действия в конкретной ситуации; нейросеть, распознающая человеческую речь, может диагностировать психоз или нервный срыв, что дает еще больше данных для психологических и социальных исследований.
Однако большие данные не заменяют традиционных методов психологии. Их анализ дает возможности узнать особенности среды, но не может рассказать о поведении конкретного человека. Совокупное использование этих методов поможет увидеть ситуацию с нескольких точек зрения и понять взаимосвязь окружения людей, их мнения и поведения.
Ксения Михайлова
Для большинства не является секретом, что многие компании собирают данные о своих клиентах и используют их для создания таргетированной рекламы. Но большие данные могут изучать не только маркетологи, но и психологи. Большие данные, например, помогут понять, почему люди часто не до конца откровенны даже в анонимных тестах и опросах.
Примеры использования Big Data в психологии приводит Сет Стивенс-Давидовиц в книге «Все лгут. Поисковики, Big Data и Интернет знают о вас всё».
Поисковик знает лучше
Первый любопытный кейс — сексуальная ориентация. В Америке количество мужчин, открыто заявляющих о своей гомосексуальности, сильно различается в зависимости от штата: в Род-Айленде живет больше гомосексуалов, чем в Миссисипи. Исследователь изучил аккаунты респондентов в Фейсбуке и выяснил, что внутренняя миграция действительно объясняет некоторый дисбаланс в распределении. Однако данные о поисках порно стабильны: 5 процентов запросов приходится на гомосексуальную порнографию повсеместно.
Сны по Фрейду
Другой интересный пример из книги — сны. Фрейд утверждал, что форма бананов и огурцов имеет глубокий смысл, особенно в сновидениях. Использовав данные пользователей, которые записывали содержание своих снов, исследователь нашел в них все описания еды. Первый вывод — продукты снятся чаще, если их есть. Второй — огурец на седьмом месте среди овощей, появляющихся в снах, и на седьмом месте среди покупаемых овощей вообще. Кажется, банан — это все-таки просто банан.
Психология и большие данные: что дальше
Сегодня большие данные используются для анализа поведения людей. Они позволяют составить более точный психологический портрет человека. С помощью компьютерного зрения возможно отслеживать эмоции людей и их действия в конкретной ситуации; нейросеть, распознающая человеческую речь, может диагностировать психоз или нервный срыв, что дает еще больше данных для психологических и социальных исследований.
Однако большие данные не заменяют традиционных методов психологии. Их анализ дает возможности узнать особенности среды, но не может рассказать о поведении конкретного человека. Совокупное использование этих методов поможет увидеть ситуацию с нескольких точек зрения и понять взаимосвязь окружения людей, их мнения и поведения.
Ксения Михайлова
Psychology Today
Using Big Data to Study Psychology
There is a lot of discussion about the value of big data for companies. Can big data help science as well?
Зачем нужна карта метафор?
Когда нас спрашивают о метафорах, мы напрягаем память, мысленно возвращаемся в школу на уроки литературы и вспоминаем что-то вроде «скрытое сравнение» и какие-то известные строки Пушкина. Но на самом деле метафорами пронизан весь наш язык (даже эта фраза), и их исследование может многое сказать о том, как мы говорим и мыслим.
Теория концептуальной метафоры была изложена в книге Лакоффа и Джонсона «Метафоры, которыми мы живем» («Metaphors We Live By», 1980) и оказалась чрезвычайно влиятельной в мировой науке. Однако этой области исследования долго не хватало всеобъемлющей картины метафор в рамках определенного языка.
Этот недостаток восполнила так называемая Карта метафор (Metaphor Map).
Используя данные Исторического тезауруса Оксфордского словаря английского языка, разработчики проекта картировали области значений, которые включают в себя различные лексические единицы, и использовали их, чтобы изучить метафорические связи английского языка.
На главной странице Карты вы увидите круговую диаграмму, которая представляет все области значений в английском языке. Категории, указанные вне круга, представляют собой группы связанных понятий. Цветовые обозначения показывают, к какому разряду групп они принадлежат: Внешний мир/природа (зеленый цвет), Внутренний мир (синий), Социальный мир (красный). В рамках обозначенных групп концепты делятся далее на более мелкие категории. Всего на Карте их 415.
Используя Карту метафор, мы можем получить ответы на вопросы как возникают метафоры? Какие области жизненного опыта выделяются в метафорических высказываниях? И как менялись метафоры в течение веков под влиянием социальных сдвигов? Если мы признаем, что метафорические связи могут показывать, как люди мысленно структурируют мир в рамках своего общества, результаты исследований подобных карт могут оказаться очень интересными.
https://sysblok.ru/nlp/zachem-nuzhna-karta-metafor/
Когда нас спрашивают о метафорах, мы напрягаем память, мысленно возвращаемся в школу на уроки литературы и вспоминаем что-то вроде «скрытое сравнение» и какие-то известные строки Пушкина. Но на самом деле метафорами пронизан весь наш язык (даже эта фраза), и их исследование может многое сказать о том, как мы говорим и мыслим.
Теория концептуальной метафоры была изложена в книге Лакоффа и Джонсона «Метафоры, которыми мы живем» («Metaphors We Live By», 1980) и оказалась чрезвычайно влиятельной в мировой науке. Однако этой области исследования долго не хватало всеобъемлющей картины метафор в рамках определенного языка.
Этот недостаток восполнила так называемая Карта метафор (Metaphor Map).
Используя данные Исторического тезауруса Оксфордского словаря английского языка, разработчики проекта картировали области значений, которые включают в себя различные лексические единицы, и использовали их, чтобы изучить метафорические связи английского языка.
На главной странице Карты вы увидите круговую диаграмму, которая представляет все области значений в английском языке. Категории, указанные вне круга, представляют собой группы связанных понятий. Цветовые обозначения показывают, к какому разряду групп они принадлежат: Внешний мир/природа (зеленый цвет), Внутренний мир (синий), Социальный мир (красный). В рамках обозначенных групп концепты делятся далее на более мелкие категории. Всего на Карте их 415.
Используя Карту метафор, мы можем получить ответы на вопросы как возникают метафоры? Какие области жизненного опыта выделяются в метафорических высказываниях? И как менялись метафоры в течение веков под влиянием социальных сдвигов? Если мы признаем, что метафорические связи могут показывать, как люди мысленно структурируют мир в рамках своего общества, результаты исследований подобных карт могут оказаться очень интересными.
https://sysblok.ru/nlp/zachem-nuzhna-karta-metafor/
Системный Блокъ прошел в финал премии Просветитель.Digital
«Просветитель» — престижная литературная научно-популярная премия, основанная фондом Династия, с 2018 года поддерживает электронные просветительские проекты в отдельной номинации «Просветитель.Digital».
Мы благодарны за доверие, оказанное нашему изданию, и поздравляем коллег, прошедших с нами в финал в категории «Текст» — канал «Книжный лис», проекты «Это прямо здесь», «The Batrachospermum Magazine» и «Краткий курс по литэкономии».
Хотя нам чуть больше года, мы многое успели: мы написали почти 300 статей, запустили 20 рубрик. В Системном Блоке приняло участие больше 50 человек — филологи, лингвисты, программисты, журналисты, художники, дизайнеры, сценаристы. Мы запустили пять площадок: помимо телеграмма это вк, фейсбук, сайт и даже ютуб, открыли собственный исследовательский отдел, развиваем образовательное направление, делаем тьюториалы для новичков.
Материалы, которые мы подали в заявке на премию:
1. Большие данные Большого террора — рассказ о базах данных «Международного Мемориала».
2. Цифра на службе у филолога — интервью с лингвистом и популяризатором науки Александром Пиперски о количественных методах и о том, зачем они нужны филологу-исследователю.
3. Как компьютеры понимают значения слов — экспериментальный ролик-введение в дистрибутивную семантику.
4. Смейтесь и детей рожайте: из чего сделаны поздравления с 8 марта — изучаем корпус поздравлений с 8 марта, а также генерируем собственные с помощью марковской цепи.
5. Берестяные грамоты от раскопа до компьютера. Памяти А.А. Зализняка — откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?
6. Корпус из твитов своими руками — краткая инструкция о том, как просто собрать данные из твиттера для своего исследования.
7. Зачем нужны гуманитарии в эпоху машинного обучения? — критическое эссе о злободневном.
8. Пушкин, терминатор и звездолет — тестируем семантический поисковик по стихам великого русского поэта.
Хотите вместе с нами вдохновлять людей на изучение технологий? Присоединяйтесь к нашей дружной команде.
«Просветитель» — престижная литературная научно-популярная премия, основанная фондом Династия, с 2018 года поддерживает электронные просветительские проекты в отдельной номинации «Просветитель.Digital».
Мы благодарны за доверие, оказанное нашему изданию, и поздравляем коллег, прошедших с нами в финал в категории «Текст» — канал «Книжный лис», проекты «Это прямо здесь», «The Batrachospermum Magazine» и «Краткий курс по литэкономии».
Хотя нам чуть больше года, мы многое успели: мы написали почти 300 статей, запустили 20 рубрик. В Системном Блоке приняло участие больше 50 человек — филологи, лингвисты, программисты, журналисты, художники, дизайнеры, сценаристы. Мы запустили пять площадок: помимо телеграмма это вк, фейсбук, сайт и даже ютуб, открыли собственный исследовательский отдел, развиваем образовательное направление, делаем тьюториалы для новичков.
Материалы, которые мы подали в заявке на премию:
1. Большие данные Большого террора — рассказ о базах данных «Международного Мемориала».
2. Цифра на службе у филолога — интервью с лингвистом и популяризатором науки Александром Пиперски о количественных методах и о том, зачем они нужны филологу-исследователю.
3. Как компьютеры понимают значения слов — экспериментальный ролик-введение в дистрибутивную семантику.
4. Смейтесь и детей рожайте: из чего сделаны поздравления с 8 марта — изучаем корпус поздравлений с 8 марта, а также генерируем собственные с помощью марковской цепи.
5. Берестяные грамоты от раскопа до компьютера. Памяти А.А. Зализняка — откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?
6. Корпус из твитов своими руками — краткая инструкция о том, как просто собрать данные из твиттера для своего исследования.
7. Зачем нужны гуманитарии в эпоху машинного обучения? — критическое эссе о злободневном.
8. Пушкин, терминатор и звездолет — тестируем семантический поисковик по стихам великого русского поэта.
Хотите вместе с нами вдохновлять людей на изучение технологий? Присоединяйтесь к нашей дружной команде.
Цветокоррекции в стихах Сергея Есенина
Поэзия — цветной вид искусства. В отличие от фотографии и кино, она никогда не была черно-белой. Поэты в своем творчестве окрашивают не только физические объекты, но и запахи, звуки, тактильные ощущения… А можно ли исследовать цветовую картину мира отдельного поэта с помощью цифровых методов?
Анализируем частоту использование самых распространенных цветов в поэзии Сергея Есенина и узнаем, что синими бывают Русь, пожар и песок, а белыми — гвозди, кудри и яд.
https://sysblok.ru/philology/cvetokorrekcii-v-stihah-sergeja-esenina/
Поэзия — цветной вид искусства. В отличие от фотографии и кино, она никогда не была черно-белой. Поэты в своем творчестве окрашивают не только физические объекты, но и запахи, звуки, тактильные ощущения… А можно ли исследовать цветовую картину мира отдельного поэта с помощью цифровых методов?
Анализируем частоту использование самых распространенных цветов в поэзии Сергея Есенина и узнаем, что синими бывают Русь, пожар и песок, а белыми — гвозди, кудри и яд.
https://sysblok.ru/philology/cvetokorrekcii-v-stihah-sergeja-esenina/
Когнитивная стилистика и образование речи
В основе стилистических исследований лежит парадокс. Мы не знаем, как мы создаем и произносим высказывание просто потому, что мы привыкли это делать. Чем больше мы пишем текстов, тем меньше у нас времени на осознание процесса. Это как кататься на велосипеде, водить машину или просто шагать. Такие навыки, в том числе умение говорить и писать, не теряются даже при амнезии.
Двоичный код для мозга
Эксперименты в когнитивной психологии и нейробиологии подтвердили концепцию бестелесного внутреннего голоса, который «произносит» предложения. Мозг обрабатывает и воспроизводит все высказывания, письменные или устные, в форме звуковой последовательности.
То же самое происходит, когда мы обрабатываем чужую речь: мы получаем доступ к словам из нашего внутреннего словаря через их звуковую структуру. То есть мы можем понять услышанную речь, только смоделировав в сознании артикуляционные действия, необходимые для ее создания.
Стиль и память
Ученые выделяют три основных типа человеческой памяти:
1. кратковременная (рабочая) память; и долговременная ассоциативная память, которая делится на два вида:
2. имплицитная, или бессознательная и
3. эксплицитная, или осознаваемая.
В процессе создания предложения участвует имплицитная память: мозг вспоминает, как строить предложение только во время самого творческого процесса. Человек не в состоянии осознать, как он это делает. Вся сознательная умственная работа над языком осуществляется в рабочей памяти, а именно в артикуляционной петле.
Стиль сознания
Наш когнитивный стиль имеет следующие признаки:
1. Фонологичный — слова и фразы сохраняются, обрабатываются и извлекаются в форме последовательности звуков, а не символов.
2. Лексико-синтаксический — грамматика и лексика не могут быть разделены.
3. Комбинаторный — наш мозг запоминает сочетания слово-образ-понятие-звук, а не словарные статьи.
4. Семантически не определенный — ни один тезаурус, энциклопедия или словарь не могут отразить то, как мы понимаем то или иное слово.
Долговременная память человека формируется случайными ассоциациями, которые образуются в течение всей жизни. Это частично объясняет явление лексической неопределенности: большинство слов невозможно определить так, чтобы между людьми не возникало недопонимания.
Согласно когнитивной модели, стиль имеют не тексты, а сознание автора, который создает текст. Работу сознания можно проанализировать только косвенно, поэтому будущее стилистики как дисциплины — это исследования на стыке когнитивных наук и корпусной лингвистики.
Вусале Агасиева, Женя Заковоротная
В основе стилистических исследований лежит парадокс. Мы не знаем, как мы создаем и произносим высказывание просто потому, что мы привыкли это делать. Чем больше мы пишем текстов, тем меньше у нас времени на осознание процесса. Это как кататься на велосипеде, водить машину или просто шагать. Такие навыки, в том числе умение говорить и писать, не теряются даже при амнезии.
Двоичный код для мозга
Эксперименты в когнитивной психологии и нейробиологии подтвердили концепцию бестелесного внутреннего голоса, который «произносит» предложения. Мозг обрабатывает и воспроизводит все высказывания, письменные или устные, в форме звуковой последовательности.
То же самое происходит, когда мы обрабатываем чужую речь: мы получаем доступ к словам из нашего внутреннего словаря через их звуковую структуру. То есть мы можем понять услышанную речь, только смоделировав в сознании артикуляционные действия, необходимые для ее создания.
Стиль и память
Ученые выделяют три основных типа человеческой памяти:
1. кратковременная (рабочая) память; и долговременная ассоциативная память, которая делится на два вида:
2. имплицитная, или бессознательная и
3. эксплицитная, или осознаваемая.
В процессе создания предложения участвует имплицитная память: мозг вспоминает, как строить предложение только во время самого творческого процесса. Человек не в состоянии осознать, как он это делает. Вся сознательная умственная работа над языком осуществляется в рабочей памяти, а именно в артикуляционной петле.
Стиль сознания
Наш когнитивный стиль имеет следующие признаки:
1. Фонологичный — слова и фразы сохраняются, обрабатываются и извлекаются в форме последовательности звуков, а не символов.
2. Лексико-синтаксический — грамматика и лексика не могут быть разделены.
3. Комбинаторный — наш мозг запоминает сочетания слово-образ-понятие-звук, а не словарные статьи.
4. Семантически не определенный — ни один тезаурус, энциклопедия или словарь не могут отразить то, как мы понимаем то или иное слово.
Долговременная память человека формируется случайными ассоциациями, которые образуются в течение всей жизни. Это частично объясняет явление лексической неопределенности: большинство слов невозможно определить так, чтобы между людьми не возникало недопонимания.
Согласно когнитивной модели, стиль имеют не тексты, а сознание автора, который создает текст. Работу сознания можно проанализировать только косвенно, поэтому будущее стилистики как дисциплины — это исследования на стыке когнитивных наук и корпусной лингвистики.
Вусале Агасиева, Женя Заковоротная
Семантические сети: как представить значения слов в виде графа
Команда компьютерных лингвистов из школы лингвистики НИУ ВШЭ, университета Тренто и университета Осло под руководством Андрея Кутузова представила на конференции AIST библиотеку vec2graph для Python (github). Vec2graph умеет визуализировать семантическую близость слов в виде сети. Информацию о близости слов vec2graph получает из векторной семантической модели.
«Системный Блокъ» уже рассказывал о том, что в основе дистрибутивной семантики — простая идея: близкие по значению слова будут встречаться в похожих контекстах. Чтобы передать знание о контекстной близости слов компьютеру, ученые и инженеры обучают векторные семантические модели — например, с помощью word2vec.
Но как отображать семантические близости из векторной модели так, чтобы они снова стали понятны человеку? Самый простой вариант — выдавать для любого слова столбик ближайших к нему «семантических ассоциатов».
Можно попытаться сжать многомерное векторное пространство модели обратно в двумерное. Алгоритмов такого снижения размерности (PCA, MDS, t-SNE) множество.
Третья альтернатива — использовать сети (они же графы). Для каждого слова можно строить сеть из его семантических ассоциатов. При этом сам показатель близости отображать, например, через длину линии: чем короче связь — тем ближе слово в векторной модели. Именно такие визуализации делает vec2graph.
https://sysblok.ru/nlp/semanticheskie-seti-kak-predstavit-znachenija-slov-v-vide-grafa/
Команда компьютерных лингвистов из школы лингвистики НИУ ВШЭ, университета Тренто и университета Осло под руководством Андрея Кутузова представила на конференции AIST библиотеку vec2graph для Python (github). Vec2graph умеет визуализировать семантическую близость слов в виде сети. Информацию о близости слов vec2graph получает из векторной семантической модели.
«Системный Блокъ» уже рассказывал о том, что в основе дистрибутивной семантики — простая идея: близкие по значению слова будут встречаться в похожих контекстах. Чтобы передать знание о контекстной близости слов компьютеру, ученые и инженеры обучают векторные семантические модели — например, с помощью word2vec.
Но как отображать семантические близости из векторной модели так, чтобы они снова стали понятны человеку? Самый простой вариант — выдавать для любого слова столбик ближайших к нему «семантических ассоциатов».
Можно попытаться сжать многомерное векторное пространство модели обратно в двумерное. Алгоритмов такого снижения размерности (PCA, MDS, t-SNE) множество.
Третья альтернатива — использовать сети (они же графы). Для каждого слова можно строить сеть из его семантических ассоциатов. При этом сам показатель близости отображать, например, через длину линии: чем короче связь — тем ближе слово в векторной модели. Именно такие визуализации делает vec2graph.
https://sysblok.ru/nlp/semanticheskie-seti-kak-predstavit-znachenija-slov-v-vide-grafa/
Соцсети русской драмы. Ревизор vs. Городничий: кто же главный герой?
«Системный Блокъ» уже писал о сетевом анализе драматических произведений (про смерть и про жанровые различия). А за прошедшее время были выполнены ещё несколько исследований корпуса русских драматических произведений, который на момент подготовки материала насчитывал 198 произведений.
Целью этой статьи стало исследование возможности математически выявить главных персонажей пьес (протагонистов), а также попробовать численно разделить персонажей на группы в соответствии с их значимостью.
Для героев каждой пьесы были вычислены 5 сетевых метрик: степень, взвешенная степень, степень близости, степень посредничества и степень влиятельности.
Оказалось, что в «Ревизоре» Н.В. Гоголя, Хлестаков лидирует по количественным метрикам, а Городничий — по сетевым. Если вспомнить сюжет, то объяснение становится очевидным: Городничий как глава города прочно связан с жителями; в то же время Хлестаков постепенно знакомится с жителями и поэтому много говорит с теми, кого уже знает.
https://sysblok.ru/philology/socseti-russkoj-dramy-chast-ii-revizor-vs-gorodnichij-kto-zhe-glavnyj-geroj/
«Системный Блокъ» уже писал о сетевом анализе драматических произведений (про смерть и про жанровые различия). А за прошедшее время были выполнены ещё несколько исследований корпуса русских драматических произведений, который на момент подготовки материала насчитывал 198 произведений.
Целью этой статьи стало исследование возможности математически выявить главных персонажей пьес (протагонистов), а также попробовать численно разделить персонажей на группы в соответствии с их значимостью.
Для героев каждой пьесы были вычислены 5 сетевых метрик: степень, взвешенная степень, степень близости, степень посредничества и степень влиятельности.
Оказалось, что в «Ревизоре» Н.В. Гоголя, Хлестаков лидирует по количественным метрикам, а Городничий — по сетевым. Если вспомнить сюжет, то объяснение становится очевидным: Городничий как глава города прочно связан с жителями; в то же время Хлестаков постепенно знакомится с жителями и поэтому много говорит с теми, кого уже знает.
https://sysblok.ru/philology/socseti-russkoj-dramy-chast-ii-revizor-vs-gorodnichij-kto-zhe-glavnyj-geroj/
Большие данные о языках в справочнике Ethnologue
84 года назад SIL (Летняя школа лингвистики) была маленькой исследовательской группой, занимавшейся изучением местных языков для миссионерской деятельности. Теперь это Международная организация со штатом более 6000 сотрудников из разных стран, признанная ЮНЕСКО и научным сообществом.
Результаты многолетней полевой работы и систематизации данных SIL публикует на сайте Ethnologue.com. Сейчас это наиболее полный справочник о языках мира, где собраны не только статьи, но и карты и графики, визуализирующие информацию.
К сожалению, Этнолог является частично платным. В этом посте мы расскажем о его бесплатном функционале.
Ethnologue для любознательных: всё, что вы хотели узнать
На отдельной странице сайта (Guides) собраны самые популярные вопросы о языках. Каждый ответ сопровождается картой, графиком или диаграммой. Самый популярный вопрос — это, разумеется, вопрос о количестве языков в мире. По последним данным Этнолога, их насчитывается 7,111.
Эти гайды, возможно, утолят познавательную жажду обычного пытливого пользователя, но лингвисту точно захочется чего-то большего. Например, полной схемы родственных языков внутри языковой семьи. Имея такую схему родственных языков, лингвист, разрабатывающий морфологический анализатор для малоресурсных языков, сможет правильно перенести разметку и оптимизировать свою работу.
Всяк язык знай своё место
У каждого языка на сайте есть своя страница. Там указаны код языка, его самоназвание, количество говорящих, диалекты, статус, принадлежность к языковой семье, основные черты грамматического строя и фонетики.
Статус языка определяется в соответствии с разработанной SIL шкалой уровня развития (Expanded Graded Intergenerational Disruption Scale, или EGIDS), где 0 — это международный язык, а 10 — вымерший.
На специальном графике показано место языка среди всех существующих. Каждый язык представлен маленькой точкой на координатной плоскости, где по вертикали отмечено количество говорящих на языке, а по горизонтали — уровень его развития в соответствии с EGIDS.
Языковая ситуация в стране
Отдельная страница есть не только для каждого языка, но и для каждой страны. В профиле государства указываются: население, основной язык, уровень грамотности и т.д. Но самое интересное — это лингвистический портрет страны, отражённый на диаграмме. На ней показано, сколько языков с каким статусом распространено на территории государства. По горизонтали — уровень развития языка по шкале EGIDS (от 1 — национальный до 10 — вымерший). По вертикали — количество языков. Соответственно, чем выше столбец, тем больше языков.
Кому это нужно?
Угадывать страны по лингвистическим портретам — довольно увлекательная игра. Но ценность собранных на Этнологе данных не ограничивается развлекательным потенциалом. Круг людей, для которых эта информация может быть полезной, достаточно широк. Это и бизнесмены, планирующие продвижение своего продукта в новые страны, и социологи, и политологи, которые могут делать прогнозы о развитии политической ситуации по языковой ситуации в стране, и чиновники, разрабатывающие стратегию поддержки малых языков. Понимая это, создатели сайта сделали доступ к некоторым ресурсам (детальным картам, подробным статистикам) платным. Что подтверждает в очередной раз истину XXI века: владеешь большими данными — владеешь миром.
Мария Захарова
84 года назад SIL (Летняя школа лингвистики) была маленькой исследовательской группой, занимавшейся изучением местных языков для миссионерской деятельности. Теперь это Международная организация со штатом более 6000 сотрудников из разных стран, признанная ЮНЕСКО и научным сообществом.
Результаты многолетней полевой работы и систематизации данных SIL публикует на сайте Ethnologue.com. Сейчас это наиболее полный справочник о языках мира, где собраны не только статьи, но и карты и графики, визуализирующие информацию.
К сожалению, Этнолог является частично платным. В этом посте мы расскажем о его бесплатном функционале.
Ethnologue для любознательных: всё, что вы хотели узнать
На отдельной странице сайта (Guides) собраны самые популярные вопросы о языках. Каждый ответ сопровождается картой, графиком или диаграммой. Самый популярный вопрос — это, разумеется, вопрос о количестве языков в мире. По последним данным Этнолога, их насчитывается 7,111.
Эти гайды, возможно, утолят познавательную жажду обычного пытливого пользователя, но лингвисту точно захочется чего-то большего. Например, полной схемы родственных языков внутри языковой семьи. Имея такую схему родственных языков, лингвист, разрабатывающий морфологический анализатор для малоресурсных языков, сможет правильно перенести разметку и оптимизировать свою работу.
Всяк язык знай своё место
У каждого языка на сайте есть своя страница. Там указаны код языка, его самоназвание, количество говорящих, диалекты, статус, принадлежность к языковой семье, основные черты грамматического строя и фонетики.
Статус языка определяется в соответствии с разработанной SIL шкалой уровня развития (Expanded Graded Intergenerational Disruption Scale, или EGIDS), где 0 — это международный язык, а 10 — вымерший.
На специальном графике показано место языка среди всех существующих. Каждый язык представлен маленькой точкой на координатной плоскости, где по вертикали отмечено количество говорящих на языке, а по горизонтали — уровень его развития в соответствии с EGIDS.
Языковая ситуация в стране
Отдельная страница есть не только для каждого языка, но и для каждой страны. В профиле государства указываются: население, основной язык, уровень грамотности и т.д. Но самое интересное — это лингвистический портрет страны, отражённый на диаграмме. На ней показано, сколько языков с каким статусом распространено на территории государства. По горизонтали — уровень развития языка по шкале EGIDS (от 1 — национальный до 10 — вымерший). По вертикали — количество языков. Соответственно, чем выше столбец, тем больше языков.
Кому это нужно?
Угадывать страны по лингвистическим портретам — довольно увлекательная игра. Но ценность собранных на Этнологе данных не ограничивается развлекательным потенциалом. Круг людей, для которых эта информация может быть полезной, достаточно широк. Это и бизнесмены, планирующие продвижение своего продукта в новые страны, и социологи, и политологи, которые могут делать прогнозы о развитии политической ситуации по языковой ситуации в стране, и чиновники, разрабатывающие стратегию поддержки малых языков. Понимая это, создатели сайта сделали доступ к некоторым ресурсам (детальным картам, подробным статистикам) платным. Что подтверждает в очередной раз истину XXI века: владеешь большими данными — владеешь миром.
Мария Захарова
Разбираем по частям научно-популярные ресурсы
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?
Для исследования мы использовали корпус текстов, собранный студентами магистратуры Школы лингвистики НИУ ВШЭ под руководством Б.В. Орехова.
Создатели корпуса написали краулер, который скачал некоторое количество статей с ресурсов: ПостНаука, N+1, GeekTimes, Polit. ru (разделы Лекции и Pro Science), Чердак, Индикатор.
На основе этого материала получилось посчитать, про что пишут чаще всего (спойлер: про технологии) и обнаружить, что научпоп отличается друг от друга не только темами, но и стилистикой повествования.
https://sysblok.ru/linguistics/razbiraem-po-chastjam-nauchno-populjarnye-resursy/
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?
Для исследования мы использовали корпус текстов, собранный студентами магистратуры Школы лингвистики НИУ ВШЭ под руководством Б.В. Орехова.
Создатели корпуса написали краулер, который скачал некоторое количество статей с ресурсов: ПостНаука, N+1, GeekTimes, Polit. ru (разделы Лекции и Pro Science), Чердак, Индикатор.
На основе этого материала получилось посчитать, про что пишут чаще всего (спойлер: про технологии) и обнаружить, что научпоп отличается друг от друга не только темами, но и стилистикой повествования.
https://sysblok.ru/linguistics/razbiraem-po-chastjam-nauchno-populjarnye-resursy/
Системный Блокъ
Разбираем по частям научно-популярные ресурсы - Системный Блокъ
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?
Как находить похожие слова с помощью расстояния Левенштейна?
Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна.
Компьютер — штука очень глупая. Например, человеку очевидно, что “корова” и “Корова” - это одно и то же слово и даже если сделать в слове ошибку и написать “карова”, мы все равно догадаемся, что имелось ввиду. Не таковы компьютерные программы, поменяй одну букву — машина будет уверена, что перед ней новое слово. Это здорово осложняет дело, когда приходится работать с данными, собранными на просторах Интернета.
Однако есть способ научить компьютер сравнивать слова и вычислять степень их похожести по тому, сколько нужно вставить, удалить или заменить символов, чтобы получить из одного слова другое. Способ был придуман советским математиком Владимиром Левенштейном, статья которого с момента публикации в 1965 году была процитирована более 10 тысяч раз.
https://sysblok.ru/knowhow/kak-nahodit-pohozhie-slova-s-pomoshhju-rasstojanija-levenshtejna/
Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна.
Компьютер — штука очень глупая. Например, человеку очевидно, что “корова” и “Корова” - это одно и то же слово и даже если сделать в слове ошибку и написать “карова”, мы все равно догадаемся, что имелось ввиду. Не таковы компьютерные программы, поменяй одну букву — машина будет уверена, что перед ней новое слово. Это здорово осложняет дело, когда приходится работать с данными, собранными на просторах Интернета.
Однако есть способ научить компьютер сравнивать слова и вычислять степень их похожести по тому, сколько нужно вставить, удалить или заменить символов, чтобы получить из одного слова другое. Способ был придуман советским математиком Владимиром Левенштейном, статья которого с момента публикации в 1965 году была процитирована более 10 тысяч раз.
https://sysblok.ru/knowhow/kak-nahodit-pohozhie-slova-s-pomoshhju-rasstojanija-levenshtejna/
YouTube на русском, зулусском и урду: как тестируют перевод интерфейсов
В мире есть около 200 «крупных» языков с числом носителей от 3 миллионов человек. Поэтому разработчикам программного обеспечения приходится переводить свои пользовательские интерфейсы на многие языки. Качество восприятия переведённых пользовательских интерфейсов (ПИ) может оказать существенное влияние на общее качество и удобство пользования продуктом. Но как разработчики ПО и менеджеры по продукту смогут узнать больше о качестве перевода, если они сами не говорят на этом языке?
Три подхода к оценке качества
1. автоматизированные методы оценки — их относительно легко и недорого разрабатывать, но на практике они не всегда приносят пользу.
2. заключения специалистов — служат ценным источником практических идей, однако не ориентированы на поиск проблем на уровне пользователя.
3. методы, ориентированные на пользователя, — их стоимость невысока, и они отражают точку зрения пользователя, при этом не предлагая практических идей по улучшению качества текста.
Таким образом, наибольшей эффективностью обладает мнение специалистов в сочетании с методами, ориентированными на пользователя.
В 2012 году команда интернационализации YouTube получила данные о том, что вложения в разработку версий YouTube на разных языках могут принести существенную выгоду. Хотя в предыдущих проектах работа экспертов привела к значительному повышению качества текста, такие исследования оказались слишком дорогостоящими и трудоемкими. Потому было решено разработать опрос, который позволит получать отзывы пользователей о качестве языка пользовательского интерфейса и масштабировать сбор количественных данных о качестве языка.
О чем спрашивали пользователей?
1. Насколько дружественен текст интерфейса?
2. Насколько профессионально составлен текст интерфейса?
3. Насколько естественным кажется текст интерфейса?
4. Труден ли для понимания текст интерфейса ?
5. Насколько уместным Вы считаете текст интерфейса?
6. Как часто Вы сталкивались с грамматическими ошибками в тексте интерфейса ?
7. Как часто Вы сталкивались с опечатками/орфографическими ошибками в тексте интерфейса?
8. Как часто Вы сталкивались с бессмысленным текстом в интерфейсе ?
9. Как часто Вы встречали непереведенные слова (не на английском языке) в тексте интерфейса?
10. Устраивает ли Вас качество текста интерфейса при использовании английского языка?
Поскольку опросник был разработан, чтобы выявить проблемы в переводе интерфейса YouTube и улучшить его качество, он был доступен на более чем 60 языках.
Результат: по своему качеству почти треть переводов уступала оригинальной версии. А ведь YouTube переводят профессиональные лингвисты, а не машина.
По мнению Дель Гальдо и Нильсена (1996), существует три уровня, на которых следует решать проблему создания международных пользовательских интерфейсов. Первый уровень — технический; это символы, обозначения и форматы данных, привычные для пользователей в контексте родного языка. Второй уровень — создание пользовательского интерфейса и пользовательской информации, которые понятны. Основа третьего уровня — способность создавать системы, учитывающие культурные особенности пользователей. Это означает, что проекты должны учитывать конкретные культурные модели, такие как способ общения людей или способ ведения бизнеса в разных странах.
Источник
Материал подготовлен совместно с группой переводческих компаний AKM Translations
В мире есть около 200 «крупных» языков с числом носителей от 3 миллионов человек. Поэтому разработчикам программного обеспечения приходится переводить свои пользовательские интерфейсы на многие языки. Качество восприятия переведённых пользовательских интерфейсов (ПИ) может оказать существенное влияние на общее качество и удобство пользования продуктом. Но как разработчики ПО и менеджеры по продукту смогут узнать больше о качестве перевода, если они сами не говорят на этом языке?
Три подхода к оценке качества
1. автоматизированные методы оценки — их относительно легко и недорого разрабатывать, но на практике они не всегда приносят пользу.
2. заключения специалистов — служат ценным источником практических идей, однако не ориентированы на поиск проблем на уровне пользователя.
3. методы, ориентированные на пользователя, — их стоимость невысока, и они отражают точку зрения пользователя, при этом не предлагая практических идей по улучшению качества текста.
Таким образом, наибольшей эффективностью обладает мнение специалистов в сочетании с методами, ориентированными на пользователя.
В 2012 году команда интернационализации YouTube получила данные о том, что вложения в разработку версий YouTube на разных языках могут принести существенную выгоду. Хотя в предыдущих проектах работа экспертов привела к значительному повышению качества текста, такие исследования оказались слишком дорогостоящими и трудоемкими. Потому было решено разработать опрос, который позволит получать отзывы пользователей о качестве языка пользовательского интерфейса и масштабировать сбор количественных данных о качестве языка.
О чем спрашивали пользователей?
1. Насколько дружественен текст интерфейса?
2. Насколько профессионально составлен текст интерфейса?
3. Насколько естественным кажется текст интерфейса?
4. Труден ли для понимания текст интерфейса ?
5. Насколько уместным Вы считаете текст интерфейса?
6. Как часто Вы сталкивались с грамматическими ошибками в тексте интерфейса ?
7. Как часто Вы сталкивались с опечатками/орфографическими ошибками в тексте интерфейса?
8. Как часто Вы сталкивались с бессмысленным текстом в интерфейсе ?
9. Как часто Вы встречали непереведенные слова (не на английском языке) в тексте интерфейса?
10. Устраивает ли Вас качество текста интерфейса при использовании английского языка?
Поскольку опросник был разработан, чтобы выявить проблемы в переводе интерфейса YouTube и улучшить его качество, он был доступен на более чем 60 языках.
Результат: по своему качеству почти треть переводов уступала оригинальной версии. А ведь YouTube переводят профессиональные лингвисты, а не машина.
По мнению Дель Гальдо и Нильсена (1996), существует три уровня, на которых следует решать проблему создания международных пользовательских интерфейсов. Первый уровень — технический; это символы, обозначения и форматы данных, привычные для пользователей в контексте родного языка. Второй уровень — создание пользовательского интерфейса и пользовательской информации, которые понятны. Основа третьего уровня — способность создавать системы, учитывающие культурные особенности пользователей. Это означает, что проекты должны учитывать конкретные культурные модели, такие как способ общения людей или способ ведения бизнеса в разных странах.
Источник
Материал подготовлен совместно с группой переводческих компаний AKM Translations
Порноренеcсанс: как секс-индустрия изменила нашу жизнь
Пройдя долгий путь от эротических гравюр 16-го века, провокационных романов Маркиза Де Сада, журналов, VHS кассет и DVD дисков, доступных только на радиорынках и в магазинах для взрослых, порно попало в интернет. Каждую минуту сайты фиксируют около 63 992 новых пользователей и 207 405 просмотров по 57 750 разным запросам.
Порно сегодня оказывает огромное влияние на вкусовые предпочтения пользователей, на их представления о сексе и личные отношения. Сексуальные фантазии распространяются в сети, как эпидемия, и сразу становятся образцовыми моделями поведения.
Эксперимент на крысах и принятие неэтичных сюжетов
Ученый Джим Фауст задался вопросом, можно ли изменить инстинкт. Он поместил девственных самцов крыс в клетку с самками, которых предварительно опрыскал запахом мертвого, разлагающегося тела. Влечение было настолько сильным, что животные смогли преодолеть инстинкт самосохранения и стали спариваться. Когда после эксперимента самцов поместили в клетку с разными предметами для игр, они решительно выбирали те, которые «пахли смертью».
Пользователи порносайтов замечают, что их стал привлекать контент, который раньше они считали недопустимым или неэтичным. Просматривая все более экстремальные и откровенные сюжеты, люди постепенно начинают думать, что такие акты широко распространены, а значит, приемлемы. Испытывая наслаждение, мозг вырабатывает дофамин и формирует новые нейронные пути, которые связывают удовольствие с действием и позволяют прибегать к этому алгоритму снова и снова.
Правило 34
В интернете давно существует правило 34: «Если вы можете себе это вообразить, то уже есть порно про это. Без исключений». В наши дни скорость распространения информации растет беспрецедентными темпами.
Пользователям не обязательно повторять увиденный сексуальный акт, они могут просто поделиться своими впечатлениями в социальных сетях, и алгоритм ранжирования поднимет публикацию в топ. Порно, которое раньше распространялось в узких кругах, давало человеку возможность избавиться от предрассудков и дать волю эмоциям, сегодня трансформируется в мемы и обсуждения в сети.
Ежегодно Pornhub собирает большие данные и ведет анонимную статистику, классифицируя ее по гендерному признаку, региону, стране или даже по праздничным дням. Так два года назад в Америке в канун Рождества трафик сайта снизился на 45%, но запрос порно в категории «эльф» вырос на 464%.
Противоестественная маскулинность и сексуальная грамотность
Свободный доступ к сайтам и широкое распространение секс-индустрии отразилось не только на вкусовых предпочтениях, но и сформировало ошибочное представление о том, что хочет женщина. Доминантная и грубая маскулинность, типичная для порносюжетов, воспринимается подростками буквально: принуждение, оскорбления и анальный секс становятся пределом фантазий.
Рынок порно сегодня не только превратился в гигантскую индустрию, но и успел обрести противников. Активисты создают сайты по борьбе с новым наркотиком и ресурсы, рассказывающие «всю правду» о порно. Но противостояние через запрет неэффективно. Остается ждать, что скажут ученые: действительно ли проблема так велика, как рассуждают порно-алармисты — и что с ней можно сделать без полиции нравов.
Дара Марич
Пройдя долгий путь от эротических гравюр 16-го века, провокационных романов Маркиза Де Сада, журналов, VHS кассет и DVD дисков, доступных только на радиорынках и в магазинах для взрослых, порно попало в интернет. Каждую минуту сайты фиксируют около 63 992 новых пользователей и 207 405 просмотров по 57 750 разным запросам.
Порно сегодня оказывает огромное влияние на вкусовые предпочтения пользователей, на их представления о сексе и личные отношения. Сексуальные фантазии распространяются в сети, как эпидемия, и сразу становятся образцовыми моделями поведения.
Эксперимент на крысах и принятие неэтичных сюжетов
Ученый Джим Фауст задался вопросом, можно ли изменить инстинкт. Он поместил девственных самцов крыс в клетку с самками, которых предварительно опрыскал запахом мертвого, разлагающегося тела. Влечение было настолько сильным, что животные смогли преодолеть инстинкт самосохранения и стали спариваться. Когда после эксперимента самцов поместили в клетку с разными предметами для игр, они решительно выбирали те, которые «пахли смертью».
Пользователи порносайтов замечают, что их стал привлекать контент, который раньше они считали недопустимым или неэтичным. Просматривая все более экстремальные и откровенные сюжеты, люди постепенно начинают думать, что такие акты широко распространены, а значит, приемлемы. Испытывая наслаждение, мозг вырабатывает дофамин и формирует новые нейронные пути, которые связывают удовольствие с действием и позволяют прибегать к этому алгоритму снова и снова.
Правило 34
В интернете давно существует правило 34: «Если вы можете себе это вообразить, то уже есть порно про это. Без исключений». В наши дни скорость распространения информации растет беспрецедентными темпами.
Пользователям не обязательно повторять увиденный сексуальный акт, они могут просто поделиться своими впечатлениями в социальных сетях, и алгоритм ранжирования поднимет публикацию в топ. Порно, которое раньше распространялось в узких кругах, давало человеку возможность избавиться от предрассудков и дать волю эмоциям, сегодня трансформируется в мемы и обсуждения в сети.
Ежегодно Pornhub собирает большие данные и ведет анонимную статистику, классифицируя ее по гендерному признаку, региону, стране или даже по праздничным дням. Так два года назад в Америке в канун Рождества трафик сайта снизился на 45%, но запрос порно в категории «эльф» вырос на 464%.
Противоестественная маскулинность и сексуальная грамотность
Свободный доступ к сайтам и широкое распространение секс-индустрии отразилось не только на вкусовых предпочтениях, но и сформировало ошибочное представление о том, что хочет женщина. Доминантная и грубая маскулинность, типичная для порносюжетов, воспринимается подростками буквально: принуждение, оскорбления и анальный секс становятся пределом фантазий.
Рынок порно сегодня не только превратился в гигантскую индустрию, но и успел обрести противников. Активисты создают сайты по борьбе с новым наркотиком и ресурсы, рассказывающие «всю правду» о порно. Но противостояние через запрет неэффективно. Остается ждать, что скажут ученые: действительно ли проблема так велика, как рассуждают порно-алармисты — и что с ней можно сделать без полиции нравов.
Дара Марич