Системный Блокъ – Telegram

Системный Блокъ

11.5K subscribers

301 photos

2 videos

1 file

1.04K links

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join

Download Telegram

About

Blog

Apps

Platform

Системный Блокъ

11.5K subscribers

Системный Блокъ

«‎Стыдные» вопросы про нейросети

Как ИИ понимает мои русско-английские запросы? Почему его не смущают опечатки? Как чат-бот догадывается, что мне предложить?

«Системный Блокъ» собрал «стыдные» и сложные вопросы про LLM и задал их своим специалистам. О том, почему модели не могут посчитать буквы, но могут написать код, есть ли у них самосознание и что будет, когда данные закончатся, — читайте в наших карточках.

А о том, причем тут эмодзи морского конька — на сайте!

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥44❤26👏17👍4🥰3

5.3K views17:46

Системный Блокъ

Как сделать свой DH-проект: гайд от «Системного Блока»

🚀 В новом проекте «Системного Блока» разобрали удачные кейсы и собрали пошаговый гайд для создания своего DH-проекта: от идеи и данных до команды, MVP и публичного запуска.

Показали реальные примеры, разобрали типичные ошибки, и поделились калькулятором зрелости проекта, который поможет честно оценить, насколько хорошо продумана идея.

Если вы давно думали «а не сделать ли…» — это знак, что пора начинать. А если просто интересно как создавались знакомые вам проекты, заходите почитать про «Прожито» @prozhito, «Пишу тебе» @pishuteberu и «Слово Толстого» @slovo_tolstogo — с разбором и комментариями создателей.

❓

Что вообще такое цифровой гуманитарный проект?

Это исследование или веб-инструмент, который решает задачи гуманитарных наук с помощью цифровых технологий. Его основа — данные, а результат должен быть доступен в цифровом виде, будь то сайт или архив на GitHub.

Данными могут быть тексты, архивы, изображения или любые другие объекты гуманитарного исследования. Вы можете собрать их самостоятельно или использовать открытые репозитории.

Так как же создать свой DH-проект?

1️⃣

С чего начать

Начинать проект нужно с идеи: понять, что, зачем и для кого вы делаете. Это определит его цель и аудиторию. Вы должны понимать, кому эта работа нужна и как она может быть полезна. Также сразу решите, создаете ли вы разовое исследование или долгосрочный ресурс — от этого зависит масштаб работ.

2️⃣ Соберите данные

Определите, что уже есть для реализации вашей идеи. В некоторых случаях можно использовать готовые наборы, в других — потребуется самостоятельная работа по оцифровке архивов или формированию корпуса материалов.

3️⃣

Наберите команду

Определите масштаб проекта и наберите команду. Для небольшого учебного проекта хватит и пары студентов, но для проектов, предполагающих, например, ручное комментирование или оценку, потребуются разметчики. Помните, что самые важные люди в команде — руководитель (идея и управление), исследователи (анализ) и IT-специалисты (для сайта или приложения).

4️⃣

Составьте план

Разбейте общую идею на конкретные задачи: что именно нужно сделать с данными, какая разметка требуется, где нужна автоматизация, а где — ручная работа. Затем создайте реалистичный график: определите сроки, этапы и результаты каждого шага. Для наглядности используйте таблицу или диаграмму Ганта.

Отлично, теперь у вас есть фундамент для старта вашего DH-проекта! Но чтобы не заблудиться на пути от идеи к результату, изучите полный гайд, который позволяет преодолеть первые трудности в проекте и предлагает лайфхаки от опытных исследователей.

А пока предлагаем вам поделиться своими первыми идеями!

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Создание DH-проекта: руководство для новичков

Как создать свой собственный цифровой гуманитарный проект, от идеи до реализации. В гайде разбираем каждый шаг процесса, проблемы и способы их решения.

👍16❤15🥰10

4.9K views11:02

Системный Блокъ

Какой формат вы бы выбрали для своего DH-проекта?

Anonymous Poll

Исследовательская статья с цифровыми методами и визуализациями

Интерактивная карта или таймлайн

Онлайн-выставка или цифровой архив

Дата-стори или лонгрид с анализом данных

Я бы не взялся за DH-проект, но с радостью посмотрю на ваши 😎

❤11

237 voters3.27K views11:06

Системный Блокъ

Личный ИИ-ассистент, соцсеть для ИИ-агентов, генератор виртуальных миров от Google

Рассказываем, что произошло в мире ИИ за последнее время.

ИИ-ассистент OpenClaw и соцсеть ИИ-агентов

За последние две недели в сообществе энтузиастов искусственного интеллекта стремительно набрал популярность ИИ-агент OpenClaw (ранее ClawdBot и MoltBot). Создатель позиционирует его как персонального ассистента, способного сортировать электронную почту, составлять утренние дайджесты новостей, бронировать столики в ресторанах и т. д. — возможности ограничены лишь фантазией пользователя. Взаимодействие происходит через мессенджеры, например, WhatsApp или Telegram. В основе агента — языковая модель: OpenClaw работает как с коммерческими решениями (ChatGPT, Claude), так и с моделями, развернутыми локально. Агент имеет доступ к файловой системе компьютера, может выходить в интернет, использовать «навыки» (папки с текстовыми файлами, содержащие инструкции, а также программные скрипты) и сохраняет полную историю взаимодействий, которую использует как контекст.

Судя по отзывам, OpenClaw редко справляется с задачами, однако это не мешает росту аудитории. Спустя несколько дней появился сайт MoltBook — аналог Reddit, где контент публикуют не люди, а боты OpenClaw. Агенты рассказывают о поручениях владельцев, обмениваются «навыками» или просто общаются. Часть контента создана людьми (например, завирусившиеся посты, где якобы агенты обсуждают, что люди за ними следят), но сама платформа предназначена для ботов.

Почему это важно?

С технической стороны OpenClaw не содержит прорывных решений, часто допускает ошибки и представляет серьезные риски для безопасности, но интерес пользователей остается высоким.

Современные LLM еще недостаточно надежны для роли полноценных помощников с доступом к личным данным и широкими полномочиями действовать в цифровой среде. Большинство пользователей пока взаимодействуют с ними лишь как с чат-ботами. Однако OpenClaw дает представление о том, как может выглядеть будущее персонифицированного программного обеспечения.

MoltBook предвосхищает более радикальный и неожиданный сдвиг — появление цифровых пространств не для людей, а для ИИ-агентов. Если боты станут достаточно автономными, им могут потребоваться собственные платформы для обмена информацией, формирования коллективного знания или даже выработки новых паттернов поведения через взаимодействие друг с другом.

Генерация виртуальных миров от Google

Лаборатория Google DeepMind открыла публичный доступ к Genie 3 — третьему поколению «модели мира», о которой мы уже подробно писали. Теперь любой пользователь может генерировать интерактивные виртуальные среды по текстовому описанию, свободно перемещаться в них и управлять ими в реальном времени.

Практически одновременно компания Waymo, разрабатывающая автопилотное такси, представила Waymo World Model — специализированную версию Genie 3 для симуляции автономного вождения.
Waymo World Model генерирует реалистичные данные с камер и лидаров, воспроизводя то, как автопилот «видит» дорожную ситуацию. Благодаря базовым знаниям Genie 3 о физическом мире система симулирует исключительно редкие события: торнадо, наводнения, встречу со слоном на дороге или неисправный грузовик во встречном направлении.

Модель поддерживает три типа управления: команды вождения (проверка альтернативных маневров), изменение дорожной сцены (расстановка объектов, светофоров) и текстовые запросы (смена времени суток, погоды). Waymo World Model может также преобразовывать видео с обычных регистраторов в мультисенсорную симуляцию.

Почему это важно?

Случай с Waymo демонстрирует одно из ключевых применений «моделей мира» — генерацию обучающих и тестовых данных для роботов и автономных систем. Это позволяет создавать сотни часов симуляций редких ситуаций, которые сложно собрать в реальности, будь то приготовление еды для обучения роботов или экстремальные дорожные условия для беспилотников.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤9🔥5🍓3

3.1K views15:05

Системный Блокъ

ИИ против человека: насколько уникальны художественные тексты нейросетей

Сегодня большие языковые модели все чаще используются в области креативного письма. Но удастся ли LLM создать по-настоящему оригинальные и непредсказуемые нарративы? В новом материале разбираем, чем отличаются истории, сгенерированные моделями, и как измерить их уникальность.

Оценка оригинальности

В 2025 году группа исследовательского центра Microsoft дала моделям из семейств GPT и LLama задание сгенерировать множество альтернативных продолжений для одной и той же истории.

Моделям было предложено сгенерировать продолжение рассказа Франца Кафки «Не надейся!» («Gibs auf»). Промтом для модели служило начало истории*:

Было очень раннее утро, улицы были чисты и пустынны, я шел на вокзал. Сверив свои часы с башенными, я увидел, что время сейчас гораздо более позднее, чем я думал, мне нужно было очень спешить, ужас от этого открытия сделал меня неуверенным в пути, я еще неважно ориентировался в этом городе, к счастью, поблизости оказался полицейский, я подбежал к нему и, запыхавшись, спросил, как пройти на вокзал. Он улыбнулся и сказал:— У меня ты хочешь узнать дорогу?— Да, — сказал я, — потому что сам не могу найти ее.

Секрет необычной развязки

Сгенерированные моделями концовки были однотипны и прогнозируемы. В них полицейский показывал дорогу на вокзал либо провожал героя к нужному месту. В оригинале же рассказ кончается совсем иначе:

— Не надейся, не надейся! — сказал он и размашисто отвернулся, как это делают люди, которые хотят быть наедине со своим смехом.

Повторы и быстрый темп

Как выяснилось в ходе эксперимента, языковые модели склонны к шаблонности и часто повторяют элементы сюжета, тем самым уступая людям в оригинальности. Кроме того, «человеческие» истории обычно имеют более медленный темп и плавно вводят сюжетные повороты, в то время как в сгенерированных нарративах темп повествования ускорен, а сюжетные линии не получают полноценного развития. Эти особенности приводят к резким и неубедительным развязкам в текстах нейросетей.

Подробнее о ходе эксперимента и предложенных метриках можно узнать из полной версии статьи.

*Текст приводится в переводе С.К. Апта

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Как измерить оригинальность LLM-сюжетов и почему они (пока) проигрывают человеческим - Системный Блокъ ИИ против человека: насколько…

Если бы русские народные сказки создавались сейчас, то среди волшебных предметов, кроме шапки-невидимки, скатерти-самобранки и сапогов-скороходов, у героев были бы VR-очки, способные «всю правду доложить», онлайн-переводчик с волчьего языка и генератор царевых…

❤28🔥13👍8😁3

3.44K views14:03

Системный Блокъ

От рок-баллад до Тейлор Свифт: как алгоритмы находят сюжеты в песнях

Рассказываем, как цифровые методы и литературная теория помогают увидеть (и посчитать!) движение от лирики к сторителлингу в поп-музыке

Как изучать сюжет в треках?

Авторы исследования Measuring the Stories in Contemporary Songs собрали корпус из 1076 текстов популярных американских песен с 1960 по 2025 год.

Для измерения степени сюжетности в песнях исследователи выделили три показателя нарратива, которые никак не зависят от жанра или стиля. Их можно условно перевести и объяснить так:

• «агент» — степень, в которой текст песни акцентирует внимание на действующих лицах;

• «событие» — степень организации текста вокруг последовательности событий, разворачивающихся во времени;

• «мир» — степень, в которой в тексте описывается мир, который мы можем увидеть и прочувствовать.

А дальше?

Вторым этапом исследования стало машинное обучение: для получения более объективного результата авторы использовали разные модели с архитектурой BERT и генеративные LLM (Gemini 2.5 Pro, GPT 4.1, Claude Opus 4).

И что выяснилось?

Изначально у исследователей была гипотеза, что песни 1960-х имели большую сюжетность, чем современные, но оказалось, что сюжетность планомерно возрастала и её пик пришелся как раз на 2020-е. Короче говоря: всё ровно наоборот!

Несколько интересных фактов

Во-первых, исследователи обнаружили, что песни, номинированные на премию Grammy, в среднем имели больший уровень нарративности, чем песни того же жанра, которые не были номинированы.

Во-вторых, выяснилось, что десятиминутная песня Тейлор Свифт All Too Well, от которой многие ожидали пиковых показателей по сюжетности, не вошла даже в пятерку «‎самых нарративных треков». Зато в неё вошёл, например, Ice Cube с его It Was a Good Day.

О том, как именно обучали модели для этого исследования, какие ещё исполнители склонны рассказывать целые истории в своих песнях и какие музыкальные жанры отличаются особой любовью к насыщенным сюжетам, узнаете из полной версии материала.

P. S. Как думаете, какая русская песня оказалась бы самой сюжетной? Делитесь своими версиями в комментариях!

Время чтения: 8,5 минут

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

От рок-баллад до Тейлор Свифт: как алгоритмы находят сюжеты в песнях - Системный Блокъ Как измерить сюжет в песнях: Тейлор Свифт…

Мы привыкли считать сюжет признаком романа или фильма, а песню — территорией эмоций и состояний. Но почему тогда одни треки звучат как описание глубоких чувств, а другие — как законченный эпизод из чьей-то жизни? Рассказываем, как цифровые методы и литературная…

🔥22❤‍🔥11💅7👍5

3.24K views16:32

Системный Блокъ

Правда ли, что ИИ заменит всех нас?

В мае 1997 компьютер Deep Blue впервые победил действующего чемпиона мира по шахматам, но мы… всё ещё играем в шахматы. Значит ли это, что и в других сферах ИИ превзойдет, но не заменит нас, а сделает эффективнее? Свой ответ предлагает наш блогер Дмитрий Пронин.

Пойдем по порядку: превзойдет ли нас ИИ?

Сегодня компании, разрабатывающие большие языковые модели, соревнуются в стремлении достичь AGI (Artificial General Intelligence) — интеллекта, сопоставимого с человеческим и способного одинаково эффективно решать любые задачи. Если технология достигнет такого уровня, то за счет способности к самообучению и скорости «мышления» AGI довольно быстро эволюционирует в ASI (Artificial Superintelligence) — систему, интеллектуально превосходящую на порядки даже самых одаренных из нас, примерно так же, как современные шахматные алгоритмы превосходят лучших гроссмейстеров.

Многие теоретики ASI утверждают, что для создания такого «сверхразума» потребуется полностью изменить подход к обучению, отказавшись от человеческих наработок и знаний из интернета, но тогда может возникнуть проблема: открытия ИИ могут оказаться непереводимыми на человеческий язык.

Что это значит?

Нам нужен не сверхразум, который бы думал сам за себя и был независимым, а сверхинструмент. Нам нужна система, способная усиливать человеческое мышление: предлагать возможные «хорошие ходы», проверять решения на устойчивость, находить логические противоречия и слепые зоны, но не «играть» вместо нас.

Тогда в будущем машины будут выполнять большую часть операционного и вычислительного труда: обрабатывать данные, оптимизировать процессы, поддерживать инфраструктуру, моделировать сценарии и производить интеллектуальные заготовки. Они станут фоном, на котором разворачивается человеческая деятельность, а не ее заменой.

Работа людей в таком мире будет сосредоточена не на исполнении, а на целеполагании и интерпретации. Человек будет формулировать задачи, определять допустимые границы решений, оценивать последствия и брать на себя ответственность за выбор.

Насколько это реалистичный сценарий?

На практике такое сотрудничество уже складывается: редакторы используют языковые модели как инструмент фактчекинга и поиска альтернативных источников, но финальные правки, расстановка акцентов и ответственность за смысл остаются за человеком.

Будущее с искусственным сверхинструментом — это, вероятно, не мир, в котором человек вытесняется, а мир, в котором от него требуется больше. Больше способности к абстрактному мышлению и больше ответственности за принимаемые решения.

Подробнее о таком варианте развития событий — в полной версии блога.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Правда ли, что ИИ заменит всех нас? - Системный Блокъ

Мы уже привыкли бояться, что ИИ выставит нас «на мороз», забрав всю работу. Но что если посмотреть на историю шахмат? Победа Deep Blue над Каспаровым и последующее торжество шахматного искусственного интеллекта над естественным не убили турниры между людьми…

🔥22❤‍🔥13👍7❤5🤨3🤡2👀2

3.1K views17:43

Системный Блокъ

Матриархат, болезни и археологи: как палеогенетика помогает изучать социальную структуру древних сообществ

Для исследования ДНК древнего человека необходимо собрать целую команду. Во-первых, понадобится археолог, который добудет материал; во-вторых, антрополог, который материал оценит; в-третьих и в-четвертых — палеогенетик и биоинформатик, которые очистят древнюю ДНК и проведут анализы. Четыре человека при самых скромных подсчетах! Зато в результате можно узанть о родственных связях, брачных практиках и правилах, по которым были устроены древние общества. Рассказываем, как палеогенетика исследует социальные структуры прошлого.

Матриархат или патриархат?

Концепция рода относительна: в одних культурах он формируется по материнской линии, в других — по отцовской. Доминирующий пол можно вычислить по соотношению разнообразия митохондрий и Y-хромосом: первые наследуются только от матерей, вторые — только от отцов.

Если преемником считается сын, а дочь, вступив в брак, «уходит» в другую семью, то в роду будет видна четкая наследственность по Y-хромосоме и большое разнообразие митохондрий.

Этот метод анализа использовали ученые при изучении одного кельтского племени с южного побережья Британии. Анализ захоронений показал, что в основном дуротриги представляли собой родственную группу, сосредоточенную вокруг одной материнской линии, а слишком близких союзов в этом племени старались избегать.

Какие ещё есть методы?

Есть, например, молекулярно-палеопатологический метод: он позволяет изучить болезни, которые часто свидетельствуют о том, к какому социальному слою принадлежал их носитель. Мог ли человек позволить себе постоянное полноценное питание и своевременное лечение, не страдал ли «династическими» недугами? Мог ли он быть пришлым и иметь нехарактерное для местных заболевание или, напротив, обладать устойчивостью к чему-то, от чего страдали все остальные?

Среди других методов найдутся, например, филогеография и анализ гомозиготных участков. Если хочется разобраться, что это значит и как работает, а заодно выяснить, что мы узнали о неандертальцах из Алтайского края и Ирландии времен неолита благодаря палеогенетике, переходите к полной версии материала.

Время чтения: 14 минут

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

От генома к родословным: как палеогенетика помогает изучать социальную структуру древних сообществ - Системный Блокъ Как палеогенетика…

Историки и биологи давно исследуют прошлое человечества вместе. С недавних пор к ним присоединились палеогенетики и биоинформатики. Их методы позволяют анализировать генетические следы в останках людей, благодаря чему мы больше узнаем о родственных связях…

🔥13👍11❤8

3.15K views08:05

Системный Блокъ

Новый, мертвый, хороший: визуализация текстов Гражданской Обороны

Сегодня 18 лет со дня смерти Егора Летова — основателя «Гражданской обороны» и человека, без которого слово «панк-рок» в России значило бы что-то совсем другое. В этот день предлагаем вспомнить наш уже классический материал с визуализацией текстов Летова.

💔 Я и мы

Мы собрали около 200 текстов Гражданской Обороны и еще одного проекта до 1997 года, автором которых был Егор Летов. Первое, что мы увидели — как из них постепенно исчезает я, уступая место местоимению мы.

❤️‍🩹 ~~Здорово и вечно~~ Хорошо и плохо

Язык Летова вполне разнообразен: слова, встретившиеся во всем корпусе только один раз составляют две трети всего словаря. При этом темы, конечно, повторяются из года в год и из альбома в альбом. Ключевая для творчества Летова — тема смерти. «Положительные» слова вроде хороший, смех, праздник, радость, веселый встречаются тоже, но на них всегда важно смотреть в контексте: у Летова «хороший царь» означает ровно противоположное, а «веселый сок» — это кровь.

Узнать о том, как менялась лексика в текстах Летова с 1985 до 1997 и какие глаголы, прилагательные и существительные были особенно характерны для альбомов разных периодов, можно из полной версии статьи.

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Новый, мертвый, хороший: визуализация текстов Гражданской Обороны - Системный Блокъ

Посвящается 11-летию со дня смерти Егора Летова

❤22🔥18👍13

3.68K views15:26

Системный Блокъ

Пентагон против Anthropic и новый лидер в видеогенерации

Рассказываем, что произошло в мире ИИ за последнее время.

Пентагон против Anthropic

Между Anthropic и Пентагоном возникли разногласия при заключении контракта на 200 млн долларов.

Министерство обороны США хочет использовать нейросеть Claude для всех «законных целей». Однако Anthropic потребовала гарантий того, что ее модель не будет применяться для автономного управления оружием и массовой слежки за гражданами Америки. В ответ ведомство назвало попытку ограничить сценарии использования «недемократичной».

По словам неназванного сотрудника Пентагона, глава министерства рассматривает возможность признать Anthropic ненадежным поставщиком для оборонных контрактов. Если такое решение будет принято, все компании, сотрудничающие с Пентагоном, будут обязаны отказаться от продуктов Anthropic. Статус ненадежного поставщика обычно присваивается компаниям из враждебных государств — например, китайским или российским, в числе которых «Лаборатория Касперского».

Напряженность между сторонами усилилась на фоне сообщений о том, что Claude применялся в ходе операции по похищению Николаса Мадуро из Венесуэлы, повлекшей человеческие жертвы. По данным источников, эта информация вызвала серьезное недовольство внутри компании.

Между тем Пентагон уже заключил контракты с другими игроками на рынке ИИ — Alphabet (материнской компанией Google), OpenAI и xAI.

Почему это важно?

Модели ИИ давно применяются в военных целях, однако появление и стремительное развитие больших языковых моделей открывают принципиально новые сценарии. В частности, LLM способны действовать как автономные агенты: самостоятельно анализировать обстановку и принимать решения без участия человека. Бесконтрольное внедрение таких систем в военные операции несет серьезные риски: от ошибочных ударов до эскалации конфликтов по сценариям, которые никто не закладывал.

Исход конфликта между Anthropic и Министерством обороны США станет проверкой для всей отрасли: готовы ли ведущие ИИ-компании на практике отстаивать принципы безопасной и ответственной разработки — или эти принципы останутся декларациями.

Seedance 2.0 — новый лидер видеогенерации

Владелица TikTok, компания ByteDance, представила Seedance 2.0 — новую модель для генерации видео со звуком.

На вход модель принимает текстовое описание, изображения, аудио и видеофрагменты, на выходе — ролики длиной до 15 секунд с многоканальным звуком. Компания заявляет о более точном следовании инструкциям, а также об улучшенной генерации сцен с несколькими объектами и сложными движениями.

Пока модель доступна только китайским пользователям и только по приглашениям, однако примеры работы можно посмотреть уже сейчас.

Запуск немедленно вызвал волну претензий от голливудских студий. Disney, Warner Bros. Discovery, Paramount, Netflix и Sony Pictures потребовали прекратить нарушение авторских прав — поводом стали вирусные ролики с персонажами Marvel, «Звездных войн», «Игры престолов» и других франшиз.

ByteDance заявила, что уважает авторские права и намерена усилить меры по предотвращению их нарушений. Ассоциация кинопроизводителей считает это недостаточным.

Почему это важно?

Первая коммерческая модель для генерации видео по текстовому описанию Sora вышла в декабре 2024 года — чуть больше двух лет назад. Сейчас модели уже способны создавать видео, визуально близкие к реальному кино.

Вопрос авторских прав при этом стоит острее, чем в случае с текстом: видеомодель воспроизводит узнаваемых персонажей и сцены из конкретных произведений. Реакция киноиндустрии показывает, что единого подхода к решению этой проблемы пока нет. OpenAI в аналогичной ситуации заключила лицензионное соглашение с Disney. Какую стратегию выберет ByteDance и другие крупные компании — непонятно.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤13❤‍🔥8

2.49K views15:50

Системный Блокъ

«Придумал мультфильм — можешь быть его режиссером»: интервью с технооптимистом Иваном Ямщиковым

~~До чего дошел прогресс?~~ Чему ребенка уже может научить робот? Как ИИ скажется на самореализации? Что будет с электроэнергией? Отвечаем и делимся фрагментами интервью Ивана Ямщикова — ученого, предпринимателя и руководителя ИИ-института CAIRO в немецком университете THWS.

Чем ИИ улучшит жизнь человечества?

От внедрения и распространения ИИ можно ждать, в первую очередь, повышения производительности труда. Исторически повышение производительности труда приводило к тому, что люди становились богаче, а когда люди становятся богаче — они начинают лучше жить. Рост производительности труда обычно приводит к росту ВВП на душу населения, что, в свою очередь, улучшает уровень благосостояния, снижает болезни, повышает продолжительность жизни.

Второй важный момент — самореализация. Искусственный интеллект сильно ее демократизирует. С генеративными моделями ты просто берешь и делаешь. Придумал мультфильм — можешь быть его режиссером. То же самое происходит с кино, компьютерными играми и вообще с искусством: цифровой порог входа резко снижается.

Нужно ли нам как-то подстраиваться под новую реальность?

ИИ необходимо внедрять в образование, но важно сделать это правильно, чтобы не вышло хуже. В XXI веке человеку нужна гораздо более высокая агентность, чем была в системе образования XIX века, с которой мы живем до сих пор.

Искусственный интеллект может помочь ребенку с очень многими вещами, но с поиском собственного пути и с самомотивацией — вряд ли. Значит, это станет ключевой задачей взрослых и школьной системы.

Человек в системе образования должен стать наставником. Он должен погружать ребенка в социальное, политическое и личное. А умножать ребенка спокойно может учить робот.

Что ещё изменится в новой реальности?

Отдельный важный вопрос в контексте ИИ — экологический. С одной стороны, благодаря новым технологиям мы, скорее всего, сможем довольно точно моделировать экосистемы и понимать, какие виды критически важны для того, чтобы экосистемы не коллапсировали. С другой, растут потребности в электроэнергии, и решение этой проблемы зависит от того, какой путь выберет общество. Может быть, будут развиваться маленькие модели, которые тратят меньше электроэнергии. Может быть, наконец получится сделать управляемый термоядерный реактор, чтобы электричества было много, оно было дешевым, безопасным и портативным и чтобы такие установки можно было строить десятками в год.

Подробнее об экологическом аспекте в использовании ИИ, технооптимизме и о том, почему для Ивана Ямщикова ChatGPT не был сюрпризом, узнаете из полной версии интервью.

P. S. Про перспективу войны с ИИ, тренд на Средневековье и проект с нейростихами Егора Летова тоже узнаете!

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

«Один человек сможет построить компанию в миллиард долларов»: интервью с технооптимистом Иваном Ямщиковым - Системный Блокъ

Как ИИ изменит общество и образование? Что в школе будущего должен делать учитель, а что — тренажер? Почему в XXI веке важнее всего развивать в детях агентность и свободу воли? Какие блага и какие риски несет внедрение ИИ, и как нам с этим быть? А также почему…

❤20🔥11👍5❤‍🔥4

2.25K viewsedited 15:21

Системный Блокъ

Как превратить коллекцию гравюр Пушкинского музея в онтологию

Как найти «зиму» в коллекции гравюр, если на изображении нет ни снега, ни льда? Традиционные методы вроде поиска по ключевым словам здесь бессильны. В этом случае онтология ICON помогает превратить коллекцию в «умные данные», способные отвечать на сложные искусствоведческие вопросы.

Что такое онтологии — и зачем они нужны?

Онтология в компьютерных науках — это способ моделирования и представления данных, их описание и формализация. Онтологии используются не только в теоретических исследованиях, как в случае с коллекцией Пушкинского музея.

Они также помогают и в таких сферах, как
• обработка данных на естественном языке
• оптимизация производственных процессов
• и даже выявление потенциальных киберугроз

Кстати, больше узнать об онтологиях — и о том, как создавать их самостоятельно, — можно из нашего глоссария.

Какие вопросы можно задать онтологии гравюр Пушкинского музея?

Например, вопрос «На каких изображениях распознается оливковая ветвь?», потому что онтология поможет собрать все произведения с определенным символом. Это очень полезно, потому что исследователь — в отличие от поиска коллекции — не может просмотреть 100 000 гравюр вручную.

Кроме того, онтология может выявить скрытые паттерны. Ей можно задать вопрос: «Связан ли выбор мифологических сюжетов с местом обучения художника?» Онтология сопоставит место учебы сотен мастеров с иконографией их работ и выдаст корреляцию, чтобы вы точно знали, кто и где чаще рисовал Венеру, а кто – Вакха.

Наконец, «как всё-таки найти зиму без снега и льда»? Онтология связывает аллегорию зимы с такими мотивами, как «меховая шапка», «восседать на облаке», «голая ветвь». Дальше, например, фигура в центре распознается как «Эол» (бог ветров) или «Борей» (бог северных ветров). Благодаря таким мотивам можно понять, что на картине изображена зима, даже если мы не видим ни снега, ни льда. Любое другое визуальное воплощение будет описываться так же, как и зима, то есть как композиция из фигуры и ее атрибутов.

О том, как онтология производит распознавание и использует классическую теорию интерпретации Эрвина Панофски, вы узнаете из полной версии материала на сайте.

Время чтения: 6 минут

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Как превратить коллекцию гравюр Пушкинского музея в «умные данные» для цифровой науки - Системный Блокъ Как онтология ICON помогает…

Как найти «зиму» в коллекции гравюр, если на изображении нет ни снега, ни льда? Традиционный поиск по ключевым словам здесь бессилен. В этой статье мы расскажем, как с помощью онтологии ICON и классической теории Эрвина Панофски превратить коллекцию гравюр…

❤22🔥17👏7

2.67K viewsedited 14:59

Системный Блокъ

Английский vs Корейский в K-pop

K-pop покоряет мир, и его тексты тоже меняются, подстраиваясь под международную аудиторию. На основе корпуса из 290 песен корейских исполнителей расскажем о новых стратегиях использования английской лексики в песнях и о возникших гендерных различиях в лексике.

Вот они слева направо

Путь на мировой рынок для K-pop открыло выступление BTS на American Music Awards и победа на Billboard Music Awards в 2017 году. Начиная с этого времени, в песнях K-pop групп стало значительно больше английских слов. Чтобы отследить эту динамику, в ходе исследования тексты группировали по годам. Особое внимание было уделено последнему слову в строке, типично являющимся в корейском сказуемым или определением.

Что выяснилось?

С 2020 года строки стали значительно чаще заканчиваться на английском. В 2022 году английский в этой позиции впервые обогнал корейский. Особенно тренд усилился в 2023: уже больше половины строк завершались на английском.

Boys and girls

Корейские музыкальные коллективы, как правило, делятся на мужские и женские; смешанные составы встречаются редко. Корпус включает 161 песню, исполненную женщиной или женской группой, 129 песен, исполненных мужчиной или мужской группой, и одну песню смешанного коллектива.

Анализ частотности слов показал, что слово «boy» встречается 105 раз и чаще употребляется в текстах женских коллективов, а «girl» — 102 раза, и преобладает в песнях мужских исполнителей. Согласно графику, слово «love» значительно чаще используется мужскими коллективами (268 употреблений против 93 у женских), в то время как корейское слово «사랑», означающее «любовь» чаще встречается в текстах женских групп.

Так, в песнях мужских коллективов заметно более выраженное предпочтение к использованию английских заимствований, в то время как у женских это предпочтение выражено слабее.

Полный анализ тенденции к англизации текстов K-pop, включая другие примеры, найдете в полной версии статьи.

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Как английский вытесняет корейский в K-pop музыке: анализ данных и визуализация - Системный Блокъ

Как международная популярность корейских поп-групп повлияла на тексты их песен? Как часто исполнители используют английские слова? Как отличаются песни о любви у мужских и женских групп? Этими вопросами задались студенты-востоковеды из Высшей школы экономики.…

❤21🔥15👍5👀3🙈1

3.19K views14:59

Системный Блокъ

Как сделать свой DH-проект: от идеи к реализации

Проекты в области Digital Humanities могут отличаться друг от друга по форме, содержанию, посылу и множеству других пунктов, но главное, что эти исследования или веб-инструменты решают задачи из сферы гуманитарных наук с использованием цифровых технологий. Так что мы сделали целую страницу (и уже чуть-чуть вам о ней рассказывали!), чтобы стало яснее, как сделать что-то подобное самостоятельно.

К какому бы результату вы ни стремились — от графика с таймлайном жизни русских писателей XVIII века до цифровой выставки о наследии Сибири, одно из ключевых решений — визуальное оформление проекта.

Мы поговорили о визуальном решении с создателями виртуального музея Sakharov.space:

Что самое важное в визуальном представлении проекта, основанном на данных из гуманитарных наук?

Найти центральную метафору, которая станет стержнем проекта. Для Sakharov.space это была лестница как символ пути и восхождения. Второе — трансформировать огромный массив данных в живую историю. Сотни фото, документов, аудио и видео мы уместили в нарратив с разной глубиной погружения — от семи минут через видео до часа в архивах.

Можно ли сделать дизайн проекта одновременно эффектным и эффективным?

Да! Мы создали 3D-скульптуру Сахарова по архивным фото и оживили ее, как в старом кино. Результат: 1,5 миллиона визитов, среднее время на сайте – 15 минут. Более половины посетителей составила молодежь до 35 лет — ключевой KPI клиента.

Ключевые шаги на других этапах создания DH-проекта мы обсудили с командами цифрового архива «Прожито» @prozhito, корпуса почтовых открыток «Пишу тебе» @pishuteberu и семантического издания Чехова Chekhov.Digital. Переходите к нашему гайду, чтобы прочитать их комментарии.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

Создание DH-проекта: руководство для новичков

Как создать свой собственный цифровой гуманитарный проект, от идеи до реализации. В гайде разбираем каждый шаг процесса, проблемы и способы их решения.

❤25🔥16👍4

2.72K views14:26

Системный Блокъ

За пределами видимости: как женские имена остаются в тени школьной программы

8 марта — не про букеты и шоколад, а в первую очередь про права женщин. Например, право быть услышанной. В школьной программе по литературе женщинам отведено всего 2% — и мы решили проверить, всегда ли так было. Рассказываем, почему вы не помните писательниц из школы (и дело не в вашей памяти)

Как менялась школьная программа?

В зависимости от эпохи в школьную программу входили разные женщины-писательницы. Например, женская часть программы 1932 года сегодня вряд ли будет восприниматься как “классика”: там есть комедии императрицы Екатерины II и стихи малоизвестных ныне поэтесс Павловой и Соловьевой. В программах 30 годов находим и первое, хотя и кратковременное, появление Анны Ахматовой, чье имя вернется в школу только спустя полвека.

Ближе к середине XX века на первый план выходят незнакомые современному читателю имена и непривычные жанры: на первый план выходят фольклорные исполнительницы Марфа Крюкова и Ирина Федосова, в список также попадает Маргарита Алигер с поэмой «Зоя» о Зое Космодемьянской. В дальнейшем наблюдается настоящий «расцвет» женской литературы в программе, хотя и с четкой идеологической направленностью: в 1970–1980 школьники проходят три повести Марии Прилежаевой о Ленине и стихотворение Веры Инбер, посвященное его смерти.

С 1980–1990 годы в списки триумфально возвращается Анна Ахматова и программа значительно меняется. В 1991 году включают больше десятка женщин, хотя в последующие годы стабильно остаются только Ахматова и Цветаева. Затем в 2023 году обязательными авторками становятся еще несколько женщин, среди которых Юнна Мориц, единственная наша современница в школьной программе, со стихотворениями «Большой секрет для маленькой компании» и «Ёжик резиновый».

Что мы узнали?

Женщин в русской литературе заметно меньше, чем мужчин, но школьная программа усиливает этот разрыв в 2–4 раза, создавая впечатление, будто писательниц почти нет, хотя это не соответствует действительности.

В полной статье предполагаем, с чем это может быть связано, а также раскрываем детали исследования.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Классное чтение: женщины-писательницы - Системный Блокъ Кто, кроме Ахматовой: как женщины-авторы представлены в школьной программе…

Кто из женщин-авторов входит в школьную программу по литературе, кроме Анны Ахматовой и Марины Цветаевой? Очевидно, что женщин в литературе мало, но неужели настолько мало? И было ли так всегда? Кого из писательниц и поэтесс проходили школьники предыдущих…

❤55🥰19❤‍🔥9😢5👍3

2.36K views15:48

Системный Блокъ

Как нас обманывают двойные оси

Вы когда-нибудь видели график, на котором слева — ось выручки в миллионах рублей, а справа — количества клиентов? Или, например, температура в градусах и осадки в миллиметрах? Это график с двойными осями Y — он позволяет сравнивать два показателя, но часто приводит нас к неверным выводам.

В новом материале рассказываем о проблемах, которые возникают при использовании двойных осей и о том, как их избежать.

Так, графики с двойными осями могут использоваться, чтобы создать у читателя иллюзию корреляции — взаимосвязи между показателями. Например, график может иллюстрировать корреляцию между популярностью имени Stevie и стоимостью акций Amazon. Человеческое сознание автоматически сравнивает формы линий. Мы видим на графике «одинаковый рост», отмечаем синхронность линий, и нам кажется, что они связаны.

Однако на самом деле это просто иллюзия. Независимый масштаб двух осей делает сравнение кривых некорректным, нарушаются принципы графического восприятия. Так люди считывают зависимость показателей, которой на самом деле нет.

Чтобы узнать об альтернативных способах представления информации, читайте полную версию статьи.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥19😈7🙈3

2.19K viewsedited 16:58

Системный Блокъ

Конфликт Пентагона и Anthropic, протест против OpenAI, увольнение главы разработки Qwen

Рассказываем, что произошло в мире ИИ за последнее время.

Пентагон против Anthropic

Ранее мы писали о конфликте Министерства обороны США с компанией Anthropic. Камнем преткновения стали два вопроса: применение ИИ для массовой слежки за гражданами США и автономное управление оружием.

26 февраля Anthropic заявила о готовности к сотрудничеству с государством в оборонной сфере, однако обозначила жесткие ограничения: массовая слежка за американскими гражданами неприемлема (при этом слежка за иностранными гражданами допустима), а текущие ИИ-системы еще недостаточно надежны для автономного управления оружием. Пентагон предложил формальный компромисс без изменений по сути, однако Anthropic на него не согласилась.

На следующий день президент Трамп поручил федеральным ведомствам прекратить использование продуктов Anthropic. Вслед за этим глава Пентагона Хегсет инициировал процедуру признания Anthropic «ненадежным поставщиком», фактически отрезав компанию от сотрудничества с любой организацией, связанной с Министерством обороны.

В тот же день о партнерстве с Пентагоном объявила OpenAI. По словам ее гендиректора Сэма Альтмана, договор включал ровно те ограничения, которых добивалась Anthropic. Однако сторонние юристы указали, что соглашение допускает использование ИИ фактически в «любых законных целях», а что считать законным — во многом определяет сам Пентагон.

Расхождение между публичными заявлениями Альтмана и реальным содержанием договора вызвало волну отмены подписок на ChatGPT и переход пользователей на Claude, который на некоторое время поднялся до второго места в американском App Store.

4 марта в сеть утекло внутреннее сообщение гендиректора Anthropic Дарио Амодеи сотрудникам компании. В нем он назвал публичные заявления OpenAI «откровенной ложью», но на следующий день Амодеи принес публичные извинения, заявив, что компания не причастна к утечке, а само письмо было написано после срыва переговоров с Пентагоном — в состоянии аффекта. По его словам, текст не отражает его взвешенной позиции по текущему положению дел.

Почему это важно?

Исход конфликта — первый публичный ответ на вопрос, который раньше обсуждался лишь в академических кругах: что происходит, когда принципы ответственной разработки ИИ сталкиваются с государственной властью? Отныне любое разногласие с Пентагоном грозит не просто потерей контракта, а попыткой уничтожить компанию.

Глава команды Qwen покинул Alibaba

Линь Цзюньян, технический руководитель команды Qwen с 2023 года, разрабатывающей одну из самых популярных открытых LLM, объявил об уходе. Вместе с ним ушли руководитель направления дообучения Юй Бовэнь и еще несколько участников команды.

Qwen — семейство языковых и мультимодальных моделей холдинга Alibaba (владелец AliExpress, Taobao и других крупных маркетплейсов), одно из самых популярных в мире с открытыми весами. Модели Qwen используются как в американских, так и в российских компаниях, например, в Яндексе и Т-Банке.

Официальные причины ухода главы компании не названы, однако несколько источников указывают на реструктуризацию: из автономного стартапа Qwen превратился в подразделение под прямым управлением Tongyi Lab.

Реакция сообщества оказалась бурной, коллеги называли уход «концом эпохи». Акции Alibaba в Гонконге упали на 5,3%.

Почему это важно?

Успех Qwen во многом строился на модели «стартапа внутри корпорации»: автономная команда, короткие циклы разработки, быстрый выход в открытый доступ. Корпоративная реорганизация нередко подавляет именно ту культуру, которая и обеспечивала успех проекта.

Если реструктуризация приведет к тому, что модели Qwen перестанут выходить в открытый доступ, это существенно замедлит развитие open-source моделей в целом.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15👍7🔥5👻3🎃3

1.84K views16:21

Системный Блокъ

От формулы к черному ящику: мы перестали понимать мир?

Используя в вычислениях ту или иную формулу, мы часто не понимаем ее смысла. Да и зачем, если все формулы уже выведены и готовы к использованию? С развитием нейросетей мы шагнули еще дальше от понимания вычислительного процесса, променяв осмысление на эффективность и скорость. Нейросети выдают пользователю результат, основываясь на закономерностях, которые часто не может сформулировать вообще никто, включая и тех, кто нейросети обучал. «Это прогресс или капитуляция перед сложностью мира?» — об этом рассуждает в своем блоге Дмитрий Пронин.

«Как?» и «почему?»

На протяжении истории человечеству часто приходилось отказываться от привычного понимания мира и двигаться в сторону всё более сложных абстракций. Так, в античности придумали иррациональные числа для описания длины квадрата и идею нуля как мысленного эквивалента «ничего», а для торговли понадобились отрицательные числа. Эти абстракции были сложны для восприятия, но они предлагали объяснение тому, что раньше было непонятным.

«Как?» без «почему?»

В дальнейшем получили развитие численные методы. Когда точной формулы нет, можно найти приблизительный ответ через серию вычислений и перебор вариантов. Численные методы уже не позволяли сформулировать универсальный закон через компактное уравнение, но зато позволяли подобрать примерные закономерности для очень сложных систем. Появление компьютеров сделало их применение намного эффективнее: машины быстро выполняют вычисления, которые хорошо поддаются алгоритмизации.

Правильные ответы без «как?» и «почему?»

Следующим шагом стали статистические методы и выросшее из них машинное обучение. Они позволили нам предсказывать закономерности, которые проявляются на больших массивах наблюдений. Эти методы эффективно работают с такими материалами, как изображения и естественный язык. Но понимания стало еще меньше: теперь мы не понимаем не только почему система ведет себя так или иначе, как это было при использовании численных решений без аналитической формулы, но и на какой закономерности строится решение.

🙈 Мы совсем перестали понимать мир?

Численные и вероятностные подходы — это не замена теории и не отказ от научной строгости. Скорее, они закрывают практические потребности там, где создать стройную теорию (пока) не получилось, но есть много данных для выведения закономерностей. Например, анализ текстов или картинок. Подробнее о том, как наука работает с такими задачами, читайте в блоге Дмитрия Пронина.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

От формулы к черному ящику: как компьютеры и ИИ «хакнули» правила реальности, которые не понимает наука - Системный Блокъ

Когда-то физика была честной игрой: если ты знаешь массу и высоту, ты знаешь будущее падающего камня. Формула описывала все множество ситуаций. Формула давала универсальное понимание. Но чем глубже мы заходим в дебри сложных систем — от турбулентности воздуха…

❤31👾10🦄4👏3👍2

1.86K viewsedited 15:00

Системный Блокъ

Цифровой алкотестер: как нейросеть вычисляет опьянение по голосу

Пара фраз — и машина поймет: за руль нельзя. Ученые уже учат нейросети отличать пьяную речь по нескольким фразам. Звучит как фантастика? Уже нет. Разбираемся, как это работает и при чем тут немецкие скороговорки.

🍾 Как речь выдает опьянение

Машины, которые определяют опьянение и блокируют запуск, — это уже не фантастика, а сегодняшний день. С 2019 года в Евросоюзе все новые автомобили выпускаются с расчетом на установку «алкозамка».

Что, если машина сможет определять опьянение без всякой трубки, просто слушая голос? Алкоголь неизбежно меняет речь, ведь говорение — это сложнейшая работа сотни мышц, синхронизированных мозгом. Голос меняется — это заметно даже на слух, а уж алгоритмы диагностики давно это умеют. Осталось перенести эту технологию в автомобиль.

🍾 Корпус пьяной речи

Еще в 2011 году на научном конкурсе Interspeech 2011: Speaker State Challenge исследователи задумались об алгоритме, который был бы способен претворить эту идею в жизнь, и создали датасет Alcohol Language Corpus (ALC). Ученые зафиксировали, что у выпивших (особенно женщин) часто повышалась тональность голоса. Но обобщить другие акустические особенности тогда не удалось.

Позже итальянские ученые продолжили исследования, применив нейросети. Они использовали тот же датасет ALC, сосредоточившись на скороговорках, которые оказались особенно чувствительны к алкоголю. Затем они перешли к созданию модели, способной игнорировать уникальность каждого голоса.

🍾 Как устроен нейросетевой алкотестер

DANN — это архитектура нейросети, которая учится выделять инвариантные признаки, то есть такие, которые не зависят от особенностей данных. Например, такая модель будет игнорировать разные стили речи и индивидуальные черты говорящих — вместо этого она сосредоточится именно на том, чтобы выявить факт употребления алкоголя.

• Один блок извлекает из входных аудиозаписей общие признаки опьянения (тон, ритм).
• Второй блок классифицирует речь как трезвую или нетрезвую.
• Третий блок (контролер) пытается угадать личность говорящего. Если это удается, первый блок «штрафуется», чтобы алгоритм отфильтровывал индивидуальные особенности и фокусировался только на изменениях от алкоголя.

Модель обучили на 75% данных ALC и протестировали на оставшихся записях. Она показала точность почти 71% на новых голосах, став важным шагом к созданию универсального голосового алкотестера.

О том, как формировался корпус пьяной речи и других деталях исследований, читайте в полной статье.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Нейросеть-алкотестер: как ваша речь может выдать вас с головой - Системный Блокъ Голосовой алкотестер: как нейросети используют…

Алкотестер в каждой машине — звучит слишком хорошо, чтобы быть правдой? А если алкотестер — это ваш собственный голос? Достаточно сказать пару фраз, чтобы машина определила, что садиться за руль сейчас нельзя, и тем самым спасла жизнь вам или кому-то еще…

🍾23🔥12🙈6❤5👏2

1.83K views16:49

Системный Блокъ

Пьющих просьба не беспокоить: особый язык объявлений о сдаче квартир

На сайтах с недвижимостью на страницах объявлений обычно есть раздел, где владельцы в свободной форме описывают жилье и указывают требования к арендаторам: от конкретных («без животных») до абстрактных («только адекватным»). Мы обработали 15 тыс. объявлений с помощью LLM, чтобы выяснить, какие условия встречаются чаще всего, а какие способны удивить.

Что анализировали?

Мы нашли открытый датасет Avito Demand Prediction Challenge с Kaggle и отобрали 14 557 объявлений по фильтрам: «Квартиры, Сдам, На длительный срок». Главное — там была колонка description с нужным текстом.

Что получили?

Мы задали модели промпт с инструкцией извлечь данные по пунктам: национальность, качества характера, состав жильцов, можно ли с детьми или с животными. Проверив результаты вручную, мы убедились, что модель хорошо показала себя по первым двум пунктам, по остальным — средние результаты.

Ожидаемо, про национальность/гражданство/происхождение жильцов чаще всего писали, что ищут русских (450 упоминаний), славян (241), граждан РФ (51) или российских (14) граждан, местных (5), с пропиской (13), русскоязычных (2) или даже православных (2). Типичны запреты для «кавказцев и азиатов». Изредка встречаются объявления «для любых» (7) или «нерусских» (5).

Модель выделила массу распространенных требований:
• Объективные: чистоплотность (120), отсутствие вредных привычек (88), аккуратность (74), не курить (22).
• Абстрактные: порядочность (754), добросовестность (16) и многие другие.
• Были и совсем смешные формулировки. Например, модель выделила дословно фразу «пьющих просьба не беспокоить…», будто жильцы не должны беспокоить каких-то других пьющих.

По другим основным параметрам можно заметить, что мужчинам-одиночкам, людям с маленькими детьми и животными сложнее снять квартиру, чем семейным парам и женщинам без детей и животных.

О том, влияет ли на ваши шансы штамп в паспорте и можно ли с животными, если их «немного», читайте в полной статье.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Пьющих просьба не беспокоить: анализируем язык объявлений о сдаче квартир с помощью LLM - Системный Блокъ Как LLM анализирует объявления…

Что нужно человеку, чтобы снять квартиру в России? Каждый, кто читал объявления на популярных сайтах, знает, что нужно не только заплатить за аренду, но и соответствовать требованиям арендодателя. Чтобы узнать, какие требования оказались самыми распространенными…

🔥21😁15👍6👀6🤯2

1.46K viewsedited 16:10