От детской поэзии до списков НКВД
Впрочем, просто понаблюдать не удалось. «Приезжайте участвовать», — ответили организаторы. Оправдания, что я журналист, а по образованию и вовсе психолог, не помогли.
Выбираю одно из направлений и сразу получаю указания — установить среду программирования на Python и еще парочку программ для обработки и визуализации данных с незнакомыми мне названиями.
Школа по digital humanities проводится здесь уже третий год подряд. Формат устоявшийся: лекции о том, как трансформируется гуманитарное знание в цифровом мире, и практика.
Больше всего здесь лингвистов и филологов: одна группа собирается составить атлас поэтической моды, вторая будет разбираться с особенностями детской поэзии, третья ставит задачу создать социальные графы для персонажей русской литературы, еще одна углубляется в стилометрию — исследование стилистики текстов и, наконец, у пятой еще более экзотическая задача — посмотреть, какие части тела чаще всего упоминаются авторами детской литературы 1940—1980 годов.
Еще одна мастерская планирует работать с текстами СМИ и посмотреть, как одно и то же слово по-разному звучит в разных источниках. Тьюториал под руководством Клуба любителей интернета и общества собирается изучать сайты начала 2000-х, копии которых сохранились в цифровых архивах. Ну а я выбираю единственный тьюториал по истории: мы будем работать с базой данных сотрудников НКВД.
Make history science again
«У лингвистов в самом деле не было особенных проблем с началом использования в своих исследованиях цифровых технологий. С корпусами — а это, по сути, базы данных — сегодня работает большинство лингвистов. Работали и не знали, собственно, что это digital humanities», — рассказывает Анастасия Бонч-Осмоловская, доцент ВШЭ, руководитель Центр цифровых гуманитарных исследований НИУ ВШЭ.
Сегодня, по словам Анастасии, скорее методы, наработанные в корпусной и компьютерной лингвистике, уходят в другие науки, используются для анализа исторических, культурных и иных текстов.
«У каждой гуманитарной науки своя история, все по-разному в эту область входят. Та же история, она тоже с 40—50-х годов начала использовать компьютерные методы, просто они не настолько естественно легли, как в лингвистике», — продолжает мысль Динара Гагарина, доцент ВШЭ и сотрудник Центра цифровой гуманитаристики Пермского государственного национального исследовательского университета (ПГНИУ).
Однако в истории, считает Гагарина, важна не только компьютеризация методов исследования. Самый острый момент — верификация исследований. «Почти во всех презентациях для студентов я вставляю фразу Make history science again. Потому что даже от самих студентов-историков часто можно услышать, что история не наука, а интерпретация, чуть ли не вид искусства. Ничего подобного. Если мы даем ученые степени по истории, если мы публикуем научные исследования по истории, то мы должны применять научные методы. Только так мы можем уйти от субъективного. Пошел один историк в архив — нашел там какие-то свои источники, в голове своей обработал, выдал знания. Пошел другой — с теми же самыми источниками поработал, обработал их в голове, выдал знания. Эти знания различаются. Кто прав? Окажется прав тот, у кого борода длиннее. То есть тот, у кого степени и звания более серьезные. Но так же не бывает в науке, это же не научный подход».
На мастерской мы начинаем с азов программирования на Python и рассказа тьютора Анастасии Заплатиной о той области, с которой нам предстоит работать. Анастасия — историк по образованию, аспирант Школы исторических наук НИУ ВШЭ, сотрудник Международного центра истории и социологии Второй мировой войны. «Работа с базами данных нужна как минимум для того, чтобы получить точные цифры репрессированных. У историков до сих пор нет единого мнения по этому вопросу. Но не менее важно понять и то, кем были сотрудники НКВД, непосредственно задействованные в осуществлении репрессий», — поясняет Анастасия.
Мы работаем с базой данных, собранной обществом «Мемориал». Волонтеры собирали базу вручную — по газетным публикациям о награждениях, по отдельным документам в архивах. Сегодня на сайте есть «дела» на 41 705 человек. Чтобы с ними можно было работать, нужно создать структурированную базу данных. Тут нам и пригождается Python — к концу первого дня у нас уже готов код, собирающий для нас таблицу, в которой по столбцам распределены все имеющиеся данные: ФИО, должность, год рождения и смерти и так далее.
По словам Заплатиной, которая работает с этой темой уже довольно давно, вопросов, на которые можно ответить с помощью методов digital humanities, здесь очень много. Ученые надеются, например, посмотреть, как влияли личные связи между сотрудниками на их карьеру в ведомстве и на вероятность быть репрессированными друг за другом. Или есть ли связь между перемещением сотрудника на работу в другой регион и ужесточением репрессий там. Иначе говоря, были они лишь винтиками в машине или что-то зависело и от их личных поступков и решений.
Конечно, для ответов на эти вопросы четырех дней работы на тьюториале не хватит. Так что мы ставим задачу — попробовать составить хотя бы приблизительный социально-демографический портрет сотрудника НКВД: возраст, пол, национальность и тому подобное. Отчасти мы хотим с этой точки зрения взглянуть на тему банальности зла, которую обнаружила Ханна Арендт на суде над «архитектором Холокоста» Адольфом Эйхманом. Кто эти люди, отдававшие приказы и лично убивавшие своих сограждан без суда и следствия? Какой-то особый сорт людей или обычные граждане, на которых волею судеб оказалась надета форма НКВД, а не тюремная роба?
Три дня мы с утра до вечера видим только цифры, код, графики и сети, а из головы не выходят все эти вопросы и истории тех лет. Конечно, мы не найдем ответов, только структурировав данные, но, может, приблизимся к ним хотя бы на шаг?
«Я сделал крутую базу данных»
К концу четвертого дня я уже практически уверена, что digital humanities — будущее всех гуманитарных наук. Перед презентацией результатов работы мастерских мы снова беседуем с Гагариной и Бонч-Осмоловской, и они немного охлаждают мой пыл.
«Ни в коем случае не должно быть технологий ради технологий. Какое-то время назад это была частая ситуация на конференциях, когда выходит докладчик и говорит: “Я сделал вот такую крутую базу данных!” Можно нарисовать очень красивые сети, карты, и потом ты смотришь: такая красивая картинка, тут чего-то зеленое, тут желтенькое, тут синенькое. Ну и что? Что нового она нам говорит? Люди, которые приходят в нашу область со стороны computer science, часто радуются просто новым полученным данным. У них нет задачи получить новое гуманитарное знание про исторические процессы, про культурную эволюцию, про литературу…» — сетует Анастасия.
«И в то же время этот подход действительно может дать новое знание. Нобелевскую премию 1993 года получил Роберт Фогель за исследования по экономической истории, что само по себе удивительно. В частности, он взял и опроверг один долго существовавший миф о ключевой роли железных дорог в развитии экономики США. Считалось, что именно вслед за их появлением пошел рост в торговле, в тяжелой промышленности и так далее. Он показал, что это не так, что роль железных дорог очень преувеличена. Фогель построил так называемые контрфактические модели: что было бы, если бы не было железных дорог. Так вот, развивались бы другие способы, например система водных каналов. Экономика росла бы такими же темпами. Вот это пример нового знания, полученного благодаря цифровым методам в истории», — говорит Динара.
Но даже при грамотном подходе к использованию цифровых методов гуманитарная начинка в их дисциплинах никуда не исчезнет, убеждены эксперты. Любое серьезное исследование в парадигме digital humanities все равно начинается с составления базы данных. «Когда мы работаем с историческими данными, мы должны очень хорошо понимать про источники информации: как источник устроен, кто его написал, откуда он взялся. И на этом этапе работают люди, которые могут быть очень далеки от digital humanities. Если мы работаем с древнерусскими источниками, то в связке с нами работает специалист по древнерусским источникам, если это будут источники начала XX века, это будет специалист по этому периоду», — поясняет Динара.
Тем временем начинается представление полученных результатов. Во всех презентациях в самом деле красивые графики, в которых «тут синее, тут зеленое, тут красивые стрелочки». Но что все это значит? Стараюсь задать этот вопрос каждой группе выступающих, если они не отвечают на него сами. Выясняется, что кое-какие выводы удалось получить даже за эти четыре дня. Конечно, их нужно будет еще многократно проверять, постоянно оговариваются ученые. Вот некоторые из них — судите сами.
- Анализ стихов, написанных детьми, показал, что их темы часто совпадают с традиционными темами школьных сочинений. И даже наиболее встречаемые слова в стихах детей и в стихах профессиональных поэтов очень похожи. Получается, что дети не только подражают той «правильной» поэзии, которой их учат в школе, но и в режиме, казалось бы, «свободного творчества» продолжают двигаться по «рельсам», проложенным учебным планом.
- Стихи Осипа Мандельштама и рэпера Оксимирона — не похожи! Компьютерная обработка показала, что ни по часто встречаемым словам, ни по другим характеристикам эти авторы не близки. Идея проверить эту гипотезу методами стилометрии пришла исследователям по следам истории 2016 года, когда хабаровская школьница успешно выдала на уроке литературы текст рэпера за стихотворение Мандельштама; после этого в сети появилось даже несколько тестов на умение отличать строки современных рэперов от стихов поэтов начала прошлого века.
- Исследователи новостных текстов выяснили, что конструкт «материнство» появляется в разных контекстах в зависимости от конкретного СМИ. К примеру, в РБК это слово чаще всего появляется в статьях, посвященных незапланированной беременности и подростковым проблемам, а в «Известиях» — в контексте проблем бесплодия, сиротства, репродуктивного здоровья и т.п. Интереснее оказалась история конструкта «отцовство»: до 2017 года он практически отсутствует в русскоязычных новостных текстах, а позже появляется, но по большей части в контексте обсуждения однополых семей. Среди любопытных выводов вокруг конструкта «рожать» — появление рядом с ним, в смысловой близости, в 2017 году конструкта «фотографироваться».

Участники нашего тьюториала, работающие со списками НКВД, представили несколько диаграмм по результатам обработки базы данных. Пожалуй, самая впечатляющая из них показывает, что почти треть сотрудников были со временем сами репрессированы и расстреляны.
Не слишком много результатов за четыре дня работы, но никто и не ждал больших открытий. Для большинства участников главная задача — попробовать новые для себя методы, обменяться опытом, сформулировать гипотезы и идеи для будущих исследований.
Немного маргиналы
«Люди, которые занимаются digital humanities, как-то немножко ощущают себя странными маргиналами, — говорит мне Бонч-Осмоловская в ответ на вопрос о том, кто вообще такие «цифровые гуманитарии». — Мы давно на какой-то конференции сформулировали, что всё это люди не очень простой судьбы, их куда-то мотало, шатало, они немножко вот этого поделали, немножко другого, а потом вдруг сюда пришли...»
Среди участников школы нашлись философы, биологи, культурологи, математики, историки, библеисты — цифровые гуманитарии, по мнению Бонч-Осмоловской, собираются вместе по достаточно странному принципу, и в итоге на конференции лингвисты слушают, например, историков, а близки им только методы. При том внутри собственной науки их тоже часто не принимают за своих.
«Филолог Тед Андервуд однажды сказал, что проблема с digital humanities состоит не в слове digital, а в слове humanities, — продолжает Анастасия. — Гуманитарные науки переживают кризис. В биологическом вузе сегодня невозможно прочитать тот же курс, что 50 лет назад, а на многих гуманитарных факультетах — без проблем. Но и новое воспринимается в штыки. Этот застой ощущается всеми участниками процесса. Может ли digital humanities предложить новую парадигму для выхода из кризиса или мы тут только базы данных собираем без претензий на великие идеи?..»
«Может-может», — улыбается коллеге Динара.
Евгения Береснева