Читать 2.0: компьютеры учатся добывать из текста смысл

Елена Вешняковская

Теперь, когда мы устроили в своих сетях без пяти минут информационный хаос, давайте попробуем переработать его во что-нибудь полезное, — предлагают компьютерные лингвисты. В экспоненциально растущей свалке слов, которую представляет собой интернет, закопаны информационные сокровища. Они достаются тому, кто умеет искать.

Почему нужны новые подходы к анализу больших данных. © ABBYY.
Заместитель директора по разработке технологий компании ABBYY Татьяна Даниэлян выступает на конференции по компьютерной лингвистике «Диалог» (2014 год).
Анатолий Старостин, преподаватель компьютерной лингвистики в МФТИ: об интеллектуальном продукте — на пальцах. Конференция по компьютерной лингвистике «Диалог», 2014 год.
Сергей Шаров, ассоциированный профессор в университете Лидса (Великобритания): «Есть вопрос к докладчику».
Популярное сетевое развлечение «облако слов» позволяет наглядно увидеть самые частотные слова в конкретном тексте. Первое «облако» сформировано на основе этой статьи (отобраны 45 полнозначных слов длиной от 5 букв).
Наука и жизнь // Иллюстрации

Для человека, залезающего в интернет, чтобы купить билет на поезд или посмотреть, за кем замужем актриса N, сеть — предмет повседневного удобства. Но для идеологических и силовых структур, для политиков и крупных корпораций информационный поток одновременно и поле боя, и орудие конкурентной борьбы. Поток всё время растёт пропорционально количеству вовлечённых в производство информации людей, поэтому компьютерные лингвисты говорят о перспективе информационного хаоса примерно с теми же интонациями, с какими экологи — о глобальном потеплении.

Однако, в отличие от глобального потепления, проблема информационного хаоса сама содержит в себе своё решение: если оцифрованного текста стало слишком много, почему бы не делегировать наведение порядка компьютерам? Ведь оцифрованный — значит, доступный для автоматической обработки.

Поисковики решают проблему только отчасти. Любой пользователь знает, сколько времени занимает поиск по ключевому слову. Хорошо, если мы ищем что-то, что нам хотят продать: в этом случае задачу «найтись» берёт на себя продавец. А если нам нужно что-то не имеющее коммерческого смысла? А если не «что-то» — а всё по некоторой теме, потому что предстоит принимать решение с очень высокой ценой?

Дело за малым: надо научить программу не просто реагировать на ключевое слово, как это делают поисковики, а извлекать из сказанного смысл.

«Извлекаем сущности оптом и в розницу»

Кто хоть раз сдавал какой-нибудь международный экзамен по иностранному языку, знает, что информация устроена сложно и нелинейно, а прочитать текст (в человеческом смысле слова) далеко не то же самое, что извлечь из него смысл. Тексты, предлагаемые на таких экзаменах, часто заведомо слишком объёмны, чтобы успеть и дочитать их до конца, и ответить на вопросы. Западная школа, осознавая, с каким колоссальным информационным потоком приходится иметь дело профессионалу, довольно рано начинает учить школьника трём типам чтения: не только обычному — подробному, ничего не упускающему, но и сканирующему (scanning) и суммирующему (skimming) — тем, что в русской традиции называется «читать по диагонали». Задача сканирующего чтения — найти в тексте именно те «места», которые актуальны для текущей задачи; суммирующего — быстро, в один взгляд, понять суть сказанного в статье, главе или разделе в целом.

От машинной обработки сырого информационного потока специалисты хотят добиться примерно такого же — функционального результата. Но если учиться «суммировать» — извлекать и обобщать суть сказанного — понятная постановка задачи (это и не каждый человек умеет), то простой поиск нужного, например документа в корпоративной сети, кажется не таким уж актуальным. Неужели при наличии сегодняшних поисковиков трудно найти нужную бумажку на сервере?

Это огромная проблема, — убеждена Татьяна Даниэлян, заместитель директора по разработке технологий компании ABBYY, известной своими интеллектуальными системами распознавания и обработки текста и беспрецедентной для коммерческой компании вовлечённостью в теоретическую лингвистику на всех российских площадках, где ею занимаются всерьёз. — Быстрый поиск — одна из актуальнейших задач. По всем исследованиям и в США и в мире сотрудники компаний тратят на поиски нужных документов более 50% времени. Человек помнит, что отсылал какой-то документ, или предполагает, что должен был его получить, или, зная свою компанию, понимает, что такой документ обязательно уже существует, — но как сформулировать поисковый запрос? Этого никто толком не знает, поэтому люди тратят много времени, чтобы придумать, как составить запрос, чтобы удалось найти именно этот документ (полнота поиска) и не получить при этом слишком много ненужных документов (точность). В худшем случае сотрудник отчаивается и начинает создавать искомый документ сам: дублирует уже кем-то сделанное.

Казалось бы — мелочь, но если суммировать этот фактически выброшенный в корзину человеческий ресурс, масштаб потерь получится индустриальным.

Чтобы искать быстрее и точнее, необходимо внести в поиск элемент «ума».

— Стандартная задача, которую сейчас пытаются все решать, даже за пределами компьютерной лингвистики, называется Named Entity Recognition, распознавание, или извлечение именованных сущностей, — объясняет Татьяна Даниэлян. — Примеры именованных сущностей — это персоны, организации, географические места, деньги, даты, время и так далее. Эта задача более или менее решена. Однако, конечно, никому не интересно извлекать сущности просто так. Чаще всего нам нужно знать: а что с этой сущностью происходит, например: «Кто, где, когда, с кем что делал и что планирует делать дальше?». Все хотят извлекать из огромного потока текстов события и связи, которые соотнесены с сущностями.

Одного «извлечения сущностей» достаточно, чтобы почувствовать себя на симпозиуме лапутянских мудрецов, а считалка из детской игры «в чепуху» (кто, с кем, где, когда...) это ощущение усиливает. Значительная доля обаяния компьютерной лингвистики в том, что она рождена на стыке, с одной стороны, предельной прагматики, а с другой — гуманитарной науки, то есть наименее строгой области человеческого знания. «Извлекаемые сущности» не единственный пример того, как умозрительная, интроспективная, практически невалидируемая сетка «философских категорий» превращается в руках компьютерной лингвистики в работающий инструмент. Если для этого надо кое-что подправить и упростить, так тому и быть, главное, чтобы работало.

Факты, события, связи — это любая информация, которая характеризует сущности и имеет протяжённость во времени и пространстве, — объясняет Татьяна. — Например, наличие или отсутствие, рождение или смерть. Более сложные факты (события) — встреча между двумя лицами, или когда один купил, а другой продал, или противоправное действие и судебное решение; а также кто кому кем приходится (связи). Всё это не так просто извлечь, потому что одна и та же ситуация может описываться разными текстами: например, «Вася украл у Пети кошелёк», «Василий вытащил у Петра Иваныча бумажник» и «Деньги пропали из кармана П. Иванова». Задача в том, чтобы программа увидела в этом случае одно событие, а не три разных.

Инженерия и наука приучили нас к тому, что машины во многих отношениях «умнее» нас: безошибочнее считают, лучше моделируют, информативнее «показывают» (если это, например, компьютерный томограф или хорошая цифровая фотокамера), быстрее обмениваются информацией, лучше извлекают закономерности... В компьютерной лингвистике дело обстоит пока наоборот: тому, что мы понимаем сразу, без обдумывания, машину приходится обучать — изощрёнными способами и с далёким от 100% результатом.

«Я вызвал доктора на дом, и он пришёл» — для человека очевидно, что пришёл не дом, а доктор, а как должна об этом узнать машина? «Маша заказала мороженое, Марина — кофе». Что произошло между Мариной и кофе? Лингвисты любовно коллекционируют примеры лингвистической неоднозначности и демонстрируют их друг другу на профессиональных конференциях: Эти типы стали есть в литейном цехе — какие-то типы достали в цехе бутерброды, или речь идёт о промышленном ресурсе? Он видел их семью своими глазами — семиглазый наблюдатель? Интересно писать просто — где граница между тем, о чём говорится, и тем, что говорится: писать просто — это интересная задача или писать интересно под силу любому? С неоднозначностью вроде «типы стали есть…» или «видел семью…» современные машинные переводчики, «обременённые» кое-какими знаниями о мире, уже неплохо справляются. Но о многочисленные «это» и «свои» машина, как правило, мучительно спотыкается: с чем из упомянутого ранее их соотнести?

К компьютеру слово «понимание» применимо условно. Машинное «чтение» — это способность с некоторой степенью точности «понять смысл»: идёт в тексте речь об одном и том же или о разных вещах? Если о разных, то о похожих или нет? Если похожих, то до какой степени? Что говорится в текстах о конкретном лице или марке — вызывает ли она у людей эмоции (а в идеале ещё и какие)? Хорошо или плохо относятся к ней создатели текстов и в каких долях? Как меняется динамика этого спектра отношений от недели к неделе, от места к месту, от одной возрастной группы к другой? Держать армию людей, мониторящих, что в интернете говорят об X в реальном времени, очень затратно, к тому же весь интернет не промониторишь. Репрезентативное социологическое исследование — дело не быстрое и имеет свои погрешности. А знать хочется; как шутят некоторые разработчики, ещё и с адресами недовольных (для рассылки рекламных предложений, разумеется, потому что Х — это коммерческий бренд — а вы что подумали?). Это любопытство можно удовлетворять быстрее и надёжнее, если формализовать смысл так, чтобы он стал «видимым» для машины: разложить его на регулярные компоненты и обучить систему их распознавать.

Граф, который построил Джек

У нас в ABBYY есть три единицы смысла, связанного с конкретным значением, — объясняет Татьяна Даниэлян. — Первая — общее понятие, к которому мы подключаем конкретное значение. Мы создали универсальную семантическую иерархию — своего рода ветвящееся «дерево», на котором происходит наследование значений от смысловых «родителей» к «потомкам»: от общих категорий к более детальным. «Листочком» этого дерева может быть, например, «стол», а «веткой», узлом, от которого значение «стол» наследует смысловые признаки, — «мебель», она в свою очередь будет входить в более общую категорию «предмет», «объект» и так далее. Мы называем свою иерархию универсальной, потому что «дерево» сделано общим для всех языков, а его «ветки» и конечные «листочки» могут наполняться словами любого конкретного языка. Вторая единица — у нас она называется семантема — это дополнительная характеристика, например, съедобное — несъедобное, искусственное — природное и им подобные. Это характеристика, которая для данного значения дополняет информацию чем-то важным для понимания смысла.

— Зачем нужна отдельная категория «съедобное»? Разве это не часть самого значения?

Иногда одно и то же значение может быть и «съедобным» и «несъедобным». Например, слово «печёный» может относиться и к торту — и тогда оно «съедобное», и к технологии производства кирпича. И наконец, третье — основное — это семантическая связь между значениями, она же — глубинная позиция. Субъект — предикат — объект; локативы («где?»), темпоралы («когда?») и так далее. Кошка съела колбасу и Колбаса съедена кошкой — синтаксически разные структуры, а семантически — одна, и система должна это понимать. А есть ещё отдельный уровень формализации смысла — онтология. Когда онтоинженеры пишут правила извлечения информации, они как раз объясняют, как то, что мы видим в реальном мире, связано с семантикой. Фактически они создают модель мира для некоторой конкретной области, используя в качестве основы те пять сущностей, о которых мы говорили выше, и добавляя новые.

В общем смысле онтология — инструмент философии, реестр основных отвлечённых категорий (структура и свойства, материальное и идеальное и им подобные), предназначенный для описания всего сущего. В компьютерной лингвистике и других прикладных областях онтология становится проще и ближе к людям: моделирует не всё сущее, а только тот его кусочек, который связан с конкретной задачей или конкретной предметной областью.

Чтобы что-то запрограммировать, — объясняет Анатолий Старостин, руководитель группы семантического анализа в ABBYY и преподаватель компьютерной лингвистики в МФТИ, — это «что-то» нужно формализовать. Лингвист-теоретик может предложить формализацию даже с огрехами — с недоразрешёнными вопросами, и на выходе всё равно будет статья. В компьютерной лингвистике иначе: если в формализации есть огрех, то программа просто не будет работать. Поэтому модели в ней могут использоваться очень простые, но всегда работающие. Вообще, теоретическая лингвистика смотрит на методы формализации смысла по-разному. Не все строят универсальную семантическую иерархию; можно ли организовать в иерархию вообще всё — это большой теоретический вопрос. Мы это сделали, и оно работает. Лично мне интересно, возможен ли гибрид такой иерархии, как наша, и онтологии, которая идёт от задачи? Ведь, вообще-то говоря, они где-то должны сойтись. Мне кажется, у человека в голове это организовано ещё красивее: у него там с самого начала — большая онтология, сложно и не очень понятно устроенная, да ещё и динамичная: мы всё время что-то узнаём, что-то забываем, и под эти концепты в нашем сознании постоянно «подшиваются» слова...

— А что будет, когда множество предметных онтологий, созданных для решения прикладных задач, сольются в этакий семантический Солярис, способный описывать абсолютно всё?

Получится практически живой робот, — улыбается Старостин, — который будет концептуализировать всю окружающую реальность. Но мы этим не занимаемся.

Прежде всего, это не имело бы смысла, — объясняет Татьяна Даниэлян. — Чтобы решить задачу, её сужают. «Всемогуторы» никому не нужны.

Нужны ли машине лингвисты?

Такой сдержанной компьютерная лингвистика была не всегда. Её юные годы отмечены как приступами эйфории, так и острыми разочарованиями.

Тяга к структуризации, к описанию естественного языка формальными средствами присуща лингвистической науке, — рассказывает Старостин, — с середины XX века теоретики только этим и занимаются. Когда в пятидесятые годы появились первые компьютеры, люди сразу начали фантазировать, как бы с их помощью решать задачи обработки естественного языка. Тогда вся лингвистика была теоретической: пыталась строить модели языка и получала довольно интересные результаты. Казалось бы, просто: модели у лингвистов есть, давайте их кодировать и через два года получим, например, машинный переводчик.

Этого, конечно, не случилось. Модели развивались, на их основе появлялись алгоритмы, начинали работать, но... каменная чаша не выходила: получалось не очень хорошо. Хорошее лингвистическое описание «из головы» оказалось задачей не то чтобы не решаемой, но слишком объёмной, чтобы справиться с ней в обозримое время.

В поисках альтернативы вспомнили про теорию вероятностей и математическую статистику. Математики уже знали, что, анализируя большие данные и используя теорию вероятностей, можно многое неплохо предсказывать. Статистический подход оказался применим и к машинному анализу текста: для некоторых задач вероятностные методы работали. Это открытие, поддержанное резким ростом компьютерных мощностей, вылилось в настоящий статистический бум. Абсолютно невозможный в семидесятые (компьютеры ещё были слабыми), он начался в восьмидесятых, а в девяностые уже породил очень мощные работы. Появились шутки вроде «когда я увольняю лингвиста, качество работы системы увеличивается вдвое». Разработчики вообще отказывались от лингвистического описания; казалось, что достаточно напустить математические методы на большие корпуса текстов, и компьютер сам всё выучит. Но и эти надежды не оправдались: через некоторое время статистические методы тоже упёрлись в свой потолок. Дело в том, что они всё-таки очень ограниченные — основаны на примитивной логике, и даже огромные объёмы данных не могут этого компенсировать.

— Но играть в шахматы компьютеры научили примерно тогда же. Неужели понять смысл «мама мыла раму» сложнее, чем обыграть Гарри Каспарова?

Шахматы — с их безумным объёмом информации, целой вселенной возможных комбинаций, которые ещё никому не удалось сгенерировать полностью, — были «пробиты» переборными алгоритмами. Но что происходит, когда статистику пытаются обучать на больших объёмах текста? Представьте, что вы набиваете свою систему для игры в шахматы огромным количеством реальных партий. Увеличиваете количество партий, вкачиваете в неё, вкачиваете... Есть и обратная связь: выиграно — проиграно. Но почему выиграно или проиграно, неизвестно. Думаете, такая система научится играть?

— Не научится?

Нет. Чтобы она научилась, надо заложить в неё умный алгоритм, который понимает правила: как ходят фигуры, кто кого ест и так далее. А примитивный алгоритм, даже обучаясь на огромном массиве данных, будет быстро упираться в потолок. И вот тогда стало понятно, что надо делать гибриды: либо в статистику добавлять больше лингвистики, либо в лингвистику — больше статистики. Сегодня это мы и наблюдаем: встречное движение с обеих сторон. Большинство существующих систем машинного анализа речи — гибридные. Конкретная конфигурация методов часто зависит от того, как это исторически сложилось: где изначально была сильная математика, добавляют лингвистическое описание, и наоборот. В ABBYY мы начинаем с семантического описания, но «летать» — работать по-настоящему хорошо — система начала после того, как его напустили на большой корпус и добавили туда методы машинного обучения: обучили коэффициенты этой модели.

— Обучили коэффициенты?

Представьте, что в разных местах вашей многослойной — морфология, синтаксис, семантика — модели, кроме разрешения «это может подключаться сюда», ещё стоит какой-нибудь вес, который настраивается. Этот вес можно настраивать руками, основываясь на интуиции, а можно посмотреть на корпусах, как часто «это» подключается «сюда». И вот когда такая модель взвешивается на достаточно больших данных, она начинает работать по-настоящему хорошо.

«Адронный коллайдер» для теоретиков языка

Оказывается, всё-таки, чтобы где-то эффективно сузить, в другом месте надо расширить: получить массив специально обработанных текстов на миллионы и десятки миллионов единиц. Чем больше массив, тем лучше обучаются на нём математические методы, тем точнее компьютер «понимает прочитанное». Иначе говоря, современные системы машинного анализа речи немыслимы без лингвистических корпусов.

Гамлетовский вопрос лингвистической науки: достаточно ли интуиции носителя языка, чтобы адекватно описывать устройство своего языка, или лингвистическое описание требует объективной валидации? Для второго нужна представительная коллекция примеров, взятых из реальных текстов. Первым опытом на этом пути стал Брауновский корпус английского языка, созданный в США в 1961 году. Он состоял из 500 фрагментов примерно по 2000 слов и был титанической для своего времени работой: во-первых, пределом возможностей тогдашних компьютеров, а во-вторых, его делали вручную, поскольку оцифрованных текстов было ещё пренебрежимо мало. Брауновский корпус настолько продуманно заложил стандарты корпусного строительства, что его авторитет долго влиял на создателей следующих корпусов: так, появившиеся в начале семидесятых корпуса для других языков тоже содержали по миллиону слов — брауновский стандарт! — хотя компьютеры уже были способны на большее. Но главное, что отличает любой корпус от неструктурированной коллекции текстов, — разметка, или аннотация. Даже миллион словоупотреблений — это океан, и, чтобы в нём не утонуть, необходимо привести его в какую-то систему, разбить на группы по параметрам, приписать каждой единице комплекс метаданных, с которыми потом будет работать математический алгоритм. Это делают лингвисты вручную. Например, Брауновский корпус в целях структурирования был разбит на 15 «жанров» — таких как «новость», «газетная статья», «развлекательный текст» и так далее. «Жанрами» корпусная лингвистика в том или ином виде пользуется до сих пор, но брауновский миллион уже давно капля в море: сегодняшние корпуса измеряются десятками и сотнями миллионов единиц и продолжают расти. Фактически количество — это качество корпуса, чем он больше, тем, при прочих равных, надёжнее работает. Почему?

Дело в том, что статистически язык представляет собой большое количество редких событий, — объясняет Сергей Шаров, один из пионеров современного корпусного строительства, сейчас работающий в университете Лидса, Великобритания. — Каждое слово, даже вполне обычное, в среднем встречается в языке крайне редко. Разумеется, есть категории слов, например предлоги или союзы, которые можно увидеть почти в каждом предложении. Но для того, чтобы встретить слово «крайне» или слово «редко», нам придётся просмотреть десятки тысяч слов. Если «крайне» встречается, условно говоря, десять раз в корпусе из миллиона слов, такая статистика не даёт оснований для вывода, частотнее оно, чем какой-нибудь его синоним, например «чрезвычайно», или наоборот. О словах, которые встретились в миллионном корпусе всего десять раз, делать какие-то обобщения нельзя, экстраполяции на их основании будут ненадёжными. А ведь надо ещё учитывать, что с такой частотой слово встречается в масштабе всего корпуса — та самая «средняя температура по больнице». Между тем один жанр отличается по своему лексическому составу от другого: художественная литература — от новостных текстов, новостные — от текстов научных статей. Если мы поделим диапазон встречаемости на какие-то подобласти, то уверенность, что частоты будут именно такими, падает. Следовательно, нужны корпуса в сто, тысячу и миллион раз больше, чем брауновский. В конце восьмидесятых появились мощные компьютеры и с ними — возможность собирать тексты в электронном виде, а в лингвистическом сообществе окончательно созрело стремление к достоверности и доказательности. Начались объёмные корпусные проекты. Одним из первых корпусов в десятки, а потом в сотни миллионов слов стал Bank of English — Банк английского языка. Созданный в Бирмингемском университете вместе с издательством Collins, он использовался для словаря COBUILD — одного из традиционных словарей для обучения английскому языку. Для учебных целей корпус бесценен. С одной стороны, он позволяет достоверно ранжировать слова по частоте, то есть объективно подсказывает, что предъявлять ученикам в первую, а что во вторую очередь. С другой стороны, система выделения значений тоже показывает наиболее частотные значения. Так что словарную статью для каждого слова теперь можно строить не интуитивно, а на тех значениях, которые реально находятся в корпусе и в соответствии с частотами этих значений. И наконец, благодаря корпусу можно не придумывать примеры, а использовать то, что взято из реальной жизни — слова в своих наиболее типичных контекстах. В начале девяностых конкуренты Collins — издательство Longman и издательство Оксфордского университета — Oxford University Press начинают строительство Британского национального корпуса на 100 млн слов, позже он активно использовалcя для лонгмановских словарей и грамматик.

В самом конце восьмидесятых в Советском Союзе начали создавать Большой корпус русского языка под названием «Машинный фонд русского языка», но по ряду причин эта работа прервалась и началась снова в конце девяностых. У лингвистов уже было чёткое понимание того, что для корпусов нужны не только тексты, но и технологии разметки: классификация по жанрам, выделение частей речи, выделение рем («новой» информации в структуре высказывания), восстановление до леммы (исходной формы слова) — всё это для русского языка сделать сложнее, чем для английского.

В этом контексте и появился проект Национального корпуса русского языка, который был поддержан, с одной стороны, грантом Академии наук, а с другой — компанией «Яндекс» в лице её директора по технологиям, к сожалению ныне покойного, Ильи Сегаловича. «Яндекс» обеспечивал поддержку технологическую: домен и механизм поиска.

Этот проект породил ресурс, которым активно пользуются лингвисты, но в это время я получил должность сначала в Германии, потом переехал в Лидс (Великобритания), и моей темой стало создание и использование больших корпусов.

— Почему именно тогда?

Взрывной рост всемирной сети: народ стал заселять интернет и публиковать в нём огромные объёмы текстов, от форумных сообщений до художественных произведений и научных статей. Новости, журналы, мнения, комментарии — всё это появилось ещё в конце девяностых, а с 2005 года начали активно развиваться соцсети — принципиально новый источник лингвистического материала. Дело в том, что в журналах, газетах, научных статьях, даже сетевых, тексты кем-то специально контролируются на входе. У таких контролёров есть и положительное влияние — они обеспечивают стандарт, и отрицательное — они готовы пропускать только то, к чему привыкли. Но когда человек что-то публикует у себя в блоге или в социальных сетях, никакого цензора над ним нет. У этого обстоятельства тоже есть и плюсы и минусы, но, как лингвистам, нам важно, что в результате мы видим язык до модерирования: нам доступно гораздо больше языковых явлений, чем раньше. С середины нулевых начали появляться большие корпуса, собранные из интернета.

— Получается, что корпус — это в каком-то смысле «лингвистический адронный коллайдер», вокруг которого толпятся лингвисты и думают, что бы ещё туда кинуть и посмотреть, что получится, на какие части разлетится и в какие группы соберётся?

И так же, как адронный коллайдер строили те самые люди, которые будут кидать, так и лингвисты-теоретики становятся на путь корпусного строительства. Современные корпуса — это уже миллиарды слов. Только на таком объёме мы можем получить надёжную статистику, особенно для сегментов. Устной речи в корпусах представлено не очень много, но, с другой стороны, у нас есть социальные сети — доступ к тому, как примерно люди говорят. Конечно, аудитория соцсетей ограничена необходимостью использовать клавиатуру, но всё равно говорит абсолютно спонтанно.

Корпуса — окно в реальность

Когда наступает эпоха корпусного изобилия, когда ограничения по количеству и доступности материала сняты, у теоретиков развязаны руки для того, чтобы экспериментировать с разметкой. Как уже говорилось, размечает корпуса человек, и это может быть задачей, решаемой однозначно — или не очень. Например, если перед людьми стоит задача пометить слово по принадлежности к той или иной части речи, это делается в целом однозначно, и десять и сто разметчиков-лингвистов, скорее всего, согласятся, что огурец — существительное мужского рода, а бежать — глагол с семантикой движения. Жёсткая традиционная грамматика справляется с описаниями того, что можно наблюдать внутри слова или предложения, поэтому и машина умеет распознавать это довольно точно. Иначе с разметкой более крупных текстов и тех их аспектов, которые связаны с функционированием текста в социуме. Чаще нам интересно не «описание или инструкция?», а цель того или иного текста: пытается ли он нас убеждать, развлекать, содержит ли оценку — и подобное, что в терминологии Сергея Шарова называется симптомами. Группируясь в регулярные кластеры, они образуют жанровые «синдромы» — претенденты на роль жанров в новом функциональном измерении — в пространстве коммуникативных целей.

Здесь люди, во-первых, единственный источник информации для разметки, а во-вторых, далеко не всегда склонны соглашаться друг с другом.

С одной стороны, использовать с трудом верифицируемые, часто неодинаково толкуемые разметчиками категории — рискованно. С другой — слава статистике! — на оценки разметчиков одного и того же текста, пусть даже разбросанные, можно посмотреть как на массив, подвергнуть нормированию и получить вполне валидные вероятностные значения того, насколько текст аргументативен, развлекателен или оценочен, без привязки к тому, новость это, энциклопедическая статья или интернет-дневник.

Созданную таким образом систему функциональных жанров разработчики — Сергей Шаров, Анисья Катинская (РГГУ) и Алексей Сорокин (МГУ им. М. В. Ломоносова) — затем планируют применить к русскоязычному сегменту интернета. Возможно, у функциональных жанров, выделенных на основе человеческих оценок, есть лингвистические корреляты — надёжные внутритекстовые признаки, которые можно «потрогать руками» и научиться распознавать машинным образом? А может быть, такие лингвистические «отпечатки пальцев» есть и у разных групп говорящих, например объединённых гендером, возрастом или местом жительства?

Последние эксперименты над русскоязычным сегментом интернета (прежде всего, блогами, потому что социальные сети часто содержат информацию о возрасте, поле и месте жительства блогера) показали, что такого исключать нельзя. Так, в июне нынешнего года на ежегодной конференции по компьютерной лингвистике «Диалог» свои первые результаты представила группа исследователей, работающая над Генеральным интернет-корпусом русского языка (ГИКРЯ). При всех оговорках корпус позволяет достаточно достоверно наблюдать реальную, а не опосредованную составителями словарей частотность тех или иных словоупотреблений в разных социальных, гендерных и так далее группах пользователей. Совершенно неожиданно гендерно не нейтральными оказались несколько самых обычных словоупотреблений: «феминизированы» выражения каждый раз и количественные оценки с так и очень (так много, очень быстро), а «маскулинизированы» — по меньшей мере и количественные с элементом сравнения: гораздо… и в(о)раз*. Эти скромные результаты — первые ласточки того, что обещает стать методом статистической валидации гипотез в области гендерной и социальной лингвистики.

***

Когда следующий раз занесёте пальцы над клавиатурой, чтобы твитнуть несколько слов или откомментировать (откомментить!) пост во френдленте, задумайтесь. В потоке ерунды, которую мы порождаем за чашкой кофе, прячутся удивительные реалии языка, способные перевернуть наше представление о его устройстве настолько же, насколько один взгляд на живого слона перетягивает тысячи его тщательных и корректных описаний. Не исключено, что лет через пятьдесят языкознание расскажет нам о женском и мужском диалектах (и, при удаче, предложит разговорник) или о распределении аргументативных текстов по возрастным группам (главными энциклопедистами наверняка окажутся тинейджеры), а смайлики и зачёркивания войдут в программу экзамена по русскому языку, раздел «пунктуация».

Современная наука — наука массивов и статистических методов. Где-то процесс переформатирования научных парадигм под давлением растущей информационной массы начался раньше, где-то позже, но очевидно, что мы ещё не представляем себе и десятой доли того, чему лингвистика может научиться у многомиллиардных корпусов.

Комментарии к статье

* Данные приводятся по статье: Беликов В. И., Копылов Н. Ю., Селегей В. П., Шаров С. А. Дифференциальная корпусная статистика на основании неавтоматической метатекстовой разметки / Сб. Компьютерная лингвистика и интеллектуальные технологии, вып. 13(20). Материалы ежегодной Международной конференции «Диалог» (2014), с. 52.

Другие статьи из рубрики «Беседы о языке»

Детальное описание иллюстрации

Популярное сетевое развлечение «облако слов» позволяет наглядно увидеть самые частотные слова в конкретном тексте. Первое «облако» сформировано на основе этой статьи (отобраны 45 полнозначных слов длиной от 5 букв). А какой текст мы «выпарили» для второго облака, специально скрыв два его самых частотных слова, читатели легко догадаются сами.
Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее