УДК 343.982.323
Страницы в журнале: 111-115
Т.А. Литвинова,
кандидат филологических наук, НИЦ «Курчатовский институт» Россия, Москва centr_rus_yaz@mail.ru
Установление пола автора анонимного и псевдоанонимного письменного текста является одной из магистральных и в то же время самых сложных задач судебного автороведения. Рассматриваются основные проблемы, с которыми сталкиваются эксперты-автороведы при анализе текста с целью диагностирования пола его автора, и предлагаются возможные пути их решения.
Ключевые слова: судебная экспертиза, автороведческая экспертиза, установление половой принадлежности автора текста, корпус текстов, стилеметрия.
Введение. Судебная автороведческая экспертиза (САЭ) относится к классу криминалистических экспертиз [12] и служит для решения целого ряда идентификационных и диагностических задач. Идентификационная САЭ отвечает на вопросы относительно авторства текста (является ли N автором спорного текста?). Предмет судебно-автороведческой диагностической экспертизы — «фактические данные об авторе документа и условиях его составления, которые устанавливаются экспертом-криминалистом на основе специальных познаний при исследовании документа и иных материалов уголовного или гражданского дела» [11, с. 51]. К таким данным относятся пол, возраст, психологические особенности автора текста, уровень образования, состояние автора в момент написания текста.
Несмотря на то что в последнее время наблюдается рост количества автороведческих экспертиз, поскольку «в российских судах рассматривается значительное количество дел, в которых тексты являются важным источником доказательств, необходимых при расследовании преступлений и разрешении гражданских споров» [2, с. 755], проблема комплексного автороведческого исследования на основе применения специальных знаний относится к числу малоизученных.
Установление пола автора письменного текста c использованием специальных лингвистических знаний является одной из магистральных задач судебного автороведения [15], однако общепринятой методики установления пола автора текста на русском языке с учетом возможного искажения и имитации признаков письменной речи до настоящего времени выработано не было.
Целью настоящего исследования является анализ существующих методов и подходов к проведению САЭ при диагностировании пола автора текста на основе специальных лингвистических знаний, а также выявление проблемных зон и возможных путей модернизации существующих подходов.
Анализ экспертной практики, научной и методической литературы позволил выявить следующие проблемы в области САЭ с целью диагностирования пола автора письменного текста на русском языке.
1. Описательный характер исследований. Проблемой выявления различий в русской устной и письменной речи мужчин и женщин занимаются отечественные ученые-криминалисты и лингвисты на протяжении нескольких десятилетий (работы С.М. Вула, Е.И. Горошко, А.В. Кириллиной и других ученых, см. обзор в работе [9]). В результате подобных исследований был выявлен целый ряд различий между мужским и женским стилем письма, однако было установлено, что подобные различия являются количественными: не существует языковых элементов, характерных только для мужчин или женщин, но есть гендерно обусловленные различия, в частности использования в речи тех или иных элементов.
Как справедливо отмечает Е.И. Ермолова, в большинстве источников, посвященных автороведческому исследованию текста с целью диагностирования пола его автора, указываются только отдельные, не связанные между собой признаки письменной речи мужчин и женщин, а также признаки письменной речи, характерные для лиц того или иного пола, которые носят явный характер (например, эмоциональность суждений, бытовая тематика, образная лексика — для письменной речи женщин; лаконичность высказываний, бранная лексика — для мужчин) [3]. Кроме того, отсутствуют масштабные корпусные исследования гендерно обусловленных различий, которые, как указывается, необходимы для построения надежных автороведческих методик [1].
В 2007 году Экспертно-криминалистическим центром МВД России были изданы методические рекомендации «Комплексная методика производства автороведческих экспертиз» (далее — Методические рекомендации) [4], в которых был приведен составленный на основе анализа научной литературы, экспертной практики и собственных исследований авторов список характерных признаков письменной речи мужчин и женщин, на основании которых, как утверждается, можно решить вопрос о половой принадлежности автора анонимного документа в рамках диагностической автороведческой экспертизы. Однако сама методика диагностирования пола автора текста, основанная на использовании математических методов анализа данных, отсутствует.
Между тем применение математических методов анализа особенно важно вследствие того, что, как было указано выше, все различия между мужской и женской письменной речью носят не инвентарный, а вероятностный характер. При этом в большинстве проанализированных нами научных работ и экспертных заключений вместо методов математической статистики используются простейшие арифметические подсчеты, что приводит к неоднозначности выводов.
Проблема построения математических моделей для диагностирования пола автора текста на русском языке ставилась в ряде работ [6; 7; 10; 14]. Были построены математические модели, определяющие пол автора текста с точностью 60—70%. Однако, несмотря на перспективность подобных исследований, на материале русского языка они по-прежнему единичны.
В зарубежной науке подход, связанный с использованием обширного корпусного материала и применением современных методов математической статистики с целью построения классификаторов (математических моделей), позволяющих с той или иной степенью вероятности диагностировать пол автора анонимного текста, в том числе короткого, функционирующего в сфере интернет-коммуникации, развивается на протяжении последнего десятилетия.
2. Проблема выбора параметров текста для анализа. Несмотря на то что исследователи анализировали разные языковые уровни с целью выявления различий в речи мужчин и женщин, проблема выбора параметров текста для анализа остается нерешенной.
Чтобы экспертное заключение о вероятном поле автора письменного текста было как можно более объективным, необходимо анализировать текст по таким языковым параметрам, которые являются квантифицируемыми. Желательно, чтобы подсчет численных значений большей части выбранных для исследования параметров мог быть автоматизирован и осуществлен при помощи современных средств автоматической обработки текстов. Это позволит снизить уровень субъективности выводов эксперта.
В экспертной практике часто встречается ситуация, в которой образцы для сравнительного исследования и спорные тексты относятся к разным жанрам, поэтому необходимо анализировать прежде всего те параметры текста, количественные значения которых являются относительно стабильными в текстах одного автора. На данный момент вопрос о составе таких параметров является открытым [5].
Многие исследователи, занимающиеся указанной проблемой (в том числе составители Методических рекомендаций), при описании особенностей мужской и женской речи упу-скают из виду возможность сознательного искажения признаков текста с целью имитации речи лица противоположного пола.
Следует признать, что в российской науке проблеме маскировки признаков письменной речи в целом и проблеме сознательного изменения признаков письменной речи с целью имитации речи лица противоположного пола в частности уделяется мало внимания, несмотря на их очевидную теоретическую и практическую значимость.
В трудах Т.В. Гомон, В.Ф. Енгалычева, Е.И. Горошко, В.П. Белянина, Е.С. Константиновой, Е.С. Ощепковой (см. подробный обзор в работе [9]) были предприняты попытки составления списка параметров текста, легко поддающихся имитации, и тех, которые поддаются имитации гораздо сложнее. Исследователи, анализирующие тексты с намеренным искажением признаков письменной речи, делают вывод, что существуют параметры текста, которые поддаются имитации, и такие, которые не изменяются даже при намеренном искажении признаков письменной речи. Однако единства мнений по вопросу о составе таких параметров среди ученых нет. Очевидно, что для решения этого вопроса необходимы дополнительные исследования на обширном корпусном материале.
3. Проблема объема текста для анализа. Методология автороведческой экспертизы текстов на русском языке разрабатывалась преимущественно на материале художественных текстов и малоприменима к текстам небольшого объема, которые нередко становятся объектом автороведческой экспертизы. В ряде работ, в частности в Методических рекомендациях, указывается, что в современной экспертной практике особенно актуальны (в том числе в связи с бурным развитием интернет-коммуникации) проблемы анализа короткого текста (до 500 слов), при этом объем текста в 100 словоформ в рекомендациях назван как минимальный, пригодный для проведения диагностической автороведческой экспертизы, в том числе для определения пола автора текста.
4. Недостаточный учет влияния других личностных характеристик на отражение пола в речи. По современным представлениям половая дифференциация в речи — это результат комплексного влияния биологических, психологических и социальных факторов. Очевидно, что без учета указанных факторов невозможно построение надежных методик диагностирования пола автора текста, применимых на практике.
Современная судебно-автороведческая экспертиза, как и другие виды экспертиз, должна соответствовать принципу научной обоснованности. Особенно это касается требования адекватно применять в экспертном исследовании новейшие достижения научного знания [13]. В настоящее время множество научных групп в разных странах мира работают над решением проблемы диагностирования характеристик (пола, возраста, уровня образования, родного языка, психологических характеристик и т. д.) автора текста, в том числе участника интернет-коммуникации, на основе количественного анализа языковых параметров текстов путем создания оптимизированных математических моделей, однако на материале русского языка указанная проблема, как уже отмечалась, практически не разработана.
Исследования, направленные на построение методик диагностирования пола автора письменного текста на русском языке с учетом потребностей экспертной практики и использующие современные средства математического анализа данных, проводятся в ходе междисциплинарного проекта, выполняемого коллективом Лаборатории моделирования личности по тексту при Воронежском государственном педагогическом университете и сотрудниками НИЦ «Курчатовский институт». Сформирована совместная программа исследований, направленных на объективизацию, оптимизацию и автоматизацию методик автороведческой экспертизы текста с целью диагностирования пола его автора. Работы проводятся на материале специально созданного для автороведческих исследований корпуса текстов RusPersonality, снабженного метаразметкой в виде информации об авторах [8]. Планируется использование корпусов текстов, составленных при помощи специальных программных средств на основе русскоязычных текстов интернет-коммуникации (Twitter, Facebook) и данных об их авторах (пол) из персональных профилей, а также экспериментальных корпусов текстов, составленных без искажения признаков письменной речи, и текстов тех же авторов, в которых они имитируют речь лиц противоположного пола и другой возрастной группы (Personality Imitation Corpus).
Средний объем текстов корпуса RusPersonality составляет 230 слов, при этом минимальный объем текста для включения в корпус — 100 слов. Таким образом, тексты корпуса являются пригодными для разработки и апробации методик диагностирования пола автора короткого текста на русском языке. Заметим, что минимальный объем текста для диагностирования пола и возраста его автора с той или иной степенью вероятности будет определен в ходе экспериментальных исследований. Кроме того, темы текстов Personality Imitation Corpus также будут подбираться с учетом потребностей реальной экспертной практики (письмо несовершеннолетнему лицу с просьбой о встрече; анонимный донос на преподавателя; письмо-угроза официальному лицу и т. д.).
При выборе параметров текстов для анализа будут учтены достижения отечественных и зарубежных лингвистов, психологов, криминалистов, специалистов по информационным технологиям, а также результаты, полученные ранее авторским коллективом. Будут использованы только те параметры текста, которые поддаются объективной квантификации, являются стабильными в текстах одного автора, не зависящими от темы и жанра и не подверженными сознательному искажению. Такие параметры будут выявлены в ходе специального исследования.
Для лингвистической разметки в зависимости от вида параметров будут применяться средства автоматической обработки текста, в том числе разработанные авторским коллективом средства для морфологической и синтаксической разметки текста. Коллективом была разработана программа для лингвостатистического анализа текста по целому ряду параметров, которые часто используются в современных работах по психолингвистике, автороведению, лингвоперсонологии, психиатрической лингвистике, идиостилистике и т. д. (средняя длина слова, средняя длина предложения, доля в тексте слов той или иной части речи, частотность того или иного знака препинания, индексы лексического разнообразия, доля н-грамм частей речи и т.д.).
В ходе исследования будут использованы различные математические подходы к решению поставленной научной задачи, применяющиеся в современных работах (диагностирование характеристик автора как задача классификации текста, решаемая с использованием методов машинного обучения либо регрессионного анализа), и оценена их эффективность для диагностирования пола автора текста.
Безусловно, изучение как письменной, так и устной речи в целях установления половой принадлежности автора представляет сверхсложную задачу, однако использование современных методов компьютерной лингвистики, корпусной лингвистики, математической статистики, опора на существующие достижения общей лингвистики, лингвоперсонологии, нейролингвистики, психолингвистики, когнитивной лингвистики и применение современных методов математического анализа, представляется, будет способствовать созданию более объективных автороведческих методик, в том числе методик диагностирования пола автора текста.
Список литературы
1. Баранов А.Н. Лингвистическая экспертиза текста: теория и практика. М., 2007.
2. Галяшина Е.И., Приводнова Е.В. Авторове-дческая экспертиза в российском судопроизводстве // Lex Russica. 2006. Т. LXV. № 4. С. 755—761.
3. Ермолова Е.И. Проблема определения пола и возраста автора анонимного документа по признакам письменной речи // Эксперт-криминалист. 2008. № 4. С. 16—18.
4. Комплексная методика производства автороведческих экспертиз: методические рекомендации. М., 2007.
5. Литвинова Т.А. К проблеме стабильности характеристик идиостиля // Известия Южного федерального университета. Филологические науки. 2015. № 3. С. 98—106.
6. Литвинова Т.А. Профилирование автора письменного текста // Язык и культура. 2013. № 3 (23). С. 64—72.
7. Литвинова Т.А. Формально-грамматические корреляты личностных особенностей автора письменного текста // Филологические науки. Вопросы теории и практики. 2013. № 12 (30). Ч. 1. С. 132—135.
8. Литвинова Т.А., Диброва Е.В., Литвинова О.А., Рыжкова Е.С. Корпусные исследования письменной речи в решении задач судебного автороведения // Филологические науки. Вопросы теории и практики. 2015. № 8. Ч. 1. С. 107—113.
9. Литвинова Т.А., Литвинова О.А. Идентификация и диагностирование личности автора письменного текста. Воронеж, 2015.
10. Литвинова Т.А., Литвинова О.А., Середин П.В. Частоты встречаемости последовательностей частей речи в тексте и психофизиологические характеристики его автора: корпусное исследование // Вестник Иркутского государственного лингвистического университета. 2014. № 2. С. 8—12.
11. Назначение и производство судебных экспертиз: пособие для следователей, судей и экспертов / Л.М. Авилина, Л.Д. Беляева, М.С. Брайнин и др.; отв. ред. Г.П. Аринушкин, А.Р. Шляхов. М., 1988.
12. Николаева Ю.А. К спорам о месте судебной автороведческой экспертизы в классификации криминалистических экспертиз // Юрислингвистика. 2007. № 8. С. 378—382.
13. Радбиль Т.Б., Юматов В.А. Язык и метод в современной судебной экспертизе / под ред. А.Ю. Арефьева. М., 2015.
14. Резанова З.И., Романов А.С., Мещеряков Р.В. Задачи авторской атрибуции текста в аспекте гендерной принадлежности (к проблеме междисциплинарного взаимодействия лингвистики и информатики) // Вестник Томского государственного университета. Филология. 2013. № 6 (26). С. 38—52.
15. Рекомендации Международной научно-практической конференции «Теория и практика судебной экспертизы и криминалистики». Харьков, 2002.