Лингвистические методы выявления в Сети экстремистского контента и лиц, склонных к экстремизму

УДК 81'33:343.3/4

Страницы в журнале: 107-113

Т.А. Литвинова,

кандидат филологических наук, научный сотрудник Регионального центра русского языка при Воронежском государственном педагогическом университете Россия, Воронеж centr_rus_yaz@mail.ru

О.В. Загоровская,

доктор филологических наук, профессор, зав. кафедрой русского языка, современной русской и зарубежной литературы Воронежского государственного педагогического университета Россия, Воронеж olzagor@yandex.ru

Рассматриваются основные методы выявления в Сети текстов, содержащих призывы к экстремизму. Показано, что в настоящее время большинство этих методов применяется по отношению к английскому и арабскому языкам; применительно к русскому языку не разработано надежных методик выявления в Сети экстремистского контента. Обосновывается положение о том, что помимо методик обнаружения опасного контента, необходима также разработка методик выявления лиц, склонных к экстремистскому поведению, на основе количественного анализа их текстов, и предложен авторский подход к решению указанной проблемы.

Ключевые слова: экстремизм, борьба с экстремизмом, опасный контент, терроризм, лингвистические методы выявления опасного контента, автороведение, автороведческая экспертиза.

Отечественные ученые-юристы констатируют, что в комплексе принимаемых государственными органами мер по противодействию терроризму и экстремизму на территории Российской Федерации длительное время превалировала силовая составляющая [7]. Однако опыт применения такой стратегии показал, что бандподполье достаточно быстро восстанавливает систему координации террористической деятельности, свою численность и боеспособность, нарушенную после нейтрализации бандглаварей различного уровня. В этих условиях наиболее эффективным представляется системный, комплексный подход в области противодействия терроризму и экстремизму, который предполагает информационно-пропагандистскую и профилактическую работу с местным населением, и особенно с молодежью, а также выявление проявлений экстремизма и борьбу с ними в соцсетях [7].

В России проблемой блокировки лояльных «Исламскому государству» (ИГИЛ*, запрещенная в России террористическая организация) пользователей соцсетей озаботились лишь недавно, хотя после провозглашения это группировкой «халифата» на захваченных летом 2014 года значительных территориях Сирии и Ирака к террористам присоединилось большое число россиян [22]. Через популярные на территории СНГ площадки «ВКонтакте», «Одноклассники» и «Мой мир@Mail.Ru» экстремисты беспрепятственно вербовали в свои ряды новых членов и публиковали пропагандистские материалы, в том числе на русском языке [22]. Российским силовикам понадобился почти год для того, чтобы начать активную борьбу с распространением экстремистского контента в соцсетях [22]. Начиная с марта 2015 года сообщества и записи террористов начали оперативно удаляться администрацией ресурсов, а в июне в Центре информационной безопасности Федеральной службы безопасности была сформирована отдельная группа для борьбы с вербовщиками ИГИЛ* [22].

Как совершенно справедливо отмечают ученые-юристы [7], для выявления и пресечения террористической и иной экстремистской деятельности северо-кавказского бандподполья в сети Интернет необходима консолидация усилий различных специалистов — юристов, IT-специалистов, экспертов-психологов и, конечно же, лингвистов.

В отчете серий экспертных онлайн-форумов ОБСЕ по использованию Интернета террористами [18] отмечается, что усилия по борьбе с использованием сети Интернет террористами должны носить превентивный характер и поддерживать открытость Сети. Любые необходимые принудительные действия должны иметь узкую направленность [18]. Для этого следует разработать методику выявления сайтов, содержащих материалы, несущие реальную угрозу, на основе как можно большего числа признаков, что является, однако, задачей нетривиальной. К сожалению, террористам известны существующие методы выявления пропагандистских материалов, основанные на анализе ключевых слов из заранее составленного списка, поэтому они стараются их избегать; кроме того, использование одного этого метода приводит к выявлению большого числа сайтов, посвященных вопросам экстремизма и терроризма (новостных, научных и т. д.), но не содержащих соответствующих призывов. Следовательно, необходимы более совершенные инструменты для выявления в Сети экстремистского контента.

В российской науке активно ведутся исследования, направленные на разработку методик лингвистической экспертизы языковых материалов на наличие в них признаков экстремизма [1; 2, 3; 4, 5; 6; 8; 15]. При всей важности подобного рода исследований следует отметить, что они направлены на анализ материалов, уже попавших в поле зрения исследователей, а не на обнаружение потенциально опасного контента и выявление лиц, занимающихся пропагандой экстремизма.

Кроме того, все эти методы предполагают «ручной», экспертный анализ материала, что делает их неприменимыми для поиска подобного контента в Сети. Конечно, итоговое заключение (например, в рамках судебной лингвистической и психолого-лингвистической экспертизы) о возможном нарушении законодательства авторами того или иного текста останется задачей эксперта, однако, осуществляя автоматический мониторинг сети Интернет с использованием специально разработанных методик, можно программными средствами выделять высказывания (материалы), имеющие с некоторой вероятностью экстремистскую направленность.

За рубежом в последние годы активно развиваются исследования, направленные на автоматическое выявление в Сети экстремистских материалов [19; 23; 26].

Основная сложность, с которой сталкиваются ученые, занимающиеся указанной проблемой, связана с поиском материала для такого рода исследований. Большинство сайтов, созданных для общения экстремистов, отсутствуют в свободном доступе. Аккаунты экстремистов в соцсетях через некоторое время блокируются. Чтобы обеспечить доступ как можно большего числа исследователей к указанному материалу, а следовательно, способствовать развитию методик выявления в Сети экстремистских материалов, исследовательская группа под руководством H. Chen в сотрудничестве с организациями, борющимися с терроризмом, на протяжении нескольких лет собирала контент экстремистских и террористических форумов, блогов и т. д. в рамках широкомасштабного Dark Web Project [20]. Собранная база данных содержит 3 млн постов с 29 международных джихадистских форумов на арабском, английском, французском, немецком и русском языках. Контент постоянно обновляется. Система содержит инструменты поиска и фильтрации информации, а также снабжена инструментами для построения графиков, визуализирующих структуру сетевого образования и число постов каждого участника, что позволяет выявить самых активных из них.

Большинство исследований, направленных на изучение типологических особенностей экстремистских сайтов (языковых и структурных) и последующее их выявление, основано на материалах из базы данных Dark Web Project. Такие исследования являются частью работ, выполняемых в рамках нового активно развивающегося направления — Terrorism Informatics, изучающего феномен терроризма с использованием количественных методов анализа на большом массиве данных [20].

Можно выделить три основных направления работ в области выявления в Сети опасного контента, связанные с лингвистическим анализом [20]:

1) анализ тональности (Sentiment Analysis) интернет-текста, в том числе с использованием формально-грамматических параметров (частоты n-грамм букв1, POS, слов, частоты знаков препинания, служебных слов, индексы лексического разнообразия и т. д.), т. е. анализ высказывания на предмет наличия в нем положительной/отрицательной оценки;

2) аффект-анализ (Affect Analysis), который, в отличие от анализа тональности, направлен на выявление не просто знака оценки, а конкретных эмоций, испытываемых автором текста (радость, гнев, печаль и т. д.), на основе разнообразных типов языковых параметров (лексических, синтаксических, семантических) с использованием различных методов машинного обучения;

3) автороведческий анализ, направленный на установление автора конкретного интернет-текста из заданного круга лиц. Эксперимент, проведенный на материале английских и арабских экстремистских форумов с использованием языковых параметров разного типа (лексических, морфологических, синтаксических, структурных, семантических — всего 301 параметр) [20], показал, что для атрибуции текстов и на английском, и на арабском языке большое значение имеет анализ таких параметров, как частоты знаков препинания, служебных слов. С использованием всего комплекса параметров была достигнута высокая точность моделей. Однако данное исследование, как указывают сами авторы [20, p. 168], имеет ограничения: эксперимент проводили на ограниченном круге авторов (20), тогда как в реальной жизни требуется, как правило, определить автора текста из большего числа подозреваемых либо же вообще круг подозреваемых не ограничен [2]. Помимо этого, авторы указывают на необходимость апробации их методик на материале других языков, тексты на которых представлены в Dark Web Project, в том числе на материале русского языка.

Надо отметить, что вопросы автороведческой экспертизы (как идентификационной, так и диагностической) экстремистских текстов, в особенности связанные с применением современных математических методов и инструментария автоматической обработки языка, на материале русского языка остаются недостаточно разработанными [2]. Назрела острая необходимость в разработке указанных методов лингвистического анализа для выявления в Сети экстремистского контента применительно к русскому языку, в том числе с учетом существующих наработок в области тематического поиска [16], анализа тональности и эмотивности текста [17; 24], морфологического и синтаксичекого анализа [25].

Помимо разработки методов поиска в Сети экстремистского контента, важной является задача диагностирования склонности личности автора интернет-текста к экстремистскому поведению, поскольку общеизвестно, что вербовщики, действующие через соцсети, далеко не сразу переходят к призывам вступить в ряды экстремистов. Сначала они входят в доверие к жертве, общаются с ней на различные темы, чтобы узнать о ней как можно больше информации. В связи с этим представляется актуальной разработка инструментов, которые позволили бы пользователям Сети определить склонность автора интернет-текста к экстремизму путем лингвистического анализа с применением количественных методов.

Полагаем, что одним из перспективных направлений исследований в области разработки методик выявления в Сети экстремистского контента и лиц, склонных к экстремистскому поведению, является выявление типологических особенностей письменной речи экстремистов и разработка диагностического инструментария для выявления склонности автора интернет-текста к экстремистскому поведению на основе анализа количественных параметров его речевых произведений, в том числе содержащих различные искажения.

Определение диагностирования характеристик автора текста — задача классификационной судебно-автороведческой экспертизы. В этой области до сих пор существует много нерешенных вопросов, обусловленных в том числе недостаточным вниманием лингвистов к их исследованию применительно к русскому языку [10]. Такого рода исследования основаны на положении о том, что в тексте как продукте речемыслительной деятельности отражаются психофизиологические особенности его автора даже в случае намеренного искажения последним признаков письменной речи с целью скрыть свою идентичность либо исказить передаваемую информацию.

Проблема диагностирования характеристик личности по ее речевой продукции изучается исследователями на протяжении нескольких десятилетий, но в последнее время в мировой науке к ней наблюдается особый интерес вследствие стремительного развития интернет-коммуникации и роста киберпреступности и, следовательно, возросшей потребности в методиках, позволяющих на основе количественного анализа анонимного и псевдоанонимного текста воссоздать облик (пол, возраст, уровень образования, родной язык, психологические характеристики, в том числе склонность к агрессии, экстремизму и др.) его автора.

Приоритет в исследовании проблемы диагностирования личности по тексту принадлежит психологам и лингвистам. Однако уже с 1990-х годов к ее решению подключились математики и специалисты по информационным технологиям: началось активное использование методов математической статистики, компьютерной лингвистики, в частности средств автоматической обработки языка (NLP), что позволило быстро обрабатывать большие массивы текстового материала. На основе найденных корреляций между численными значениями поддающихся квантификации лингвистических параметров текста и характеристиками авторов исследователи строят математические модели и разрабатывают программные средства для автоматизированного диагностирования характеристик личности по тексту. При этом подчеркивается особая значимость формально-грамматических параметров текста, которые не контролируются автором и, следовательно, наименее подвержены сознательному искажению (доли служебных слов, биграммы и триграммы частей речи и т. д.). Заметим, однако, что подавляющее большинство подобных исследований выполнено на материале английского языка [11; 13].

Исследования по разработке такого инструментария ведутся в настоящее время сотрудниками Регионального центра русского языка при Воронежском государственном педагогическом университете совместно со специалистами по информационным технологиям НБИКС-центра при НИЦ «Курчатовский институт» в рамках нового направления современного языкознания — диагностического лингвопортретирования (профилирования), направленного на разработку методик воссоздания облика автора текста на основе формально-грамматических, не поддающихся контролю сознания и сознательному искажению языковых параметров с использованием статистических методов и методов корпусной и компьютерной лингвистики [9]. Исследования ведутся на материале специально созданного и постоянно пополняемого уникального корпуса текстов RusPersonality. Корпус был создан специально для решения актуальных задач современного автороведения и содержит помимо текстов — образцов естественной письменной речи — метаразметку в виде информации об их авторах: поле, возрасте, уровне образования, результатах психологического тестирования, а для некоторых подкорпусов — результатах нейропсихологического обследования, а также информацию о профессии авторов текста (на момент написания статьи в корпусе содержались тексты и метаданные 1 175 респондентов) [12]. На материале указанного корпуса были проведены исследования, направленные на решение задач диагностирования пола и психологических характеристик автора текста на основе анализа его количественных параметров и построения прогностических лингвистических моделей [13; 14].

Для решения задачи оценки по формально-грамматическим параметрам текста склонности его автора к экстремизму используются материалы экстремистского чата Kavkazchat (2003—2010), содержащего 558 042 сообщений от 5 634 человек. В настоящее время сайт признан экстремистским. Доступ к материалам данного чата стал возможен благодаря достигнутой договоренности с коллегами из The University of Arizona Artificial Intelligence Lab (AI Lab), которые на протяжении длительного времени собирали закрытые для обычного пользователя материалы экстремистского характера в рамках Dark Web Project, финансируемого крупнейшими международными научными фондами. Интерфейс базы данных текстовых материалов указанного проекта позволяет проводить поиск по ключевым словам, сортировать пользователей по числу сообщений и т. д. [27].

Планируется также сравнение полученного лингвистического портрета экстремиста с языковыми особенностями текстов лиц с различными психологическими характеристиками (база данных RusPersonality) и построение психологического профиля экстремиста. В качестве параметров текста нами будут выбраны поддающиеся квантификации характеристики, такие как показатели лексического разнообразия текста, синтаксической сложности, доли в тексте слов тех или иных частей речи, знаков препинания, эмотиконов, биграмм и триграмм POS, а также показатели частотности различных служебных слов и т. д. Помимо формально-грамматических будут извлекаться и такие параметры текста, как доли слов некоторых лексико-семантических групп в соответствии с проведенным нами ранее расчетом степени устойчивости слов тех или иных тематических групп в идиолекте автора.

Численные значения параметров текста будут извлекаться как автоматически, так и вручную. Для построения математических моделей, связывающих количественные параметры текста и склонность его автора к экстремизму, будут использованы методы машинного обучения как наиболее часто применяемые к решению задач классификации текста в мировой науке.

Итак, анализ проблемы показывает, что в настоящее время назрела острая необходимость в разработке применимого к русскоязычному материалу комплексного инструментария для выявления в Сети экстремистского контента и лиц, склонных к экстремизму и занимающихся пропагандой соответствующей идеологии.

Составной частью такого инструментария может стать разрабатываемая нами методика оценки склонности автора интернет-текста к экстремизму на основе анализа количественных языковых параметров в ее программной реализации. Поскольку в основу методики лягут прежде всего формально-грамматические языковые параметры, слабо зависящие от темы текста и намерения автора скрыть информацию о себе либо сознательно ее исказить, методика может быть применена пользователями соцсетей для анализа интернет-текстов, не содержащих прямых призывов к экстремизму, в частности для анализа сообщений в соцсетях от неизвестных собеседников. Особенно полезной данная методика может быть для лиц молодого поколения, поскольку она поможет им оценить вероятность попытки вовлечения их собеседником из соцсетей в экстремистскую деятельность.

Представляется, что комбинация методов диагностирования склонности личности к экстремизму, анализа тональности и аффект-анализа, а также тематического анализа текста позволит в дальнейшем создать автоматизированную систему для выявления в Сети экстремистского контента и его авторов.

Список литературы

1. Араева Л.А., Осадчий М.А. Судебно-лингвистическая экспертиза по криминальным проявлениям экстремизма // Уголовный процесс. 2006. № 4. С. 45—56.

2. Араева Л.А., Осадчий М.А. Языковая личность экстремиста (о специфике автороведческой экспертизы по криминальным проявлениям экстремизма) // Юрислингвистика-9: Истина в языке и праве: межвуз. сб. науч. тр. Кемерово, Барнаул, 2008. С. 182—193.

3. Бельская Н.С. Методические подходы к решению нетривиальных задач судебной лингвистической экспертизы по уголовным делам, связанным с противодействием религиозному экстремизму // Человек. Религия. Право. Экстремизм: теория и практика противодействия: сб. науч. тр. Екатеринбург, 2014. С. 12—22.

4. Галяшина Е.И. Лингвистика vs экстремизма. В помощь судьям, следователям, экспертам / под ред. проф. М.В. Горбаневского. М., 2006.

5. Геранина И.Н., Логинова Е.И. Психолого-лингвистическое исследование текстов на предмет выявления признаков разжигания в обществе национальной, расовой или религиозной вражды // Судебная экспертиза. 2008. № 3 (15). С. 38—42.

6. Зубарь А.С., Сараев Н.В. Актуальные проблемы производства лингвистических экспертиз и исследований по делам, связанным с проявлением экстремизма // О состоянии и проблемах противодействия преступности в регионах Российской Федерации: сб. науч. тр. М., 2012. Вып. 1. С. 37—41.

7. Красинский В.В. Экстремистские интернет-ресурсы «Имарата Кавказ*» и противодействие «информационному джихаду» северо-кавказского бандподполья // Современное право. 2013. № 7. С. 129—133.

8. Лебедева А.К. Особенности проведения лингвистической экспертизы по делам о религиозном экстремизме // Проблемы использования специальных знаний в России и за рубежом. 2013. С. 113—117.

9. Литвинова Т.А. Возможности компьютерной лингвистики для решения задач диагностирования личности по тексту (на материале корпуса текстов Personality) // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2015. № 3. С. 37—41.

10. Литвинова Т.А. Лингвистические основы неидентификационной судебно-автороведческой экспертизы // Вестник Челябинского государственного университета. Серия: Филология. Искусствоведение. 2012. Вып. 67. С. 74—79.

11. Литвинова Т.А. Установление характеристик (профилирование) автора письменного текста // Филологические науки. Вопросы теории и практики. 2012. № 2 (13). C. 90—94.

12. Литвинова Т.А., Диброва Е.В., Литвинова О.А., Рыжкова Е.С. Корпусные исследования письменной речи в решении задач судебного автороведения // Филологические науки. Вопросы теории и практики. 2015. № 8. Ч. 1. С. 107—113.

13. Литвинова Т.А., Литвинова О.А. Идентификация и диагностирование личности автора письменного текста. Воронеж, 2015.

14. Литвинова Т.А., Литвинова О.А., Середин П.В. Частоты встречаемости последовательностей частей речи в тексте и психофизиологические характеристики его автора: корпусное исследование // Вестник Иркутского государственного лингвистического университета. 2014. № 2. С. 8—12.

15. Методика проведения судебной психолого-лингвистической экспертизы материалов по делам, связанным с противодействием экстремизму и терроризму / Кукушкина О.В., Сафонова Ю.А., Секераж Т.Н. М., 2014.

16. Сбоев А.Г, Рыбка Р.Б., Гудовских Д.В., Молошников И.А. Алгоритм отбора тематически схожих документов с построением контекстно-семантического графа на основе вероятностно-энтропийного подхода // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2015. № 3. С. 64—70.

17. Сбоев А.Г. Анализ тональности и эмотивности текста с использованием синтаксических отношений на основе нейронных сетей и вероятностных алгоритмов // Научно-технический сборник ОАО «Концерн “Системпром”». 2014 (закрытый).

18. Серия экспертных онлайн-форумов ОБСЕ по использованию Интернета террористами: угрозы, ответы и возможные будущие шаги: отчет. URL: http://www.osce.org/ru/secretariat/104407?download=true (дата обращения: 18.01.2016).

19. Basu A. Social Network Analysis: A Methodology for Studying Terrorism // Social Networking. The series Intelligent Systems Reference Library. 2014. Vol. 65. P. 215—242.

20. Chen H. Dark Web. Exploring and Data Mining the Dark Side of the Web. Springer, 2012.

21. Pennebaker J.W., Chung C.K. Computerized Text Analysis of Al-Qaeda Transcripts // Klaus Krippendorf and Mary Angela Bock (eds.). The Content Analysis Reader. Newbury Park, 2008. Р. 453–465.

22. PR-анализ: Telegram как платформа боевиков ИГИЛ*. URL: http://vrk.news/trendy/i171 (дата обращения: 18.01.2016).

23. Sachan A. Countering terrorism through dark web analysis // Computing Communication & Networking Technologies (ICCCNT), 2012 Third International Conference. Р. 1—5.

24. Sboev A., Gudovskikh D., Moloshnikov I., Rybka R. A Quantitative Method of Text Emotiveness Evaluation on Base of the Psycholinguistic Markers Founded on Morphological Features // Procedia Computer Science. 2015. Vol. 66. Р. 307—316.

25. Sboev A., Rybka R., Moloshnikov I., Gudovskikh D. Syntactic Analysis of the Sentences of the Russian Language Based on Neural Networks // Procedia Computer Science. 2015. Vol. 66. P. 277–286.

26. Scanlon J.R., Gerber M.S. Automatic detection of cyber-recruitment by violent extremists // Security Informatics. 2014. Vol. 3, no 5. P. 1—10.

27. Zhang Y., Zeng S., Fan L., Dang Y., Larson C., Chen H. Dark Web Forums Portal: Searching and Analyzing Jihadist Forums // Proceedings of the IEEE International Intelligence and Security Informatics Conference (Dallas, Texas, June 8–11, 2009). P. 71–76.

Библиография

1 Метод основан на использовании вероятности повторения цепочки букв n-го порядка (n-грамм) в анализируемых текстах: повторяемость букв, пар букв (биграмм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие характеристики текста являются достаточно устойчивыми в каждом языке (Примеч. ред.).

*- запрещенные в РФ террористические группировки

Лингвистические методы выявления в Сети экстремистского контента и лиц, склонных к экстремизму

Уважаемые коллеги!

ПОДПИСАТЬСЯ

Современные тенденции развития экстремизма в молодежной среде. С. 105-108

Применение микро- и макроанализа финансовых операций криптопровайдеров в целях противодействия отмыванию денег и финансированию терроризма. С. 107-111

К вопросу о противодействии экстремизму в России. С. 85-89

Современные сетевые национально-сепаратистские движения в России. С. 120-128