<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:ns0="http://www.w3.org/1999/xlink" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.167.64</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Автоматизированное построение представлений фреймов в области лексической типологии на основе параллельных корпусов и последовательных переводов</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0003-2679-5465</contrib-id>
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=988349</contrib-id>
					<name>
						<surname>Полозов</surname>
						<given-names>Илья Константинович</given-names>
					</name>
					<email>ilya-polozov@mail.ru</email>
					<xref ref-type="aff" rid="aff-2">2</xref>
				</contrib>
				<contrib contrib-type="author">
					<name>
						<surname>Волкова</surname>
						<given-names>Ирина Анатольевна</given-names>
					</name>
					<email>irina.a.volkova@gmail.com</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Московский государственный университет</institution>
			</aff>
			<aff id="aff-2">
				<institution-wrap>
					<institution-id institution-id-type="ROR">https://ror.org/010pmpe69</institution-id>
					<institution content-type="education">Московский государственный университет</institution>
				</institution-wrap>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-05-18">
				<day>18</day>
				<month>05</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>11</volume>
			<issue>167</issue>
			<fpage>1</fpage>
			<lpage>11</lpage>
			<history>
				<date date-type="received" iso-8601-date="2026-04-02">
					<day>02</day>
					<month>04</month>
					<year>2026</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-04-24">
					<day>24</day>
					<month>04</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/5-167-2026-may/10.60797/IRJ.2026.167.64"/>
			<abstract>
				<p>Работа посвящена использованию мультиязычного корпуса НКРЯ, последовательных переводов и векторных представлений BERT в задаче поиска репрезентаций фреймов для конкретной семантической зоны. Проблема заключается в определении, как семантическая зона представлена в исследуемом языке и в каких ситуациях она может проявляться в виде фреймов. Проведен обзор существующих методов, описаны их достоинства и недостатки. Сравниваются подходы, основанные на кластеризации векторов BERT параллельных переводов, фильтрации по косинусной мере, выделению фреймов с помощью тезауруса WordNet, последовательных переводов через промежуточный язык и последующей кластеризации векторов BERT. Самые лучшие результаты показывает метод с последовательными переводами и последующей кластеризацией. Определение сходства работает лучше, чем кластеризация, для параллельных корпусов. Проведена оценка работы и предложены объяснения полученных результатов. Даны рекомендации по подбору параметров работы алгоритмов для семантической зоны «тянуть — толкать».</p>
			</abstract>
			<kwd-group>
				<kwd>лексическая типология</kwd>
				<kwd> параллельные корпуса</kwd>
				<kwd> последовательные переводы</kwd>
				<kwd> BERT</kwd>
				<kwd> классификация текстов</kwd>
				<kwd> компьютерная лингвистика</kwd>
				<kwd> семантические фреймы</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>На сегодняшний день количество методов, предназначенных для автоматизации поиска фреймов в пределах заданной семантической зоны, остаётся ограниченным. При этом данная задача является важной частью лексической типологии, сохраняет актуальность и в большинстве исследований по-прежнему решается ручными методами. В настоящей работе для её решения предлагается автоматизированный подход, основанный на использовании параллельного корпуса Национального корпуса русского языка </p>
			<p>[1][2][2]»</p>
			<p>Лексическая типология занимается изучением способов, с помощью которых язык выражает конкретные явления, а также сопоставляет соответствующие лексические средства в различных языках. Например, в русском языке один и тот же термин может обозначать как пальцы руки, так и пальцы ноги, тогда как в английском для этих понятий используются разные слова  finger и toe. Помимо межъязыкового сравнения, исследованию подлежат семантические поля внутри одного языка и способы их выражения. Так, в семантической области «чинить  портить» можно выделить различные варианты значений: «делать вновь пригодным», «настраивать инструмент», «изменять деятельность», «ухудшать». Такие варианты употребления образуют отдельные фреймы [3].</p>
			<p>На основе выявленных фреймов можно составить таблицу, где строки будут соответствовать самим фреймам, столбцы  языкам, а в ячейках будут приведены лексические единицы, реализующие эти фреймы в разных языках. Цель данной статьи  автоматизированное создание таких фреймов.</p>
			<p>Таким образом, задача данного исследования состоит в автоматизированном поиске представлений фреймов, которые реализуют исследуемую семантическую зону «тянуть — толкать</p>
			<p>»</p>
			<p>Работа является актуальной, поскольку до сих пор большинство современных исследований семантических полей используют полностью ручные методы: </p>
			<p>[3][6][8][9]</p>
			<p>2. Обзор литературы</p>
			<p>2.1. Ручные методы</p>
			<p>Одной из задач лексической типологии является изучение семантических полей. Например, поле «тянуть  толкать». В задаче необходимо найти все варианты реализации поля в конкретном языке. Данное поле может быть реализовано в следующий вариантах: «открывать от себя», «увеличивать в размере», «привлекать внимание», «перемещать на себя» и т.п. Также дополнительно реализации могут быть сравнены среди разных языков.</p>
			<p>Для таких исследований выделяют четыре основных подхода. Первый из них, известный как метод Московской лексико-типологической школы [10], основан на использовании фреймов. В рамках этого подхода каждая ситуация, относящаяся к определённому семантическому полю, описывается с помощью фрейма  набора характеристик, выраженных словами. Например, фрейм «нажимать предмет вперёд» относится к семантической области «тянуть  толкать». В языке этот фрейм реализуется через конкретные лексемы, причём возможное количество фреймов может быть довольно большим. Их выбор исследователь осуществляет на основе словарей, переводных материалов и собственных интуитивных суждений, а также может опираться на синхронные переводы текстов.</p>
			<p>На следующем этапе формируется таблица: строки содержат описания фреймов, столбцы — лексемы, а в ячейках фиксируется, соответствует ли конкретная лексема данному фрейму. Существует альтернативная структура таблицы, где строки обозначают фреймы, столбцы  языки, а в ячейках указываются лексемы, через которые этот фрейм реализуется в каждом языке. Основным недостатком такого подхода является ручной характер выделения фреймов. Кроме того, при работе со словарями исследователь вынужден ограничивать область поиска, так как в процессе перевода появляются новые фреймы, зачастую лишь косвенно связанные с изучаемым семантическим полем из-за многозначности слов. Поэтому нередко требуется привлечение носителей соответствующих языков.</p>
			<p>Второй подход использует физическое восприятие человека [11]. Исследователь подготавливает набор универсальных стимулов  объектов с определённым вкусом, запахом, цветом или формой  и показывает их носителям языка. Задача информанта заключается в том, чтобы как можно точнее описать представленный объект словами. Сравнивая ответы носителей разных языков, можно определить, какими лексическими средствами выражаются одни и те же стимулы в разных языках. К недостаткам этого метода относятся невозможность отразить всё многообразие лексических единиц с помощью физических стимулов, высокая трудоёмкость и значительные затраты времени. Кроме того, этот подход требует обязательного участия носителей языка.</p>
			<p>Третий подход опирается на использование универсальных семантических примитивов, с помощью которых, как предполагается, можно описать любую ситуацию [12]. Этот метод применяет систему из 64 базовых понятий, комбинации которых позволяют выводить все остальные значения. Главными недостатками подхода являются неоднозначность интерпретации получаемых значений и высокая методологическая сложность.</p>
			<p>Четвёртый подход основан на анализе параллельных текстовых корпусов. Исследователь определяет переводные соответствия для различных способов реализации конкретной семантической зоны. Основным ограничением этого метода является отсутствие или недостаточная полнота параллельных корпусов для редких и малоизученных языков.</p>
			<p>Фреймовый подход является наиболее широко применяемым в лингвистических исследованиях. Так, в работе [3] с его помощью анализируется семантическое поле «мешать». В исследовании [4] рассматривается семантическая область «домашний скот» на материале германских и славянских языков, при этом основным источником данных выступает лексический фонд. В работе [5] при изучении семантических зон «попасть, упасть» и «задеть, попасть» в казымском диалекте хантыйского языка используются корпусные данные, словари и сведения, полученные от носителей языка.</p>
			<p>Авторы работы [6] исследуют семантическую зону «острый» в китайском языке с опорой на данные словарей, текстовых корпусов и сведения, полученные от информантов. В работе [7] анализируется семантическое поле «шахматная игра» в русском языке с использованием модели «центр  периферия», где в центре сосредоточены наиболее узкоспециализированные семантические признаки, а на периферии — менее специализированные.</p>
			<p>В исследовании [8] для анализа семантической зоны «мягкий», «твёрдый», «жёсткий» применялся метод анкетирования носителей языка. В работе [9] семантическая зона слова «город» исследуется на материале литературных источников.</p>
			<p>2.2. Автоматизированные методы</p>
			<p>Подходы, основанные на автоматизации, пока остаются слабо развитыми. Так, в работе [13] применяются заранее подготовленные анкеты, которые затем автоматически переводятся на другие языки с использованием словарей и параллельных корпусов. Исследование посвящено семантическим зонам «острый  гладкий» и «толстый  тонкий». Основным ограничением данного подхода является необходимость предварительной подготовки таких анкет.</p>
			<p>Авторы исследования [14] используют биграммы Национального корпуса русского языка [1], дополненные различными леммами. Для кластеризации создаются векторные представления: выбираются 10 000 наиболее частотных лексем, после чего для каждого исследуемого слова подсчитывается количество совместных употреблений с каждой из этих лексем в окне шириной пять слов. Для анализа применяются алгоритмы иерархической кластеризации, поскольку методы, не требующие заранее заданного числа кластеров, показали низкую эффективность. Основными недостатками данного подхода являются отсутствие в векторных представлениях семантической информации и данных о контексте употребления.</p>
			<p>Современные мультиязычные модели, такие как BERT, показывают способность формировать общее семантическое пространство для разных языков </p>
			<p>[15][16]</p>
			<p>3. Алгоритм работы</p>
			<p>3.1. Кластеризация переводов</p>
			<p>Исследование проведено на материале текстов Национального корпуса русского языка, а именно на его мультиязычном корпусе [1]. Составляются векторы BERT [17] предложений русского языка и их переводы на английский язык. Затем они кластеризуются методом K-means [18]. Если перевод предложения оказался в другом кластере, возможно, этот перевод дает новое значение семантической зоны. Предложения, чьи переводы оказываются в другом кластере, считаются репрезентациями фреймов,  поскольку содержат контекст и позволяют выразить ситуацию, в которой фрейм применяется (как и в работе [2] предложения тоже приводятся для описания фреймов). Также вместо алгоритма K-means исследуется алгоритм DBSCAN [19].</p>
			<p>Псевдокод алгоритма:</p>
			<p>3.2. Кластеризация по сходству</p>
			<p>Данный подход аналогичен методу, описанному выше, однако для определения того, попадают ли оригиналы предложений и их переводы в разные кластеры, используется сходство их векторов по косинусной мере.</p>
			<p> Если разница векторов больше определенного значения, то они попадают в разные кластеры, а иначе  в один. Это значение подбирается  для достижения наилучшего качества. Предложения, векторы переводов которых оказались в другом кластере, считаются репрезентацией фреймов.</p>
			<p>Псевдокод алгоритма:</p>
			<p>3.3. Последовательные переводы через промежуточный язык с кластеризацией K-means</p>
			<p>В следующем предлагаемом данной статьей подходе используется тезаурус WordNet [20]. Слова из исследуемой семантической зоны переводятся на английский язык. Для них находятся синонимы из тезауруса. Затем каждый синоним переводится в промежуточный язык. Используется переводчик Google через API с помощью библиотеки Googletrans (pypi.org/project/googletrans/). В качестве промежуточного языка выбран польский, поскольку это один из языков в мультиязычном корпусе НКРЯ. Затем слова из промежуточного языка переводятся обратно на русский. Далее итерация повторяется не больше 3 раз, чтобы снизить вероятность перехода в другую семантическую зону. Итерация также прерывается, если после перевода не получено новых слов. </p>
			<p>Затем в основном корпусе НКРЯ находятся предложения, содержащие найденные слова. Берутся их векторы BERT, далее выполняется кластеризация методом K-means. Для каждого кластера находится центроид и предложение, вектор которого наиболее близок к центроиду. Найденные предложения считаются репрезентацией фреймов.</p>
			<p>Псевдокод алгоритма:</p>
			<p>4. Эксперименты</p>
			<p>4.1. Кластеризация переводов</p>
			<p>Материалом для исследования является мультиязычный датасет Национального корпуса русского языка [1]. Он состоит из Единицами анализа для поиска всех предложений являются лексемы «тянуть» и «толкать».</p>
			<p>Находятся все предложения, содержащие данные лексемы. Всего таких предложений для зоны «тянуть» найдено 494, а для зоны «толкать»  22. Далее все найденные предложения и их переводы кластеризуются. Кластеризация необходима для того, чтобы объединить одинаковые по смыслу предложения в один кластер. Предполагается, что все они являются различными репрезентациями одного и того же фрейма, а предложения в разных кластерах представляют разные фреймы. Таким образом, кластеры состоят из предложений. Если предложение и его перевод попали в разные кластеры, то, возможно, в английском переводе появляется новый фрейм. Находятся все такие предложения, переводы которых попали в другой кластер. Они считаются репрезентациями фреймов для исследуемой семантической зоны. Сам фрейм является смыслом исследуемого слова (представляющим исследуемую семантическую зону) в данном предложении.</p>
			<p>Для алгоритма K-means необходимо выбрать количество кластеров, на которые разбивать множество предложений. По методу локтя [21] для зоны «тянуть» было выбрано разбиение на 10 кластеров, а для зоны «толкать»  на 11. Затем после кластеризации для каждого предложения на русском языке было найдено, находится ли его перевод на английский язык в одном с ним кластере или в другом.</p>
			<p>Результаты экспериментов показали, что описанный выше алгоритм дает приемлемые по сравнению с работой [2] результаты только для зоны «толкать». Для нее было найдено 11 предложений на русском языке, переводы которых (тоже 11) попали в отличные от оригинала кластер. Переводов, которые попали в один кластер с оригиналом, не найдено.</p>
			<p>Ниже приведены некоторые из найденных предложений и их переводов (Здесь и далее примеры взяты из Национального корпуса русского языка [1]). </p>
			<p>Но вот на улице появился запыхавшийся и вспотевший человек, который с большим трудом один толкал две тачки с углем.</p>
			<p>Just then a man passed by, worn out and wet with perspiration, pulling, with difficulty, two heavy carts filled with coal.</p>
			<p>- Да при чем здесь «толкнул»? - сердясь на общую бестолковость, воскликнул Иван,  такому и толкать не надо! Он такие штуки может выделывать, что только держись! Он заранее знал, что Берлиоз попадет под трамвай!</p>
			<p> «What are you talking about?» exclaimed Ivan, irritated by his listener's failure to grasp the situation. «He didn't have to push him! He can do thing».</p>
			<p>Иван впал в беспокойство, растолкал окружающих, начал размахивать свечой, заливая себя воском, и заглядывать под столы. Тут послышалось слово, «доктора!»  и чье-то ласковое мясистое лицо, бритое и упитанное, в роговых очках, появилось перед Иваном.</p>
			<p>Ivan was by now in a state of some excitement. Pushing the bystanders aside he began waving his candle about, pouring wax on himself, and started to look under the tables. Then somebody said «Doctor!» and a fat, kindly face, clean-shaven, smelling of drink and with horn-rimmed spectacles, appeared in front of Ivan.</p>
			<p>Для зоны «тянуть» было найдено 490 предложений, переводы которых попали в кластеры, отличные от кластеров оригиналов (при этом только для 4-х предложений соответствующие им переводы оказались в том же кластере). </p>
			<p>При варьировании параметра значения количества кластеров для алгоритма K-means от 2 до 20 в разные кластеры попадало от 490 до 492 переводов на английский язык. Таким образом, параметр количества кластеров очень слабо влиял на результат. В связи с этим для зоны «тянуть» описанный в данной главе алгоритм не работает, поскольку значение 490 намного больше найденных в работе [2] предложений (в ней для зоны «тянуть» было найдено 10).</p>
			<p>Поэтому оценка была произведена только для зоны «толкать»: найденные представления фреймов в виде предложений на русском языке были сравнены с представлением фреймов из работы [2]. Была подсчитана точность, полнота и F-мера. Результаты приведены в таблице 1.</p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Оценка кластеризации переводов K-means</p>
				</caption>
				<table>
					<tr>
						<td>​</td>
						<td>Толкать</td>
					</tr>
					<tr>
						<td>Точность</td>
						<td>​80</td>
					</tr>
					<tr>
						<td>Полнота</td>
						<td>​36</td>
					</tr>
					<tr>
						<td>F-мера</td>
						<td>​50</td>
					</tr>
				</table>
			</table-wrap>
			<p>Для дальнейших исследований был выбран вариант алгоритма с кластеризацией DBSCAN. Его параметры позволяют задать работу более тонко. Для зоны «тянуть» оптимальными были выбраны следующие параметры:</p>
			<p>eps: 0.08</p>
			<p>min_samples: 5</p>
			<p>При этих параметрах находится 10 предложений. Возможные значения min_samles лежат в диапазоне от 1 до 15. При значениях min_samples больше 15 в разных кластерах становится больше предложений - уменьшается точность. Если уменьшать eps, падает точность, если увеличивать  падает полнота.</p>
			<p>Для зоны «толкать» такие же параметры дают только 2 предложения. Оптимальными были выбраны следующие параметры:</p>
			<p>eps: 0.06</p>
			<p>min_samples: 5</p>
			<p>Данные параметры позволяют найти 12 предложений. Отличные значения eps дают меньше предложений и уменьшают полноту. Значение min_samples могут быть в диапазоне от 5 до 9. Значения min_samples меньше 5 дают больше предложений и уменьшают точность, значения min_samples больше 9 дают меньше предложений и уменьшают полноту.</p>
			<p>Оценка приведена в таблице 2</p>
			<table-wrap id="T2">
				<label>Table 2</label>
				<caption>
					<p>Оценка кластеризации переводов DBSCAN</p>
				</caption>
				<table>
					<tr>
						<td>​</td>
						<td>Тянуть</td>
						<td>Толкать</td>
						<td>Тянуть - толкать</td>
					</tr>
					<tr>
						<td>Точность</td>
						<td>70</td>
						<td>80</td>
						<td>75</td>
					</tr>
					<tr>
						<td>Полнота</td>
						<td>60</td>
						<td>46</td>
						<td>53</td>
					</tr>
					<tr>
						<td>F-мера</td>
						<td>65</td>
						<td>58</td>
						<td>62</td>
					</tr>
				</table>
			</table-wrap>
			<p>4.2. Кластеризация по сходству</p>
			<p>Для зоны «тянуть» оптимальный порог близости был найден 0.82, поскольку на нем достигаются наилучшие значения точности и полноты. Для зоны «толкать» оптимальный порог сходства был найден 0.905. Было найдено 11 предложений в разных кластерах. Оценка приведена в таблице 3.</p>
			<table-wrap id="T3">
				<label>Table 3</label>
				<caption>
					<p>Кластеризации по сходству BERT</p>
				</caption>
				<table>
					<tr>
						<td>​</td>
						<td>Тянуть</td>
						<td>Толкать</td>
						<td>Тянуть - толкать</td>
					</tr>
					<tr>
						<td>Точность</td>
						<td>57</td>
						<td>78</td>
						<td>70</td>
					</tr>
					<tr>
						<td>Полнота</td>
						<td>60</td>
						<td>73</td>
						<td>67</td>
					</tr>
					<tr>
						<td>F-мера</td>
						<td>59</td>
						<td>76</td>
						<td>69</td>
					</tr>
				</table>
			</table-wrap>
			<p>Таким образом, фильтрация по близости векторов позволяет задавать более тонкую настройку и более гибко оптимизировать работу.</p>
			<p>4.3. Последовательные переводы через промежуточный язык с кластеризацией K-means</p>
			<p>Эксперименты показали, что со второй итерации алгоритма переводы стали достаточно отдаленные от первоначальной зоны «тянуть», поэтому была сделана одна итерация алгоритма. Найдено 23 слова. Затем в корпусе НКРЯ были найдены все предложения с этими словами, найдены их векторы BERT и кластеризованны в 17 кластеров по методу локтя [21].</p>
			<p>Некоторые из найденных предложений:</p>
			<p>Артист вытянул вперед руку, на пальцах которой сверкали камни, как бы заграждая уста буфетчику, и заговорил с большим жаром,</p>
			<p>Белая волокнистая пелена, затянувшая почти все болото, с каждой минутой приближалась к дому.</p>
			<p>Он быстро поел, а в столовую еще тянулись сгорбленные старцы и старухи.</p>
			<p>Мероприятие, предполагавшее живой обмен мнениями, затянулось на два часа и порой напоминало лекцию на юрфаке.</p>
			<p>—</p>
			<p> Да  как будто удивился он, потом протянул в раздумье:  Оч-чень хо-ро-шо!</p>
			<p>Для подзоны «толкать», как и для подзоны «тянуть», со второй итерации идет сильный переход в другие зоны, поэтому была сделана только одна итерация переводов.</p>
			<p>Был найден фрейм «нажимать на кнопку», который не был найден ни в одном их предыдущих алгоритмов:</p>
			<p>«Человек нажал кнопку, включавшую аппарат, и тонкий луч света, пронзив пространство, прямой наводкой попал в глазок камеры.»</p>
			<p>Количество кластеров по методу локтя для зоны «тянуть» было выбрано 11, а для «толкать» 10. </p>
			<p>Кластеры представлены векторами BERT предложений, поэтому для их визуализации необходимо уменьшить размерность до 2-х главных компонент. Это сделано с помощью метода PCA [22]. Визуализация представлена на рисунках 1 и 2 для зоны «тянуть» и «толкать» соответственно с помощью библиотеки matplotlib.</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Кластеры K-means для зоны «тянуть»</p>
				</caption>
				<alt-text>Кластеры K-means для зоны «тянуть»</alt-text>
				<graphic ns0:href="/media/images/2026-04-12/d6fcac3e-ff82-4517-8d74-d06b03cfd58f.png"/>
			</fig>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p>Кластеры K-means для зоны «толкать»</p>
				</caption>
				<alt-text>Кластеры K-means для зоны «толкать»</alt-text>
				<graphic ns0:href="/media/images/2026-04-12/9ce07671-9553-413f-8871-4384bdb2e268.png"/>
			</fig>
			<p>Оценка приведена в таблице 4.</p>
			<table-wrap id="T4">
				<label>Table 4</label>
				<caption>
					<p>Последовательные переводы и кластеризация</p>
				</caption>
				<table>
					<tr>
						<td>​</td>
						<td>Тянуть</td>
						<td>Толкать</td>
						<td>Тянуть - толкать</td>
					</tr>
					<tr>
						<td>Точность</td>
						<td>71</td>
						<td>90</td>
						<td>78</td>
					</tr>
					<tr>
						<td>Полнота</td>
						<td>80</td>
						<td>60</td>
						<td>70</td>
					</tr>
					<tr>
						<td>F-мера</td>
						<td>75</td>
						<td>72</td>
						<td>74</td>
					</tr>
				</table>
			</table-wrap>
			<p>5. Результаты</p>
			<p>В Таблице 5 приведены сравнительные оценки работы алгоритмов. Жирным выделен самый лучший результат среди всех алгоритмов по соответствующей оценке. Подчеркиванием выделен самый лучший результат для каждой из зон «тянуть», «толкать», «тянуть  толкать».</p>
			<table-wrap id="T5">
				<label>Table 5</label>
				<caption>
					<p>Сравнение работы алгоритмов</p>
				</caption>
				<table>
					<tr>
						<td>​</td>
						<td>К-П-К-Т1</td>
						<td>К-П-К-Т2</td>
						<td>К-П-К-ТО</td>
						<td>К-П-B-Т1</td>
						<td>К-П-B-Т2</td>
						<td>К-П-B-ТО</td>
						<td>К-П-П-Т1</td>
						<td>К-П-П-Т2</td>
						<td>К-П-П-О</td>
					</tr>
					<tr>
						<td>P</td>
						<td>70</td>
						<td>80</td>
						<td>75</td>
						<td>57</td>
						<td>78</td>
						<td>70</td>
						<td>71</td>
						<td>90</td>
						<td>78</td>
					</tr>
					<tr>
						<td>R</td>
						<td>60</td>
						<td>46</td>
						<td>53</td>
						<td>60</td>
						<td>73</td>
						<td>67</td>
						<td>80</td>
						<td>60</td>
						<td>70</td>
					</tr>
					<tr>
						<td>F</td>
						<td>65</td>
						<td>58</td>
						<td>62</td>
						<td>59</td>
						<td>76</td>
						<td>69</td>
						<td>75</td>
						<td>72</td>
						<td>74</td>
					</tr>
				</table>
			</table-wrap>
			<p>Самые лучшие результаты показал подход с параллельными переводами и последующей кластеризацией K-means. Он достиг лучших результатов по точности (зона «толкать») и по полноте (зона «тянуть»). Также достиг самых лучших показателей по всем зонам кроме полноты для зоны «толкать» и F-меры для зоны «толкать».</p>
			<p>Немного хуже показал результаты подход с фильтрацией BERT. Он достиг самые лучшие результаты по F-мере (для зоны «толкать»), также показал самый лучший результат по полноте для зоны «толкать».</p>
			<p>Подход с кластеризацией параллельных переводов занял 3 место. Однако отставание незначительное. По точности для зоны «тянуть» он показал почти такое же значение, как подход с последовательными переводами, и выше, чем подход с фильтрацией по близости BERT. По полноте для зоны «тянуть» показал такой же результат, как второй подход. Низкие результаты он дал только по полноте для зоны «толкать».</p>
			<p>6. Выводы</p>
			<p>Была поставлена задача содействия решению лексико-типологической проблемы определения фреймов семантической зоны «тянуть — толкать» с использованием автоматизированных подходов. Традиционно задача решается ручными методами, которые требуют привлечения лингвистов, носителей языка, лингвистических ресурсов, времени и трудозатрат.</p>
			<p>Для автоматизации ее решения были предложены и реализованы методы, использующие современные контекстуализированные векторные представления BERT, алгоритмы кластеризации DBSCAN и K-means, мультиязычный корпус НКРЯ и словарь переводов.</p>
			<p>Был исследован алгоритм кластеризации векторов BERT переводов с помощью K-means и DBSCAN с последующим выявлением предложений, чьи переводы попали в другой кластер в отличие от оригинала. Такие предложения считались репрезентацией фреймов для исследуемой семантической зоны. Его вариант с </p>
			<p>K-means показал неудовлетворительные результаты для зоны «тянуть». Возможно, это связано с тем, что векторы переводов достаточно близки, и их разница недостаточна для нахождения новых фреймов. При этом при замене K-means на DBSCAN алгоритм начинает работать. Это может быть связано с тем, что DBSCAN позволяет более гибко регулировать работу алгоритма. </p>
			<p>Также был исследован алгоритм кластеризации векторов BERT переводов с помощью сходству по косинусной мере. В нем для определения того, что предложения и их переводы попали в разный кластер, вместо DBSCAN и K-means используется сходство векторов по косинусной мере. Если сходство больше опредлённого порога, найденного экспериментально, то вектор перевода попадает в отличный от оригинального предложения кластер. Все предложения, где вектор перевода попал в другой кластер, считаются репрезентацией фреймов исследуемой зоны. Подход показал более стабильные результаты и занял второе место среди исследуемых алгоритмов. </p>
			<p> Это говорит о том, что порог сходства по косинусной мере BERT позволяет достаточно точно находить репрезентации фреймов.</p>
			<p>Самых лучших результатов удалось достичь с помощью подхода с последовательными переводами с русского на английский через промежуточный язык, расширением слов из тезауруса и последующей кластеризацией K-means. В нем слова исследуемой семантической зоны последовательно переводятся с русского на английский через промежуточный язык, расширяются синонимами из тезауруса, затем в корпусе НКРЯ находятся все предложения, содержащие данные слова, и эти предложения кластеризуются алгоритмом K-means. Для каждого кластера находится центроид и наиболее приближенный к нему вектор предложения из кластера. Предложения, которые соответствуют данным векторам, считаются репрезентациями фреймов. Подход показал наилучшие результаты,  генерация слов через последовательные переводы и добавление синонимов через тезаурус дает много слов, которые принадлежат исследуемой семантической зоне, при этом не сильно выходят за ее пределы. Кластеризация их векторов BERT помогает объединить по смыслу одинаковые предложения с данными словами и получить предложения, наиболее точно представляющие каждый из фреймов семантической зоны.</p>
			<p> </p>
			<p>7. Заключение</p>
			<p>Было реализовано три подхода к автоматизации поиска репрезентаций фреймов в области лексической типологии на параллельных корпусах и с помощью последовательных переводов через промежуточный язык. Метод с последовательными переводами демонстрирует результаты лучше, чем методы на параллельных корпусах. При этом все три подхода дают близкие результаты. Поэтому  можно применять любой из трех алгоритмов. Они показали свою работоспособность и гибкость. Таким образом, были разработаны методы, позволяющие автоматизировать часть работы лингвистов и сделать ее более эффективной.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24608.docx">24608.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24608.pdf">24608.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.167.64</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Савчук С.О. Национальный корпус русского языка 2.0: новые возможности и перспективы развития / С.О. Савчук, А.А. Архангельский, А. А. Бонч-Осмоловская, О. В. Донина, Ю. Н. Кузнецова, О. Н. Ляшевская, Б. В. Орехов , М. В. Подрядчикова // Вопросы языкознания. — 2024. — 2. — с. 7–34.</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Савельева А.Ю. Глаголы семантических зон «ТЯНУТЬ» и «ТОЛКАТЬ» в типологической перспективе / А.Ю. Савельева // Проблемы компьютерной лингвистики и типологии: сб. Всерос. конф. — Воронеж: Издательский дом ВГУ, 2017. — С. 142–152.</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Дунаева К.О. Семантическое поле «мешать» в типологической перспективе / К.О. Дунаева, В.В. Маринина // XXVI Открытая конференция студентов-филологов в СПбГУ. — Санкт-Петербург: СПбГУ, 2023. — С. 34–37.</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Шешкина Т.Ф. Германо-славянские параллели семантического поля «Домашний скот» в немецких лексикографических источниках / Т.Ф. Шешкина // Филологические науки. Вопросы теории и практики. — 2020. — 6. — с. 303–307. DOI: 10.30853/filnauki.2020.6.57.</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Рыжова Д.А. Фрагмент лексической системы казымского диалекта хантыйского языка: глаголы pitti «упасть, попасть» и χɔjti «задеть, попасть» и их аргументная структура / Д.А. Рыжова // Урало-алтайские исследования. — 2022. — 2(45). — с. 123–140. DOI: 10.37892/2500-2902-2022-45-2-123-140.</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Холкина Л.С. Семантическое поле ОСТРЫЙ в китайском языке: диахроническое развитие и его отражение в современных диалектах / Л.С. Холкина, Л.О. Наний, Ц. Сы // Journal of Language Relationship. — 2023. — 20(3-4). — с. 280–298. DOI: 10.31826/jlr-2023-203-410.</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Влавацкая М.В. Лексико-семантическое поле «шахматная игра» в современном русском языке / М.В. Влавацкая // Мир науки, культуры, образования. — 2022. — 2(93). — с. 293–297.</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Кашкин Е.В. Категоризация качественных признаков «мягкий», «твердый», «жесткий» в горномарийском языке / Е.В. Кашкин // Вестник ВГУ. Серия: Лингвистика и межкультурная коммуникация. — 2022. — 1. — с. 140–150. DOI: 10.17308/lic.2022.1/9009.</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Григорьева О.Н. Лексико-семантическая группа «город» в современных российских масс-медиа / О.Н. Григорьева // Вестник Московского государственного областного университета. Серия: Русская филология. — 2018. — 5. — с. 31–37. DOI: 10.18384/2310-7278-2018-5-31-38.</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Рахилина Е.В. Фреймовый подход к лексической типологии / Е.В. Рахилина, Т.И. Резникова // Вопросы языкознания. — 2013. — 2. — с. 3–31.</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Berlin B. Color Terms: Their Universality and Evolution / B. Berlin — Berkeley: Berkeley: University of California Press, 1969. — 178 с. [in English]</mixed-citation>
			</ref>
			<ref id="B12">
				<label>12</label>
				<mixed-citation publication-type="confproc">Wierzbicka A. Semantic and lexical universals: Theory and emperical findings / A. Wierzbicka // Linguistic Investigations. — 1994. — 21. — с. 249–261. [in English]</mixed-citation>
			</ref>
			<ref id="B13">
				<label>13</label>
				<mixed-citation publication-type="confproc">Kyuseva M. Automatic data collection in lexical typology / M. Kyuseva, E. Parina, D. Ryzhova // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2018». — 2018. — 1. — с. 29–55. [in English]</mixed-citation>
			</ref>
			<ref id="B14">
				<label>14</label>
				<mixed-citation publication-type="confproc">Рыжова Д.А. Опыт автоматического построения анкеты для лексико-типологического исследования прилагательных и одноместных глаголов с помощью моделей дистрибутивной семантики / Д.А. Рыжова // ВЕСТНИК РГГУ. Сер.: История. Филология. Культурология. Востоковедение. — 2016. — 18. — с. 140–150.</mixed-citation>
			</ref>
			<ref id="B15">
				<label>15</label>
				<mixed-citation publication-type="confproc">Karthikeyan K. Cross-Lingual Ability of Multilingual BERT: An Empirical Study / K. Karthikeyan, Z. Wang, S. Mayhew, D. Roth // International Conference on Learning Representations. — 2020. — 1. DOI: 10.48550/arXiv.1912.07840. [in English]</mixed-citation>
			</ref>
			<ref id="B16">
				<label>16</label>
				<mixed-citation publication-type="confproc">Ruder S. Survey of Cross-lingual Word Embedding Models / S. Ruder, I. Vulić, A. Søgaard // Journal of Artificial Intelligence Research. — 2019. — 65. — с. 569–631. DOI: 10.1613/jair.1.11640. [in English]</mixed-citation>
			</ref>
			<ref id="B17">
				<label>17</label>
				<mixed-citation publication-type="confproc">Devlin J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin, M. Chang, K. Lee // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2019. — 1. — с. 4171–4186. DOI: 10.18653/v1/N19-1423. [in English]</mixed-citation>
			</ref>
			<ref id="B18">
				<label>18</label>
				<mixed-citation publication-type="confproc">Jin X. K-Means Clustering / X. Jin, J. Han // Encyclopedia of Machine Learning. — 2011. — 1. — с. 563–563. DOI: 10.1007/978-0-387-30164-8_425. [in English]</mixed-citation>
			</ref>
			<ref id="B19">
				<label>19</label>
				<mixed-citation publication-type="confproc">Martin E. A density-based algorithm for discovering clusters in large spatial databases with noise / E. Martin, K. Hans-Peter, S. Jorg // KDD'96: Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. — 1996. — 1. — с. 226–231. DOI: 10.13140/RG.2.1.4420.1448. [in English]</mixed-citation>
			</ref>
			<ref id="B20">
				<label>20</label>
				<mixed-citation publication-type="confproc">Miller A.G. Introduction to WordNet: An On-line Lexical Database / A.G. Miller, R. Beckwith, C. Fellbaum, D. Gross // International Journal of Lexicography. — 1991. — 3(4). — с. 235–244. DOI: 10.1093/oso/9780199292332.003.0022. [in English]</mixed-citation>
			</ref>
			<ref id="B21">
				<label>21</label>
				<mixed-citation publication-type="confproc">Thorndike L. R. «Who Belongs in the Family?« / L. R. Thorndike // Psychometrika. — 1953. — 18 (4). — с. 267–276. [in English]</mixed-citation>
			</ref>
			<ref id="B22">
				<label>22</label>
				<mixed-citation publication-type="confproc">Hotelling H. Analysis of a complex of statistical variables into principal components / H. Hotelling // Journal of Educational Psychology. — 1932. — 24(6). — с. 417–441. DOI: 10.1037/h0071325. [in English]</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>