<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN"
        "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<!--<?xml-stylesheet type="text/xsl" href="article.xsl"?>-->
<article article-type="research-article" dtd-version="1.2" xml:lang="en" xmlns:mml="http://www.w3.org/1998/Math/MathML"
         xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <front>
        <journal-meta>
            <journal-id journal-id-type="issn">2303-9868</journal-id>
            <journal-id journal-id-type="eissn">2227-6017</journal-id>
            <journal-title-group>
                <journal-title>Международный научно-исследовательский журнал</journal-title>
            </journal-title-group>
            <issn pub-type="epub">2303-9868</issn>
            <publisher>
                <publisher-name>ООО Цифра</publisher-name>
            </publisher>
        </journal-meta>
        <article-meta>
            <article-id pub-id-type="doi">10.60797/IRJ.2024.143.122</article-id>
            <article-categories>
                <subj-group>
                    <subject>Brief communication</subject>
                </subj-group>
            </article-categories>
            <title-group>
                <article-title>Анализ длины предложений и слов в ежегодных выступлениях лидеров партий Великобритании
                </article-title>
            </title-group>
            <contrib-group>
                <contrib contrib-type="author" corresp="yes">
                    <contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-7066-8768</contrib-id>
                    <name>
                        <surname>Мартюшев</surname>
                        <given-names>Леонид Михайлович</given-names>
                    </name>
                    <email>leonidmartyushev@gmail.com</email>
                    <xref ref-type="aff" rid="aff-1">1</xref>

                </contrib><contrib contrib-type="author">
                    
                    <name>
                        <surname>Цижмовска</surname>
                        <given-names>Наталья Лешековна</given-names>
                    </name>
                    <email>n.l.tsizhmovska@urfu.ru</email>
                    
                </contrib>
            </contrib-group>
            <aff id="aff-1"><label>1</label>Уральский федеральный университет имени первого Президента России Б. Н. Ельцина</aff>
            
        <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2024-05-31">
            <day>31</day>
            <month>05</month>
            <year>2024</year>
        </pub-date>
        
            
        <pub-date pub-type="collection">
            <year>2024</year>
        </pub-date>
        
            <volume>7</volume>
            <issue>143</issue>
            <fpage>1</fpage>
            <lpage>7</lpage>
            <history>
                
        <date date-type="received" iso-8601-date="2024-05-24">
            <day>24</day>
            <month>05</month>
            <year>2024</year>
        </date>
        
                
        <date date-type="accepted" iso-8601-date="2024-05-27">
            <day>27</day>
            <month>05</month>
            <year>2024</year>
        </date>
        
            </history>
            <permissions>
                <copyright-statement>Copyright: &#x00A9; 2022 The Author(s)</copyright-statement>
                <copyright-year>2022</copyright-year>
                <license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
                    <license-p>This is an open-access article distributed under the terms of the Creative Commons
                        Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution,
                        and reproduction in any medium, provided the original author and source are credited. See <uri
                                xlink:href="http://creativecommons.org/licenses/by/4.0/">
                            http://creativecommons.org/licenses/by/4.0/</uri>.
                    </license-p>
                </license>
            </permissions>
            <self-uri xlink:href="https://research-journal.org/archive/5-143-2024-may/10.60797/IRJ.2024.143.122"/>
            <abstract>
                <p>Проведен анализ длины предложений и длин слов в ежегодных выступлениях лидеров партий Великобритании. Для анализа использовались стенограммы 224 выступлений, произнесенных в период с 1895 по 2018. Установлено, что средняя длина предложения в речи линейно уменьшается с углом наклона 0.14 ± 0.01 слова в год, а распределение длины предложений наилучшим образом подчиняется распределению Вейбулла среди проанализированных (Weibull, Log Normal, Rayleigh, Folded Normal, Half Normal, Normal). Предложено, что полученные результаты объясняются принципом наименьших усилий. Средняя длина слова практически не меняется со временем (среднее значение либо не меняется, либо меняется незначительно), а распределение длины слова в отличие от длины предложений лучше описывается логнормальным распределением по сравнению, например, с распределениями Вейбулла или Пуассона.</p>
            </abstract>
            <kwd-group>
                <kwd>длина слова</kwd>
<kwd> длина предложения</kwd>
<kwd> квантитативная лингвистика</kwd>
<kwd> логнормальное распределение</kwd>
<kwd> распределение Вейбулла</kwd>
<kwd> логнормальное распределение</kwd>
</kwd-group>
        </article-meta>
    </front>
    <body> 
        
 
        
<sec>
	<title>HTML-content</title>
	<p>1. Введение</p>
	<p>Важной отраслью науки является количественная лингвистика, которая использует математические методы для установления законов, по которым функционирует язык. Такие законы, найденные в основном статистическими методами, указывают на существующие закономерности между различными элементами языка (фонемами, словами и т. д.). Предметом данного исследования является анализ распределений во времени длины предложений, измеряемой количеством слов, и длины слов, измеряемой количеством букв. Эти величины изучаются уже давно и используются для определения авторства произведения, жанра текста, когнитивного развития автора или читателя (слушателя), уровня владения языком и т. д. </p>
	<p>[1][2][5][6][7]</p>
	<p>Для анализа используются электронные архивы публичных выступлений, а именно ежегодные речи лидеров партий Великобритании с 1895 по 2018 год.</p>
	<p>2. Исходные данные и анализ</p>
	<p>Было проанализировано 224 ежегодных выступления лидеров партий Великобритании с 1895 по 2018 год, доступных в электронном архиве </p>
	<p>[11]</p>
	<p>Речи лидеров партий Великобритании неравномерно распределены по времени из-за авторских прав, появления новой крупной партии в парламенте в 1977 году и некоторым другим причинам.  В результате, речи Великобритании распределены: одна речь за 1895, 1896, 1899-1902, 1904-1906, 1911, 1918, 1919, 1923, 1926, 1930, 1933-1937, 1941-1943, 1945-1951, 1955-1958, 1960-1962, 1964, 1974 годы; две речи за 1897, 1903, 1907-1910, 1912,1913, 1920-1922, 1925, 1927-1929, 1932, 1963, 1965-1973, 1975, 1976, 1989-1991, 1995, 1997 годы; три речи за 1924, 1978-1981, 1983-1986, 1988, 1922-1994, 1996, 1998, 2000-2005, 2007-2018 годы и четыре речи за 1977, 1982, 1987, 1999, 2006 годы. Речи Великобритании за 1898, 1914-1917, 1931, 1938-1940, 1944, 1952-1954, 1959 годы не обработаны.</p>
	<p>Первоначальная подготовка текстов включала проверку на наличие инициалов и объединение их в одно слово; замену всех многоточий, восклицательных и вопросительных знаков, обозначающих конец предложения, точками; удаление точек и запятых, используемых для написания чисел. Единицей измерения является слово, заключенное между пробелами, длина предложений измеряется количеством слов. В дальнейшем тексты обрабатывались автоматически с помощью специальной компьютерной программы. Статистический анализ проводился в программе Statistica 12.0 (TIBCO Software), MATLAB (The MathWork).</p>
	<p>Средняя длина предложения рассчитывалась следующим методом: общее количество слов во всех предложениях делится на общее количество предложений. Согласно рис. 1, средняя длина предложений линейно уменьшается с течением времени (наклон линии составляет 0.14±0.01). Так, с 1918 года средняя длина предложения составляет около 27.9, а с 2018 года – около 13.8 слов, то есть длина уменьшилась в 2 раза.</p>
	<fig id="F1">
		<label>Figure 1</label>
		<caption>
			<p>Средняя длина предложения (L) в зависимости от времени речи (T)</p>
		</caption>
		<alt-text>Средняя длина предложения (L) в зависимости от времени речи (T)</alt-text>
		<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="/media/images/2024-05-24/5bcb334e-b31b-4da8-ad79-22a967ebe286.png"/>
	</fig>
	<fig id="F2">
		<label>Figure 2</label>
		<caption>
			<p>Медиана (M) в зависимости от времени речи (T)</p>
		</caption>
		<alt-text>Медиана (M) в зависимости от времени речи (T)</alt-text>
		<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="/media/images/2024-05-24/b350358c-9c25-40eb-9f3f-ee4ebcdfdec3.png"/>
	</fig>
	<fig id="F3">
		<label>Figure 3</label>
		<caption>
			<p>Максимальная длина предложения (A) в зависимости от времени речи (T)</p>
		</caption>
		<alt-text>Максимальная длина предложения (A) в зависимости от времени речи (T)</alt-text>
		<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="/media/images/2024-05-24/b17a6e50-6293-4c00-9bcf-433f936b2793.png"/>
	</fig>
	<p>Для выбора наилучшего теоретического распределения, описывающего исследуемые эмпирические распределения, были отобраны 5 распределений, имеющих не более 2 параметров: LogNormal, Weibull, FoldedNormal, HalfNormal (Normal), Rayleigh. Ранжирование этих распределений по качеству описания данных проводилось на основе теста Колмогорова-Смирнова: чем больше значение p-уровня, тем лучше это распределение описывает эмпирические данные и, соответственно, тем выше его место по сравнению с другими. В таблице 1 показано, сколько раз одно из пяти оцененных распределений оказывалось в числе лучших, занимая 1, 2 или 3 место.</p>
	<table-wrap id="T1">
		<label>Table 1</label>
		<caption>
			<p>Ранжирование распределений по тесту Колмогорова-Смирнова</p>
		</caption>
		<table>
			<tr>
				<td>Место</td>
				<td>Weibull</td>
				<td>Log Normal</td>
				<td>Rayleigh</td>
				<td>Folded Normal</td>
				<td>Normal</td>
				<td>Half Normal</td>
			</tr>
			<tr>
				<td>number of speeches</td>
			</tr>
			<tr>
				<td>1</td>
				<td>144</td>
				<td>62</td>
				<td>4</td>
				<td>2</td>
				<td>0</td>
				<td>1</td>
			</tr>
			<tr>
				<td>2</td>
				<td>47</td>
				<td>43</td>
				<td>27</td>
				<td>23</td>
				<td>1</td>
				<td>7</td>
			</tr>
			<tr>
				<td>3</td>
				<td>2</td>
				<td>20</td>
				<td>14</td>
				<td>16</td>
				<td>11</td>
				<td>8</td>
			</tr>
			<tr>
				<td>∑</td>
				<td>193</td>
				<td>125</td>
				<td>45</td>
				<td>41</td>
				<td>12</td>
				<td>16</td>
			</tr>
		</table>
	</table-wrap>
	<p>Например, распределение Вейбулла для 144 выступлений оказалось на 1-м месте, для 47 выступлений – на втором и для 2 выступлений – на третьем. Таким образом, это распределение появилось во всех речах на первых трех местах. Более того, распределение Вейбулла достаточно хорошо описывает все выступления. Так, средний уровень значимости модели вероятностного распределения для речей, где Вейбулл на первом месте, 0.43 (144 речи), на втором месте 0.25 (47 речей), а на третьем 0.3 (2 речи). Если рассматривать логнормальное распределение, которое описывало 125 выступлений на первых трех местах, то средние уровни значимости составили 0.39 (для первых мест), 0.18 (для вторых мест) и 0.18 (для третьих мест).</p>
	<p>Таким образом, на основе проведенного статистического анализа распределение Вейбулла оказывается наиболее предпочтительным для описания исследуемых выступлений. Функция распределения Вейбулла равна 1-exp(-(x/λ)k), где λ и k – параметры масштаба и формы, соответственно. По результатам анализа текста значение параметра k оказалось равным 1.7±0.2. Как следует из рисунка 4, параметр масштаба значительно уменьшается с течением времени. Поскольку известно, что этот параметр прямо пропорционален среднему, медиане и моде для распределения Вейбулла, это еще раз подтверждает высказанное выше утверждение о снижении средней (а также наиболее вероятной) длины предложения.</p>
	<fig id="F4">
		<label>Figure 4</label>
		<caption>
			<p>Параметр масштаба распределения Вейбулла в зависимости от времени речи T</p>
		</caption>
		<alt-text>Параметр масштаба распределения Вейбулла в зависимости от времени речи T</alt-text>
		<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="/media/images/2024-05-24/d9bcf315-0c78-4762-8a17-027ada3c8b58.png"/>
	</fig>
	<p>Средняя длина слова рассчитывалась следующим методом: общее количество букв во всех словах делится на общее количество слов. График средней длины представлен на рис. 5. Из-за неравномерной плотности распределения выборки, какое-то видимое изменение в средней длине слова заметно с 1960 по 2020. Так с 1960 по 1980 средняя длина слова составляла 4.6, а с 2000 по 2020 – 4.5, однако с 1920 по 1960 средняя длина слова равна 4.5. Таким образом подобного линейного уменьшения как у средней длины предложения не наблюдается. Общая средняя длина слова составляет 4.5.</p>
	<fig id="F5">
		<label>Figure 5</label>
		<caption>
			<p>Средняя длина слова (Lw) в зависимости от времени речи (T)</p>
		</caption>
		<alt-text>Средняя длина слова (Lw) в зависимости от времени речи (T)</alt-text>
		<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="/media/images/2024-05-24/ed99142a-fd4a-4b08-9e31-1ead445b176c.png"/>
	</fig>
	<fig id="F6">
		<label>Figure 6</label>
		<caption>
			<p>Мода (Mw) в зависимости от времени речи (T)</p>
		</caption>
		<alt-text>Мода (Mw) в зависимости от времени речи (T)</alt-text>
		<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="/media/images/2024-05-24/aca92587-2b2a-42fe-b21f-89fca58f18cc.png"/>
	</fig>
	<p>Для выбора теоретического распределения были рассмотрены те же распределения, что и для длин предложений: LogNormal, Weibull, FoldedNormal, HalfNormal (Normal), Rayleigh. Ранжирование этих распределений по качеству описания данных проводилось на основе коэффициента детерминации, чем ближе значение R2 к 1, тем лучше это распределение описывает эмпирические данные и, соответственно, тем выше его место по сравнению с другими.</p>
	<table-wrap id="T2">
		<label>Table 2</label>
		<caption>
			<p>Ранжирование распределений по коэффициенту детерминации</p>
		</caption>
		<table>
			<tr>
				<td>Место</td>
				<td>Log Normal</td>
				<td>Weibull</td>
				<td>Rayleigh</td>
				<td>Folded Normal</td>
				<td>Half Normal (Normal)</td>
			</tr>
			<tr>
				<td>number of speeches</td>
			</tr>
			<tr>
				<td>1</td>
				<td>210</td>
				<td>11</td>
				<td>0</td>
				<td>0</td>
				<td>0</td>
			</tr>
			<tr>
				<td>2</td>
				<td>11</td>
				<td>210</td>
				<td>0</td>
				<td>0</td>
				<td>0</td>
			</tr>
			<tr>
				<td>3</td>
				<td>0</td>
				<td>0</td>
				<td>94</td>
				<td>127</td>
				<td>0</td>
			</tr>
			<tr>
				<td>∑</td>
				<td>221</td>
				<td>221</td>
				<td>94</td>
				<td>127</td>
				<td>0</td>
			</tr>
		</table>
	</table-wrap>
	<p>Как видно из таблицы, распределение Вейбулла здесь занимает 2 место. Лучше длину слов описывает логнормальное распределение, занимая первое место в 210 выступлениях из 221. В оставшихся 11 лучше описывает Вейбулл. Однако, следует отметить, что коэффициенты детерминации для этих распределений существенно не различаются. Среднее значение коэффициента для логнормального распределения составило 0.998, а для распределения Вейбулла – 0.996.</p>
	<p>3. Заключение</p>
	<p>На основе подсчета длины предложений ежегодных речей лидеров партий Великобритании за 123 года получены результаты:</p>
	<p>1. Средняя длина предложения речи уменьшается линейно с наклоном 0.14 ± 0.014 слова в год, и в среднем с 1918 по 2018 год длина предложения уменьшилась с 27.9 до 13.8 слова.</p>
	<p>2. Распределение длины предложений лучше описывается распределением Вейбулла (в частности, по сравнению с логнормальным).</p>
	<p>Эти два результата согласуются с принципом наименьших усилий </p>
	<p>[8]</p>
	<p>3. Средняя длина слова в публичных выступлениях лидеров партий Великобритании практически не менялась и составила 4.5.</p>
	<p>4. Распределение длины слова лучше описывается логнормальным распределением.</p>
	<p>Как следствие, мы можем сделать вывод, что принцип наименьших усилий не оказывает существенного влияния на длину слов, используемых политиками. Важной причиной появления логнормального распределения является наличие мультипликативного случайного процесса, который определяет случайную величину </p>
	<p>[9][7]</p>
</sec>
        <sec sec-type="supplementary-material">
            <title>Additional File</title>
            <p>The additional file for this article can be found as follows:</p>
            <supplementary-material id="S1" xmlns:xlink="http://www.w3.org/1999/xlink"
                                    xlink:href="https://doi.org/10.5334/cpsy.78.s1">
                <!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/13482.docx">13482.docx</inline-supplementary-material>]-->
                <!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/13482.pdf">13482.pdf</inline-supplementary-material>]-->
                <label>Online Supplementary Material</label>
                <caption>
                    <p>Further description of analytic pipeline and patient demographic information. DOI:
                        <italic>
                            <uri>https://doi.org/10.60797/IRJ.2024.143.122</uri>
                        </italic>
                    </p>
                </caption>
            </supplementary-material>
        </sec>
    </body>
    <back>
        <ack>
            <title>Acknowledgements</title>
            <p>None</p>
        </ack>
        <sec>
            <title>Competing Interests</title>
            <p>None</p>
        </sec>
        <ref-list>
            <ref id="B1">
                    <label>1</label>
                    <mixed-citation publication-type="confproc">
                        Yule G.U. On sentence-length as a statistical characteristic of style in prose: With application to two cases of disputed authorship / G.U. Yule // Biometrika. — 1939. — Vol. 30. — №. 3/4. — P. 363-390.
                    </mixed-citation>
                </ref><ref id="B2">
                    <label>2</label>
                    <mixed-citation publication-type="confproc">
                        Rottmann O. A. On Word Length in German and Polish / O.A. Rottmann // Glottometrics. — 2018. — Vol. 42. — P. 13-20. 
                    </mixed-citation>
                </ref><ref id="B3">
                    <label>3</label>
                    <mixed-citation publication-type="confproc">
                        Kučera H. The odd couple: The linguist and the software engineer. The struggle for high quality computerized language aids / H. Kučera // Svartvik. — 1992. — Vol. 1992. — P. 401-420.
                    </mixed-citation>
                </ref><ref id="B4">
                    <label>4</label>
                    <mixed-citation publication-type="confproc">
                        Sigurd B. Word length, sentence length and frequency–Zipf revisited / B. Sigurd, M. Eeg‐Olofsson, J. Van Weijer // Studia linguistica. — 2004. — Vol. 58. — №. 1. — P. 37-52.
                    </mixed-citation>
                </ref><ref id="B5">
                    <label>5</label>
                    <mixed-citation publication-type="confproc">
                        Vieira D.S. Robustness of sentence length measures in written texts / D.S. Vieira, S. Picoli, R.S.  Mendes // Physica A: Statistical mechanics and its applications. — 2018. — Vol. 506. — P. 749-754. 
                    </mixed-citation>
                </ref><ref id="B6">
                    <label>6</label>
                    <mixed-citation publication-type="confproc">
                        Sobkowicz P. Lognormal distributions of user post lengths in Internet discussions-a consequence of the Weber-Fechner law? / P. Sobkowicz [et al.] // EPJ Data Science. — 2013. — Vol. 2. — P. 1-20. 
                    </mixed-citation>
                </ref><ref id="B7">
                    <label>7</label>
                    <mixed-citation publication-type="confproc">
                        Tsizhmovska N.L. Principle of least effort and sentence length in public speaking / N.L. Tsizhmovska, L.M. Martyushev // Entropy. — 2021. — Vol. 23. — №. 8. — P. 1023. 
                    </mixed-citation>
                </ref><ref id="B8">
                    <label>8</label>
                    <mixed-citation publication-type="confproc">
                        Zipf G. K. Human behavior and the principle of least effort: An introduction to human ecology / G.K. Zipf // Addison-Wesley Press, Cambridge. — 1949. 
                    </mixed-citation>
                </ref><ref id="B9">
                    <label>9</label>
                    <mixed-citation publication-type="confproc">
                        Sobkowicz P. Lognormal distributions of user post lengths in Internet discussions-a consequence of the Weber-Fechner law? / P. Sobkowicz [et al]. // EPJ Data Science. — 2013. — Vol. 2. — P. 1-20.
                    </mixed-citation>
                </ref><ref id="B10">
                    <label>10</label>
                    <mixed-citation publication-type="confproc">
                        Bochkarev V.V. The average word length dynamics as an indicator of cultural changes in society / V.V. Bochkarev, A.V. Shevlyakova, V.D. Solovyev // Social Evolution and History. — 2015. — Vol. 14. — №. 2. — P. 153-175.
                    </mixed-citation>
                </ref><ref id="B11">
                    <label>11</label>
                    <mixed-citation publication-type="confproc">
                        British Political Speech. — URL: http://britishpoliticalspeech.org/index.htm (accessed: 12.02.2022)
                    </mixed-citation>
                </ref>
        </ref-list>
    </back>
    <fundings>
        
    </fundings>
</article>