SEARCH FOR KEYWORDS IN R.M. RILKE CORPUS UNDER LIMITED ACCESS CONDITIONS TO THE REFERENCE CORPUS

Research article

Bilyk K.A.

Bilyk K.A.

EDN:

TNEEQD

Published:

2015/03/12

Issue: № 2 (33), 2015

Rightholder: authors. License: Attribution 4.0 International (CC BY 4.0)

PDF

Билык Е.А.

Аспирант, Киевский национальный университет имени Тараса Шевченко

ПОИСК КЛЮЧЕВЫХ СЛОВ В КОРПУСЕ Р.М. РИЛЬКЕ В УСЛОВИЯХ ОГРАНИЧЕННОГО ДОСТУПА К РЕФЕРЕНТНОМУ КОРПУСУ

Аннотация

Задачей данной статьи является предложить полуавтоматизированный способ нахождения ключевых слов в корпусе путем сравнения логарифмического правдоподобия их появления в двух корпусах в условиях ограниченного доступа к референтному корпусу. Особый интерес этот метод будет представлять для тех, кто исследует корпус текстов на немецком языке начала-середины XX века, единственным референтным корпусом для которого может служить корпус DWDS.

Ключевые слова: корпусная лингвистика, сравнение корпусов, логарифмическое правдоподобие, нормативный корпус, референтный корпус, Р.М.Рильке.

Bilyk K.A.

Post-graduate student, Taras Shevchenko National University of Kyiv

SEARCH FOR KEYWORDS IN R.M. RILKE CORPUS UNDER LIMITED ACCESS CONDITIONS TO THE REFERENCE CORPUS

Abstract

The article discusses a semi-manual way of searching for keywords in a corpus through testing their frequencies in both corpora against their log-likelihood. It is necessary, as the only comparable corpus of German language contemporary to Rilke DWDS is accessed only through web-based user interface and not to the full extent.

Keywords: corpus linguistics, comparable corpora, log-likelihood, reference corpus, normative corpus, R.M.Rilke.

Большинство исследователей согласны с тем, что поиск ключевых слов — надежный исходный пункт для исследования специализированного корпуса [1, 68], [2]. Простейший автоматический способ извлечения ключевых слов подразумевает подключение референтного корпуса, что позволяют большинство современных программ для работы с корпусами. Необходимые для этого условия: корпус, который может быть использован как референтный, то есть, репрезентативный относительно исследуемого, и инструмент для генерации списка ключевых слов.

Самые распространенные программы для автоматического определения ключевых слов — Wordsmith Tools [3] и мощная бесплатная AntConc [4] — при наличии файла референтного корпуса легко предоставляют список ключевых слов. Однако этот способ возможен только в том случае, если этот файл есть в наличии. В случае же работы с корпусом, который находится в полуоткрытом доступе, это становится невозможно. Не все найденные формы выводятся на экран, указывается только количество совпадений. Однако благодаря гибкой системе поиска по корпусу DWDS и количеству найденных словоформ, удовлетворяющих поисковому критерию, этого вполне достаточно для самостоятельного построения функции логарифмического правдоподобия (Log-Likelihood, LL) [5], которая используется программой. Для этого необходимы такие данные: количество слов в исследуемом корпусе (N1), количество слов в референтном корпусе (N), количество найденных слов в исследуемом (Т1) и референтном (Т) корпусах.

Программами список ключевых слов генерируется либо при помощи функции логарифмического правдоподобия, либо критерия хи-квадрата (Chi-Square test). Основное преимущество первого метода — большая точность и универсальность применения (даже на малых количествах наблюдаемых данных) [6, 934]. Оба они (а также точный тест Фишера [7], используемый реже и для менее частотных слов) применяются для того, чтобы проверить результаты на значимость, то есть, насколько полученные результаты не являются случайностью. Общепринятым порогом для 95% уверенности считается показатель функции логарифмического правдоподобия LL=3,84 (одна степень свободы); для 99% уверенности он возрастает до LL=6,63; 99,99% уверенность появляется при значении LL=15,13.

Исследуемый корпус составлен нами из основных поэтических и прозовых текстов Р.М.Рильке на немецком языке ("Жертвы ларам" ("Larenopfer", 1895), "Явления Христа (Одиннадцать явлений)" ("Christus elf Visionen"), "Увенчанный снами" ("Traumgekrönt"), "Мне на праздник" ("Mir zur Feier",1899), "Адвент" ("Advent", 1897), "Часослов" ("Das Stundenbuch", 1905), "Книга образов" ("Das Buch der Bilder, 1902, 1906), "Новые стихотворения" ("Neue Gedichte", 1907, 1908), "Реквием" ("Requiem", 1909), "Дуинские элегии" ("Duineser Elegien", 1923), "Сонеты к Орфею" ("Die Sonette an Orpheus", 1923), "Два пражских рассказа" ("Zwei Prager Geschichten", 1899), "Истории о Господе Боге" ("Geschichten vom lieben Gott", 1904), "Песнь о любви и смерти корнета Кристофа Рильке" ("Die Weise von Liebe und Tod des Cornets Christoph Rilke", 1906), "Записки Мальте Лауридса Бригге" ("Die Aufzeichnungen des Malte Laurids Brigge", (1910), "Белая княгиня" ("Die weiße Fürstin", 1904). Они представлены в виде хронологически упорядоченных (где это возможно) отдельных файлов, что исключает появление ложных результатов в конкордансере на стыке двух поэзий. Общее количество токенов — 287 744 (N1).

Существует два основных подхода к определению репрезентативности корпуса: функциональный и конститутивный. Функциональный был определён Дж.Личем с позиций отражения в корпусе особенностей той языковой разновидности, которую он представляет [8, 27]. Первым теоретиком второго подхода считается Д.Байбер, который полагает, что корпус может считаться репрезентативным в том случае, если представленные в нём образцы языка отражают всю вариативность языка в целом [9, 243]. Электронный словарь немецкого языка DWDS ("Digitales Wörterbuch der deutschen Sprache") [10], в котором собраны тексты от начала XX в. разных жанров и стилей (художественная литература, специальная литература, научные тексты, газеты), находящиеся в полуоткрытом доступе через веб-интерфейс. Интерфейс DWDS позволяет задавать временное окно поиска, которое мы ограничили 1900-1926 годами (годом смерти Рильке). Итого референтный корпус насчитывает 27 244 013 (N) токенов, которые отражают язык, современный исследуемому, настолько полно, насколько это возможно (а значит, вероятность различий в частотности употребления, обусловленных эпохой [11, 6-10], сведена к минимуму), таким образом, он достаточно репрезентативен для нашх целей, и два корпуса подлежат сравнению.

Количество искомых слов мы продемонстрируем на примере слова "Бог" и его производных, т.к. этот концепт является константой творчества Р.М.Рильке до самой смерти, и в то же время — самым частотным существительным в корпусе (без учета деривационной группы): оно встречается 479 раз (644 (Т1) раза — с ней, однако в этом случае оно уже не лидирует, самым продуктивным словом корпуса является слово "рука" (Hand) — 716 токенов).

Деривационная группа слова "Бог" в корпусе Рильке: Gott, Gotte, Gottes, Gotts, Götter, Götterbilder, götterbildermarmorweiße, Götterbildern, Götterhimmel, Göttern, Götternacken, Göttersitzen, Götterwort, gottesfrüh, Gotteshaus, Gottgebärerin, Gottgedanke, Gotthaupt, Gottheit, Göttin, göttlich, Göttlicherem, göttlichem, Göttlicherem, Göttliches, gottseligen, Gottvater, Gottwerden, Herrgott, Krieger-Gott.

Для вычленения деривационной группы слова "Gott" в референтном корпусе DWDS мы используем следующие шаблоны поиска: $l=Gott* и $l=*gott* и суммируем их (Т=20643). Шаблон "$1=" осуществляет поиск по всем формам заданной лексемы; "*" замещает любую букву либо группу букв (что позволяет искать среди композит); два отдельных шаблона необходимы, так как в этом режиме DWDS чувствителен к регистру, и первый шаблон поиска исключает композиты, начинающиеся со слова "Gott".

Корпус DWDS содержит примерно в 25 раз большее количество тайпов в этой деривационной группе (можно учесть только отражающиеся при поиске), и они более разнообразны. Несмотря на значительную разницу в объеме, 1:100, в корпусе Рильке все равно содержатся уникальные токены: Gottgebärerin, Gottgedanke, Gotthaupt, Gottwerden, Krieger-Gott.

Для подсчета точного значения логарифмического правдоподобия можно воспользоваться калькулятором, любезно выложенным на сайте Ланкастерского университета ucrel.lancs.ac.uk/llwizard.html, либо, при необходимости подсчета для многих слов, создать электронную таблицу. В последнем случае формула для вычислениия логарифмического правдоподобия будет выглядеть следующим образом: LL=2*((T1*LN(T1/((N1*(T1+T))/(N1+N))+(T*LN(T/(N*(T1+T))/(N1+N))), где T1 – количество найденных слов в первом корпусе, T – количество найденных слов в референтном корпусе, N1 – общее количество токенов в первом корпусе, N – общее количество токенов в референтном корпусе.

Согласно этим данным, слово "Бог" в корпусе Рильке действительно релевантно при LL=534,43, и это несмотря на участившееся употребление этого слова во взятом периоде: согласно данным DWDS, на исследуемое временное окно приходится около 40,8% всех употребелений слова за век.

Подобным образом можно определять слова-кооккуренты искомого слова (с возможным последующим построением концептуальной сети), с тем отличием, что референтным корпусом будет составленный нами корпус Рильке, а исследуемым — конконданс исследуемого слова с оконом в 80 или 100 знаков справа и слева от него. Нами было установлено, что именно такое окно обеспечивает наилучшие результаты.

Литература

Hunston S. Corpora in applied linguistics. – Cambridge University Press, 2002.
Tribble C. Practical uses for language corpora in ELT //A special interest in computers: Learning and teaching with information and communications technologies. – 2000.
Scott M. WordSmith tools version 6. – Liverpool: Lexical Analysis Software, 2011.
Anthony L. AntConc: A learner and classroom friendly, multi-platform corpus analysis toolkit //proceedings of IWLeL. – 2004. – С. 7-13.
Rayson Р., Garside Comparing corpora using frequency profiling //Proceedings of the workshop on Comparing Corpora. – Association for Computational Linguistics, 2000. – C. 1-6.
Rayson P., Berridge D., Francis B. Extending the Cochran rule for the comparison of word frequencies between corpora //7th International Conference on Statistical analysis of textual data (JADT 2004). – 2004. – C. 926-936.
Weeber M., Baayen R. H., Vos R. Extracting the lowest-frequency words: Pitfalls and possibilities //Computational Linguistics. – T. 26. – Ж 3. – C. 301-317.
Leech G., Garside R. Running a grammar factory: the production of syntactically analysed corpora or treebanks //Johansson and Stenström. – 1991. – С. 15-32.
Biber D. Representativeness in corpus design // Literary and linguistic computing 8.4. – 1993. – С. 243-257.
Geyken The DWDS corpus: A reference corpus for the German language of the 20th century //Collocations and Idioms. – 2007. – С. 23-40.
Sperber H. Einführung in die Bedeutungslehre. Bonn: Ferd. Dümmlers Verlag, 1965. 96 c.