Фактологическая достоверность цитатно-осведомленной генерации научных саммари и обзорных текстов: проблемы, методы повышения качества и направления развития

Кузнецов И.И.

doi:10.60797/IRJ.2026.168.94

Фактологическая достоверность цитатно-осведомленной генерации научных саммари и обзорных текстов: проблемы, методы повышения качества и направления развития

Научная статья

Кузнецов Илия Игоревич0009-0001-6287-8295Российский государственный университет им. А.Н. Косыгина, Москва, Российская Федерация

Кузнецов И. И.

https://doi.org/10.60797/IRJ.2026.168.94

DOI:

https://doi.org/10.60797/IRJ.2026.168.94

EDN:

IZCLYQ

Предложена:

20.05.2026

Принята:

03.06.2026

Опубликована:

17.06.2026

Выпуск: № 6 (168), 2026

Правообладатель: авторы. Лицензия: Attribution 4.0 International (CC BY 4.0)

20

0

XML

PDF

Аннотация

В статье рассматриваются современные подходы к цитатно-осведомленной обработке научных публикаций и генерации научных саммари и обзорных текстов. Актуальность работы обусловлена ростом объема научной информации, усложнением структуры научного цитирования и активным развитием больших языковых моделей, применяемых для автоматизированной обработки научной литературы. Рассмотрены основные направления развития цитатно-осведомленной суммаризации. Особое внимание уделено проблеме фактологической достоверности автоматически формируемых научных текстов. Проанализированы ограничения современных цитатно-осведомленных систем, связанные с неточностью цитатных данных, ошибками интерпретации публикаций, генерацией неподтвержденных утверждений и галлюцинациями больших языковых моделей. Рассмотрены существующие методы повышения качества генерации и оценки фактологической согласованности научных текстов. Показано, что современные подходы преимущественно ориентированы на отдельные этапы обработки научной информации и не обеспечивают комплексного контроля достоверности цитатно-осведомленной генерации. Сделан вывод о необходимости разработки методов, включающих проверку соответствия цитат содержанию первоисточника и контроль фактологической корректности генерируемых научных текстов.

Ключевые слова:

анализ текстовой информации, научные публикации, цитирование, извлечение цитат, суммаризация публикаций, цитатно-осведомленная суммаризация.

1. Введение

В последние годы наблюдается устойчивый рост объема научной информации, сопровождающийся усложнением структуры научной коммуникации и увеличением числа взаимосвязей между публикациями. Показано, что развитие современной науки характеризуется долговременным экспоненциальным ростом количества публикаций и цитирований

. Исследование , посвященное анализу динамики публикационной активности в Scopus и Web of Science, демонстрирует, что только за период 2016–2022 гг. число индексируемых научных публикаций увеличилось приблизительно на 47%. Обзоры дополнительно отмечают эффект «инфляции цитирования», связанный с увеличением объема библиографических списков и изменением практик научного цитирования.

В этих условиях активно развиваются методы автоматизированной обработки научных публикаций, объединяющие подходы информационного поиска, обработки естественного языка и анализа графов научного цитирования. Классические методы информационного поиска в современных исследованиях дополняются нейросетевыми и графовыми подходами. Активно развиваются методы анализа научных публикаций, связанные с обработкой текстовых документов статей, анализом метаданных, обработкой визуальных элементов статей, моделированием научных областей, анализом цитатных взаимосвязей, и т.д.

Одним из наиболее активно развивающихся направлений является автоматизированная суммаризация и генерация обзорных текстов. Ранние методы суммаризации основывались преимущественно на извлечении информативных предложений и статистическом ранжировании текста. Развитие трансформерных архитектур привело к переходу к абстрактивной суммаризации, при которой итоговый текст формируется генеративной моделью

. Одновременно развиваются методы многодокументной суммаризации, а также подходы, учитывающие иерархическую структуру длинных научных документов .

Развитие больших языковых моделей (Large Language Model, далее — LLM) и нейросетевых архитектур существенно расширило возможности автоматизированной генерации научных текстов, однако одновременно усилило проблему фактологической достоверности и усложнило контроль качества. В связи с этим одним из активно рассматриваемых направлений стала цитатно-осведомленный подход к обработке научных публикаций, поскольку предполагается, что он может обеспечить высокую достоверность и обоснованность при построении фактологически насыщенных научных текстов.

Несмотря на активное развитие цитатно-осведомленных методов обработки научной литературы, большинство современных исследований сосредоточено на задачах поиска публикаций, анализа структуры цитирования, формирования промежуточных представлений и генерации итогового текста. При этом качество самих цитатных фрагментов и степень их соответствия содержанию цитируемой публикации рассматриваются значительно реже. Между тем именно цитатные утверждения выступают одним из основных источников информации в цитатно-осведомленных системах, а ошибки и искажения на данном этапе способны распространяться на последующие этапы обработки и приводить к снижению достоверности генерируемых научных саммари и обзорных текстов. В связи с этим актуальной является задача разработки методов контроля фактологической согласованности цитатных утверждений и оценки их соответствия содержанию первоисточника.

Целью работы является обзор и анализ современных подходов к обеспечению фактологической достоверности цитатно-осведомленной генерации научных текстов, а также исследование возможности комплексной оценки соответствия научных утверждений содержанию публикации.

Работа носит обзорно-аналитический характер и включает экспериментальную апробацию подхода к комплексной оценке соответствия научных утверждений содержанию публикации.

Для достижения поставленной цели необходимо решить следующие задачи:

– провести анализ современных подходов к цитатно-осведомленной обработке научных публикаций и генерации научных текстов;

– исследовать основные проблемы фактологической достоверности и согласованности при цитатно-осведомленной генерации;

– выполнить анализ и систематизацию современных методов повышения качества и контроля достоверности генерируемых научных текстов, и выявить ограничения существующих подходов;

– предложить и апробировать подход к комплексной оценке соответствия научных утверждений, содержащихся в цитатах, содержанию научной публикации.

Для решения поставленных задач далее рассматриваются современные подходы к цитатно-осведомленной обработке научных публикаций, проблемы обеспечения фактологической достоверности генерируемых научных текстов и методы повышения качества цитатно-осведомленной генерации.

2. Цитатно-осведомленный подход к обработке научных публикаций

Цитатно-осведомленный подход представляет собой направление автоматизированной обработки научной литературы, в рамках которого публикация рассматривается не как изолированный текст, а как элемент сети научного взаимодействия. В отличие от традиционного анализа полного текста статьи, подобные методы учитывают также цитатные контексты, извлеченные из цитирующих публикаций, и структуру связей между документами. Основой данного подхода является представление о том, что научное цитирование отражает не только факт ссылки на публикацию, но и интерпретацию, оценку и использование результатов исследования в последующих работах.

Ранние исследования в области анализа цитирования были ориентированы преимущественно на изучение структуры научных связей и библиометрических характеристик публикаций. В работе

научное цитирование рассматривается как механизм формирования тематически связанных научных направлений через анализ совместного цитирования публикаций. Аналогичный подход развивался в исследовании , где методы библиометрического анализа используются для выявления структуры научных областей и взаимосвязей между исследовательскими направлениями. В классических исследованиях по этой тематике показано, что цитатный контекст содержит информацию о функции ссылки, характере научного взаимодействия и роли цитируемой работы в структуре научной аргументации.

Одной из ключевых особенностей цитатно-осведомленных подходов является использование внешнего представления публикации, формируемого на основе цитирующих документов. В исследовании

показано, что совокупность цитатных предложений позволяет формировать информативные саммари научных статей даже без использования полного текста публикации. В работе авторы, анализируя цитатные контексты научных статей, установили, что цитирующие публикации часто выделяют аспекты исследования, не отраженные в авторской аннотации, вследствие чего цитатные фрагменты могут использоваться как дополнительное представление научного вклада работы.

Несмотря на некоторые различия в реализации между предлагаемыми решениями, общая схема цитатно-осведомленной суммаризации включает в себя ряд основных этапов. На рис. 1 показаны эти этапы цитатно-осведомленной суммаризации.

Рисунок 1 - Основные этапы цитатно-осведомленной суммаризации

Развитие цитатно-осведомленной обработки тесно связано с задачами многодокументной суммаризации и анализа корпусов научных документов. В работе рассматривается задача построения саммари для совокупности взаимосвязанных публикаций, объединенных общей тематикой и сетью цитирования. В исследовании предлагаются методы выявления ключевых научных вкладов публикаций на основе повторяющихся смысловых единиц и анализа цитатных контекстов. Подобные подходы ориентированы на формирование более целостного представления исследовательского направления, чем при анализе отдельных документов.

Существенное развитие в современных работах получили методы, объединяющие анализ цитатных контекстов с графовыми моделями научной коммуникации. В работе

предложена модель, объединяющая граф цитирования и нейросетевые представления документов для улучшения качества научной суммаризации. Появились иерархические и гетерогенные графовые архитектуры, ориентированные на моделирование локальных и глобальных связей между публикациями, разделами статьи и цитатными контекстами , .

Одним из центральных компонентов подобной обработки является анализ цитатного контекста. Под цитатным контекстом обычно понимается предложение с внутритекстовой ссылкой и окружающие его фрагменты текста, содержащие описание цитируемой работы. В исследовании

предложены модели классификации функций цитирования, учитывающие структуру научной статьи и локальный контекст цитаты. В работе рассматриваются генеративные методы анализа намерений цитирования с использованием гетерогенных графов публикаций. Исследования показывают, что совместный учет цели и намерения цитирования позволяет точнее моделировать характер научного взаимодействия между публикациями.

Таким образом, современные цитатно-осведомленные подходы представляют собой комплексное направление автоматизированной обработки научной литературы, объединяющее методы анализа цитирования, многодокументной суммаризации, графового моделирования и обработки естественного языка. Современные исследования показывают, что использование цитатных контекстов и структуры научных связей позволяет формировать более информативные представления научных публикаций и учитывать особенности их восприятия в исследовательском сообществе. Одновременно развитие подобных методов приводит к усложнению задач анализа и интерпретации цитатных данных, поскольку качество итоговой суммаризации зависит не только от содержания исходных публикаций, но и от корректности выделения, интерпретации и сопоставления цитатных контекстов.

3. Проблемы фактологической достоверности и согласованности при цитатно-осведомленной генерации научных текстов

Несмотря на активное развитие цитатно-осведомленных подходов и их высокую эффективность в задачах автоматизированной обработки научной литературы, использование цитатной информации не гарантирует однозначную фактологическую достоверность формируемых саммари и обзорных текстов. В отличие от традиционной обработки отдельных документов, подобные системы опираются на совокупность взаимосвязанных источников, включающих цитатные контексты, графы цитирования и результаты генеративных моделей. Это позволяет учитывать структуру научного взаимодействия и повышать информативность итогового текста, однако одновременно приводит к возникновению дополнительных источников ошибок и искажений.

В области научной обработки текстов эти ограничения особенно значимы, поскольку в ней требуется сохранение терминологической точности, корректной интерпретации результатов исследований и проверяемости утверждений. Даже незначительные искажения содержания публикации, некорректная атрибуция результатов или генерация неподтвержденных утверждений способны привести к нарушению научной достоверности итогового обзора или саммари. В связи с этим проблема фактологической согласованности рассматривается как одно из ключевых ограничений современных систем и включает как вопросы корректности самих цитатных данных, так и проблемы генерации и оценки автоматически формируемых научных текстов.

Несмотря на то, что цитатные контексты широко используются в задачах суммаризации, построения обзоров, классификации намерений цитирования и генерации с использованием опорных фрагментов, сами цитаты не всегда корректно отражают содержание исходной публикации. В результате ошибки и искажения могут возникать уже на этапе формирования входных данных для последующей генерации текста.

Показано, что ошибки цитирования способны распространяться между публикациями по цепочке повторных ссылок, вследствие чего некорректная интерпретация результатов постепенно закрепляется в научном дискурсе. В работе

отмечено широкое распространение неточного цитирования в биомедицинских публикациях и подчеркивают необходимость более строгой проверки ссылок и цитатных утверждений. В исследовании рассматривается задача автоматизированной оценки «цитатной интегрированности», включающая определение того, соответствует ли цитатное утверждение содержанию первоисточника, причем показано, что даже современные NLP-модели испытывают трудности при выявлении искажений цитирования.

Существенная проблема связана с тем, что цитирование нередко отражает не содержание работы в целом, а лишь отдельную интерпретацию результатов исследования. Авторы в работе

показывают, что при цитировании исследователи часто упрощают выводы статьи, адаптируют их под собственную аргументацию или выборочно выделяют отдельные результаты, вследствие чего итоговое цитатное утверждение может существенно отличаться от оригинального текста. Аналогичные выводы представлены в работе , где показано, что без обращения к полному тексту статьи затруднительно определить, действительно ли цитата отражает значимый вклад публикации.

Поскольку в цитатно-осведомленных подходах цитатные контексты используются как источник информации для построения итогового текста, ошибки цитирования могут напрямую переноситься в генерируемые саммари и обзорные разделы. В отличие от традиционного информационного поиска, здесь возникает необходимость оценки не только релевантности цитатного фрагмента, но и степени его соответствия содержанию первоисточника.

Проблемы фактологической достоверности в цитатно-осведомленной суммаризации связаны не только с качеством самих цитатных данных, но и с другими этапами обработки научной информации. При построении научных саммари и обзорных текстов система должна выполнить поиск релевантных публикаций, сопоставление взаимосвязанных источников, устранение противоречий между ними и формирование согласованного итогового текста. Ошибки могут возникать на каждом из этих этапов: от выбора нерелевантных работ до искажения смысла при объединении информации из нескольких публикаций. В результате даже при использовании корректных цитатных контекстов итоговый текст может содержать фактологические несоответствия, чрезмерные обобщения или неподтвержденные выводы.

Существенное влияние на развитие автоматизированной обработки научной литературы оказало распространение больших языковых моделей, которые в последние годы стали основным инструментом генерации научных саммари и обзорных текстов

. LLM способны эффективно выполнять абстрактивную генерацию, в том числе на основе цитатно-осведомленного подхода, формируя новый текст на основе множества источников и длинных контекстов. Однако одновременно с ростом качества генерации усилилось внимание к проблеме фактологической достоверности результатов. Исследования, анализирующие феномен галлюцинаций в системах генерации естественного языка, показывают, что модели способны добавлять сведения, отсутствующие в источнике, либо искажать исходное содержание текста . В работе авторы развивают данное направление применительно к большим языковым моделям и предлагают расширенную таксономию галлюцинаций.

Для цитатно-осведомленной генерации особую проблему представляет галлюцинирование библиографической информации и научных ссылок. В ряде работ фиксируются случаи появления сфабрикованных ссылок и некорректной библиографии. В работе

рассматриваются случаи генерации правдоподобных, но несуществующих научных публикаций при подготовке академических текстов. Аналогичные наблюдения представлены в исследовании , где анализируется генерация ложных библиографических описаний, имитирующих публикации из рецензируемых журналов. Исследование , посвященное использованию LLM при подготовке систематических обзоров, показывает, что модели допускают ошибки при подборе литературы, пропускают релевантные публикации и генерируют библиографические записи с некорректными метаданными. В работе [26], посвященной анализу генеративных моделей в медицинском контенте, дополнительно подчеркивается высокий уровень фабрикации и неточности ссылок, вследствие чего авторы делают вывод о необходимости обязательной внешней проверки библиографических данных.

Помимо ошибок в библиографических данных, существенную проблему представляет фактологическая несогласованность генерируемого текста с исходными публикациями. Исследования по абстрактивной суммаризации показывают, что даже современные генеративные модели способны формировать факты, отсутствующие в исходных документах, сохраняя при этом грамматическую связность и внешнюю убедительность текста

. Дополнительно подчеркивается, что модель может одновременно генерировать как корректные, так и неподтвержденные утверждения, вследствие чего проверка должна выполняться на уровне отдельных атомарных фактов, а не только документа в целом . Помимо этого, показано, что генеративные модели нередко опускают существенные детали исследования и склонны к излишним обобщениям.

Таким образом, на данный момент достаточно остро стоит проблема фактологической согласованности и достоверности при цитатно-осведомленной генерации научных текстов. Это привело к развитию ряда методов, направленных на повышение качества такой генерации.

4. Методы повышения достоверности и качества цитатно-осведомленной генерации научных текстов

Повышение достоверности цитатно-осведомленной генерации связано не с одним отдельным методом, а с совокупностью подходов, действующих на разных этапах обработки научной литературы: от поиска и отбора источников до формирования внутреннего представления данных, генерации текста и последующей оценки результата. Это обусловлено тем, что фактологические искажения могут возникать на различных этапах формирования текста. Поэтому современные исследования все чаще рассматривают генерацию научных текстов как многоэтапный процесс, включающий поиск, фильтрацию, ранжирование, структурирование и проверку информации.

Одним из наиболее распространенных направлений является использование RAG-подходов (retrieval-augmented generation). В таких системах генерация дополняется предварительным поиском релевантных документов или фрагментов текста, которые затем передаются модели в качестве внешнего контекста. RAG рассматривается как способ повышения качества генерации за счет обращения к актуальным внешним данным и проверки генерируемых утверждений

, . Вместе с тем подобные методы не устраняют проблему полностью, поскольку итоговая достоверность зависит не только от генеративной модели, но и от качества поиска, полноты корпуса, корректности ранжирования и способности модели правильно связать утверждение с найденным фрагментом.

Другим направлением являются методы, использующие структуру научного текста и графовые связи между публикациями. Структурно-ориентированная и дискурсивно-ориентированная суммаризация позволяют учитывать функциональное деление статьи на разделы, риторические роли фрагментов и особенности научной аргументации

, . Иерархические модели направлены на обработку длинных научных документов за счет многоуровневого представления текста и последовательной агрегации информации . Графо-ориентированные подходы дополнительно учитывают связи между публикациями, цитатами, разделами и смысловыми единицами, что особенно важно для цитатно-осведомленной генерации, поскольку научный обзор строится не только на содержании отдельных работ, но и на характере отношений между ними . Данные методы преимущественно повышают полноту и структурную согласованность текста, но сами по себе не гарантируют фактологическую корректность генерируемого текста.

Применяются подходы с использованием планируемой и управляемой генерации, где текст формируется не напрямую, а через промежуточные представления. Показано, что предварительное построение структуры текста повышает тематическую согласованность и снижает вероятность хаотичного объединения разнородных фрагментов

. Тем не менее планирование решает преимущественно проблему организации материала, а не его достоверности.

Отдельное направление исследований составляют методы оценки и проверки фактологической согласованности. Для этой цели применяются семантические метрики, вопросно-ответные подходы, модели естественно-языкового вывода и подход с LLM в качестве эксперта. Метрики на основе лексического совпадения позволяют оценивать близость формулировок, однако плохо отражают фактологическую корректность научного текста. BERTScore и близкие к нему семантические метрики позволяют учитывать смысловое сходство, но также не всегда выявляют логические противоречия. NLI-подходы направлены на проверку того, следует ли утверждение из источника, а вопросно-ответные методы позволяют оценивать покрытие ключевой информации. В последние годы также развиваются схемы, в которых LLM выступает в роли оценивающей модели, однако такие оценки подвержены смещениям и требуют независимой проверки. Следовательно, оценочные методы являются необходимым компонентом контроля, но их результаты зависят от выбранных источников, качества извлеченного подтверждения и устойчивости самих моделей оценки.

Для систематизации рассмотренных методов и подходов целесообразно представить их в виде классификации по этапам цитатно-осведомленной суммаризации и основному направлению повышения качества, а также по основным недостаткам этих методов. Сформированная по результатам рассмотрения современных методов классификация показана в табл. 1.

Таблица 1 - Современные методы повышения качества цитатно-осведомленной суммаризации

DOI:10.60797/IRJ.2026.168.94.2

Этап суммаризации	Методы	Основная направленность	Ограничения
Подбор публикаций	Семантический поиск. RAG-методы.	Повышение обоснованности за счет поиска подтверждающих фрагментов	Зависимость от внешних данных и корректности подтверждающих фрагментов
Извлечение и анализ цитат	Анализ контекстов. Анализ функций и намерений цитат.	Учет интерпретации и использования в последующих исследованиях	Возможная неточность интерпретации факторов анализа
Формирование промежуточного представления	Структурная суммаризация. Дискурсивная суммаризация. Иерархическая суммаризация. Графовая суммаризация.	Повышение связности, полноты и структурной согласованности формируемого текста	Не обеспечивают проверку фактологической корректности исходных фрагментов
Генерация суммаризирующего текста	Управляемая генерация. Плановая генерация. Пошаговая генерация.	Повышение логической согласованности и упорядоченности формирования текста	Возможен перенос ошибок входных данных, отсутствует проверка достоверности источников

Существующие методы позволяют снижать отдельные риски цитатно-осведомленной суммаризации, однако в большинстве случаев охватывают лишь отдельные этапы обработки. RAG-подходы повышают обоснованность генерации, но не гарантируют корректность найденных фрагментов; графовые и структурные методы улучшают организацию материала, но не проверяют достоверность каждой цитаты; планируемая генерация повышает связность текста, но не устраняет ошибки исходных данных; оценочные методы позволяют выявлять часть несоответствий, но зависят от качества извлеченных подтверждений. Поэтому ключевым ограничением современных подходов остается их фрагментарность.

Таким образом, анализ современных исследований показывает, что большинство существующих подходов ориентировано на повышение качества поиска, суммаризации, структурирования или генерации научных текстов, а также на оценку качества итогового результата. Вместе с тем задача оценки соответствия цитатных утверждений содержанию цитируемой публикации во многих исследованиях остается вспомогательной либо вовсе не рассматривается. Между тем именно цитатные фрагменты являются одним из основных источников информации в цитатно-осведомленных системах, а ошибки на данном этапе способны распространяться на последующие этапы обработки. Это обосновывает необходимость разработки методов комплексной оценки соответствия цитатных утверждений содержанию первоисточника и контроля их фактологической согласованности.

5. Комплексный подход к оценке соответствия научных утверждений содержанию публикации

Проблема оценки достоверности фактологической согласованности формируемых саммари и обзорных текстов по-прежнему остается одной из наиболее существенных. При этом для цитатно-осведомленного подхода существенное влияние на достоверность оказывает качество исходных цитатных фрагментов и ихсоответствие содержанию цитируемых работ. При этом исследования показывают, что использование отдельных метрик качества не позволяет в полной мере оценивать достоверность научных утверждений, поскольку различные подходы, как правило, отражают лишь отдельные аспекты согласованности текста с исходной информацией

. В связи с этим предлагается использование комплексного подхода к оценке фактологической согласованности и соответствия цитирующих предложений содержанию цитируемой работы, основанного на совместном применении нескольких типов метрик. В рамках данного подхода оценка соответствия научного утверждения содержанию публикации выполняется с использованием совокупности метрик, что позволяет учитывать различные аспекты согласованности анализируемых текстовых фрагментов.

В качестве набора данных для экспериментальной проверки был использован корпус SciFact, предназначенный для задач верификации научных утверждений

. Данный корпус содержит научные утверждения, связанные с ними публикации и размеченные подтверждающие фрагменты текста, позволяющие определить, подтверждается ли утверждение содержанием научной статьи (класс SUPPORT), противоречит ему (класс CONTRADICT) или не имеет достаточного подтверждения (класс NOT_ENOUGH_INFO). Несмотря на то, что SciFact не содержит внутритекстовых цитирований в явном виде, структура задачи является концептуально близкой к задаче оценки соответствия цитатных фрагментов содержанию цитируемой публикации. В рамках цитатно-осведомленного подхода цитатный контекст рассматривается как внешнее утверждение о содержании научной работы, сформированное другим автором. В обоих случаях требуется сопоставление научного утверждения с фрагментом исходной публикации и оценка степени их фактологической согласованности. В связи с этим корпус SciFact может использоваться в качестве тестовой среды для экспериментальной апробации подходов к комплексной оценке соответствия научных утверждений содержанию первоисточника.

Предлагаемый подход к оценке фактологической согласованности включает несколько последовательных этапов обработки научного утверждения и текста публикации. Основные этапы приведены на рис. 2.

Рисунок 2 - Основные этапы комплексной оценки соответствия научных утверждений информации из первоисточника

На первом этапе для каждого утверждения из корпуса SciFact выбирается связанная с ним научная публикация, после чего аннотация статьи разбивается на отдельные предложения. Далее выполняется поиск наиболее релевантного фрагмента текста, потенциально содержащего подтверждение рассматриваемого утверждения. Для этого используется предобученная модель SciBERT, ориентированной на обработку научных текстов . Модель формирует векторные представления для утверждения и предложений аннотации, после чего вычисляет степень семантической близости с использованием косинусной меры сходства.

После выделения и извлечения наиболее релевантного фрагмента выполняется комплексная оценка степени его соответствия исходному научному утверждению. В рамках предлагаемого подхода используются четыре метрики, совместно используемые в составе единой схемы оценки достоверности и соответствия источнику: ROUGE, BERTScore, QA и NLI. Метрика ROUGE применяется для оценки лексического совпадения и близости текстовых формулировок

. В эксперименте использовалась метрика ROUGE-L, которая соответствует совпадениям на уровне наибольшей общей текстовой подпоследовательности. Метрика BERTScore используется для оценки семантического сходства между текстовыми фрагментами . Метрика QA основана на вопросно-ответном подходе, который позволяет оценить полноту передачи ключевой информации . Метрика NLI позволяет определить, следует ли рассматриваемое утверждение из фрагмента текста (entailment), противоречит ему (contradiction) либо не имеет достаточного подтверждения (neitral) .

Применение этих четырех метрик позволяет учитывать текстовое сходство, семантическую близость, фактологическую точность и логическую связность утверждений. Одновременное использование этих метрик позволяет компенсировать ограничения отдельных метрик и получить более устойчивую оценку фактологической согласованности и достоверности. Подобный подход может рассматриваться как один из перспективных способов комплексной оценки соответствия цитатных утверждений содержанию цитируемой научной публикации в задачах цитатно-осведомленной обработки научной литературы.

Для экспериментальной проверки предлагаемого подхода была сформирована выборка научных утверждений из корпуса SciFact, включающая утверждения классов SUPPORT и CONTRADICT. Для каждого класса в выборку входило 300 утверждений. Для каждого утверждения выполнялся поиск наиболее релевантного фрагмента аннотации научной публикации, после чего вычислялись значения метрик ROUGE-L, BERTScore, QA и NLI. После этого были вычислены медианные значения показателей метрик для классов SUPPORT и CONTRADICT. Результаты приведены в табл. 2.

Таблица 2 - Медианные значения метрик соответствия для классов SUPORT и CONTRADICT

DOI:10.60797/IRJ.2026.168.94.4

Класс утверждений	ROUGE-L	BERTScore	QA	NLI (Entailment)	NLI (Contradiction)
SUPPORT	0,3914	0,8721	0,6727	0,8156	0,1034
CONTRADICT	0,2966	0,8339	0,3931	0,1836	0,7452

Полученные результаты показывают, что различные типы метрик характеризуют разные аспекты фактологической согласованности научных утверждений. Для утверждений класса SUPPORT наблюдаются более высокие значения QA-score и entailment, тогда как для класса CONTRADICT характерен рост contradiction. При этом сравнительно высокие значения BERTScore для части противоречащих утверждений свидетельствуют о том, что семантическое сходство само по себе не гарантирует фактологической корректности утверждения. Таким образом, результаты подтверждают целесообразность комплексного использования нескольких типов метрик при оценке соответствия научного утверждения содержанию публикации.

Полученные результаты согласуются с выводами ряда современных исследований, посвященных оценке фактологической согласованности научных текстов. Так, в работе Kryściński и соавт.

показано, что традиционные метрики, основанные на текстовом сходстве, не позволяют надежно оценивать фактологическую корректность текста, поскольку не учитывают логическую согласованность утверждений с источником. Аналогичный эффект наблюдается и в проведенном эксперименте, где для части утверждений класса CONTRADICT сохраняются ненулевые значения ROUGE-L и сравнительно высокие значения BERTScore. В исследованиях и показано, что различные метрики чувствительны к разным типам фактологических ошибок и отражают различные аспекты качества текста. Полученные результаты подтверждают данный вывод: семантические, вопросно-ответные и логические метрики демонстрируют различную степень разделения утверждений классов SUPPORT и CONTRADICT, что свидетельствует о необходимости их совместного использования. Результаты также согласуются с выводами работ, в которых показана высокая эффективность методов естественно-языкового вывода при выявлении фактологических несоответствий . В проведенном эксперименте именно показатели entailment и contradiction обеспечивают наиболее выраженное различие между подтверждающими и противоречащими утверждениями. Вместе с тем, в отличие от работ или , ориентированных преимущественно на оценку фактологической достоверности итоговых саммари и генерируемых текстов, предлагаемый подход направлен на оценку соответствия отдельных научных утверждений содержанию публикации и может использоваться для контроля качества цитатных фрагментов в задачах цитатно-осведомленной обработки научной литературы.

6. Заключение

В работе проведен анализ современных исследований в области цитатно-осведомленной обработки научных публикаций, генерации научных саммари и обзорных текстов, а также методов обеспечения их фактологической достоверности. Показано, что большинство существующих подходов ориентировано на задачи поиска источников, извлечения информации, суммаризации и генерации текста, а также на оценку качества итогового результата.

В результате анализа литературы выявлено, что задача оценки соответствия цитатных утверждений содержанию цитируемой публикации рассматривается значительно реже, чем задачи поиска, обработки и генерации научной информации. При этом именно цитатные фрагменты являются одним из основных источников информации в цитатно-осведомленных системах и могут содержать искажения или неполные интерпретации результатов первоисточника, влияющие на качество последующих этапов обработки.

Для решения данной задачи предложен подход к комплексной оценке соответствия научных утверждений содержанию публикации, основанный на совместном использовании лексических, семантических, вопросно-ответных и логических метрик. Проведенная апробация на корпусе SciFact показала, что различные типы метрик отражают различные аспекты фактологической согласованности научных утверждений и позволяют выявлять как семантические совпадения, так и логические противоречия между утверждением и содержанием публикации.

Научная новизна работы заключается в акцентировании внимания на задаче оценки соответствия цитатных утверждений содержанию цитируемой публикации, которая в большинстве рассмотренных исследований остается второстепенной по отношению к задачам поиска, суммаризации и генерации текста. В отличие от существующих подходов, ориентированных преимущественно на оценку качества итогового результата, предложенный подход направлен непосредственно на контроль фактологической согласованности научного утверждения и содержания первоисточника на основе комплексного использования нескольких типов метрик.

Полученные результаты подтверждают перспективность развития методов контроля соответствия цитат содержанию первоисточника как одного из направлений повышения достоверности цитатно-осведомленной генерации научных саммари и обзорных текстов.

Дополнительные материалы

Не указаны

Финансирование

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Благодарности

Не указаны

Конфликт интересов

Не указаны

Список литературы

Bornmann L. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references / L. Bornmann, R. Mutz // Journal of the Association for Information Science and Technology. — 2015. — 11. — P. 2215–2222. — DOI: 10.1002/asi.23329

Hanson M.A. The strain on scientific publishing / M.A. Hanson, C.R. Sugimoto, V. Larivière et al. // Quantitative Science Studies. — 2024. — 4. — P. 823–843. — DOI: 10.1162/qss_a_00327

See A. Get to the point: Summarization with pointer-generator networks. / A. See, P.J. Liu, C.D. Manning // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers); — Vancouver: Association for Computational Linguistics, 2017. — P. 1073–1083. DOI: 10.18653/v1/P17-1099

Tay Y. Efficient transformers: A survey / Y. Tay, M. Dehghani, D. Bahri et al. // ACM Computing Surveys. — 2022. — 6. — P. 1–28. — DOI: 10.1145/3530811

Moravcsik M.J. Some results on the function and quality of citations / M.J. Moravcsik, P. Murugesan // Social Studies of Science. — 1975. — 1. — P. 86–92. — DOI: 10.1177/030631277500500106

White H.D. Citation analysis and discourse analysis revisited / H.D. White // Applied Linguistics. — 2004. — 1. — P. 89–116. — DOI: 10.1093/applin/25.1.89

Qazvinian V. Scientific paper summarization using citation summary networks. / V. Qazvinian, D. Radev // Proceedings of the 22nd International Conference on Computational Linguistics (COLING 2008); — Manchester: Coling 2008 Organizing Committee, 2008. — P. 689–696.

Elkiss A. Blind men and elephants: What do citation summaries tell us about a research article? / A. Elkiss, S. Shen, A. Fader et al. // Journal of the American Society for Information Science and Technology. — 2008. — 1. — P. 51–62. — DOI: 10.1002/asi.20707

Qazvinian V. Generating extractive summaries of scientific paradigms / V. Qazvinian, E. Rosengren, D.R. Radev et al. // Journal of Artificial Intelligence Research. — 2013. — 46. — P. 165–201. — DOI: 10.1613/jair.3732

Hayashi H. What’s new? Summarizing contributions in scientific literature. / H. Hayashi, R. Nagata, R. Kohita et al. // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics; — Dubrovnik: Association for Computational Linguistics, 2023. — P. 1019–1031. DOI: 10.18653/v1/2023.eacl-main.72

Luo Z. CitationSum: Citation-aware graph contrastive learning for scientific paper summarization. / Z. Luo, Q. Xie, S. Ananiadou // Proceedings of the ACM Web Conference 2023; — Austin, Tx: Association for Computing Machinery (ACM), 2023. — P. 1843–1852. DOI: 10.1145/3543507.3583505

Zhao C. Hierarchical attention graph for scientific document summarization in global and local level. / C. Zhao, Y. Li, X. Wang et al. // Findings of the Association for Computational Linguistics: NAACL 2024; — Mexico City: Association for Computational Linguistics, 2024. — P. 714–726. DOI: 10.18653/v1/2024.findings-naacl.45

Bao T. Enhancing abstractive summarization of scientific papers using structure information / T. Bao, H. Zhang, C. Zhang // Expert Systems with Applications. — 2025. — 261. — P. 125529. — DOI: 10.1016/j.eswa.2024.125529

Budi I. Understanding the meanings of citations using sentiment, role, and citation function classifications / I. Budi, Y. Yaniasih // Scientometrics. — 2023. — 1. — P. 735–759. — DOI: 10.1007/s11192-022-04567-4

Phan T.A. Understanding citation intents by generative intent model based on heterogeneous graph neural network / T.A. Phan, K.H.N. Bui, J.J. Jung // Information Processing & Management. — 2026. — 6. — P. 104743. — DOI: 10.1016/j.ipm.2026.104743

Peoples N. Burden of proof: combating inaccurate citation in biomedical literature / N. Peoples, T. Østbye, L.L. Yan // BMJ. — 2023. — 383. — P. e076515. — DOI: 10.1136/bmj-2023-076441

Sarol M.J. Assessing citation integrity in biomedical publications: corpus annotation and NLP models / M.J. Sarol, S.A. Hasan, A.A. Lee et al. // Bioinformatics. — 2024. — 7. — P. btae420. — DOI: 10.1093/bioinformatics/btae420

Chen H. The noisy path from source to citation: Measuring how scholars engage with past research / H. Chen, M. Teplitskiy, D. Jurgens // arXiv preprint. — 2025. — URL: https://arxiv.org/abs/2502.20581 (accessed: 14.05.26) DOI: 10.48550/arXiv.2502.20581

Hoppe T.A. Predicting substantive biomedical citations without full text / T.A. Hoppe, S. Arabi, B.I. Hutchins // Proceedings of the National Academy of Sciences of the United States of America. — 2023. — 30. — P. e2213697120. — DOI: 10.1073/pnas.2213697120

Lendvai G.F. ChatGPT in academic writing: A scientometric analysis of literature published between 2022 and 2023 / G.F. Lendvai // Journal of Empirical Research on Human Research Ethics. — 2025. — 3. — P. 131–148. — DOI: 10.1177/15562646251350203

Ji Z. Survey of hallucination in natural language generation / Z. Ji, N. Lee, R. Frieske et al. // ACM Computing Surveys. — 2023. — 12. — P. 1–38. — DOI: 10.1145/3571730

Huang L. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions / L. Huang, W. Yu, W. Ma et al. // ACM Transactions on Information Systems. — 2025. — 2. — P. 1–55. — DOI: 10.1145/3703155

Alkaissi H. Artificial hallucinations in ChatGPT: implications in scientific writing / H. Alkaissi, S.I. McFarlane // Cureus. — 2023. — 2. — P. e35179. — DOI: 10.7759/cureus.35179

Day T. A preliminary investigation of fake peer-reviewed citations and references generated by ChatGPT / T. Day // The Professional Geographer. — 2023. — 6. — P. 1024–1027. — DOI: 10.1080/00330124.2023.2190373

Chelli M. Hallucination rates and reference accuracy of ChatGPT and Bard for systematic reviews: comparative analysis / M. Chelli, K. El Kari, M. El Hammoumi et al. // Journal of Medical Internet Research. — 2024. — 1. — P. e53164. — DOI: 10.2196/53164

Bhattacharyya M. High rates of fabricated and inaccurate references in ChatGPT-generated medical content / M. Bhattacharyya, V.M. Miller, D. Bhattacharyya et al. // Cureus. — 2023. — 5. — P. e39238. — DOI: 10.7759/cureus.39238

Maynez J. On faithfulness and factuality in abstractive summarization. / J. Maynez, S. Narayan, B. Bohnet et al. // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics; — Online: Association for Computational Linguistics, 2020. — P. 1906–1919. DOI: 10.18653/v1/2020.acl-main.173Singapore

Min S. FactScore: Fine-grained atomic evaluation of factual precision in long form text generation. / S. Min, K. Krishna, X. Lyu et al. // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing; — Singapore: Association for Computational Linguistics, 2023. — P. 12076–12100. DOI: 10.18653/v1/2023.emnlp-main.741

Lewis P. Retrieval-augmented generation for knowledge-intensive NLP tasks. / P. Lewis, E. Perez, A. Piktus et al. // Advances in Neural Information Processing Systems; — Red Hook, Ny: Curran Associates, Inc., 2020. — P. 9459–9474.

Han B. Automating systematic literature reviews with retrieval-augmented generation: A comprehensive overview / B. Han, T. Susnjak, A. Mathrani // Applied Sciences. — 2024. — 19. — P. 9103. — DOI: 10.3390/app14199103

Cohan A. A discourse-aware attention model for abstractive summarization of long documents. / A. Cohan, F. Dernoncourt, D.S. Kim et al. // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers); — New Orleans, La: Association for Computational Linguistics, 2018. — P. 615–621. DOI: 10.18653/v1/N18-2097

Xiao W. Systematically exploring redundancy reduction in summarizing long documents. / W. Xiao, G. Carenini // Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing; — Suzhou: Association for Computational Linguistics, 2020. — P. 516–528. DOI: 10.18653/v1/2020.aacl-main.51

Gidiotis A. A divide-and-conquer approach to the summarization of long documents / A. Gidiotis, G. Tsoumakas // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2020. — 28. — P. 3029–3040. — DOI: 10.1109/taslp.2020.3037401

An C. Enhancing scientific papers summarization with citation graph. / C. An, X. Sun, H. Wang et al. // Proceedings of the AAAI Conference on Artificial Intelligence; — Issue 14. — Palo Alto, Ca: AAAI Press, 2021. — P. 12498–12506. DOI: 10.1609/aaai.v35i14.17482

Narayan S. Planning with learned entity prompts for abstractive summarization / S. Narayan, S.B. Cohen, M. Lapata // Transactions of the Association for Computational Linguistics. — 2021. — 9. — P. 1475–1492. — DOI: 10.1162/tacl_a_00438

Kryściński W. Evaluating the factual consistency of abstractive text summarization. / W. Kryściński, B. McCann, C. Xiong et al. // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP); — Online: Association for Computational Linguistics, 2020. — P. 9332–9346. DOI: 10.18653/v1/2020.emnlp-main.750

Wadden D. SciFact-Open: Towards open-domain scientific claim verification. / D. Wadden, S. Lin, A. Cohan et al. // Findings of the Association for Computational Linguistics: EMNLP 20222; — Abu Dhabi: Association for Computational Linguistics, 2022. — P. 4719–4734. DOI: 10.18653/v1/2022.findings-emnlp.347

Beltagy I. SciBERT: A pretrained language model for scientific text. / I. Beltagy, K. Lo, A. Cohan // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP); — Hong Kong: Association for Computational Linguistics, 2019. — P. 3615–3620. DOI: 10.18653/v1/D19-1371

Lin C.Y. ROUGE: A package for automatic evaluation of summaries. / C.Y. Lin // Text Summarization Branches Out; — Barcelona: Association for Computational Linguistics, 2004. — P. 74–81.

Zhang T. BERTScore: Evaluating text generation with BERT / T. Zhang, V. Kishore, F. Wu et al. // arXiv preprint. — 2019. — URL: https://arxiv.org/abs/1904.09675 (accessed: 26.05.26)

Deutsch D. Towards question-answering as an automatic metric for evaluating the content quality of a summary / D. Deutsch, T. Bedrax-Weiss, D. Roth // Transactions of the Association for Computational Linguistics. — 2021. — 9. — P. 774–789. — DOI: 10.1162/tacl_a_00397

Chen Y. MENLI: Robust evaluation metrics from natural language inference / Y. Chen, S. Eger // Transactions of the Association for Computational Linguistics. — 2023. — 11. — P. 804–825. — DOI: 10.1162/tacl_a_00576

Gabriel S. GO FIGURE: A Meta Evaluation of Factuality in Summarization. / S. Gabriel, A. Celikyilmaz, S. Bhojanapalli et al. // Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021; — Online: Association for Computational Linguistics, 2021. — P. 478–487. DOI: 10.18653/v1/2021.findings-acl.42

Pagnoni A. Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics. / A. Pagnoni, V. Balachandran, Y. Tsvetkov // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies; — Online: Association for Computational Linguistics, 2021. — P. 4812–4829. DOI: 10.18653/v1/2021.naacl-main.383

Laban P. SummaC: Re-Visiting NLI-Based Models for Inconsistency Detection in Summarization / P. Laban, A. Cohan, E. Durmus et al. // Transactions of the Association for Computational Linguistics. — 2022. — 10. — P. 163–177. — DOI: 10.1162/tacl_a_00453

Список литературы

Bornmann L.
Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references
/ L. Bornmann, R. Mutz //
Journal of the Association for Information Science and Technology
. — 2015. — 11. — P. 2215–2222. — DOI: 10.1002/asi.23329
Hanson M.A.
The strain on scientific publishing
/ M.A. Hanson, C.R. Sugimoto, V. Larivière et al. //
Quantitative Science Studies
. — 2024. — 4. — P. 823–843. — DOI: 10.1162/qss_a_00327
See A. Get to the point: Summarization with pointer-generator networks. / A. See, P.J. Liu, C.D. Manning // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers); — Vancouver: Association for Computational Linguistics, 2017. — P. 1073–1083. DOI: 10.18653/v1/P17-1099
Tay Y.
Efficient transformers: A survey
/ Y. Tay, M. Dehghani, D. Bahri et al. //
ACM Computing Surveys
. — 2022. — 6. — P. 1–28. — DOI: 10.1145/3530811
Moravcsik M.J.
Some results on the function and quality of citations
/ M.J. Moravcsik, P. Murugesan //
Social Studies of Science
. — 1975. — 1. — P. 86–92. — DOI: 10.1177/030631277500500106
White H.D.
Citation analysis and discourse analysis revisited
/ H.D. White //
Applied Linguistics
. — 2004. — 1. — P. 89–116. — DOI: 10.1093/applin/25.1.89
Qazvinian V. Scientific paper summarization using citation summary networks. / V. Qazvinian, D. Radev // Proceedings of the 22nd International Conference on Computational Linguistics (COLING 2008); — Manchester: Coling 2008 Organizing Committee, 2008. — P. 689–696.
Elkiss A.
Blind men and elephants: What do citation summaries tell us about a research article?
/ A. Elkiss, S. Shen, A. Fader et al. //
Journal of the American Society for Information Science and Technology
. — 2008. — 1. — P. 51–62. — DOI: 10.1002/asi.20707
Qazvinian V.
Generating extractive summaries of scientific paradigms
/ V. Qazvinian, E. Rosengren, D.R. Radev et al. //
Journal of Artificial Intelligence Research
. — 2013. — 46. — P. 165–201. — DOI: 10.1613/jair.3732
Hayashi H. What’s new? Summarizing contributions in scientific literature. / H. Hayashi, R. Nagata, R. Kohita et al. // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics; — Dubrovnik: Association for Computational Linguistics, 2023. — P. 1019–1031. DOI: 10.18653/v1/2023.eacl-main.72
Luo Z. CitationSum: Citation-aware graph contrastive learning for scientific paper summarization. / Z. Luo, Q. Xie, S. Ananiadou // Proceedings of the ACM Web Conference 2023; — Austin, Tx: Association for Computing Machinery (ACM), 2023. — P. 1843–1852. DOI: 10.1145/3543507.3583505
Zhao C. Hierarchical attention graph for scientific document summarization in global and local level. / C. Zhao, Y. Li, X. Wang et al. // Findings of the Association for Computational Linguistics: NAACL 2024; — Mexico City: Association for Computational Linguistics, 2024. — P. 714–726. DOI: 10.18653/v1/2024.findings-naacl.45
Bao T.
Enhancing abstractive summarization of scientific papers using structure information
/ T. Bao, H. Zhang, C. Zhang //
Expert Systems with Applications
. — 2025. — 261. — P. 125529. — DOI: 10.1016/j.eswa.2024.125529
Budi I.
Understanding the meanings of citations using sentiment, role, and citation function classifications
/ I. Budi, Y. Yaniasih //
Scientometrics
. — 2023. — 1. — P. 735–759. — DOI: 10.1007/s11192-022-04567-4
Phan T.A.
Understanding citation intents by generative intent model based on heterogeneous graph neural network
/ T.A. Phan, K.H.N. Bui, J.J. Jung //
Information Processing & Management
. — 2026. — 6. — P. 104743. — DOI: 10.1016/j.ipm.2026.104743
Peoples N.
Burden of proof: combating inaccurate citation in biomedical literature
/ N. Peoples, T. Østbye, L.L. Yan //
BMJ
. — 2023. — 383. — P. e076515. — DOI: 10.1136/bmj-2023-076441
Sarol M.J.
Assessing citation integrity in biomedical publications: corpus annotation and NLP models
/ M.J. Sarol, S.A. Hasan, A.A. Lee et al. //
Bioinformatics
. — 2024. — 7. — P. btae420. — DOI: 10.1093/bioinformatics/btae420
Chen H.
The noisy path from source to citation: Measuring how scholars engage with past research
/ H. Chen, M. Teplitskiy, D. Jurgens //
arXiv preprint
. — 2025. — URL: https://arxiv.org/abs/2502.20581 (accessed: 14.05.26) DOI: 10.48550/arXiv.2502.20581
Hoppe T.A.
Predicting substantive biomedical citations without full text
/ T.A. Hoppe, S. Arabi, B.I. Hutchins //
Proceedings of the National Academy of Sciences of the United States of America
. — 2023. — 30. — P. e2213697120. — DOI: 10.1073/pnas.2213697120
Lendvai G.F.
ChatGPT in academic writing: A scientometric analysis of literature published between 2022 and 2023
/ G.F. Lendvai //
Journal of Empirical Research on Human Research Ethics
. — 2025. — 3. — P. 131–148. — DOI: 10.1177/15562646251350203
Ji Z.
Survey of hallucination in natural language generation
/ Z. Ji, N. Lee, R. Frieske et al. //
ACM Computing Surveys
. — 2023. — 12. — P. 1–38. — DOI: 10.1145/3571730
Huang L.
A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions
/ L. Huang, W. Yu, W. Ma et al. //
ACM Transactions on Information Systems
. — 2025. — 2. — P. 1–55. — DOI: 10.1145/3703155
Alkaissi H.
Artificial hallucinations in ChatGPT: implications in scientific writing
/ H. Alkaissi, S.I. McFarlane //
Cureus
. — 2023. — 2. — P. e35179. — DOI: 10.7759/cureus.35179
Day T.
A preliminary investigation of fake peer-reviewed citations and references generated by ChatGPT
/ T. Day //
The Professional Geographer
. — 2023. — 6. — P. 1024–1027. — DOI: 10.1080/00330124.2023.2190373
Chelli M.
Hallucination rates and reference accuracy of ChatGPT and Bard for systematic reviews: comparative analysis
/ M. Chelli, K. El Kari, M. El Hammoumi et al. //
Journal of Medical Internet Research
. — 2024. — 1. — P. e53164. — DOI: 10.2196/53164
Bhattacharyya M.
High rates of fabricated and inaccurate references in ChatGPT-generated medical content
/ M. Bhattacharyya, V.M. Miller, D. Bhattacharyya et al. //
Cureus
. — 2023. — 5. — P. e39238. — DOI: 10.7759/cureus.39238
Maynez J. On faithfulness and factuality in abstractive summarization. / J. Maynez, S. Narayan, B. Bohnet et al. // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics; — Online: Association for Computational Linguistics, 2020. — P. 1906–1919. DOI: 10.18653/v1/2020.acl-main.173Singapore
Min S. FactScore: Fine-grained atomic evaluation of factual precision in long form text generation. / S. Min, K. Krishna, X. Lyu et al. // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing; — Singapore: Association for Computational Linguistics, 2023. — P. 12076–12100. DOI: 10.18653/v1/2023.emnlp-main.741
Lewis P. Retrieval-augmented generation for knowledge-intensive NLP tasks. / P. Lewis, E. Perez, A. Piktus et al. // Advances in Neural Information Processing Systems; — Red Hook, Ny: Curran Associates, Inc., 2020. — P. 9459–9474.
Han B.
Automating systematic literature reviews with retrieval-augmented generation: A comprehensive overview
/ B. Han, T. Susnjak, A. Mathrani //
Applied Sciences
. — 2024. — 19. — P. 9103. — DOI: 10.3390/app14199103
Cohan A. A discourse-aware attention model for abstractive summarization of long documents. / A. Cohan, F. Dernoncourt, D.S. Kim et al. // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers); — New Orleans, La: Association for Computational Linguistics, 2018. — P. 615–621. DOI: 10.18653/v1/N18-2097
Xiao W. Systematically exploring redundancy reduction in summarizing long documents. / W. Xiao, G. Carenini // Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing; — Suzhou: Association for Computational Linguistics, 2020. — P. 516–528. DOI: 10.18653/v1/2020.aacl-main.51
Gidiotis A.
A divide-and-conquer approach to the summarization of long documents
/ A. Gidiotis, G. Tsoumakas //
IEEE/ACM Transactions on Audio, Speech, and Language Processing
. — 2020. — 28. — P. 3029–3040. — DOI: 10.1109/taslp.2020.3037401
An C. Enhancing scientific papers summarization with citation graph. / C. An, X. Sun, H. Wang et al. // Proceedings of the AAAI Conference on Artificial Intelligence; — Issue 14. — Palo Alto, Ca: AAAI Press, 2021. — P. 12498–12506. DOI: 10.1609/aaai.v35i14.17482
Narayan S.
Planning with learned entity prompts for abstractive summarization
/ S. Narayan, S.B. Cohen, M. Lapata //
Transactions of the Association for Computational Linguistics
. — 2021. — 9. — P. 1475–1492. — DOI: 10.1162/tacl_a_00438
Kryściński W. Evaluating the factual consistency of abstractive text summarization. / W. Kryściński, B. McCann, C. Xiong et al. // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP); — Online: Association for Computational Linguistics, 2020. — P. 9332–9346. DOI: 10.18653/v1/2020.emnlp-main.750
Wadden D. SciFact-Open: Towards open-domain scientific claim verification. / D. Wadden, S. Lin, A. Cohan et al. // Findings of the Association for Computational Linguistics: EMNLP 20222; — Abu Dhabi: Association for Computational Linguistics, 2022. — P. 4719–4734. DOI: 10.18653/v1/2022.findings-emnlp.347
Beltagy I. SciBERT: A pretrained language model for scientific text. / I. Beltagy, K. Lo, A. Cohan // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP); — Hong Kong: Association for Computational Linguistics, 2019. — P. 3615–3620. DOI: 10.18653/v1/D19-1371
Lin C.Y. ROUGE: A package for automatic evaluation of summaries. / C.Y. Lin // Text Summarization Branches Out; — Barcelona: Association for Computational Linguistics, 2004. — P. 74–81.
Zhang T.
BERTScore: Evaluating text generation with BERT
/ T. Zhang, V. Kishore, F. Wu et al. //
arXiv preprint
. — 2019. — URL: https://arxiv.org/abs/1904.09675 (accessed: 26.05.26)
Deutsch D.
Towards question-answering as an automatic metric for evaluating the content quality of a summary
/ D. Deutsch, T. Bedrax-Weiss, D. Roth //
Transactions of the Association for Computational Linguistics
. — 2021. — 9. — P. 774–789. — DOI: 10.1162/tacl_a_00397
Chen Y.
MENLI: Robust evaluation metrics from natural language inference
/ Y. Chen, S. Eger //
Transactions of the Association for Computational Linguistics
. — 2023. — 11. — P. 804–825. — DOI: 10.1162/tacl_a_00576
Gabriel S. GO FIGURE: A Meta Evaluation of Factuality in Summarization. / S. Gabriel, A. Celikyilmaz, S. Bhojanapalli et al. // Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021; — Online: Association for Computational Linguistics, 2021. — P. 478–487. DOI: 10.18653/v1/2021.findings-acl.42
Pagnoni A. Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics. / A. Pagnoni, V. Balachandran, Y. Tsvetkov // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies; — Online: Association for Computational Linguistics, 2021. — P. 4812–4829. DOI: 10.18653/v1/2021.naacl-main.383
Laban P.
SummaC: Re-Visiting NLI-Based Models for Inconsistency Detection in Summarization
/ P. Laban, A. Cohan, E. Durmus et al. //
Transactions of the Association for Computational Linguistics
. — 2022. — 10. — P. 163–177. — DOI: 10.1162/tacl_a_00453

Рецензия

Все статьи проходят рецензирование. Но рецензент или автор статьи предпочли не публиковать рецензию к этой статье в открытом доступе. Рецензия может быть предоставлена компетентным органам по запросу.

Информация об авторах

ORCID:0009-0001-6287-8295
АффилиацияРоссийский государственный университет им. А.Н. Косыгина, Москва, Российская Федерация
Роль:Автор, Написание, проверка и редактирование, Исследование
ELIBRARY AUTHOR ID:1338004

Метрика статьи

Скачиваний:0

ПросмотрыСкачивания

Просмотры

Всего: