HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2026.168.70

Brief communication

Оптимизация контекста больших языковых моделей в агентных системах: от статического промпт-инжиниринга к динамической инженерии контекста

https://orcid.org/0000-0002-5167-2689

https://elibrary.ru/author_profile.asp?id=1080310

Лабинцев

Андрей Иванович

andrej.labintsev@yandex.ru 1

https://orcid.org/0009-0008-3688-5679

Мыратгелдиев

Ашыр

a.myratgeldiyev@yandex.ru 1

https://ror.org/01hnrbb29

Финансовый университет при Правительстве Российской Федерации

17 06 2026

2026

8 168 1 8 22 04 2026 22 05 2026

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

В статье предложена формальная математическая модель оптимизации контекста в агентных системах — как многокритериальной задачи максимизации ожидаемого вознаграждения при ограничениях на длину контекста, объём данных, вычислительные ресурсы и качество источников. Новизна исследования состоит в возможности применять методы математической оптимизации (например, методы нелинейного программирования, эволюционные алгоритмы или reinforcement learning) для автоматизированного подбора оптимальной стратегии обогащения контекста — с учётом баланса качества ответа и ресурсных затрат. В ходе экспериментального исследования проведена апробация предложенной математической модели. Выполнена оптимизация контекста на пяти сценариях работы LLM (простой промпт, RAG на неструктурированных данных, поиск по структурированным данным, вызов tools, механизм памяти диалога) на двух моделях (Qwen3-Ru и Qwen3.5) на примере задачи разработки консультанта для поступающих в ВУЗ. Оценка качества выполнялась методом LLM as Judge по шкале 0–9. Установлено, что наибольший прирост качества обеспечивают вызов инструментов (Δ до +3,5 балла относительно простого промпта) и механизм памяти диалога (Δ до +3,7 балла). Показано, что архитектурные решения влияют на качество сильнее, чем простое увеличение объёма контекста. Qwen3.5 демонстрирует лучшее соотношение качества и вычислительной эффективности (время выполнения тестового набора — 2 минуты против 9 минут у Qwen3-Ru).Результаты подтверждают, что ключевым фактором эффективности LLM в прикладных задачах является не масштаб контекста, а способ его организации, структурирования и интеграции с внешними инструментами и памятью.

большие языковые модели агентные системы инженерия контекста оптимизация контекста промпт-инжиниринг информационный домен RAG вызов инструментов память диалога структурированные данные LLM as Judge многокритериальная оптимизация качество генерации вычислительная эффективность Qwen3-Ru Qwen3.5

HTML-content

1. Введение

Появление больших языковых моделей (Large Language Models, LLMs) продемонстрировало беспрецедентные возможности в понимании естественного языка, его генерации и рассуждении. LLM эволюционировали от базовых систем, выполняющих инструкции, до центральных механизмов рассуждений в сложных агентных системах.

Однако производительность и эффективность этих моделей определяется не только информацией, которую они получают на этапе обучения, но и контекстом, предоставляемым на этапе инференции (вывода). По мере усложнения решаемых задач развивались методы проектирования и управления информацией — как на этапе обучения, так и на этапе предсказания.

Информационный домен — это область знаний или сфера деятельности, в рамках которой функционирует LLM и для которой требуется специфический набор данных, терминологии, правил и закономерностей. Информационный домен задаёт границы и специфику контекста, в котором модель должна демонстрировать компетентность. Например:

- медицина (термины, протоколы лечения, научные исследования);

- юриспруденция (законы, прецеденты, процессуальные нормы);

- финансы (рыночные показатели, экономические теории, нормативные акты);

- техническое образование (инженерные дисциплины, стандарты, методики обучения);

- кибербезопасность (угрозы, протоколы защиты, анализ кода).

В рамках каждого информационного домена требуются специфические подходы к формированию входных данных для LLM, поскольку универсальные методы могут не учитывать нюансы терминологии, логики рассуждений и структуры знаний конкретной области.

Статические инструкции для LLM принято называть промптом (prompt), а методы их формирования изучают в дисциплине промпт‑инжиниринга (Prompt Engineering). Эта область фокусируется на разработке оптимальных формулировок запросов, позволяющих добиться от модели точных и релевантных ответов в рамках заданного информационного домена.

Динамические методы формирования подсказок, учитывающие текущий контекст, внешние источники знаний и историю взаимодействия, изучаются в рамках инженерии контекста (Context Engineering). В отличие от статических промптов, контекстные подсказки могут включать фрагменты релевантных документов из внешних баз знаний, исторические диалоги или предыдущие шаги рассуждения, структурированные данные (таблицы, графы знаний) и т.д.

Применение методов инженерии контекста позволяет дополнить знания агента актуальной информацией за пределами предобученной базы, направить его поведение в нужное русло с учётом специфики информационного домена, повысить точность и релевантность ответов за счёт интеграции внешних данных и снизить вероятность «галлюцинаций» (вымышленных фактов) в генерации.

Цель работы — раскрыть возможности агентных систем на базе LLM в полной мере, повысить качество диалогов и решений в заданном информационном домене за счёт применения методов контекстной инженерии. В своей работы мы разработали методику оптимизации контекста LLM к специфике предметной области и протестировали эффективность на примере создания консультанта для поступающих в высшее учебное заведение.

Исследования последних лет демонстрируют растущий интерес к способам повышения эффективности больших языковых моделей (LLM) за счёт оптимизации контекста, подаваемого на вход.

Ранние работы

[1][2][3]

Параллельно развивались подходы, предполагающие интеграцию LLM с внешними источниками знаний. Ключевым прорывом здесь стала концепция Retrieval‑Augmented Generation (RAG)

[4]

В русскоязычной научной литературе также активно исследуются различные аспекты RAG и контекстной инженерии:

Оболенский Д. М.

[5] анализ публикационной активности и научных коллабораций научно-педагогических работников [6]. Оценка использования GigaCode в деятельности IT-компаний [7] включает сравнение с аналогичными решениями, такими как GitHub Copilot и Amazon CodeWhisperer.

Науменко А. О.

[8]

Волков С. С., Шалыгин С. В., Лабинцев А. И.

[9]

Значительный объём работ посвящён решению проблемы обработки длинных последовательностей — одной из ключевых сложностей при работе с расширенным контекстом. Предложены методы сжатия контекста, иерархического управления памятью и селективного извлечения информации, позволяющие моделям эффективно оперировать большими объёмами данных без потери производительности:

Гисин В. Б.

[10]

Болтачев Э. Ф., Фархадов М. П., Тюляков А. И.

[11]

Особое внимание уделяется вопросам безопасности и надёжности LLM:

Унижаев Н. В.

[12]

Швыров В. В., Капустин Д. А., Сентяй Р. Н.

[13]

Несмотря на существенный прогресс, анализ более 1400 исследований

[3]

2. Методы и принципы исследования

Пусть имеется некоторый набор задач, которые необходимо решить с помощью агента. Например: написать код на языке Python, проконсультировать покупателя или поступающего в ВУЗ и т.д. Множество задач в таком наборе теоретически бесконечно, однако на практике мы имеем дело с ограниченным набором двоек «запрос — ответ»:

T = { ( τ , Y τ * ) }

где:

τ Y τ *

Вероятностная авторегрессионная (большая языковая) модель генерирует выходную последовательность путём максимизации условной вероятности:

[LATEX_FORMULA]P_\theta(Y|C) = \prod_{t=1}^{T} P_\theta(y_t|y_{<t}, C(\tau)) \quad (1)[/LATEX_FORMULA]

где:

C ( τ ) θ

В инженерии промптов контекст C формируется как композиция запроса пользователя и статичной инструкции по решению задачи. В инженерии контекста C представляет собой динамически структурированный набор информационных компонентов

$ c 1 , c 2 , … , c n $ $ $ { c 1 = f 1 ( τ , D ) c 2 = f 2 ( τ , D ) … c n = f n ( τ , D ) ( 2 ) $ $

где:

D c i c p r o m p t c r e t r i e v e c t o o l s c r e a s o n c m e m o r y

c s t a t e

Конечный результат формируется за несколько итераций извлечения информации и генерации промежуточных рассуждений. Максимизация ожидаемого качества вывода агента формализуется как задача оптимизации. Пространство поиска включает в себя множество функций генерации и композиции контекста F.

Тогда целевая функция имеет вид:

F * = \arg max F 𝔼 τ ~ T [ Reward ( P θ ( Y | C ( F ( τ , D ) ) ) , Y τ * ) ] ( 3 )

где:

F^* — оптимальный набор функций генерации контекста;

τ C F ( τ ) $ τ $ Y τ * P θ ( Y | C F ( τ ) ) R e w a r d 𝔼 τ ~ T \arg max F

Эта задача оптимизации имеет ряд ограничений.

1) Ограничение на длину контекста модели:

| C | ≤ L max

где:

| C | L max

Это ограничение частично компенсируется сжатием информации (summarization), селективным отбором наиболее релевантных фрагментов и методами управления иерархической памятью.

2) Ограничение на объём доступных документов.

[LATEX_FORMULA]D' \subseteq D, \quad |D'| \leq V_{\text{max}}[/LATEX_FORMULA]

где:

[LATEX_FORMULA]D'[/LATEX_FORMULA] V max

3) Ограничение на выборку задач.

[LATEX_FORMULA]T' \subset T, \quad |T'| \ll |T|[/LATEX_FORMULA]

где:

[LATEX_FORMULA]T'[/LATEX_FORMULA] [LATEX_FORMULA]|T'|[/LATEX_FORMULA] | T |

Ограниченная выборка не в полной мере отражает реальное распределение задач и недостаточно покрывает краевые случаи (edge cases).

4) Вычислительные ограничения.

Time ( F ) ≤ T max , Cost ( F ) ≤ C max

где:

Time ( F ) T max Cost ( F ) C max

Эти ограничения в совокупности формируют многокритериальную оптимизационную задачу, где необходимо балансировать между:

- качеством ответа;

- объёмом используемого контекста;

- затрат на сбор данных;

- репрезентативностью выборки;

- вычислительными ресурсами.

Таким образом, исследование направлено на оценку эффективности различных подходов к управлению контекстом в больших языковых моделях при решении предметно‑ориентированных задач.

В рамках данной работы для решения задачи оптимизации применяется метод полного перебора.

3. Основные результаты

В качестве тестовых моделей выбраны две LLM:

- Qwen3 с адаптацией к русскому языку [14];

- Qwen3.5 без адаптации, но с улучшенной архитектурой [15].

Для каждой модели тестируются пять сценариев взаимодействия, чтобы понять, как разные методы работы с контекстом влияют на качество ответов:

1. Простой промпт — модель получает только запрос пользователя и базовую инструкцию без дополнительного контекста.

2. RAG на неструктурированных данных — к запросу добавляется контекст из внешних источников, разбитый на чанки фиксированного размера.

3. Поиск по структурированным данным — модель использует заранее подготовленные структурированные данные (например, таблицы, JSON) для формирования ответа.

4. Вызов tools — модель может вызывать внешние инструменты (функции) для получения актуальной информации (например, поиск данных в таблицах).

5. Механизм памяти диалога — модель учитывает историю взаимодействия с пользователем, чтобы давать более согласованные и последовательные ответы.

Оценка качества ответов выполняется методом LLM as Judge [16]. Для этого используется отдельная языковая модель в роли эксперта. Ей подаются на вход эталонный ответ (ground‑truth) и ответ тестируемой модели (response).

Шкала оценок:

0 — ответ полностью не соответствует эталонному (неверная информация, нерелевантен);

1–3 — существенные ошибки или пропуски, основная суть частично угадана;

4–6 — в целом релевантный ответ, но есть неточности, неполнота или небольшие ошибки;

7–8 — хороший ответ, близкий к эталонному, незначительные недочёты;

9 — практически идентичен эталонному, без ошибок.

Каждый сценарий тестируется на выборке из 30 типовых задач (например, консультации по поступлению в вуз, поиск стоимости обучения, уточнение количества мест).

Для каждого ответа вычисляется оценка по указанной шкале, затем рассчитывается средний балл по сценарию и модели.

Table 1

Средние оценки качества ответов

Сценарий	Qwen3-Ru	Qwen3.5
Простой промпт	4,0	3,8
RAG на неструктурированных данных	5,1	4,8
Поиск по структурированным данным	5,1	5,1
Вызов tools (поиск по таблицам)	7,1	7,3
Механизм памяти диалога	7,3	7,5

Figure 1

Сравнение качества ответов при различных сценариях управления контекстом

Среднее время выполнения тест кейса из 30 задач: Qwen3-Ru - 9 минут, Qwen3.5 - 2 минуты.

Table 2

Распределение оценок по диапазонам

Диапазон оценок	Qwen3-Ru	Qwen3.5
0-3	3	0
4-6	2	5
7-8	16	21
9	7	2

Figure 2

Распределение оценок качества ответов по диапазонам

4. Обсуждение

Результаты показывают, что качество ответов напрямую зависит от сложности и структуры контекста [LATEX_FORMULA]C(F(\tau, D))[/LATEX_FORMULA]. Простой промпт даёт наименьшее качество из-за отсутствия внешней информации, тогда как добавление RAG и структурированных данных улучшает результаты, но ограничено шумом и слабой интерпретируемостью неструктурированных источников. Использование структурированных данных повышает стабильность, однако без активных механизмов извлечения их потенциал реализуется частично.

Наибольший прирост качества обеспечивают механизмы вызова инструментов и памяти диалога. Tools позволяют вынести часть вычислений за пределы языковой модели, повышая точность, особенно в задачах с фактами и числами. Память, в свою очередь, обеспечивает накопление релевантного контекста и согласованность ответов в многошаговых сценариях. Это указывает на то, что архитектурные решения (интеграция инструментов и управление состоянием) оказывают более сильное влияние, чем простое увеличение объёма контекста.

Сравнение моделей показывает, что Qwen3.5 обеспечивает более стабильные результаты и существенно более высокую вычислительную эффективность, несмотря на отсутствие языковой адаптации. При сопоставимом среднем качестве она демонстрирует меньшее количество ошибок и лучшее соотношение «качество/время». В целом, результаты подтверждают, что ключевым фактором повышения качества является не масштаб контекста, а эффективность его организации и использования.

5. Заключение

В нашей работе рассмотрена проблема повышения качества функционирования агентных систем на основе больших языковых моделей за счёт оптимизации контекста, подаваемого на этапе предсказания. Показано, что традиционный статический промпт-инжиниринг, ориентированный на подбор формулировок инструкций, обладает ограниченной эффективностью в прикладных задачах, требующих актуальных знаний, работы с внешними источниками и поддержания связности диалога. Обоснована необходимость перехода к динамической инженерии контекста — подходу, предполагающему структурированное извлечение, фильтрацию и композицию разнородных информационных компонентов (инструкций, внешних знаний, вызовов инструментов, промежуточных рассуждений, памяти и состояния) с учётом специфики информационного домена.

Предложена формальная постановка задачи оптимизации контекста как многокритериальной максимизации ожидаемого вознаграждения при ограничениях на длину контекста, объём доступных данных, вычислительные ресурсы и качество источников. В отличие от существующих работ, фокусирующихся на отдельных аспектах (RAG, память или инструменты), представленная формализация задаёт единую рамку для сравнения и комбинирования различных механизмов управления контекстом.

Полученные результаты подтверждают выдвинутую гипотезу: ключевым фактором эффективности LLM в прикладных задачах является не масштаб контекста сам по себе, а способ его организации, структурирования и интеграции с внешними инструментами и механизмами памяти. Это открывает перспективы для дальнейших исследований в области адаптивной композиции контекста, автоматического выбора наиболее релевантных информационных компонентов в зависимости от типа задачи, а также разработки гибридных архитектур, сочетающих преимущества инструментов, памяти и структурированных знаний в едином фреймворке динамической инженерии контекста.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2026.168.70

Acknowledgements

Competing Interests

1 Liu P. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing / P. Liu, W. Yuan, J. Fu, Z. Jiang // ACM computing surveys. — 2023. — № 55. — с. 1–35. [in English] 2 Wei J. Chain-of-thought prompting elicits reasoning in large language models / J. Wei, X. Wang, D. Schuurmans, M. Bosma // Advances in neural information processing systems. — 2022. — № 35. — с. 24824–24837. [in English] 3 Mei L. A Survey of Context Engineering for Large Language Models / L. Mei, J. Yao, Y. Ge, Y. Wang // arXiv:2507.13334. — 2025 — URL: https://arxiv.org/abs/2507.13334 (дата обращения: 21.04.2026) [in English] 4 Lewis P. Retrieval-augmented generation for knowledge-intensive nlp tasks / P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin // Advances in Neural Information Processing Systems. — 2020. — № 33. — с. 9459–9474. [in English] 5 Оболенский Д.М. Использование метода RAG и больших языковых моделей в интеллектуальных образовательных экосистемах / Д.М. Оболенский, В.И. Шевченко // Экономика. Информатика. — 2024. — № 3. — URL: https://cyberleninka.ru/article/n/ispolzovanie-metoda-rag-i-bolshih-yazykovyh-modeley-v-intellektualnyh-obrazovatelnyh-ekosistemah (дата обращения: 21.04.26). 6 Остапенко Г.А. Анализ публикационной активности и научных коллабораций научно-педагогических работников Финансового университета / Г.А. Остапенко, Г.Г. Рожкова, В.Г. Феклин, Р.А. Кочкаров // Цифровые решения и технологии искусственного интеллекта. — 2025. — № 3. — с. 69–76. DOI: 10.26794/3033-7097-2025-1-3-69-76. 7 Гайдамака А.И. Использование GigaCode в деятельности IT-компаний / А.И. Гайдамака, С.Р. Муминова, А.В. Куприянов // Цифровые решения и технологии искусственного интеллекта. — 2025. — № 2. — с. 18–25. DOI: 10.26794/3033-7097-2025-1-2. 9 Волков С.С. Оптимизация контекста больших языковых моделей в высшем техническом образовании / С.С. Волков, С.В. Шалыгин, А.И. Лабинцев // Вестник НИЦ ВА РВСН. — 2025. — № 10. — с. 99–105. 10 Гисин В.Б. Динамическая модель внимания в трансформерах / В.Б. Гисин // Цифровые решения и технологии искусственного интеллекта. — 2025. — № 4. — с. 35–42. DOI: 10.26794/3033-7097-2025-1-4-35-42. 11 Болтачев Э.Ф. Современные методы токенизации текстов в финансовой сфере / Э.Ф. Болтачев, М.П. Фархадов, А.И. Тюляков // Цифровые решения и технологии искусственного интеллекта. — 2025. — № 3. — с. 19–29. DOI: 10.26794/3033-7097-2025-1-3-19-29. 12 Унижаев Н.В.. Модель угроз конфиденциальной информации в больших языковых моделях / Н.В. Унижаев // Цифровая трансформация: тенденции и перспективы : Сборник трудов IV Международной научно-практической конференции; — Вып. 4. — Москва: Мир науки, 2025. — с. 992–1003. 13 Швыров В.В. Методы использования больших языковых моделей с поддержкой рассуждений для анализа безопасности программного кода / В.В. Швыров, Д.А. Капустин, Р.Н. Сентяй // Автоматизация в промышленности. — 2026. — № 2. — с. 43–49. 14 Qwen3-8b-ru-i1-GGUF // Hugging Face. — 2026 — URL: https://huggingface.co/mradermacher/Qwen3-8b-ru-i1-GGUF (дата обращения: 21.04.2026) [in English] 15 Jin X. Qwen3.5-Omni Technical Report / X. Jin // arXiv:2604.15804. — 2026 — URL: https://arxiv.org/abs/2604.15804 (дата обращения: 21.04.2026) DOI: 10.48550/arXiv.2604.15804. [in English] 16 Gu J. A survey on llm-as-a-judge / J. Gu, X. Jiang, Z. Shi, H. Tan // The Innovation. — 2024. — № 1. [in English]