Implementation of intelligent modules in the information system for processing and structuring documents of an educational organisation
Implementation of intelligent modules in the information system for processing and structuring documents of an educational organisation
Abstract
This article reviews information systems for processing and structuring documents of an educational organisation, in particular systems for working with scientific publications within departments, as well as options for implementing intelligent modules in them in order to reduce the number of routine tasks. From the position of analytical method and system analysis, the existing software solutions in this subject area, as well as machine learning methods most suitable for the creation of an intelligent module, have been studied. In addition, a comparison of various options for its integration into the system architecture was carried out. As a result of the research, it was found that the most effective approach is to use the RoBERTa model in the development of the intelligent module and its implementation in the system as a dedicated service.
1. Введение
Широкое применение цифровизации в образовательных организациях затрагивает не только учебную сферу деятельности, но и работу внутренних структур. К подобным структурам можно отнести институты, кафедры и иные отделы прямо или косвенно задействованные в образовательном процессе. В рамках своего функционирования, данные подразделения формируют, используют, обрабатывают, структурируют и хранят большое количество различных документов. Внедрение цифровизации позволило упростить и автоматизировать большую часть этих процессов, путем использования специализированных информационных систем. Подобный подход позволил сократить количество рутинных задач, связанных с использованием аналогового способа хранения информации, однако полностью исключить ручной труд сотрудников не удалось. Зачастую сбор, структурирование и формирование документов происходит вручную, ввиду разнородности стандартов их оформления. В таком случае информационная система является не более чем местом хранения и быстрого доступа к данным в цифровом формате, сохраняя при этом проблему рутинности аналогового подхода.
Использование интеллектуальных модулей может существенно облегчить работу с извлечением данных, дальнейшим их структурированием и генерацией необходимых документов по заранее указанным шаблонам. При разработке подобных модулей подразумевается использование различных способов машинного обучения для задач категоризации документов, выявления скрытых зависимостей, группировки документов по смысловому содержанию и генерации выходных документов на основе полученных данных. Также машинное обучение можно использовать для экстракции информации из оцифрованных источников, например отсканированных документов.
Целью данной научной работы является исследование применения способов машинного обучения при разработке интеллектуальных модулей извлечения и систематизации данных, а также дальнейшего их внедрения в архитектуру информационной системы обработки и структурирования документов образовательной организации.
В качестве методологии исследования были выбраны аналитический метод и системный анализ. С позиции аналитического подхода были рассмотрены существующие решения в рамках предметной области, а также наиболее эффективные методы машинного обучения для решения поставленных задач. В ходе системного анализа были выявлены сильные и слабые стороны существующих систем и методов. На основе полученных данных были выделены наиболее эффективные методы машинного обучения и варианты их внедрения в информационную систему.
2. Анализ предметной области и существующих решений
Предметной областью исследования являются узконаправленные информационные системы для обработки и структурирования документов, а именно системы для работы с научными изданиями и публикационной деятельностью преподавателей. Использование подобных средств в процессе создания планов и отчетности по научным публикациям может значительно упростить и ускорить работу ответственного персонала, позволяя отказаться от часто используемых для этого электронных таблиц.
Основной проблемой при работе с подобного рода документами является большое количество метаданных, сопровождающих любые научные труды. К таким метаданных относятся: библиографические данные (название статьи, авторы, аффилиация, ключевые слова, аннотация, дата публикации, идентификатор статьи), информационные данные о публикации (название журнала или конференции, том, номер, страницы, редакторы, тип публикации), цитирования и ссылки (список литературы, внутренние ссылки, индекс цитирования), а также технические метаданные (формат документа, размер файла, язык статьи, лицензия, права и авторство). С точки зрения информационной системы, данную информацию должно быть возможно рассматривать как вкупе с основным текстом публикации, так и обособлено, для быстрого доступа к ней и возможности редактирования.
Существует несколько типов систем, используемых для решения вышеописанных задач. Системы для хранения и управления научными публикациями, представителями которых являются DSpace и EPrints , позволяют создать институциональный репозиторий для хранения данных о публикациях, а также предоставляют инструменты текстового поиска, архивирования и экспорта данных. У таких систем есть и ряд недостатков, к примеру DSpace требует наличия веб-сервера и базы данных, а у EPrints имеется ограниченная поддержка современных методов NLP и нет встроенных инструментов машинного обучения.
Также можно воспользоваться системами, которые подходят для управления библиографией и ссылками, такими как Zotero и JabRef . Они предоставляют функционал для управления библиографическими ссылками, возможность хранения данных и простую организацию публикаций. К недостаткам этих систем можно отнести локальное хранение информации и ограниченные возможности автоматического анализа текста.
Для анализа публикаций и извлечения данных могут быть использованы такие инструменты, как GROBID и Local Scholar (локальная версия Semantic Scholar) . С их помощью можно автоматически извлекать метаданные публикаций, проводить категоризацию и анализ данных. Однако для использования GROBID требует навыков работы с Python и настройкой серверов, а для работы Local Scholar требуется предварительное обучения модели на кафедральных публикациях.
Представленные программные продукты могут быть использованы для решения узкого ряда поставленных задач, а также имеют существенные ограничения в использовании. При создании проприетарной системы обработки и структурирования документов необходимо учесть преимущества и недостатки каждой отдельно описанной выше системы, чтобы конечный продукт удовлетворял выявленным требованиям.
3. Анализ методов машинного обучения, используемых для разработки интеллектуальных модулей системы
При разработке интеллектуальных модулей системы обработки и структурирования документов предполагается использование методов машинного обучения для реализации функционала извлечения и структурирования данных. Для решения этих задач наиболее универсальным и эффективным подходом является использование архитектуры «Трансформер» . Данную модель можно задействовать при анализе естественного текста в информационном поиске, а также в извлечении необходимой информации из текста.
Для улучшения производительности следует использовать предварительно обученные модели, такие как RoBERTa , BART и T5 . В статье «Анализ эффективности трансформеров для решения некоторых задач NLP» Прошиной М.В. и Виноградова А.Н. , подробно рассмотрены результаты применения данных моделей при решении различных задач NLP. В ходе испытаний наилучшую эффективность во всех видах задач продемонстрировала модель RoBERTa. Авторы отмечают, что трансформеры на данный момент еще недостаточно совершенные модели, однако при наличии должной оптимизации можно сократить вычислительные затраты, путем использования комбинированных архитектур или повышения объема обучающих данных.
4. Архитектура информационной системы и внедрение интеллектуальных модулей
Предполагается, что разрабатываемая система будет иметь монолитную клиент-серверную архитектуру с клиентской и серверной частями, а также базой данных. Внедрение интеллектуального модуля в клиент-серверную систему может осуществляться различными способами в зависимости от требований к производительности, масштабируемости и задержке обработки данных. Один из наиболее простых подходов – встроенный интеллектуальный модуль, когда алгоритмы машинного обучения интегрируются непосредственно в серверное приложение. В этом случае клиент отправляет запрос на сервер, который выполняет вычисления и возвращает результат. Такой подход удобен в развертывании, минимизирует задержки и обеспечивает обработку данных без передачи их в сторонние сервисы. Однако он ограничен в масштабируемости и требует значительных вычислительных ресурсов на стороне сервера.
Более гибким решением является выделенный AI-сервис, в котором интеллектуальный модуль работает как отдельный сервис и взаимодействует с основным сервером через API. Клиент отправляет запрос на основной сервер, который передает его в интеллектуальный модуль, где выполняется анализ данных. Затем обработанный результат возвращается клиенту. Это решение повышает масштабируемость, так как интеллектуальный модуль можно развернуть на мощных серверах, а также использовать его в нескольких системах одновременно. Однако добавляется дополнительная задержка из-за необходимости сетевого взаимодействия, и усложняется управление инфраструктурой.
Другим вариантом является обработка данных непосредственно на клиенте. В этом случае предварительно обученная модель загружается в веб-приложение или мобильное приложение, а вычисления выполняются локально. Это снижает нагрузку на сервер и позволяет работать в оффлайн-режиме, но требует мощных клиентских устройств и ограничивает сложность используемых моделей.
Компромиссным вариантом является гибридная архитектура, в которой базовая обработка выполняется на клиенте, а сложные вычисления – на сервере. Например, клиент может извлекать текст из документа, а сервер – выполнять семантический анализ и классификацию. Это позволяет оптимизировать передачу данных, снизить задержки и распределить нагрузку между клиентом и сервером. Однако такая архитектура требует сложной синхронизации процессов и тщательного планирования работы системы.
Результаты сравнения вариантов внедрения интеллектуальных модулей представлены в таблице 1.
Таблица 1 - Сравнение вариантов внедрения интеллектуального модуля
Критерий | Встроенный модуль (на сервере) | Выделенный сервис | Модуль на клиенте | Гибридная архитектура |
Производительность | Высокая | Средняя | Низкая | Высокая |
Масштабируемость | Плохая | Отличная | Средняя | Хорошая |
Простота развертывания | Простая | Средняя | Простая | Сложная |
Задержка обработки | Минимальная | Умеренная | Минимальная | Низкая |
Объем передаваемых данных | Малый | Средний | Отсутствует | Оптимизированный |
Требуемые вычислительные ресурсы | Высокие (на сервере) | Высокие (на выделенном сервере) | Низкие (на клиенте) | Средние (разделены) |
Проанализировав достоинства и недостатки каждого из подходов, авторы выявили, что наиболее оптимальным вариантом внедрения модуля в клиент-серверную систему является использования выделенного сервиса и взаимодействие с ним через API. Такой подход позволит настраивать и тестировать интеллектуальный модуль, не изменяя логику основного приложения. Также это позволит сохранить работоспособность приложения при возможных сбоях в работе модуля.
5. Заключение
В ходе исследования были проанализированы существующие решения для обработки и структурирования документов, а также методы машинного обучения, применяемые в данной предметной области. Традиционные системы не обеспечивают достаточной автоматизации, а интеллектуальные решения требуют адаптации под образовательные задачи.
Оптимальным вариантом является разработка интеллектуального модуля, интегрируемого в клиент-серверную систему. Анализ архитектурных решений показал, что наиболее эффективным является выделенный сервис, взаимодействующий с основным сервером через API. Такой подход обеспечивает масштабируемость, гибкость и удобство тестирования.
Внедрение интеллектуальных модулей позволит автоматизировать обработку научных публикаций, ускорить работу с документами и снизить нагрузку на сотрудников. Дальнейшие исследования могут быть направлены на адаптацию моделей к образовательным данным и оптимизацию их вычислительной эффективности.