A Strategic Approach to the Preservation of Digital Documentary Archives

Research article
DOI:
https://doi.org/10.23670/IRJ.2023.136.13
Issue: № 10 (136), 2023
Suggested:
26.06.2023
Accepted:
09.10.2023
Published:
17.10.2023
673
7
XML
PDF

Abstract

The article studies the problems and modern approaches to ensuring long-term preservation of electronic digital archives, analyses the methods and technologies used to create new mechanisms for acquisition, storage and use of electronic archives in the conditions of digital transformation of society. The work formulates key elements of a strategic approach to the organization of work with digital resources aimed at meeting the requirements of standards for ensuring long-term preservation of electronic documents, and identifies key tasks and mechanisms for ensuring the conservation of documents. The conclusion discusses the complexities of an integrated approach and promising areas of digital transformation of the archival industry.

1. Введение

Масштабные процессы цифровой трансформации современного общества сопровождаются активным ростом числа и плотности цифровых информационных потоков. Проекты внедрения электронного документооборота уже давно перешли из категории перспективных направлений в категорию рутинных процессов модернизации деятельности коммерческих компаний и государственных учреждений. Так, за I квартал 2023 г. объем электронного документооборота в России вырос на 35% по отношению к тому же периоду прошлого года

. Период первичного накопления электронных документных фондов прошел очень быстро и сегодня перед обществом в полный рост встали вопросы дальнейшего архивного хранения и использования электронных документов.

Долгое время очевидные преимущества использования электронных документов (далее – ЭД) отодвигали на второй план проблемы, которые возникают при переходе от оперативного к постоянному хранению электронных архивов. В 2000-х гг. по всему миру были запущены процессы оцифровки существующих документных фондов и библиотек

, невзирая на отсутствие комплексной стратегии развития цифровых архивов. В 2010-х гг. в России и других странах было разработано большое количество нормативно-методических документов по вопросам создания электронных архивов
,
,
, однако основной упор в них по-прежнему сделан на методических аспектах комплектования и передачи электронных документов на хранение, тогда как в отношении стратегии лишь декларируется наличие ряда нерешенных вопросов. 

Объект исследования – стратегия обеспечения сохранности электронных документов.

Предмет исследования механизмы и методы обеспечения сохранности и аутентичности электронных документов в долгосрочной перспективе.

Цель работы – анализ существующих подходов и технологий обеспечения долговременной сохранности электронных цифровых архивов, формирование новых механизмов комплектования, хранения и использования электронных архивов в условиях цифровой трансформации общества.

Для достижения поставленной цели решаются следующие задачи:

– анализ актуальных проблем цифровой трансформации архивной отрасли;

– постановка ключевых задач обеспечения долговременной сохранности ЭД;

– разработка механизмов хранения ЭД, удовлетворяющих ключевым требованиям читаемости, доступности, понятности и аутентичности.

2. Методы и принципы исследования

Первый этап исследования посвящен анализу публикаций в научной и профессиональной печати, нормативных документов международного и национального уровня, посвященных вопросам обеспечения долговременной сохранности электронных документов. Применялись системный и общенаучный методы, терминологический анализ, функциональная декомпозиция.

Второй этап включает разработку элементов стратегического подхода к обеспечению долговременной сохранности документированной информации в электронном виде. На этом этапе применялись системный анализ, структурное моделирование, метод аналогии.

3. Основные результаты

Определение термина «электронный документ» (далее – ЭД) до сих пор остается предметом научных дискуссий. Оставляя их за рамками данной статьи, отметим лишь, что большинство исследователей выделяют 2 категории ЭД:

1) цифровые документы, изначально созданные в электронном виде и не имеющие бумажного оригинала;

2) электронные образы документов – представляющие собой скан-копии бумажных документов.

Кроме того, с точки зрения архивного хранения следует различать ЭД на обособленном материальном носителе и ЭД в составе баз данных.

Проблемы цифровой трансформации архивной отрасли активно обсуждают российские и зарубежные исследователи, указывая на недостаточную проработанность таких аспектов как публикация конфиденциальных документов

, экспертиза ценности цифровых ресурсов
, вопросы обеспечения сохранности и разграничения доступа к архивам
,
и др. В работе
авторы указывают на наличие существенного разрыва между объемом создаваемого и фактически используемого архивного фонда, причем этот разрыв увеличивается по мере нарастания комплектования архивов.

Ретроспективный анализ подходов к сохранению цифровых документов показал, что исторически первой стратегией хранения ЭД стала попытка использовать опыт хранения бумажных документов. Начиная с 1970-х гг. организации и ведомства начали формировать «электронные архивы», передавая на архивное хранение материальные носители (магнитные ленты, дискеты, компакт-диски) с записанными на них электронными документами. Носители помещались в оригинальную упаковку и складировались в специальных держателях в архивохранилищах. Однако такой подход довольно быстро показал свои слабые стороны. Согласно выборочному тестированию дисков CD-R, проведенному в Росархиве в 2011 г., уже через 5-10 лет хранения больше 50% дисков получили оценку «удовлетворительно», а около 5% – «очень плохо»

. С тех пор принципиально новых технологий долгосрочного пассивного хранения данных не появилось.

Анализ нормативных актов

и исследовательских работ
,
в области обеспечения сохранности электронных документов показывает, что на сегодняшний день сформулированы следующие основные требований к системам долговременного хранения:

– обеспечение читаемости документов путем защиты от физического и морального износа документов;

– обеспечение верной интерпретации потока битов, составляющих документы;

– обеспечение идентифицируемость электронных документов;

– обеспечение доступности документов, которая подразумевает наличие корректной системы указателей (связи в базе данных, каталоги файловой системы и др.) на целые документы или их части;

– обеспечение понятности документа, которая обеспечивается сочетанием информационного контента и контекста документа;

– обеспечение аутентичности ЭД – ключевая задача стратегии долговременного хранения документов.

Анализ сущностных особенностей перечисленных требований позволил сформулировать ключевые задачи по обеспечению сохранности электронных документов и обозначить механизмы их решения (Табл. 1)

Таблица 1 - Основные задачи и механизмы обеспечения долговременной сохранности электронных документов

Ключевые факторы сохранности

Задачи обеспечения сохранности

Механизмы решения задач

Читаемость

Защита от физического износа носителей информации;

Защита от морального износа носителей и программ

Резервное копирование;

Активное хранение;

Миграция документов;

Конвертация в новые форматы документов

Интерпретируемость

Сохранение целостности внутренней структуры документа, его заголовков

Использование стандартных форматов хранения (PDF/A, TIFF, XML)

Идентифицируемость

Обеспечение сохранности идентификатора документа в виде его внутреннего или внешнего реквизита

Внедрение реквизитов в тело документа;

Интеграция документа и метаданных в виде контейнера

Доступность

Сохранение системы указателей, каталогов, позволяющих выполнять поиск и получать доступ к документам

Интеграция коллекции документов и каталога в виде библиотеки

Понятность

Сохранение контекста документа в форме метаданных (авторство, дата создания, условия создания и т.п.)

Внедрение метаданных в тело документа;

Создание отдельных метафайлов

Аутентичность

Обеспечение неизменности информационного содержимого (контента), структуры и существенных реквизитов документа; подтверждение юридической значимости документа

Отказ от требования математической неизменности файла в пользу его социально-правовой инвариантности относительно его программно-технической реализации;

Использование неизменяемых носителей (WORM, ROM);

Удостоверение подлинности и юридической значимости при миграции документа;

Использование технологии блокчейн для хранения сведений об электронных подписях

При этом электронный документ как средство фиксации информации и как объект архивного хранения обладает рядом специфических свойств:

– ключевое отличие ЭД состоит в его машиночитаемой природе – для работы с таким документом человеку необходим посредник в виде электронной вычислительной системы, структура которой в общем виде включает аппаратную часть, системное и прикладное программное обеспечение; состояние этой системы определяет особенности создания, интерпретации и хранения ЭД;

– для ЭД требование полной неизменности (характерное для архивных документов) является невозможным с технологической и математической точек зрения; каждое новое открытие документа фактически приводит к его новой программной интерпретации, включая изменения формы и даже содержания документа и/или его реквизитов (метаданных)

;

– аппаратные и программные средства постоянно эволюционируют, что приводит к нестабильности среды интерпретации ЭД, и опять-таки к изменениям в документе; существовавшее долгие десятилетия требование обратной совместимости в последние годы выполняется все реже – производители отказываются от поддержки старых версий собственных программ;

– все большее значение приобретает инвариантность ЭД к изменениям в социально-правовом смысле, которая обеспечит возможность использования документа как инструмента социально-экономических и правовых отношений.

4. Обсуждение

По результатам проведенного исследования можно сформулировать следующие основные положения стратегии долговременного хранения электронных документов:

1. В научной среде уже несколько лет обсуждаются идеи о возможности разделения информационного наполнения и материального носителя ЭД

,
. К подобным выводам приходят и представители архивной отрасли, называя: «отказ от неразрывной связи между содержащейся в документе информацией и конкретным физическим носителем» принципиальным отличием электронного архивного документа
. Следует признать этот подход наиболее рациональным и, пожалуй, единственно возможным при решении задач обеспечения сохранности цифровых архивов;

2. В обозримой перспективе будет продолжаться постоянное совершенствование и обновление информационных технологий работы с документами. Это приводит к выводу о невозможности в ближайшее время сформировать устойчивые, неизменные форматы архивных документов, инвариантные относительно изменений информационных технологий, программных и аппаратных средств. Следовательно, придется отказаться и от требований неизменности формата и принять необходимость периодической конвертации (перекодирования) документов в процессе их архивного хранения. Отметим, что сохранение документа в оригинальном формате не является обязательным требованием по ГОСТ Р 54989, хотя и практикуется при формировании архивных электронных контейнеров

,
,

3. Для выполнения требований интерпретируемости и аутентичности необходимо обеспечить неизменность контента, структуры, заголовков и реквизитов электронного документа. Этого можно достичь, если использовать форматы файлов, в основе которых лежит некая универсальная схема описания данных, построенная на стандартном языке разметки (таковым в настоящее время признан XML). Даже при переходе от одного формата к другому информационное наполнение документа и его ключевые реквизиты будут оставаться неизменными, а меняться будет лишь «оболочка», определяемая конкретным форматом. Такой подход уже используется некоторыми производителями программного обеспечения. Например, все форматы офисного пакета компании Microsoft (docx, xlsx и др.) основаны на XML;

4. Для обеспечения требования аутентичности наряду с уже устоявшимся понятием архивного электронного контейнера предлагается ввести понятие верифицированного контейнера, который будет содержать дополнительный реквизит, удостоверяющий юридическую силу архивного документа, подписанного электронной подписью. Этот документ должен добавляться в контейнер после проведения экспертизы ценности в процессе подготовке контейнера к архивному хранению. Во избежание потенциальных проблем с подделкой удостоверяющих реквизитов, предлагается организовать распределенный реестр на базе технологии блокчейн для хранения информации о самом реквизите и все операциях с ним. Такой подход позволит решить проблемы, связанные с ограниченным сроком жизни электронной подписи и обеспечить защиту верифицированного контейнера от фальсификации;

5. Для обеспечения требования доступности рекомендуется перейти при формировании цифровых архивов к более крупным единицам хранения – библиотекам архивных контейнеров. Библиотека помимо коллекции электронных контейнеров включает систему указателей (каталог), обеспечивающих поиск и доступность (а также опционально – идентификацию) электронных документов. Аналогичный подход, например, используется при формировании программных библиотек. Задачи каталогизации и систематизации архивных библиотек частично будут решаться прямо в организации – источнике комплектования при подготовке к передаче в архив, что позволяет повысить информативность научно-справочного аппарата и снизить нагрузку на сами архивы. Однако при этом возникает потребность в разработке единых регламентов и инструментов (языков описания, форматов, классификаторов) каталогизации таких библиотек, чтобы обеспечить их унификацию в рамках Архивного фонда РФ.

5. Заключение

Данная работа является первым этапом исследования, посвященного разработке комплексной стратегии к архивному хранению цифровых документов. Обозначенные в работе подходы и инструменты обеспечения долговременной сохранности электронных архивов необходимо систематизировать и поставить на единую методическую основу.

При внешней простоте предложенных механизмов, их практическая реализация потребует масштабных изменений в архивном деле, пересмотра или уточнения многих основополагающих принципов и документов. Архивную отрасль ждет непростой процесс цифровой трансформации, который не сводится только к вопросам оцифровки существующих архивных фондов и предоставления к ним дистанционного доступа, хотя такая точка зрения нередко встречается в литературе.

Фундаментальному переосмыслению подвергнутся все этапы жизненного цикла цифровых документов. Наиболее серьезные изменения мы ожидаем на этапе использования архивного документа, поскольку цифровая форма его представления в купе с современными информационно-аналитическими технологиями позволят радикально увеличить доступность, востребованность и эффективность использования архивных документов в обществе. В заключение отметим, что скорее всего, трансформации будет подвергнута и сама модель жизненного цикла документа, что приведет к пересмотру всей структуры и содержания ее этапов.

Article metrics

Views:673
Downloads:7
Views
Total:
Views:673