Стратегический подход к обеспечению сохранности цифровых документальных архивов
Стратегический подход к обеспечению сохранности цифровых документальных архивов
Аннотация
В статье исследуются проблемы и современные подходы к обеспечению долговременной сохранности электронных цифровых архивов, анализируются методы и технологии, используемые для создания новых механизмов комплектования, хранения и использования электронных архивов в условиях цифровой трансформации общества. В статье сформулированы ключевые элементы стратегического подхода к организации работы с цифровыми ресурсами, направленные на выполнение требований стандартов по обеспечению долговременной сохранности электронных документов, обозначены ключевые задачи и механизмы обеспечения сохранности документов. В заключении обсуждаются сложности комплексного подхода и перспективные направления цифровой трансформации архивной отрасли.
1. Введение
Масштабные процессы цифровой трансформации современного общества сопровождаются активным ростом числа и плотности цифровых информационных потоков. Проекты внедрения электронного документооборота уже давно перешли из категории перспективных направлений в категорию рутинных процессов модернизации деятельности коммерческих компаний и государственных учреждений. Так, за I квартал 2023 г. объем электронного документооборота в России вырос на 35% по отношению к тому же периоду прошлого года . Период первичного накопления электронных документных фондов прошел очень быстро и сегодня перед обществом в полный рост встали вопросы дальнейшего архивного хранения и использования электронных документов.
Долгое время очевидные преимущества использования электронных документов (далее – ЭД) отодвигали на второй план проблемы, которые возникают при переходе от оперативного к постоянному хранению электронных архивов. В 2000-х гг. по всему миру были запущены процессы оцифровки существующих документных фондов и библиотек , невзирая на отсутствие комплексной стратегии развития цифровых архивов. В 2010-х гг. в России и других странах было разработано большое количество нормативно-методических документов по вопросам создания электронных архивов , , , однако основной упор в них по-прежнему сделан на методических аспектах комплектования и передачи электронных документов на хранение, тогда как в отношении стратегии лишь декларируется наличие ряда нерешенных вопросов.
Объект исследования – стратегия обеспечения сохранности электронных документов.
Предмет исследования – механизмы и методы обеспечения сохранности и аутентичности электронных документов в долгосрочной перспективе.
Цель работы – анализ существующих подходов и технологий обеспечения долговременной сохранности электронных цифровых архивов, формирование новых механизмов комплектования, хранения и использования электронных архивов в условиях цифровой трансформации общества.
Для достижения поставленной цели решаются следующие задачи:
– анализ актуальных проблем цифровой трансформации архивной отрасли;
– постановка ключевых задач обеспечения долговременной сохранности ЭД;
– разработка механизмов хранения ЭД, удовлетворяющих ключевым требованиям читаемости, доступности, понятности и аутентичности.
2. Методы и принципы исследования
Первый этап исследования посвящен анализу публикаций в научной и профессиональной печати, нормативных документов международного и национального уровня, посвященных вопросам обеспечения долговременной сохранности электронных документов. Применялись системный и общенаучный методы, терминологический анализ, функциональная декомпозиция.
Второй этап включает разработку элементов стратегического подхода к обеспечению долговременной сохранности документированной информации в электронном виде. На этом этапе применялись системный анализ, структурное моделирование, метод аналогии.
3. Основные результаты
Определение термина «электронный документ» (далее – ЭД) до сих пор остается предметом научных дискуссий. Оставляя их за рамками данной статьи, отметим лишь, что большинство исследователей выделяют 2 категории ЭД:
1) цифровые документы, изначально созданные в электронном виде и не имеющие бумажного оригинала;
2) электронные образы документов – представляющие собой скан-копии бумажных документов.
Кроме того, с точки зрения архивного хранения следует различать ЭД на обособленном материальном носителе и ЭД в составе баз данных.
Проблемы цифровой трансформации архивной отрасли активно обсуждают российские и зарубежные исследователи, указывая на недостаточную проработанность таких аспектов как публикация конфиденциальных документов , экспертиза ценности цифровых ресурсов , вопросы обеспечения сохранности и разграничения доступа к архивам , и др. В работе авторы указывают на наличие существенного разрыва между объемом создаваемого и фактически используемого архивного фонда, причем этот разрыв увеличивается по мере нарастания комплектования архивов.
Ретроспективный анализ подходов к сохранению цифровых документов показал, что исторически первой стратегией хранения ЭД стала попытка использовать опыт хранения бумажных документов. Начиная с 1970-х гг. организации и ведомства начали формировать «электронные архивы», передавая на архивное хранение материальные носители (магнитные ленты, дискеты, компакт-диски) с записанными на них электронными документами. Носители помещались в оригинальную упаковку и складировались в специальных держателях в архивохранилищах. Однако такой подход довольно быстро показал свои слабые стороны. Согласно выборочному тестированию дисков CD-R, проведенному в Росархиве в 2011 г., уже через 5-10 лет хранения больше 50% дисков получили оценку «удовлетворительно», а около 5% – «очень плохо» . С тех пор принципиально новых технологий долгосрочного пассивного хранения данных не появилось.
Анализ нормативных актов и исследовательских работ , в области обеспечения сохранности электронных документов показывает, что на сегодняшний день сформулированы следующие основные требований к системам долговременного хранения:
– обеспечение читаемости документов путем защиты от физического и морального износа документов;
– обеспечение верной интерпретации потока битов, составляющих документы;
– обеспечение идентифицируемость электронных документов;
– обеспечение доступности документов, которая подразумевает наличие корректной системы указателей (связи в базе данных, каталоги файловой системы и др.) на целые документы или их части;
– обеспечение понятности документа, которая обеспечивается сочетанием информационного контента и контекста документа;
– обеспечение аутентичности ЭД – ключевая задача стратегии долговременного хранения документов.
Анализ сущностных особенностей перечисленных требований позволил сформулировать ключевые задачи по обеспечению сохранности электронных документов и обозначить механизмы их решения (Табл. 1)
Таблица 1 - Основные задачи и механизмы обеспечения долговременной сохранности электронных документов
Ключевые факторы сохранности | Задачи обеспечения сохранности | Механизмы решения задач |
Читаемость | Защита от физического износа носителей информации; Защита от морального износа носителей и программ | Резервное копирование; Активное хранение; Миграция документов; Конвертация в новые форматы документов |
Интерпретируемость | Сохранение целостности внутренней структуры документа, его заголовков | Использование стандартных форматов хранения (PDF/A, TIFF, XML) |
Идентифицируемость | Обеспечение сохранности идентификатора документа в виде его внутреннего или внешнего реквизита | Внедрение реквизитов в тело документа; Интеграция документа и метаданных в виде контейнера |
Доступность | Сохранение системы указателей, каталогов, позволяющих выполнять поиск и получать доступ к документам | Интеграция коллекции документов и каталога в виде библиотеки |
Понятность | Сохранение контекста документа в форме метаданных (авторство, дата создания, условия создания и т.п.) | Внедрение метаданных в тело документа; Создание отдельных метафайлов |
Аутентичность | Обеспечение неизменности информационного содержимого (контента), структуры и существенных реквизитов документа; подтверждение юридической значимости документа | Отказ от требования математической неизменности файла в пользу его социально-правовой инвариантности относительно его программно-технической реализации; Использование неизменяемых носителей (WORM, ROM); Удостоверение подлинности и юридической значимости при миграции документа; Использование технологии блокчейн для хранения сведений об электронных подписях |
При этом электронный документ как средство фиксации информации и как объект архивного хранения обладает рядом специфических свойств:
– ключевое отличие ЭД состоит в его машиночитаемой природе – для работы с таким документом человеку необходим посредник в виде электронной вычислительной системы, структура которой в общем виде включает аппаратную часть, системное и прикладное программное обеспечение; состояние этой системы определяет особенности создания, интерпретации и хранения ЭД;
– для ЭД требование полной неизменности (характерное для архивных документов) является невозможным с технологической и математической точек зрения; каждое новое открытие документа фактически приводит к его новой программной интерпретации, включая изменения формы и даже содержания документа и/или его реквизитов (метаданных) ;
– аппаратные и программные средства постоянно эволюционируют, что приводит к нестабильности среды интерпретации ЭД, и опять-таки к изменениям в документе; существовавшее долгие десятилетия требование обратной совместимости в последние годы выполняется все реже – производители отказываются от поддержки старых версий собственных программ;
– все большее значение приобретает инвариантность ЭД к изменениям в социально-правовом смысле, которая обеспечит возможность использования документа как инструмента социально-экономических и правовых отношений.
4. Обсуждение
По результатам проведенного исследования можно сформулировать следующие основные положения стратегии долговременного хранения электронных документов:
1. В научной среде уже несколько лет обсуждаются идеи о возможности разделения информационного наполнения и материального носителя ЭД , . К подобным выводам приходят и представители архивной отрасли, называя: «отказ от неразрывной связи между содержащейся в документе информацией и конкретным физическим носителем» принципиальным отличием электронного архивного документа . Следует признать этот подход наиболее рациональным и, пожалуй, единственно возможным при решении задач обеспечения сохранности цифровых архивов;
2. В обозримой перспективе будет продолжаться постоянное совершенствование и обновление информационных технологий работы с документами. Это приводит к выводу о невозможности в ближайшее время сформировать устойчивые, неизменные форматы архивных документов, инвариантные относительно изменений информационных технологий, программных и аппаратных средств. Следовательно, придется отказаться и от требований неизменности формата и принять необходимость периодической конвертации (перекодирования) документов в процессе их архивного хранения. Отметим, что сохранение документа в оригинальном формате не является обязательным требованием по ГОСТ Р 54989, хотя и практикуется при формировании архивных электронных контейнеров , , .
3. Для выполнения требований интерпретируемости и аутентичности необходимо обеспечить неизменность контента, структуры, заголовков и реквизитов электронного документа. Этого можно достичь, если использовать форматы файлов, в основе которых лежит некая универсальная схема описания данных, построенная на стандартном языке разметки (таковым в настоящее время признан XML). Даже при переходе от одного формата к другому информационное наполнение документа и его ключевые реквизиты будут оставаться неизменными, а меняться будет лишь «оболочка», определяемая конкретным форматом. Такой подход уже используется некоторыми производителями программного обеспечения. Например, все форматы офисного пакета компании Microsoft (docx, xlsx и др.) основаны на XML;
4. Для обеспечения требования аутентичности наряду с уже устоявшимся понятием архивного электронного контейнера предлагается ввести понятие верифицированного контейнера, который будет содержать дополнительный реквизит, удостоверяющий юридическую силу архивного документа, подписанного электронной подписью. Этот документ должен добавляться в контейнер после проведения экспертизы ценности в процессе подготовке контейнера к архивному хранению. Во избежание потенциальных проблем с подделкой удостоверяющих реквизитов, предлагается организовать распределенный реестр на базе технологии блокчейн для хранения информации о самом реквизите и все операциях с ним. Такой подход позволит решить проблемы, связанные с ограниченным сроком жизни электронной подписи и обеспечить защиту верифицированного контейнера от фальсификации;
5. Для обеспечения требования доступности рекомендуется перейти при формировании цифровых архивов к более крупным единицам хранения – библиотекам архивных контейнеров. Библиотека помимо коллекции электронных контейнеров включает систему указателей (каталог), обеспечивающих поиск и доступность (а также опционально – идентификацию) электронных документов. Аналогичный подход, например, используется при формировании программных библиотек. Задачи каталогизации и систематизации архивных библиотек частично будут решаться прямо в организации – источнике комплектования при подготовке к передаче в архив, что позволяет повысить информативность научно-справочного аппарата и снизить нагрузку на сами архивы. Однако при этом возникает потребность в разработке единых регламентов и инструментов (языков описания, форматов, классификаторов) каталогизации таких библиотек, чтобы обеспечить их унификацию в рамках Архивного фонда РФ.
5. Заключение
Данная работа является первым этапом исследования, посвященного разработке комплексной стратегии к архивному хранению цифровых документов. Обозначенные в работе подходы и инструменты обеспечения долговременной сохранности электронных архивов необходимо систематизировать и поставить на единую методическую основу.
При внешней простоте предложенных механизмов, их практическая реализация потребует масштабных изменений в архивном деле, пересмотра или уточнения многих основополагающих принципов и документов. Архивную отрасль ждет непростой процесс цифровой трансформации, который не сводится только к вопросам оцифровки существующих архивных фондов и предоставления к ним дистанционного доступа, хотя такая точка зрения нередко встречается в литературе.
Фундаментальному переосмыслению подвергнутся все этапы жизненного цикла цифровых документов. Наиболее серьезные изменения мы ожидаем на этапе использования архивного документа, поскольку цифровая форма его представления в купе с современными информационно-аналитическими технологиями позволят радикально увеличить доступность, востребованность и эффективность использования архивных документов в обществе. В заключение отметим, что скорее всего, трансформации будет подвергнута и сама модель жизненного цикла документа, что приведет к пересмотру всей структуры и содержания ее этапов.