MATHEMATICAL MODELS FOR EVALUATING RELIABILITY INDICATORS TO STUDY THE PROBABILISTIC AND TEMPORAL CHARACTERISTICS OF MULTI-MACHINE COMPLEXES WITH REGARD TO FAILURES

Research article
DOI:
https://doi.org/10.23670/IRJ.2023.127.27
Issue: № 1 (127), 2023
Suggested:
05.11.2022
Accepted:
12.01.2023
Published:
24.01.2023
84
0
XML PDF

Abstract

The article describes the problems of constructing a family of analytical models with unreliable elements for calculating the probabilistic and temporal characteristics of information processing in multi-machine computer complexes of automated data processing systems, taking into account failures and malfunctions. Initial data for research of probabilistic and temporal characteristics of multimachine computer complexes are selected. Problems of determination of equivalent characteristics of a subsystem of external devices with sliding reserve and a problem of parallel composition with regard to account switching are formalized and solved. Software implementation of the mathematical models enabling an automated multivariate analysis of information processing in multimachine computer systems was carried out taking into account the reliability characteristics. The novelty of the results is due to the fact that for the first time the works on the use of models characterizing failures, together with the network multilevel models of assessment of the probabilistic and temporal characteristics of computing systems have been reviewed from a system perspective, as well as analytical interface models of the initial data evaluation characterizing different types of failures and malfunctions in the computing systems for their direct use in the original approach to modelling the processing of information designed earlier by the authors are developed.

1. Введение

Для создания систем автоматизации проектирования информационно-вычислительных систем, ядром которых являются вычислительные комплексы, необходима разработка математических методов и моделей, достаточно адекватно описывающих процесс функционирования этих систем, позволяющих определять их основные характеристики и использовать различные модели в составе единого программного комплекса. Наиболее эффективным оказывается иерархический подход, позволяющий путем создания многоуровневых моделей подробно описать как всю систему в целом, так и ее отдельные элементы. Вычислительные комплексы (ВК), работающие в составе автоматизированных систем обработки данных (АСОД), должны удовлетворять высоким требованиям по производительности и надёжности функционирования. На процесс обработки информации в АСОД накладываются жёсткие временные ограничения; ВК должен обеспечивать обработку информации в заданные директивные сроки. На временные характеристики процесса обработки существенное влияние оказывают отказы и сбои, В связи с этим на этапе технического проектирования комплекса и при выборе рациональных режимов обработки данных, необходимо оценить влияние характеристик надёжности на временные характеристики процесса обработки информации.

В данной работе рассматриваются вопросы оценки показателей надежности ВК и построения формализованных математических моделей анализа процесса обработки информации в ВК АСОД с учётом надёжности. При анализе показателей надежности ВК наиболее широко используются аналитические модели, базирующиеся на теории надежности

,
,
,
и теории массового обслуживания
,
,
,
.

2. Анализ особенностей функционирования ВК в составе АСОД

ВК является центральным звеном сбора, обработки и выдачи информации АСОД. Большая ценность обрабатываемой информации, высокая ответственность при принятии решений, недопустимость потери информации, сложность процесса обработки накладывают жёсткие ограничения на временные и надёжностные характеристики АСОД. Удовлетворение этих требований достигается за счёт введения аппаратной и информационной избыточности на различных уровнях системы, выбором рациональных режимов обработки данных, применением специальных программных средств, обеспечивающих работоспособность при отказах, созданием и совершенствованием системы обеспечения функционирования ВК

,
,
.

Основными особенностями функционирования вычислительного комплекса в составе АСОД являются

:

- наличие большого числа удалённых абонентов, инициирующих сравнительно небольшое количество запросов различных типов;

- поступление запросов на обработку в ВК от абонентов в случайные моменты времени;

- обработка заявок в соответствии с заранее известной технологической схемой, обеспечивающей наличие постоянных маршрутов обработки запросов в системе;

- недопустимость потери информации и наличие ограничений на временные характеристики процесса обработки запросов.

Такая особенность, как случайный характер поступления запросов на обработку, влечёт за собой требование непрерывного функционирования ВК, а недопустимость потери информации влечёт требование к комплексу, чтобы он постоянно находился в работоспособном состоянии.

Обеспечение требования непрерывной работы ВК можно осуществить только с некоторой вероятностью. Поэтому вместо требования непрерывной работы ВК, накладывают жёсткие ограничения на временные и надёжностные характеристики ВК, в частности, на такие, как время обработки запросов, вероятность обработки запросов в заданные сроки, коэффициент готовности, среднее время наработки на отказ и др.

.

Проблема оценки надежности ВК и подсистем хранения данных является в настоящее время важной и актуальной задачей

,
,
,
.

Наиболее информативными с точки зрения процесса обработки информации в ВК являются такие обобщенные показатели качества функционирования ВК, как вероятности обработки запросов в заданные директивные сроки img, где img  время обработки img-го запроса в ВК, img  заданное директивное время обработки, img - множество сообщений, обрабатываемых в ВК.

3. Семейство многоуровневых моделей проблемного и структурного уровней

Процесс обработки заявок в ВК с учетом возникающих отказов, сбоев и искажений во входной информации описывается с помощью семейства многоуровневых вложенных моделей проблемного и структурного уровней с ненадежными элементами, причем на проблемном уровне имитируется функционирование программных ресурсов, а на структурном уровне – аппаратных ресурсов. В работах

,
предложен и обоснован декомпозиционный аналитико-имитационный метод анализа временных характеристик многомашинных ВК с учетом надежности, базирующийся на использовании вложенных многоуровневых моделей. Метод включает следующие шаги:

1. Определение потоков требований на обслуживание на аппаратном уровне с помощью интерфейсных подмоделей настройки модели структурного уровня.

2. Использование аналитического метода для определения временных характеристик обработки требований на аппаратном уровне путем декомпозиции модели структурного уровня на элементарные базисные подмодели процессоров и каналов.

3. Настойка модели проблемного уровня с помощью соответствующих интерфейсных подмоделей.

4. Преобразование с помощью аналитических методов ненадежных обслуживающих аппаратов (ОА) проблемного уровня в эквивалентные надежные.

5. Построение аппроксимирующих функций распределения (ФР) времени обработки заявок эквивалентными аппаратами.

6. Определение выходных характеристик системы с помощью имитационного моделирования многофазной СМО проблемного уровня с эквивалентными надежными ОА.

4. Выбор исходных данных для исследования вероятностно-временных характеристик многомашинных ВК с учетом надежности

Для анализа процесса обработки необходимо знать параметры, ха­рактеризующие интенсивность различных типов отказов и сбоев и функции распределения времени восстановления системы. Основными средствами борьбы с влиянием отказов на процесс обработки являются резервирование системы на различных уровнях и организация контрольных точек

,
. Для комплексирования и создания резервированных вычислительных комплексов предусмотрен целый ряд технических и программных средств на различных функциональных уровнях
,
,
,
:

- на уровне процессоров - средства прямого управления;

- на уровне каналов ввода-вывода адаптеры канал-канал;

- на уровне внешних устройств многовходовые устройства управления внешними устройствами.

Наибольшее распространение в настоящее время получили однородные многомашинные ВК. Одним из преимуществ однородных вычислительных комплексов является возможность организации режима горячего резерва. Одна из ЭВМ ВК, функционирующая в составе АСОД, обслуживает все заявки, поступающие в систему, другая ЭВМ находится в режиме горячего резерва. Основная ЭВМ через определенные промежутки времени передаёт промежуточную информацию в резервную машину с целью организации контрольных точек. При нормальном функционировании комплекса перевод ЭВМ из основной в резервную и наоборот осуществляется специальной программой. При отказе основной ЭВМ, резервная продолжает обработку прерванной задачи с места последней контрольной точки. Доступ к внешней памяти осуществляется с помощью двухвходовых устройств управления. Во время восстановления отказавшей ЭВМ вычислительный комплекс функционирует без горячего резерва и отказ второй ЭВМ влечёт за собой отказ вычислительной системы.

Интервалы времени, когда интенсивность потока заявок такова, что возникает перегрузка основной ЭВМ, относительно невелики. И в среднем загрузка ВК меньше предельно допустимой загрузки одной из машин. Для устранения перегрузок используется режим параллельной обработки заявок на обеих ЭВМ, с соответствующим их распределением по машинам.

Время обработки запросов в ВК АСОД обычно значительно меньше нормативного времени их пребывания в системе. Разность между нормативным временем и реальным временем обработки сообщений в системе может быть порядка десятков минут. Это позволяет иногда произвести обработку заявки за время, не превосходящее нормативное, даже в том случае, если во время обработки заявки возникает отказ. Вычислительные комплексы, функционирующие в состав АСОД, являются многомашинными вычислительными комплексами с временной избыточностью при обработке случайных запросов.

Обработка сообщений в АСОД имеет ряд особенностей. Каждая заявка обрабатывается, как правило, несколькими программами. Маршруты заявок по обрабатывающим программам являются заданными. Некоторые программы предназначены для обработки различных типов заявок. Для координации процесса обработки и разрешения возникающих конфликтов разрабатывается специальная управляющая программа, которая может использовать пакеты прикладных программ, входящих в состав математического обеспечения ЭВМ.

В процессе функционирования ЭВМ возникают различные неисправности, приводящие к ошибкам. Сложность современных ЭВМ требует быстрой реакции на ошибку, иначе задержки в локализации ошибок и устранение их последствий приведут к чрезмерным потерям времени. Для повышения эффективности использования ЭВМ в состав операционных систем включаются специальные программные средства, предназначенные для восстановления работоспособности ОС после возникновения ошибок центрального процессора, оперативной памяти, каналов ввода-вывода, периферийных устройств, а также для регистрации информации о состоянии аппаратных и программных средств в момент возникновения ошибок

.

При возникновении ошибок может нарушаться целостность информационной базы и могут возникать некорректные описания элементов информационной базы. Поэтому в управляющей программе АСОД предусматриваются специальные средства, осуществляющие корректировку неправильных описаний, что позволяет существенно уменьшить время восстановления после отказов, разрушающих информацию.

Для определения времени обработки заявок в ВК АСОД необходимо задать параметры, характеризующие процесс обработки заявок и данные, характеризующие отказы, сбои и функции распределения времени восстановления.

В качестве исходных данных для исследования временных характеристик ВК АСОД, функционирующих в режиме «запрос-ответ» выбраны

,
:

1. Число ЭВМ в МВК (NVKS) и число каналов в каждой ЭВМ.

2. Число различных типов сообщений (NSS).

3. Количество программ, с помощью которых производится обработка (NRS).

4. Распределение программ по ЭВМ комплекса.

5. Распределение программ и данных по каналам.

6. Распределение оперативной памяти между программами.

7. Приоритеты заявок (сообщений) и обрабатывающих программ.

8. Характеристики обрабатываемых сообщений:

- маршруты обработки (под маршрутами понимается последовательность программ, обрабатывающих сообщение);

- интенсивности входных потоков img;

- нормативные времена обработки сообщений img. 

9. Характеристики обрабатывающих программ:

- среднее число выполняемых машинных команд;

- общее число страниц ОП, занимаемое программой;

- среднее число обращений программы к каналу для ввода и вывода.

10. Характеристики ЭВМ МВК:

- производительность процессора и каналов;

- объём ОП, число обращений к оперативной памяти на одну машинную команду.

11. Характеристики надёжности технических средств:

- интенсивность отказов, после которых обработка данных возможна только:

а) после ремонта - img (тип 1);

б) после переключения на резервные элементы ВК - img (тип 2);

в) после перезагрузки системы - img (тип 3);

- интенсивность отказов внешних устройств, используемых img-ой программой, не приводящих к потере работоспособности всей системы - img, img;

- моменты функции распределения времени восстановления после отказов 1-го, 2-го и 3-го типов - img, img, img, img;

- моменты функции распределения времени переключения на резервные устройства при отказах внешних устройств, не приводящих к потере работоспособности системы - img, img;

- интенсивность сбоев в процессоре и каналах при их полной загрузке;

- моменты функции распределения времени восстановления;

- после сбоев в процессоре и каналах.

12. Интенсивность программных отказов при выполнении img-ой обрабатывающей программы - img, img.

Выбранные исходные данные позволяют определить среднее время пребывания, дисперсию и вероятность обработки сообщения каждого типа с учётом отказов и сбоев.

Современные ВК автоматизированной обработки данных характеризуются значительной сложностью процесса обработки. В процессе обработки информации возникают конфликты, обусловленные совместным использованием как аппаратных, так и программных ресурсов ВК.

Кроме того, в процессе функционирования возникают отказы и сбои, приводящие к дообслуживанию или повторному обслуживанию прерванных требований после восстановления системы.

Одним из путей, позволяющих преодолеть трудности при разработке моделей функционирования, является использование многоуровневого подхода, позволяющего описать работу ВК АСОД с помощью системы иерархических моделей

.

Отказы и сбои, возникающие в системе, по-разному влияют на процесс обработки. Задача их одновременного учёта представляет значительные трудности. Поэтому предлагаются различные типы отказов и сбоев учитывать с помощью разных моделей, совокупность которых образует семейство многоуровневых моделей.

Такой подход позволяет произвести классификацию отказов и сбоев и произвести их последовательный учёт с помощью различных моделей, принадлежащих семейству.

5. Классификация ошибок при функционировании ВК АСОД

В процессе функционирования АСОД возникают ошибки, которые приводят как к увеличению времени обработки заявок, так и к снижению достоверности получаемых результатов. На всех этапах подготовки, ввода, обработки и выдачи пользователю информация подвергается контролю. Однако даже при самых совершенных методах контроля часть ошибок остаётся вплоть до этапа, когда информация выдается пользователю.

Сложность современных вычислительных систем требует быстрой реакции на ошибку, иначе задержки в локализации ошибок и устранение их последствий приведут к искажению информации и чрезмерным потерям времени на восстановление системы.

Аппаратно-программные средства обработки ошибок в ЭВМ обеспечивают широкие возможности обнаружения отказов и сбоев. Эти средства обеспечивают автоматическое восстановление после некоторых сбоев и предоставление необходимой информации для целей обслуживания и ремонта

,
,
,
. Основными механизмами восстановления после сбоев являются исправления по избыточности, повторение операций и отключение отказавшего блока системы.

Наибольшее влияние на временные характеристики АСОД оказывают сбои, приводящие к зависаниям. Согласно определению, приведенному в работе

, «зависание» это такое состояние системы, при котором ни одно из устройств не зафиксировало сбоя аппаратных средств, однако система не может продолжать работу, так как не закончена какая-либо начатая процедура в системе. Это может произойти при зацикливании процессора в алгоритме какой-либо команды без нарушения чётности, при пропадании сигналов в интерфейсе процессор-память или память-канал. Сбои, приводящие к зависаниям, по своему влиянию на вычислительный процесс эквивалентны отказам, вызывающим потерю работоспособности системы.

Опыт эксплуатации различных вычислительных систем показал, что сбои, приводящие к зависаниям, происходят значительно чаще, чем отказы технических средств. Кроме, того, что зависание вызывает необходимость перезагрузки операционной системы, при этом, могут появиться некорректные описания в информационной базе. Поэтому при проектировании АСОД помимо резервирования системы на различных уровнях необходимо предусмотреть специальные средства борьбы как с зависаниями, так и с программными ошибками и ошибками пользователя которые приводят к нарушению целостности информационной базы и снижению достоверности получаемых результатов

,
,
,
.

Полные аппаратные отказы приводят к повторному выполнению всех обрабатывающих программ после восстановления системы от соответствующих контрольных точек. Частичные отказы, отказы внешних устройств, приводят к повторному выполнению только тех программ, которые используют эти устройства в процессе обработки. Сбои, обнаруживаемые и исправляемые аппаратно-программными средствами ЭВМ, не приводят к повторному выполнению обрабатывающих программ. Сбои приводят к увеличению времени обслуживания требований обрабатывающих программ в процессоре и каналах за счёт повторения на уровне команд и затрат времени на работу программных средств анализа и восстановления ЭВМ.

Появление сбоев, обнаруживаемых программными методами, например, алгоритмический контроль, логический контроль и так далее обнаруживается лишь на завершающей стадии обработки. Для их устранения работа программы повторяется заново.

Для определения достоверности обработки сообщений с помощью семейства многоуровневых моделей будем использовать подходу согласно которому предполагается, что любой отказ или сбой в аппаратуре ЭВМ или любая ошибка в программе вычислений, если они не обнаружены во время выполнения программы, приводят к недопустимому результату обработки заявки

,
. Справедливость предположения об однозначной связи между ошибками аппаратуры и обрабатывающих программ и недопустимыми результатами вычислений в отличие от подхода, при котором достоверность определяется, как вероятность того, что выходные данные не содержат грубых ошибок, подтверждаются тем, что в настоящее время, как отмечено в работе
, наибольшее распространение получили формальные методы контроля вычислительного процесса (контроль по модулю, коды с обнаружением ошибок), реализуемые специальной аппаратурой, которые не дают информации о величине ошибок, а только фиксируют её наличие.

Кроме того, для логических операций и операций передачи управления понятие «величины ошибки» вообще мало применимо. Поэтому вероятность того, что во время обработки заявки не произошло необнаруженных ошибок, определяется выражением:

img
(1)

где img  вероятность отсутствия необнаруженных ошибок при обработке img-го сообщения img-ой обрабатывающей программой;

img число программ, обрабатывающих img-oe сообщение.

Учёт влияния отказов в ВК при определении временных характеристик обработки заявок приводит к значительным математическим трудностям. Необходимо учитывать различный механизм воздействия на вычислительный процесс отказов различного типа. Отказы технических средств, приводящие к потере работоспособности всей системы (полные отказы, отказы приводящие к переключению на резервные ЭВМ, сбои, приводящие к зависанию системы), приводят к отбрасыванию всех выполняющихся программ к началу или к соответствующим контрольным точкам и повторному выполнению этих программ после восстановления системы, в то время, как отказы внешних устройств приводят к повторному выполнению после восстановления только тех программ, которые используют их во время работы. При определении временных характеристик img-ой программы на структурном уровне необходимо учитывать дополнительные потоки требований на обработку в процессоре и каналах других программ, обусловленные отказами внешних устройств, не используемых img-ой программой. Подчеркнём, что воздействие таких отказов на img-ю программу может быть учтено только на структурном уровне. Обслуживающие аппараты проблемного уровня являются ненадёжными

.

Кроме того, необходимо учитывать дополнительное время ожидания приёма заявки на обслуживание в ВС, если требование на обработку генерируется во время восстановления ВС после отказа. Учёт влияния программных отказов в разрабатываемом семействе моделей имеет свою специфику, обусловленную классом исследуемых систем и условиями функционирования АСОД в режиме «запрос-ответ». Жёсткие временные ограничения на обработку заявок позволяют считать, что при возникновении программного отказа обработка заявки с вероятностью, равной единице, не может быть выполнена в директивные, сроки, так как исправление программных ошибок требует значительного времени, как правило, на исправление требуется несколько дней.

6. Разработка моделей анализа восстановления работоспособности ВК после отказов

Наибольшие трудности при задании исходных данных, необходимых для определения показателей качества функционирования ВК АСОД, вызывает задание параметров, характеризующих отказы и функции распределения времени восстановления после них. Определение моментов функции распределения времени восстановления ВК после, отказов, базируется на методах последовательной и параллельной композиции

, позволяющих свести надежностную схему резервированного ВК к эквивалентному в смысле надёжности элементу. Однако при па­раллельной композиции не учитываются отказы, приводящие к переключениям на резервные элементы и время переключения. Одним из наиболее широко используемых методов резервирования внешних устройств ВК является скользящее резервирование. Подсистема внешних устройств (ВУ) со скользящим резервированием не может быть сведена к эквивалентному элементу с помощью методов последовательной и параллельной композиции. Поэтому возникает необходимость разработки моделей, с помощью которых осуществляется параллельная композиция с учётом переключений и описывается работа подсистемы ВУ со скользящим резервом.

Не все исходные данные, необходимые для определения показателей качества функционирования ВК, характеризующие отказы, сбои и функции распределения времени восстановления после них, могут быть получены с помощью моделей. Отметим, что параметры, характеризующие ошибки, возникающие при функционировании АСОД, например, интенсивность ошибок, приводящих к зависаниям, практически могут быть определены только на основании обработки статистических данных, так как зависании, как правило, бывают обусловлены сложными интерференционными взаимодействиями аппаратных и программных ресурсов ВК.

Существует два класса высокоэффективных методов сбора данных с целью получения оценок. Первый класс это измерения, выполняемые в рамках программного обеспечения, а второй аппаратные измерения. В общем случае сбор данных почти полностью может быть выполнен с помощью программных методов.

Другим способом сбора статистических данных является протоколирование процесса обработки информации в ВК операторами и персоналом, обслуживающим технические средства.

При определении интенсивности отказов и моментов функции распределения времени восстановления структура вычислительного комплекса сводится к эквивалентному в смысле надёжности элементу.

Определение: два элемента называются эквивалентными, если равны первые два момента функции распределения времени восстановления и интенсивности отказов этих элементов.

7. Метод параллельной композиции

Задача параллельной композиции с учётом переключений, возникающая при сведении структуры ВК и эквивалентному элементу формулируется следующим образом:

Определить интенсивность полных отказов, отказов, приводящих к переключениям, и первые два момента функции распределения времени восстановления подсистемы, состоящей из двух элементов, один из которых находится в резерве при ограниченном и неограниченном восстановлении.

Отказ резервного элемента не оказывает влияния на процесс обработки. При экспоненциальном характере функций распределения времени восстановления задача может быть решена аналитически. В противном случае следует использовать имитационное моделирование.

Решение задачи: функции распределения времени восстановления рассматриваемой подсистемы определяются с помощью следующих интегральных соотношений:

img
(2)

где img  вероятность того, что в момент отказа основного элемента, резервный неисправен (img - исправен);

img - ф.р. времени переключения; 

img - интенсивность восстановления.

Применив к (2) преобразование Лапласа-Стильтъеса, получим:

img
(3)

Продифференцировав (3) по img, получим:

img
(4)

Для определения моментов FОТ(t) можно воспользоваться результатами теории восстановления

,
, устанавливающими связь между коэффициентом готовности функцией распределения времени восстановления и интенсивностью отказов:

img
(5)

где img,

img.

Дифференцируя соотношение (5) по img и производя соответствующие преобразования, легко получить следующее выражение:

img
(6)

где img - стационарный коэффициент готовности.

При пуассоновском потоке отказов и экспоненциальной функции распределения времени переключения img определяется из уравнений Чепмена-Колмогорова

,
Марковского процесса с конечным числом состояний, описывающим поведение подсистемы из двух параллельных элементов. На рис. 1 дано схематическое представление задачи параллельной композиции. Вероятностный граф состояний для ограниченного и неограниченного восстановления приведен на рис. 2. Состояния работоспособности основного и резервного элементов характеризуются двумерным стохастическим вектором: img.

Компонента img характеризует состояние основного, a img - резервного элемента в момент img.

Компоненты могут принимать только два значения:

 img.

img обозначают стационарную вероятность нахождения системы в соответствующих состояниях. Уравнения Чепмена-Колмогорова для вероятностей состояний в стационарном режиме в случае ограниченного восстановления записываются следующим образом:

img
(7)

Значения img определяются из уравнений (7) и соотношения нормировки img.

Стационарный коэффициент готовности img при ограниченном восстановлении определяется выражением:

img
(8)

Из соотношений (6) и (8) получим следующее выражение для img:

img
(9)

Сравнивая выражения (4) и (9) и учитывая, что img, получим:

img
(10)

Используя этот же подход для определения img(граф состояний при неограниченном восстановлении представлен на рис. 2 б.), получим:

img
(11)

Сравнивая (4) и (11), определим img:

img
(12)

Зная img, легко определить интенсивность полных отказов и отказов, приводящих к переключениям: img, img.

Параллельная композиция

Рисунок 1 - Параллельная композиция

Граф состояний

Рисунок 2 - Граф состояний

8. Скользящее резервирование внешних устройств

Отказы внешних устройств часто оказывают наибольшее влияние на надёжность всего вычислительного комплекса. Наибольшее распространение получили накопители на магнитных дисках. При резервировании внешних устройств часто используют скользящее резервирование, что обусловлено однотипностью и взаимозаменяемостью устройств. Задание исходных данных, характеризующих интенсивность полных отказов, отказов, приводящих к переключениям и функции распределения времени восстановления подсистемы внешних устройств со скользящим резервом, необходимых для определения показателей качества функционирования ВК, представляет значительные трудности. Поэтому ниже рассматривается вспомогательная модель подсистемы ВУ со скользящим резервом.

Описание подсистемы:

Имеется img внешних устройств, img устройств находится в резерве, img устройств используется img-ой обрабатывающей программой и img устройств используется при выполнении других обрабатывающих программ img. Интенсивность отказов каждого устройства img, интенсивность переключения отказавшего элемента на резервный - img.img среднее время переключения.

Время переключения распределено по экспоненциальному закону. Интенсивность восстановления ВУ ремонтной единицей img.

При отказе ВУ, оно заменяется резервным и начинает ремонтироваться. После ремонта ВУ становится резервным. Если при отказе одного из активных ВУ, нет устройств, находящихся в резерве, то это эквивалентно отказу всей подсистемы. Все устройства в подсистеме взаимозаменяемые. При отказе любого из img устройств, используемых img-ой программой, её выполнение повторяется заново или с соответ­ствующей контрольной точки после переключения на резерв.

При пуассоновском потоке отказов и экспоненциальном времени обслуживания и переключения задача может быть решена аналитически. В противном случае следует использовать имитационное моделирование.

Экспериментальные и эксплуатационные статистические данные по надёжности подтверждают справедливость гипотезы об экспоненциальном законе распределения времени между отказами устройств. Потоки отказов элементов устройств могут быть не пуассоновскими. Но если отказавшие элементы заменяются новыми, то вследствие эффекта перемешивания возрастов, отказы устройств в целом будут подчиняться экспоненциальному закону распределения, что было показано в работе Кокса и Смита

.

Граф состояний подсистемы ВУ со скользящим резервом представлен на рис. 3. Граф описывает поведение подсистемы при неограниченном восстановлении. При ограниченном восстановлении граф имеет такую же структуру и отличается только интенсивностями восстановлении при значении компоненты img, где img число ремонтных единиц.

Стационарные вероятности состояния подсистемы ВУ определяются из системы линейных уравнений:

img
(13)

Выразив стационарные вероятности через img(используется система уравнений (13)) и, воспользовавшись условием нормировки img определим значения стационарных вероятностей. При построении графа состояний предполагалось, что во время переключения отказавшего устройства на резервное отказы других устройств не происходят. Такое предположение обусловлено тем, что время переключения на несколько порядков меньше времени наработки на отказ. Из ординарности пуассоновского потока

следует, что вероятность возникновения нескольких отказов в небольшом промежутке времени мала.

Стационарная вероятность нахождения подсистемы ВУ в работоспо­собных отказывающих состояниях равна:

img
(14)

Состояние img является предотказовым состоянием подсистемы ВУ. Интенсивность отказов, приводящих к отказу всей подсистемы равна:

img
(15)

Интенсивность отказов, приводящих к пересчету img-ой программы после переключения на резерв, определяется соотношением:

img
(16)

Функция распределения времени восстановления для img-ой программы определяется выражением:

img
(17)

где img.

Преобразование Лапласа-Стильтьеса img дается соотношением:

img
(18)

Дифференцируя (18) по img и учитывая, что img, получим следующие выражения для моментов img:

img
(19)

Отметим, что формулы (15) - (19) определяют параметры элемента, эквивалентного подсистеме ВУ для img-ой программы при неограниченном восстановлении. В случае ограниченного восстановления интенсивность отказов img и imgimg также легко определяются с помощью вышеизложенного подхода.

Граф состояний подсистемы ВУ со скользящим резервом

Рисунок 3 - Граф состояний подсистемы ВУ со скользящим резервом

9. Преобразование ненадежных ОА проблемного уровня в эквивалентные надежные

Для преобразования ненадежных ОА проблемного уровня в эквивалентные надежные используются следующие функциональные уравнения

:

img
(20)

где img ФР времени обработки заявки img-го класса img-ой обрабатывающей программой с учетом отказов;

img – число классов обслуживаемых заявок;

img ФР времени обслуживания заявки img-го класса img-ой программой в условиях надежной работы (моменты ФР img определяются с помощью модели структурного уровня);

img ФР времени восстановления ИВС после отказов.

10. Реализация аналитических моделей в виде комплекса программ

При программной реализации формализованные модели декомпозируются на совокупность базисных и интерфейсных параметрически настраиваемых аналитических подмоделей. Каждая из подмоделей реализуется в виде параметрически настраиваемого программного блока, реализующего определенную функцию. Для настройки комплекса программ на заданную структуру ВК разработана подсистема ввода исходных данных, позволяющая вводить нужную информацию и настраивать базисные программные блоки. Это позволяет автоматизировать процесс создания математических моделей системы.

11. Заключение

В работе получены следующие основные результаты:

1. Выявлены основные особенности работы вычислительного комплекса, функционирующего в составе специализированной АСОД.

2. Сформулированы принципы построения формализованных многоуровневых моделей анализа временных характеристик и определения качества функционирования ВК АСОД в условиях отказов и сбоев.

3. Выбрано множество управляемых параметров и исходных данных, характеризующих процесс обработки на различных уровнях формализованных моделей.

4. На основе анализа системы восстановления ВК формализованы и решены задача определения эквивалентных характеристик подсистемы внешних устройств со скользящим резервом и задача параллельной композиции с учётом переключений.

Новизна полученных результатов заключается в том, что впервые с системных позиций рассмотрены работы по использованию моделей, характеризующих отказы, совместно с сетевыми многоуровневыми моделями оценки вероятностно-временных характеристик вычислительных комплексов и разработаны аналитические интерфейсные модели оценки исходных данных, характеризующих различные типы отказов и сбоев в вычислительных комплексах, для их непосредственного использования в разработанном ранее авторами оригинальном подходе моделирования процессов обработки информации с помощью многоуровневых аналитических моделей с ненадежными обслуживающими аппаратами, где потоки различных типов отказов и сбоев являются заявками высших приоритетов и существенным образом влияют на вероятностно-временные характеристики процессов обработки заявок на различных уровнях семейства многоуровневых формализованных моделей.

Для автоматизированного выбора параметров рациональной организации обработки информации в многомашинных ВК разработана методика использования в процессе проектирования рассмотренных выше аналитических моделей. Методика основана на принципе последовательной пошаговой оптимизации. На первом этапе для выбранных вариантов организации вычислительных процессов оценивается загрузка аппаратных ресурсов. На втором этапе определяется загрузка обрабатывающих программ. Из вариантов организации процессов обработки информации, при которых загрузка программ меньше единицы, исследователь выбирает наиболее перспективные и из них путем перебора определяет наилучший вариант. В качестве максимизируемой функции используется минимальная по всем типам заявок вероятность их обработки в нормативные сроки с учетом отказов и сбоев. Осуществлена программная реализация разработанных математических моделей.

Разработанный комплекс программ является одной из компонент системы автоматизации проектирования ИВС различного назначения.

Article metrics

Views:84
Downloads:0
Views
Total:
Views:84