Product Design, Manufacturing & Innovation Resources

Lar » Plano de Recuperação de Blocos

Plano de Recuperação de Blocos

1975-06-01

Brian Randell

(Imagem gerada apenas para fins ilustrativos)

The recovery block scheme is a software fault-tolerance technique based on design diversity and backward error recovery. It structures a program as a series of blocks, each with a primary module, an acceptance test, and one or more alternate modules. If the primary module’s output fails the acceptance test, the system state is restored, and an alternate module is executed.

O conceito de bloco de recuperação, introduzido por Brian Randell, é uma abordagem estruturada para alcançar tolerância a falhas em software. Ele opera com base no princípio de fornecer módulos de software redundantes, conhecidos como alternativas, para uma determinada operação, juntamente com um mecanismo para verificar a correção do resultado da operação. Os componentes principais são: o teste de aceitação (TA), a alternativa primária (P) e uma sequência de alternativas secundárias (Q1, Q2, ...). Antes de executar a alternativa primária, o sistema salva um ponto de verificação de seu estado atual. Após a conclusão de P, o teste de aceitação é executado na saída. O TA é uma peça lógica crucial que verifica se o resultado é aceitável; ele não precisa provar a correção absoluta, mas sim que o resultado é razoável e consistente.

Se o resultado passar no teste de aceitação (TA), o ponto de verificação é descartado e o programa prossegue. No entanto, se o TA falhar, ou se a alternativa principal falhar ao executar (por exemplo, devido a um erro de tempo de execução), o sistema realiza um rollback. Ele restaura o estado a partir do ponto de verificação salvo e, em seguida, executa a próxima alternativa na sequência (Q1). A saída de Q1 é então submetida ao mesmo teste de aceitação. Esse processo continua até que uma alternativa produza um resultado que passe no teste, ou até que todas as alternativas tenham sido esgotadas, momento em que uma falha em nível de sistema é declarada.

A eficácia dos blocos de recuperação depende da diversidade das alternativas. Os módulos primários e secundários devem ser projetados e implementados independentemente, idealmente por equipes diferentes, utilizando algoritmos ou linguagens de programação distintas. Isso minimiza a probabilidade de uma falha de projeto comum (um bug) existir em todas as alternativas, o que faria com que todas falhassem no teste de aceitação da mesma maneira. O próprio teste de aceitação é um ponto único de falha e deve ser mais simples e confiável do que os módulos que testa. Comparados à programação N-versão, outra técnica de tolerância a falhas de software, os blocos de recuperação podem ser mais eficientes, pois executam apenas um módulo por vez, mas introduzem latência devido à possibilidade de rollback e reexecução.

Análise de Árvore de Falhas (FTA), Melhoria de Processos, Garantia de Qualidade, Controle de qualidade, Engenharia de Confiabilidade, Gestão de Riscos, Segurança, Engenharia de Software, Teste de Software

UNESCO Nomenclature: 1203

Ciência da Computação

Tipo

Software/Algoritmo

Interrupção

Incremental

Uso

Nicho/Especializado

Precursores

Conceitos de tratamento de exceções em linguagens de programação
Mecanismos de transação e reversão de banco de dados
Trabalhos iniciais sobre verificação e correção de programas
Princípios gerais de redundância da engenharia de hardware

Aplicações

software crítico para a segurança em sistemas de sinalização ferroviária
sistemas de proteção de reatores nucleares
Aplicações aeroespaciais onde a falha de software é catastrófica
sistemas operacionais experimentais tolerantes a falhas

Patentes:

Ideias de Inovação Potencial

Devido ao tráfego de bots de coleta de dados, atualmente superior a 40 mil por dia, este conteúdo é reservado aos membros da comunidade.
> Login < ou > Registrar < (100% gratuito) para acessar isso, assim como todo o restante do conteúdo e das ferramentas restritas.

Relacionado a: blocos de recuperação, tolerância a falhas de software, diversidade de projeto, teste de aceitação, recuperação de erros retroativa, checkpointing, Brian Randell, software crítico para segurança, módulos redundantes, programação em N versões.

Contexto histórico

Software engineer coding abstract classes in a modern IDE environment.

Abstração (programação orientada a objetos)

Em Programação Orientada a Objetos (POO), a abstração consiste em ocultar detalhes complexos de implementação, mostrando apenas as características essenciais do objeto. Ela se concentra no que um objeto faz, em vez de como ele o faz. Isso é alcançado por meio de classes abstratas e interfaces, que definem um modelo para outras classes sem fornecer uma implementação completa, simplificando sistemas complexos.

Engenheiros usando as Sete Ferramentas Básicas de Qualidade em um workshop para melhoria de processos.

Sete ferramentas básicas da qualidade

As Sete Ferramentas Básicas da Qualidade são um conjunto de técnicas gráficas identificadas por Kaoru Ishikawa para a resolução de problemas relacionados à qualidade. Essas ferramentas são: Diagrama de causa e efeito (espinha de peixe), Folha de verificação, Gráfico de controle, Histograma, Diagrama de Pareto, Diagrama de dispersão e Estratificação (frequentemente apresentada como um fluxograma). Elas são consideradas "básicas" porque são simples de usar e exigem pouco treinamento formal em estatística.

Escritório de engenharia de software que apresenta as fases do processo do modelo Waterfall.

O Modelo Cascata (software)

O Modelo Cascata é um processo de desenvolvimento de software sequencial e não iterativo, onde o progresso flui de forma constante para baixo (como uma cascata) através de fases distintas: concepção, iniciação, análise, projeto, construção, teste, implantação e manutenção. Cada fase deve ser totalmente concluída antes de se passar para a próxima. Ele é frequentemente contrastado com modelos iterativos para destacar sua flexibilidade.

Plano de Recuperação de Blocos

Equipe de engenheiros discutindo verificação e validação no desenvolvimento de software.

Verificação vs. Validação

Verificação e validação (V&V) são processos distintos. A verificação garante que um produto atenda aos requisitos especificados ("Você está construindo corretamente?"). A validação garante que o produto atenda às necessidades reais do usuário e ao uso pretendido ("Você está construindo a coisa certa?"). São atividades complementares dentro da gestão da qualidade, frequentemente realizadas sequencialmente ou em paralelo para garantir tanto a correção quanto a utilidade.

Instrumento analítico de precisão em um laboratório para medir o limite de repetibilidade.

Limite de repetibilidade (estatísticas)

O limite de repetibilidade, r, é um valor crítico derivado do desvio padrão de repetibilidade (s_r). Ele representa a diferença absoluta máxima esperada entre dois resultados de testes individuais, obtidos sob condições de repetibilidade, com 95% de probabilidade. Geralmente é calculado como r = 2,8 × s_r. Se a diferença exceder r, os resultados são considerados suspeitos.

Programador trabalhando em uma estrutura de compilador de três estágios em um escritório de desenvolvimento de software.

A estrutura do compilador de três estágios

Um compilador moderno é tipicamente estruturado em três estágios: o front-end, o middle-end e o back-end. O front-end analisa o código-fonte, verifica sua correção e constrói uma representação intermediária (RI). O middle-end realiza otimizações nessa RI. O back-end, então, traduz a RI otimizada em código de máquina alvo para uma arquitetura de CPU específica.

1970

1970-01-01

1975-06-01

1980

1970

1973

1980

1982-07-01

Risk assessment meeting with engineers analyzing Risk Priority Numbers in a professional office.

Número de Prioridade de Risco (NPR)

O Número de Prioridade de Risco (NPR) é uma medida quantitativa usada na FMEA para priorizar riscos. É calculado como o produto de três fatores classificados: Severidade (S), Ocorrência (O) e Detecção (D). A fórmula é NPR = S × O × D. Cada fator é normalmente avaliado em uma escala de 1 a 10, permitindo que as equipes se concentrem primeiro nos riscos com maior pontuação.

Estação de trabalho de computador com interface MATLAB mostrando a sintaxe orientada por matriz na análise numérica.

Sintaxe orientada a matrizes do MATLAB

MATLAB é uma linguagem baseada em matrizes, onde o tipo de dado fundamental é o array, não exigindo dimensionamento. Isso permite a expressão concisa de operações com matrizes e vetores. Por exemplo, multiplicar duas matrizes `A` e `B` é simplesmente `C = A * B`, e a multiplicação elemento a elemento é `C = A .* B`, abstraindo as estruturas de laço complexas encontradas em outras linguagens.

Engenheiros colaborando em sistemas hard e soft em tempo real em um escritório moderno.

Sistemas de tempo real rígido e flexível

Os sistemas de tempo real são classificados como "rígidos" ou "flexíveis" com base nas consequências do não cumprimento de um prazo. Em um sistema de tempo real rígido, o não cumprimento de um prazo resulta em falha total do sistema, como em um sistema de freios ABS. Em um sistema de tempo real flexível, o não cumprimento de um prazo leva à degradação do desempenho, mas não a uma falha catastrófica, como em transmissões ao vivo de áudio e vídeo.

Estação de trabalho de computador em uma sala de controle analisando o Rate-Monotonic Scheduling para sistemas em tempo real.

Escalonamento de taxa monotônica (RMS)

O Rate-Monotonic Scheduling (RMS) é um algoritmo de escalonamento com prioridade estática para tarefas periódicas em um sistema de tempo real. Ele atribui prioridades com base na frequência da tarefa: quanto menor o período de uma tarefa (maior sua taxa), maior sua prioridade. O RMS é um algoritmo de prioridade estática ótimo, o que significa que, se qualquer algoritmo de prioridade estática puder escalonar um conjunto de tarefas, o RMS também poderá. A capacidade de escalonamento pode ser verificada por meio de um teste baseado em utilização.

Espaço de trabalho de dinâmica de fluidos computacional que apresenta a simulação do método de volume finito para engenharia aeroespacial.

Método dos Volumes Finitos (MVF)

O Método dos Volumes Finitos (MVF) é uma técnica numérica dominante em CFD para resolver equações diferenciais parciais. Ele discretiza o domínio em uma malha de volumes de controle e aplica as equações governantes em sua forma integral a cada volume. Ao converter integrais de volume em integrais de superfície usando o teorema da divergência, o método concentra-se no cálculo do fluxo de propriedades conservadas através das faces das células.

Verificação formal

A verificação formal consiste na utilização de métodos matemáticos para provar ou refutar a correção do projeto de um sistema em relação a uma especificação formal. Ao contrário dos testes, que só podem demonstrar a presença de erros para entradas específicas, a verificação formal pode provar a sua ausência para todas as entradas possíveis. Envolve a criação de um modelo formal do sistema e a utilização de técnicas como a verificação de modelos ou a demonstração de teoremas.

Programador de computador demonstrando o escopo lexical na linguagem de programação R.

Escopo léxico em R

R utiliza escopo léxico, um conceito herdado da linguagem Scheme. Isso significa que os valores das variáveis livres em uma função são resolvidos encontrando-os no ambiente onde a função foi definida, e não no ambiente onde ela é chamada. Isso torna o comportamento da função mais previsível e independente do contexto de chamada, uma característica fundamental da programação funcional.

Centro de dados que ilustra a tolerância a falhas bizantinas em sistemas de computação distribuídos.

Tolerância a falhas bizantinas (BFT)

BFT (acrônimo de Tolerância a Falhas Bizantinas) é uma propriedade de um sistema que permite que ele continue operando corretamente e alcance consenso mesmo que alguns de seus componentes falhem de maneiras arbitrárias e imprevisíveis, incluindo comportamentos maliciosos (falhas bizantinas). Essa é uma garantia muito mais forte do que tolerar falhas simples. Requer um mínimo de [latex]3f+1[/latex] componentes no total para tolerar [latex]f[/latex] componentes defeituosos e maliciosos.

(Caso a data seja desconhecida ou irrelevante, por exemplo, "mecânica dos fluidos", é fornecida uma estimativa aproximada de seu surgimento notável)