Product Design, Manufacturing & Innovation Resources

Maison » Système de blocage de la récupération

Système de blocage de la récupération

1975-06-01

Brian Randell

(Image générée à titre d'illustration uniquement)

The recovery block scheme is a logiciel fault-tolerance technique based on design diversity and backward error recovery. It structures a program as a series of blocks, each with a primary module, an acceptance test, and one or more alternate modules. If the primary module’s output fails the acceptance test, the system state is restored, and an alternate module is executed.

Le concept de bloc de récupération, introduit par Brian Randell, est une approche structurée pour garantir la tolérance aux pannes logicielles. Il repose sur le principe de fournir des modules logiciels redondants, appelés alternatives, pour une opération donnée, associés à un mécanisme de vérification de la validité du résultat de cette opération. Les composants clés sont : le test d’acceptation (TA), l’alternative principale (P) et une séquence d’alternatives secondaires (Q1, Q2, …). Avant l’exécution de l’alternative principale, le système sauvegarde un point de contrôle de son état actuel. Une fois P exécuté, le test d’acceptation est lancé sur le résultat. Le TA est un élément logique crucial qui vérifie que le résultat est acceptable ; il n’a pas à prouver une exactitude absolue, mais plutôt que le résultat est raisonnable et cohérent.

Si le résultat réussit le test d'acceptation, le point de contrôle est ignoré et le programme poursuit son exécution. En revanche, si le test échoue ou si l'alternative principale ne s'exécute pas (par exemple, en raison d'une erreur d'exécution), le système effectue une restauration. Il restaure l'état à partir du point de contrôle enregistré, puis exécute l'alternative suivante dans la séquence (Q1). Le résultat de Q1 est alors soumis au même test d'acceptation. Ce processus se poursuit jusqu'à ce qu'une alternative produise un résultat satisfaisant ou que toutes les alternatives aient été testées, auquel cas une défaillance système est constatée.

L'efficacité des blocs de récupération repose sur la diversité des alternatives. Les modules principal et secondaire doivent être conçus et implémentés indépendamment, idéalement par des équipes différentes utilisant des algorithmes ou des langages de programmation différents. Ceci minimise le risque qu'un défaut de conception commun (un bogue) soit présent dans toutes les alternatives, ce qui entraînerait leur échec identique au test d'acceptation. Le test d'acceptation lui-même constitue un point de défaillance unique et doit être plus simple et plus fiable que les modules qu'il teste. Comparés à la programmation N-versions, une autre technique de tolérance aux pannes logicielles, les blocs de récupération peuvent être plus efficaces car ils n'exécutent qu'un seul module à la fois, mais ils introduisent une latence due à la possibilité de restauration et de réexécution.

Analyse par arbre de défaillance (AAN), Amélioration des processus, Assurance qualité, Contrôle de qualité, Ingénierie de la fiabilité, Gestion des risques, Safety, Ingénierie logicielle, Software Testing

UNESCO Nomenclature: 1203

- Informatique

Taper

Logiciel/Algorithme

Perturbation

Incrémentale

Usage

Créneau/spécialité

Précurseurs

Concepts de gestion des exceptions dans les langages de programmation
Mécanismes de transaction et de restauration des bases de données
Premiers travaux sur la vérification et l'exactitude des programmes
Principes généraux de redondance en ingénierie matérielle

Applications

logiciels critiques pour la sécurité dans les systèmes de signalisation ferroviaire
systèmes de protection des réacteurs nucléaires
applications aérospatiales où une défaillance logicielle est catastrophique
systèmes d'exploitation tolérants aux pannes expérimentaux

Brevets:

Idées d'innovations potentielles

En raison du trafic généré par les robots de scraping, actuellement supérieur à 40 000 par jour, ce contenu est réservé aux membres de la communauté.
> Connexion < ou > Registre < (100% gratuit) pour y accéder, ainsi qu'à tous les autres contenus et outils à accès restreint.

Lié à : blocs de récupération, tolérance aux pannes logicielles, diversité de conception, test d'acceptation, récupération d'erreurs en arrière, point de contrôle, Brian Randell, logiciel critique pour la sécurité, modules redondants, programmation N-version.

Contexte historique

Ingénieur logiciel codant des classes abstraites dans un environnement IDE moderne.

Abstraction (programmation OOP)

L'abstraction en POO consiste à masquer les détails complexes de l'implémentation et à n'afficher que les fonctionnalités essentielles de l'objet. Elle se concentre sur ce que fait un objet plutôt que sur la manière dont il le fait. Ce résultat est obtenu grâce à des classes et des interfaces abstraites, qui définissent un plan pour d'autres classes sans fournir d'implémentation complète, simplifiant ainsi les systèmes complexes.

Sept outils de base de la qualité

Les sept outils de base de la qualité constituent un ensemble de techniques graphiques identifiées par Kaoru Ishikawa pour résoudre les problèmes liés à la qualité. Ces outils sont : le diagramme de causes à effets (arête de poisson), la feuille de contrôle, la carte de contrôle, l'histogramme, le diagramme de Pareto, le diagramme de dispersion et la stratification (souvent présentée sous forme d'organigramme). Ils sont considérés comme « de base » car ils sont simples à utiliser et ne nécessitent qu'une formation statistique minimale.

Bureau d'ingénierie logicielle présentant les phases du processus du modèle Waterfall.

Le modèle en cascade (logiciel)

Le modèle en cascade est un processus de développement logiciel séquentiel et non itératif, où la progression s'effectue de manière progressive (comme une cascade) à travers différentes phases : conception, lancement, analyse, design, construction, tests, déploiement et maintenance. Chaque phase doit être entièrement achevée avant de passer à la suivante. Il est souvent comparé aux modèles itératifs pour souligner leur flexibilité.

Système de blocage de la récupération

Équipe d'ingénieurs discutant de la vérification et de la validation dans le cadre du développement de logiciels.

Vérification et validation

La vérification et la validation (V&V) sont des processus distincts. La vérification permet de s'assurer qu'un produit répond aux exigences spécifiées ("Le construisez-vous correctement ?"). La validation permet de s'assurer que le produit répond aux besoins réels de l'utilisateur et à l'utilisation prévue ("Construisez-vous le bon produit ?"). Il s'agit d'activités complémentaires dans le cadre de la gestion de la qualité, souvent réalisées de manière séquentielle ou en parallèle pour garantir l'exactitude et l'utilité du produit.

Instrument analytique de précision dans un laboratoire pour mesurer la limite de répétabilité.

Limite de répétabilité (stats)

La limite de répétabilité, [latex]r[/latex], est une valeur critique dérivée de l'écart type de répétabilité ([latex]s_r[/latex]). Elle représente la différence absolue maximale attendue entre deux résultats d'essai uniques, obtenus dans des conditions de répétabilité, avec une probabilité de 95%. Elle est généralement calculée comme suit : [latex]r = 2,8 fois s_r[/latex]. Si la différence dépasse [latex]r[/latex], les résultats sont considérés comme suspects.

Programmeur travaillant sur la structure d'un compilateur à trois niveaux dans un bureau de développement de logiciels.

La structure du compilateur en trois étapes

Un compilateur moderne est généralement structuré en trois étapes : le front-end, le middle-end et le back-end. Le front-end analyse le code source, vérifie son exactitude et construit une représentation intermédiaire (RI). Le middle-end optimise cette RI. Le back-end traduit ensuite la RI optimisée en code machine cible pour une architecture CPU spécifique.

1970

1970-01-01

1975-06-01

1980

1970

1973

1980

1982-07-01

Réunion d'évaluation des risques avec des ingénieurs analysant les numéros de priorité des risques dans un bureau professionnel.

Numéro de priorité de risque (RPN)

L'indice de priorité des risques (IPR) est une mesure quantitative utilisée dans l'AMDE pour classer les risques par ordre de priorité. Il est calculé comme le produit de trois facteurs classés : Gravité (S), Occurrence (O) et Détection (D). La formule est [latex]RPN = S fois O fois D[/latex]. Chaque facteur est généralement évalué sur une échelle de 1 à 10, ce qui permet aux équipes de se concentrer d'abord sur les risques les mieux notés.

Poste de travail informatique avec interface MATLAB présentant la syntaxe orientée vers les tableaux dans l'analyse numérique.

Syntaxe orientée tableau de MATLAB

MATLAB est un langage matriciel dont le type de données fondamental est le tableau, sans dimensionnement. Cela permet une expression concise des opérations matricielles et vectorielles. Par exemple, la multiplication de deux matrices « A » et « B » est simplement « C = A * B », et la multiplication élément par élément est « C = A * B », ce qui élimine les structures de boucles complexes d'autres langages.

Ingénieurs collaborant sur des systèmes en temps réel (hard et soft) dans un bureau moderne.

Systèmes temps réel matériels et souples

Les systèmes temps réel sont classés en deux catégories : « durs » et « souples », selon les conséquences d’un non-respect d’une échéance. Dans un système temps réel dur, le non-respect d’une échéance entraîne une défaillance totale du système, comme dans le cas d’un système de freinage antiblocage (ABS). Dans un système temps réel souple, le non-respect d’une échéance provoque une dégradation des performances, mais pas de défaillance catastrophique, comme dans le cas de la diffusion audio-vidéo en direct.

Poste de travail informatique dans une salle de contrôle analysant l'ordonnancement monotone des systèmes en temps réel.

Ordonnancement à taux monotone (RMS)

L'ordonnancement à fréquence monotone (RMS) est un algorithme d'ordonnancement à priorité statique pour les tâches périodiques dans un système temps réel. Il attribue les priorités en fonction de la fréquence des tâches : plus la période d'une tâche est courte (plus sa fréquence est élevée), plus sa priorité est élevée. RMS est un algorithme à priorité statique optimal ; autrement dit, si tout algorithme à priorité statique peut ordonnancer un ensemble de tâches, RMS le peut également. La capacité d'ordonnancement peut être vérifiée à l'aide d'un test basé sur le taux d'utilisation.

Espace de travail de la dynamique des fluides numérique présentant la simulation par la méthode des volumes finis pour l'ingénierie aérospatiale.

Méthode des volumes finis (FVM)

La méthode des volumes finis (MVF) est une technique numérique dominante en CFD pour la résolution d'équations aux dérivées partielles. Elle discrétise le domaine en un maillage de volumes de contrôle et applique les équations de référence sous leur forme intégrale à chaque volume. En convertissant les intégrales de volume en intégrales de surface grâce au théorème de divergence, elle se concentre sur le calcul du flux de propriétés conservées à travers les faces des cellules.

Vérification formelle

La vérification formelle est l'utilisation de méthodes mathématiques pour prouver ou réfuter l'exactitude de la conception d'un système par rapport à une spécification formelle. Contrairement aux tests, qui ne peuvent montrer la présence de bogues que pour des entrées spécifiques, la vérification formelle peut prouver leur absence pour toutes les entrées possibles. Elle implique la création d'un modèle formel du système et l'utilisation de techniques telles que le model checking ou le theorem proving.

Programmeur informatique démontrant le cadrage lexical dans le langage de programmation R.

Portée lexicale dans R

R utilise la portée lexicale, un concept hérité du langage Scheme. Cela signifie que les valeurs des variables libres d'une fonction sont résolues en les trouvant dans l'environnement où la fonction a été définie, et non dans celui où elle est appelée. Cela rend le comportement de la fonction plus prévisible et indépendant du contexte d'appel, une fonctionnalité clé de la programmation fonctionnelle.

Centre de données illustrant la tolérance aux pannes byzantines dans les systèmes informatiques distribués.

Tolérance aux pannes byzantines (BFT)

La BFT (acronyme de Byzantine Fault Tolerance) est une propriété d'un système qui lui permet de continuer à fonctionner correctement et de parvenir à un consensus même si certains de ses composants tombent en panne de manière arbitraire et imprévisible, y compris par un comportement malveillant (défaillances byzantines). Il s'agit d'une garantie beaucoup plus forte que la tolérance à de simples pannes. Il faut un minimum de [latex]3f+1[/latex] de composants totaux pour tolérer [latex]f[/latex] de composants défectueux et malveillants.

(si la date est inconnue ou non pertinente, par exemple « mécanique des fluides », une estimation arrondie de son émergence notable est fournie)