Fault tolerant scheduling of precedence task graphs on heterogeneous platforms
Author :
Benoit, Anne Hakem, Mourad Robert, Yves Laboratoire de l'informatique du parallélisme
Abstract :
(eng) Fault tolerance and latency are important requirements in several applications
which are time critical in nature: such applications require
guaranties in terms of latency, even when processors are subject to failures.
In this paper, we propose a fault tolerant scheduling heuristic for
mapping precedence task graphs on heterogeneous systems. Our approach
is based on an active replication scheme, capable of supporting
" arbitrary fail-silent (fail-stop) processor failures, hence valid results
will be provided even if " processors fail. We focus on a bi-criteria approach,
where we aim at minimizing the latency given a fixed number of
failures supported in the system, or the other way round. Major achievements
include a low complexity, and a drastic reduction of the number of
additional communications induced by the replication mechanism. Experimental
results demonstrate that our heuristics, despite their lower
complexity, outperform their direct competitor, the FTBAR scheduling
algorithm. (fre) La tolérance aux pannes et la latence sont deux critères importants pour
plusieurs applications qui sont critiques par nature. Ce type d’applications
exige des garanties en terme de temps de latence, même lorsque les
processeurs sont sujets aux pannes. Dans ce rapport, nous proposons une
heuristique tolérante aux pannes pour l’ordonnancement de graphes de
tâches sur des systèmes hétérogènes. Notre approche est basée sur un mécanisme
de réplication active, capable de supporter " pannes arbitraires
de type silence sur défaillance. En d’autres termes, des résultats valides
seront fournis même si " processeurs tombent en panne. Nous nous
concentrons sur une approche bi-critère, où nous avons pour objectif de
minimiser le temps de latence pour un nombre donné (fixé) de pannes tolérées dans le système, ou l’inverse. Les principales contributions incluent
une faible complexité en temps d’exécution, et une réduction importante
du nombre de communications induites par le mécanisme de réplication.
Les résultats expérimentaux montrent que notre algorithme, en dépit de
sa faible complexité temporelle, est meilleur que son direct compétiteur,
l’algorithme FTBAR