Superordinateurs seront 10 fois plus puissant mais aussi plus instable

A+ A-

Il n'y a pas de doute que les superordinateurs avancent avec la technologie et sont de plus en plus puissants, mais ils sont aussi de plus en plus vulnérables à l'échec. Telle est la conclusion que certains chercheurs soutenus lors de la conférence SC12 tenue à Salt Lake City. Ils ont également en vedette quelques solutions possibles pour résoudre ce problème qui va affecter la vitesse de développement de nos technologies et de recherches futures.

Gazouillement

superordinateurs Processeurs

Plus puissant, plus exposés à l'échec

Il est connu que, aujourd'hui, les ordinateurs ultra-hautes performances peuvent ajouter jusqu'à 100.000 nœuds. Chaque nœud est constitué de différentes parties, comme la mémoire, le bus système interne, les transformateurs et d'autres puces. Il a été prouvé que les composants ne peuvent pas durer éternellement, et à un moment donné dans le temps, ils vont à l'échec, l'arrêt de l'ensemble du processus développé à l'intérieur du superordinateur. Voilà pourquoi à l'heure actuelle, il est essentiel de trouver une solution adéquate à ces défaillances, avant que nous élevons l'échelle de la performance à exaoctets.

Bien que le problème est pas nouveau, comme le premier supercalculateur construit en 2001, fabriqués à partir de 600 nœuds, le superordinateur Blanc avait un MTFB de seulement 5 heures. MTFB représente le temps moyen entre défaillances. Avoir un supercalculateur qui obtiendrait un composant à l'échec toutes les 5 heures était inacceptable, et à un moment plus tard, les scientifiques a réussi à élever le MTFB à 55 heures. Cependant, le problème vient du fait que les scientifiques attendent que dans 10 ans superordinateurs seront 10 fois plus puissant comme ils sont maintenant, mais aussi le taux d'échec wil augmentent de façon exponentielle.

Pour donner un bon exemple, car on prévoit que les ordinateurs exascale être configuré à partir des millions de composants, la fiabilité de l'ensemble du système devra améliorée de telle manière qu'il soulèvera 100 fois seulement pour garder le temps moyen entre deux pannes de courant; même pas penser à l'améliorer.

Gazouillement

super ordinateurs

Quelles sont les solutions?

David Fiala, un étudiant Ph. D à l'Université d'État de Caroline du Nord a déclaré que, dans ses recherches, il a trouvé une méthode qui pourrait améliorer la fiabilité des composants de superordinateurs. De cette façon, il a expliqué que l'exécution de plusieurs clones de logiciels sur un serveur. L'application appelée RedMPI lit tous les messages MPI qui sont envoyés par l'application, puis les transmet aux clones. Si les clones fonctionnant en parallèle calculent différemment, les chiffres peuvent être revérifiées à la volée.

Par revérifier directement, on évite le problème de la réécriture utilisée par la méthode de récupération de point de contrôle, où le logiciel a été écrit sur le disque à certains points, puis, quand il était à l'échec, le travail a été relancé depuis le dernier point de contrôle écrit sur le disque. Cependant, cette méthode de RedMPI pourrait ne pas être la meilleure donnant le fait que le trafic réseau est trop élevé pour le soutenir.

Ana Gainaru, un autre étudiant Ph. D à l'université de l'Illinois a suggéré que l'étude des journaux de l'application et de les interpréter de la manière correcte pourrait conduire à prédire quand un échec est sur le point de se produire. Le comportement normal est caractérisé par l'analyse du signal, tandis que l'extraction de données sera utilisée pour trouver des éléments communs entre les différents échecs, que les recherches ont montré qu'il existe des corrélations entre les défaillances.

Ads

Partager