Perte d'un réacteur en vol
Par Petaramesh le jeudi 18 mai 2006, 10:20 - Chienne de vie - Lien permanent
Hôôooooo meeeeerdeee...!!
Horreur ! Malheur !
Totor vient de perdre un disque dur en plein vol !
May 18 10:01:03 totor kernel: hde: dma_timer_expiry: dma status == 0x21
May 18 10:01:13 totor kernel: hde: DMA timeout error
May 18 10:01:13 totor kernel: hde: dma timeout error: status=0xd0 { Busy }
May 18 10:01:13 totor kernel:
May 18 10:01:13 totor kernel: ide: failed opcode was: unknown
May 18 10:01:13 totor kernel: hde: DMA disabled
May 18 10:01:13 totor kernel: PDC202XX: Primary channel reset.
May 18 10:01:48 totor kernel: ide2: reset timed-out, status=0x80
May 18 10:01:48 totor kernel: hde: status timeout: status=0x80 { Busy }
May 18 10:01:48 totor kernel:
May 18 10:01:48 totor kernel: ide: failed opcode was: unknown
May 18 10:01:48 totor kernel: PDC202XX: Primary channel reset.
May 18 10:01:48 totor kernel: hde: drive not ready for command
May 18 10:02:18 totor kernel: ide2: reset timed-out, status=0x80
May 18 10:02:18 totor kernel: end_request: I/O error, dev hde, sector 23086716
May 18 10:02:18 totor kernel: raid5: Disk failure on dm-28, disabling device. Operation continuing on 2 devices
May 18 10:02:18 totor kernel: end_request: I/O error, dev hde, sector 4919780
May 18 10:02:18 totor kernel: end_request: I/O error, dev hde, sector 12845452
May 18 10:02:18 totor kernel: end_request: I/O error, dev hde, sector 12845460
May 18 10:02:18 totor kernel: end_request: I/O error, dev hde, sector 12845468
May 18 10:02:18 totor kernel: end_request: I/O error, dev hde, sector 35333348
May 18 10:02:21 totor kernel: end_request: I/O error, dev hde, sector 53344716
May 18 10:02:21 totor kernel: end_request: I/O error, dev hde, sector 155089230
May 18 10:02:21 totor kernel: raid1: Disk failure on dm-45, disabling device.
May 18 10:02:21 totor kernel: ^IOperation continuing on 1 devices
Putaingue de ta race de disque dans ta face !
Mon savant mélange de RAID-5 et RAID-1 EVMS a avalé l'obstacle sans broncher, Totor est passé aussitôtomatiquement en configuration dégradée sans bouger une oreille, mais j'aime pas ça, voler sur deux pattes...

Remarque, J'ai enfin la reponse à la question que je me posais depuis plusieurs années : Est-ce que je peux vraiment perdre un disque en vol et que ça reste en vol quand même ?
La réponde est oui.
Mais quand même. Safouléjton.
Je vais avoir les mains moites et les pieds poites tant que je n'aurai pas fait un backup de snapshot (et je me demande si c'est très prudent dans ce contexte...) avant de tenter de relancer le réacteur qui a fumé...










Commentaires
Pis il est gentil, y m'a même envoyé des mails... :
Bien bien bien. J'ai quand même les poil des couilles qui se hérissent. Tant que le MASTER ALARM reste allumé en rouge...
Un backup est en cours, mamma mia...
On croise les doigts, les orteils, et les oreilles, alors...
(j'y bite rien, mais ça a l'air grave)
Chouboudouboudou... Backup par rsync vers un autre disque, terminé. Je transpire déjà un peu moins froid.
Bon, je vais voir si je peux redémarrer le moteur en rideau, ou s'il est foutu-foutu...
...A première vue, l'a pourtant pas l'air complètement mouru, le bougre ?
On va regarder ça de plus près.
Bien. J'essaie de réinjecter le disque pas mouru qu'avait l'air blessé et de reconstruire le RAID-5 de sa race qui me nique ma face... :
Il m'a fallu tuer à la main le superblock du disque d'un coup de :
pour mettre EVMS d'accord avec mdadm, parce qu'EVMS me racontait des conneries toutes incohérentes...
Maintenant, ça a l'air de tenter de remonter en selle :
[root@totor etc]# cat /proc/mdstat Personalities : [raid1] [raid5] md3 : active raid5 dm-28[3] dm-27[1] dm-26[0] 151556992 blocks level 5, 64k chunk, algorithm 2 [3/2] [UU_] [>....................] recovery = 1.9% (1479936/75778496) finish=82.1min speed=15076K/sec [...][root@totor etc]# mdadm --detail /dev/md3 /dev/md3: Version : 00.90.01 Creation Time : Sat Dec 11 00:07:44 2004 Raid Level : raid5 Array Size : 151556992 (144.54 GiB 155.19 GB) Device Size : 75778496 (72.27 GiB 77.60 GB) Raid Devices : 3 Total Devices : 3 Preferred Minor : 3 Persistence : Superblock is persistent Update Time : Thu May 18 11:00:41 2006 State : clean, degraded, recovering Active Devices : 2 Working Devices : 3 Failed Devices : 0 Spare Devices : 1 Layout : left-symmetric Chunk Size : 64K Rebuild Status : 5% complete UUID : e65abbe5:23df477f:2e8f0e25:b77c0c9c Events : 0.12200646 Number Major Minor RaidDevice State 0 252 26 0 active sync /dev/evms/.nodes/hda3 1 252 27 1 active sync /dev/evms/.nodes/hdc3 2 0 0 - removed 3 252 28 2 spare rebuilding /dev/evms/.nodes/hde3 [root@totor etc]#Gromeuleu. Meuleumeuleu.
@ Ko : (j'y bite rien, mais ça a l'air grave)
Euh... On est deux.
Swâmi tu veux qu'on t'envoie Jack Bauer ?...
T'as qu'à tourner sur un LiveCD, ça c'est du costaud !
T'as raison, voler sur deux pattes c'est encore plus dangereux que sur une aile...
@Traou : Ben ouaistre, perdre un disque dur, c'est quand même la merde de chez merde, non ? Si tu n'en as qu'un seul en ligne, téfoutu. Si tu es en RAID, tu peux espérer survivre sans casse ni perte de données. C'est le stade où j'en suis actuellement (enfin, au niveau système...) : espérer survivre.
D'autant qu'il y a sur le RAID-5 des trucs dont je n'ai aucune sauvegarde ailleurs.... Oui, je sais que c'est mal.
[root@totor etc]# cat /proc/mdstat md3 : active raid5 dm-28[3] dm-27[1] dm-26[0] 151556992 blocks level 5, 64k chunk, algorithm 2 [3/2] [UU_] [===========>.........] recovery = 59.1% (44800708/75778496) finish=34.2min speed=15059K/sec@V.M. : Arf, toujours aussi drôôôle ;-)
Sais-tu qu'à tourner sur LiveCD, je ne donnerais pas longue espérance de vie au lecteur de CD ;-))
@Anne : Arf !
Hihi, Jack, mais c'est une idée qu'elle est excellente, ça, arf-arf...
(Je l'imagine déjà torturant Totor pour qu'il rende gorge...)
Totor et son disque semblent maintenant pleinement résurrectionnés. Plus de peur que de mal.
Espérons que ces soins intensifs auront produit un résultat définitif [1] et que ce n'est pas le signe avant-coureur de plus gros emmerdes à venir...
[root@totor etc]# cat /proc/mdstat Personalities : [raid1] [raid5] md3 : active raid5 dm-28[2] dm-27[1] dm-26[0] 151556992 blocks level 5, 64k chunk, algorithm 2 [3/3] [UUU] md2 : active raid1 dm-46[2] dm-45[1] dm-44[0] 1048704 blocks [2/2] [UU] md1 : active raid1 dm-2[2] dm-1[1] dm-0[0] 1048704 blocks [2/2] [UU] md0 : active raid1 dm-24[2] dm-23[1] dm-22[0] 261952 blocks [2/2] [UU] unused devices: <none> [root@totor etc]#[1] Ha-ha-ha... Définitif ! Comme si ça existait... Dans le monde, déjà... Mais en informatique !
@Traou, Ko : Je dois être un peu couillon, mais je n'ai pas la moindre idée de qui peut bien être ce Jack Bauer...
twenty-four hours, voyons, mais c'est vrai, tu n'as pas le canal plus de la télé...
Bravo pour Totor, hip-hip-hip, hourrah !!
Les sorties de secours se trouvent à l'avant de l'appareil, au niveau des ailes et à l'arrière. Un gilet de sauvetage est à votre disposition sous votre siège en cas
de crash dans l'eaud'amérissage...P'tain, t'as eu chaud sur ce coup là ... !
Ouais. RAID et EVMS roulaize velu...
j'ai compris les articles et les verbes.. autour c'est du flou...
@Cécile : Hélas ! C'est la terrrrrribbble incommunicabilité de l'informatique...
Je voyais la une belle porte qui s'ouvrait à moi pour remettre sur le tapis un vieux débat...
Mais je n'en ferais rien...car Totor est repartit.
Juste pour te faire plaisir Swami : Vive le raid logiciel EVMS !
@Bobi : Totor n'est pas "reparti", car il n'y a quasiment pas eu de downtime.
Le système a survécu au foirage de disque en passant sans coup férir en mode dégradé.
J'ai ensuite rebooté bien proprement pour complètement réinitialiser les contrôleurs IDE (qui ne sont pas hot-plug, une fois un DMA-timeout survenu et le disque éjecté, y'a plus grand-chose à faire à part rebooter si on veut que le disque recause), donc, si on veut, il y a eu un downtime seulement équivalent au temps nécessaire à un reboot bien propre.
La reconstruction ultérieure du RAID a été effectuée système en ligne et tous services opérationnels, donc avec une simple perte de performance dûe à l'état dégradé du RAID et au gros boulot de resynchro.
Rien ne me permet de penser que du RAID matériel aurait pu offrir quoi que ce soit de supérieur.
(Mais par contre, y'a plein de choses que je fais avec EVMS et que je pourrais en aucun cas faire en utilisant uniquement du RAID matériel, comme utiliser certaines partitions du même disque physique comme membres de sets RAID-1, et d'autres comme membres de sets RAID-5, ou utiliser des snapshots...
si ça s'trouve t'es entrain de frimer en racontant n'importe quoi et nous béons comme des andouilles sous hypnose...
@Cécile : Si ça s'trouve... Faut rien croire qu'est écrit sur Internet, ma brave dame, c'est rien qu'un repaire de pirates informatiques pédophiles néo-nazis qui ne cherchent qu'à vous soutirer votre n° de CB pour se connecter à vos frais à des sites zoophiles...
han c'est pour ça que je reçois des mails qui me proposent d'enlarge mon kiki!! ils te sont destinés!! :))
@Cécile blonde inside : Damned ! Cette fois, je crois que je suis victime d'une invasion de la secte des Blondes !
Vade Retro Créature !
Le uptime de totor a pas l'air très gros, pour un servouèbe qui tourne 24/24 sous linux.
Tu es sûr que tu tourne pas avec un linux en vmware sous windows? ça expliquerait tes soucis.
Oui, ça doit être ça. Les RG te surveillent avec des spywares windowsiens, et ni vu ni connu ils ont modifié ta machine en te la faisant tourner sous windws à coup de vmware. ça explique les plantages.
Une seule solution: formate et réinstalle tout. Profite-z-en pour mettre unrai os, pas un truc de publicitaire comme mandrtruc. Je crois que GNU/Hurd commence à être au point. C'est ça qu'il te faut.
Et puis sur un CV, imagine un peu: Mon serveur web tourne sous GNU/Hurd ça en jetterai un max.
@Yves :
Oh la mauvaise foi du typeuh !
Là, y'a eu récemment 72 jours d'uptime jusqu'à ce que survienne une coupure EDF et que l'onduleur ne décide qu'il était temps de faire un shutdown bien propre...
Puis oui, cette bizarreté de DMA et de disque. Problème matériel (certainement), transitoire (j'espère).
De toute manière, "les PC c'est de la merde". Linux a bien du mérite à faire vongzionner ça aussi bien, tiens ;-)
Tiens, toi aussi t'as perdu un disque ... décidement ! mais ne dit on pas quun disque dure ? ;-)