Anonim

Začalo to v sobotu večer, kdy se moje žena zeptala, proč náš DVR náhle přestal hrát show, kterou sledovala. Řekl jsem jí, že to byla pravděpodobně jen nějaká závada, ale podíval jsem se. Vešel jsem do rodinného pokoje, abych se podíval, a chyba v podstatě říkala, že základní disk již není k dispozici. Špatný! To byl začátek mého třídenního hororového příběhu …

Trochu pozadí

Moje DVR je ve skutečnosti jen specializovaný software (SageTV pro ty, kdo jsou zvědaví) běžící na PC. Tento software je velmi flexibilní a umožňuje oddělit všechny jeho různé aspekty. Mám samostatný stroj pro centralizované řízení, plánování a nahrávání, samostatné stroje pro přehrávání a hvězdu tohoto příběhu, samostatný stroj pro ukládání. Pro ukládání používám souborový server Linux, využívající LVM (Logical Volume Manager) pro agregaci mnoha samostatných neidentických jednotek do jedné velké (v současnosti ~ 6TB) logické jednotky, kterou vidí operační systém. Protože zálohování více TB dat je nepraktické a protože uvedená data jsou „jen“ televizními pořady, mojí filozofií zálohování pro toto bylo vždy to jedno. Až do nedávných událostí nebyla tato filozofie testována skutečnou událostí.

Pokus o obnovení dat

Když vidím chybu na DVR, okamžitě se začnu dívat na úložný server. Systém souborů je neuvěřitelně pomalý a pomalu reaguje, takže se ptám LVM na stav fyzických jednotek, které jsou základem jeho logického svazku. Po dlouhém zpoždění se objeví a říká, že chybí 750 GB disk. A jé! Restartuji server a úžasně se jednotka vrací. Vydám příkaz pvmove pro automatickou migraci všech dat z tohoto disku, ale selže při dokončení méně než 2%.

Tváří v tvář disku, který velmi nespolupracuje při čtení jeho dat, ale alespoň se objevuje v systému BIOS, obrátím se na svůj oblíbený nástroj pro obnovu disku, Spinrite. Přestože se Spinrite normálně zavádí z vyměnitelných médií, před lety jsem v domě nastavil síťové bootování pro různé nástroje, takže jsem se nemusel starat o sledování žádných médií. Normálně se prostě připojím k mé síti, vybírám zavádění ze sítě a mám k dispozici celou řadu nástrojů k vyřešení mnoha problémů. Problém je v tom, že stroj, který dělá tuto magickou práci, je stejný stroj, který je v současné době dole. Žádný velký problém, říkám, budu jen bootovat z CD Spinrite. Až na pár let se optická jednotka na mém souborovém serveru vzdala ducha. V době, kdy se to stalo, jsem se rozhodl, protože v tomto stroji nikdy nepoužívám optická média, nemusel jsem je vyměňovat. Žádný strach, řekl jsem si, jen vyjmu optickou jednotku z mého hlavního počítače. Vypnu svůj hlavní počítač a vyjmu optickou jednotku. Pak hledám své spouštěcí CD Spinrite. Nemůžete to najít! Před několika měsíci jsme se přestěhovali do nového domu, takže je všechno v nepořádku. Myslím, že jen vypálím novou kopii, ale nemůžu najít ani žádné prázdné optické médium! Na další plán, spouštěcí flash disk! Po pár minutách na Googlu, abych obnovil svou paměť, mám spouštěcí Spinrite flash disk. Z toho zavádím svůj Linux box a spustím Spinrite. Počítač zamrzne a zdá se, že se zhroutí. Ve snaze eliminovat proměnné přesouvám špatný disk z připojeného do rozšiřující karty PCI-e do přímého zapojení do základní desky. Nyní se Spinrite spouští dobře, ale výčet připojených disků trvá věky a věky. Systematicky odpojuji všechny ostatní jednotky kromě těch špatných, ale nikdy to nedokončí výčet disků bez ohledu na to, jak dlouho čekám. Na další plán! Vyjímám disk z mého linuxového boxu, připojím jej k hlavnímu počítači a bootuji z mé nové lesklé jednotky Spinrite flash. Spinrite se spustí a okamžitě uvidí disk a já mu řeknu, aby začal s obnovováním dat, spokojený s tím, že konečně udělám nějaký pokrok. Vrátím se, abych to zkontroloval asi po 10 minutách, a na obrazovce je chyba a zdá se, že jednotka opět zmizela. Frustrovaný, zkusím ještě několikrát, a řeknu Spinrite, aby začal v různých částech jednotky, ale pokaždé dosáhl stejného výsledku. Zdá se, že mi to nakonec nepomůže.

V záchvatu iracionální naděje jsem dal disk zpět do své Linuxové krabice a zapnul ji. K mému úžasu se pohon objeví a LVM přináší vše aktivní. Další pokus o štěstí, vydám další příkaz pvmove, abych se pokusil znovu přesunout data z jednotky. Brzy vidím chybové zprávy o nemožnosti číst z disku, ale úžasně, pvmove pokračuje v pokroku, přibližuje se a blíží se 100% dokončení. Směje se ze mě zmatek, úleva a vzrušení. Chystám se dostat z toho bez úhony? Je smutné, že poslední věcí, kterou LVM dělá pod kryty, aby čistě dokončil pvmove, je napsat aktualizovaný protokol na všechny jednotky pod jeho kontrolou. To samozřejmě selže, když se pokouší zapsat na špatnou jednotku, a tím celý proces zruší. Porážka znovu vytrhla z čelistí vítězství! Ponořím se zpět do Googlu a zjistím, že je možné ovládat, kolik dat se příkaz pvmove pohne namísto přesunutí VŠECH dat v jednom výstřelu. Experimentuji s tím a mám dobrý úspěch, když pohybuji malou část svých dat najednou. Jsem chamtivý a pohon několikrát zmizí, ale vždy se vrací po energetickém cyklu počítače. Teoreticky se domnívám, že snad jen některé části jednotky jsou špatné, začnu místo toho, abych pracoval na začátku jednotky, skákat kolem. Po několika iteracích jsem z jednotky bezpečně odešel všech 40 GB z 750 GB. U zbývajících 40 GB se nepodařilo pohnout bez ohledu na to, co jsem zkusil. Bylo to v neděli večer a byl jsem vyčerpaný, takže jsem se rozhodl jít spát a řešit tento problém další den.

Následující den, po nějakém spánku a první polovině mého pracovního dne, se rozhodnu kulku zakousnout, protože mi nezáleželo na posledních 40 GB nahraných televizních pořadů a začal jsem vyjímat disk z mého LVM konfigurace . Udělal jsem to mnohokrát předtím, takže to jde docela hladce. Další v seznamu vyčištění je oprava díry uprostřed souborového systému. Myslím, že chybí jen 40 GB místo 750 GB, nemůže to být tak špatné, že? Špatně! Po opravě jsem měl ve srovnání s před začátkem utrpení další volný prostor o 900 GB, takže jsem to trochu zapálil. No dobře, říkám si, stejně to byla jen televize. Moje DVR je konečně funkční po svém třímdenním přestávce a konečně o tom mohu přemýšlet s každým dalším mozkovým cyklem.

Ponaučení

Co jsem se z toho všeho naučil? Měl jsem udělat lepší práci v tom, na čem opravdu záleží. Stalo se to před několika týdny a v té době jsem ani nezmeškal žádný z televizního obsahu, který zmizel. Lituji však, že bráním sobě, ale co je důležitější, mé rodině, že nemohla televizor používat tři dny a že jsem se na tyto tři dny dostala do krizového režimu s vysokým stresem. Kdybych se na začátku vzdal obnovy svých dat, funkce by byla obnovena asi za hodinu, ne za tři dny. Až moc dobře vím, že většina našich údajů je vzácná, ale v této situaci tomu tak nebylo.

Zadruhé, pokud jsou vaše data opravdu vzácná a 99% času skutečně je, musíte je chránit! Zálohujte svá data, neexistují žádné omluvy. U mých nenahraditelných dat, jako jsou tisíce obrázků mého syna, které mám v počítači, se ujistím, že je zálohuji na nejméně třech místech, z nichž jedno je poskytovatelem cloudové zálohy. Co se týče úložiště DVR, stále si nemyslím, že je praktické zálohovat ho do cloudu, ale s cenou pohonů v těchto dnech nemám žádnou omluvu, že ho nechci chránit pomocí RAID, a to je přesně to, co jsem bude dělat. Když jsem poprvé nastavil svůj úložný klastr před lety, myslím, že mi trvalo 10 a více jednotek, než jsem se dostal k fondu více TB. Právě jsem zkontroloval ceny a nyní si můžete koupit disk 3 TB za méně než 100 USD. Jednoduše nemám žádnou omluvu, že nechávám svá data nechráněná, a pokud se mi takováto ztráta dat stane znovu, je to moje vlastní chyba.

Příběh smutku, frustrace a ztráty dat