O meu pior dia com o Linux

Ontem foi de lascar! Tudo bem que a Ampla não colabora e a força/luz/energia cai muito por aqui na Física, mas o problema foi na volta: o servidor do meu grupo de pesquisa não montava os volumes. São dois discos de 250Gb em que eu particionei da seguinte maneira: uma pequena partição ext3 para o boot, uma xfs para o / e o que restou de um mais o outro como um volume só (na época era a única maneira de conseguir mais de 400Gb de disco).

A instalação foi feita anos atrás e a distribuição prometia que aquela seria uma versão mais estável que as demais e que o upgrade para a seguinte seria indolor. Indolor é o c#$@$☟†☎☚♦#@*&! Eu fiz o dist-upgrade e a coisa parecia correr bem, apesar da demora em reiniciar os serviços. Só que eu nem tentei rebootar, já que tudo funcionava. Eu fui da versão “d” para a “h” passando cuidadosamente por todas as letras e respondendo Yes quando perguntado. Quando todas as máquinas voltaram a funcionar, o meu servidor me devolveu um prompt (initramfs) e dizia que o volume UUID=755746de5342652 ou coisa que o valha estava busy e não podia ser montado. Uma hora trocando UUID por /dev/sda's e /dev/hda's, etc. Usando o rescue do Debian Lenny, conseguia montar os discos e vi que não havia problema de integridade, só que a máquina não montava por si só. Até que alguém teve a idéia brilhante: tentou o kernel antigo ? E não é que funcionou ? Está lá meu servidor rodando com o 2.6.17, porque daí por diante dá pau. Tem vários registros na rede sobre este bug: aconteceu do “f” para o “g”, não acontecia do “g” para o “h”. Só que quem acreditou na estória de LTS (como o tolinho aqui) se deu mal. A solução era dar um purge no pacote evms.

Vocês podem estar pensando: agora está funcionando, fica quieto. Quem disse que os usuários tinha permissão para apagar seus próprios arquivos ? Atualização do NFS deu pau. Mexi em 73 parâmetros e finalmente um conjunto funcionou. Meus clientes foram rebootados diversas vezes e em todas eu ouvi: “Você disse que não precisa rebootar o Linux ;)”. Foram cinco horas até o sistema voltar a funcionar (e cinco horas mal aproveitadas: deveria ter instalado outro servidor e copiado os arquivos). O pior é que eu não aprendo: em 2006 já sabia que dist-upgrade só funciona no Debian.

Eu conheço ao menos um leitor (CM) que está morrendo de rir ao ler esta história. Vou deixar ele completar a quadrinha

Eu tinha um servidor

e nele instalei o ....... 

fiz um dist-upgrade 

e acabei ........