Problema Servidor hd-t2791cl
Problema hd-t2791cl
No dia 8 de março de 2010 as 07:08 um analista do suporte do servidor hd-t2791cl recebeu um e-mail do servidor com o seguinte conteúdo:
Device: /dev/sda, 1 Currently unreadable (pending) sectors
Esse email foi enviado automaticamente pelo servidor, todas HDs são monitoradas pelo sistema SMART (SMART = Self-Monitoring, Analysis, and Reporting Technology (tecnologia de auto-monitoramento, análise e relatório) ou S.M.A.R.T. é um sistema de monitoramento de discos rígidos que detecta e antecipa falhas, através de vários indicadores de confiabilidade.)
Para entender um pouco mais sobre o SMART:
Modo de Trabalho
Fundamentalmente, discos rígidos podem sofrer uma em duas classes de falhas:
Previsíveis Alguns tipos de falhas, especialmente mecânicas e as causadas pelo tempo, vão ocorrendo gradualmente. Estas falhas podem ser detectadas por um dispositivo de monitoramento, assim como o mostrador de temperatura no painel de um carro que avisa o motorista (antes que algo mais grave ocorra) quando o motor começar a superaquecer.
Imprevisíveis Outras falhas ocorrem repentinamente ou por acidente, como a queima de algum componente eletrônico ou uma pancada.
Esse monitoramento pode prever em 60% se um disco rígido irá falhar. Essa tecnologia (S.M.A.R.T.) tem o propósito de avisar ao usuário ou o administrador do sistema a iminência do drive apresentar problemas, a tempo de se tomar alguma ação preventiva — como a cópia dos dados para um disco substituto.
No nosso caso o SMART funcionou muito bem, foi uma falha previsível, por isso tivemos tempo para programar, solucionar e voltar tudo em uma HD nova nem perder nem 1byte.
Falha em Disco é uma realidade!
Não existe escapatória: falhas em disco acontecem! O grande problema é que quando falham, há grande risco de você perder seus dados, por isso além do SMART fazemos backups todas semanas das contas.
O servidor hd-t2791cl tinha apenas cerca de 3 mil horas de funcionamento e apresentou o problema na HD, aparentemente foi um defeito de fabricação onde tomos estamos sujeitos a comprar um equipamento defeituoso, mas quando isso acontece o máximo que pode ser feito é ser trocado por um outro, e foi o que nós fizemos. Infelizmente o processo não foi só a troca da HD, também tínhamos que pegar todos os dados da HD defeituosa e passar para a HD nova, o tempo previsto para isso não deveria ser mais de 30 minutos, mas infelizmente o problema da HD defeituosa piorou deixando a leitura lenta, com isso conseguimos somente concluir o serviço com quase 12 horas de atraso.
Vale a pena lembrar que isso foi programado para ser da melhor forma possível, rápido e principalmente sem perder nenhum dado, seria muito mais simples a ServerSP deixar a HD até queimar e depois trocar por uma nova e restaurar os backups, mas com isso haveria perda de dados, pois se o backup é de ontem e a HD falhou hoje, tudo que feito hoje seria perdido!
Tudo que foi feito foi para garantir a integridade dos dados.
Cronologia do Problema:
8 de março de 2010 07:08 – Alex J. (Iweb) Nos envia um e-mail informando sobre o problema na HD.
8 de março de 2010 16:58 – Junior G (ServerSP) Responde informando que fez os teste com o Smart mas não achou nenhum problema (Obs: Junior estava de férias no meio do Oceano Atlântico em um Navio transatlântico )
9 de março de 2010 10:29 – Belkacem H. (Iweb) Pede autorização para troca de todas HDs do Servidor (HD com defeito e todas as outras normais)
10 de março de 2010 12:13 – Junior G (ServerSP) Ainda em alto mar Junior agenda a manutenção para Sábado (dia de menos movimento do servidor) e já providencia sua volta para o escritório da ServerSP em São Paulo para acompanhar de perto a manutenção.
13 de março de 2010 10:57 – Sylvain D (Iweb) Informa que o processo iniciou, e o tempo previsto para término era de 4 horas.
A partir daí foram dezenas de e-mails e telefonemas para acompanhar o processo, Junior G. chega logo após o inicio 13:00 horas com mais 2 técnicos (Daniel H e Caio B) para ajudar em qualquer problema.
A troca da HD ocorreu sem problemas, por volta de 3 horas após o inicio do processo o servidor já estava de volta online mas sem nenhuma conta, Após a nova HD instalada e configurada, a HD antiga foi conectada por uma porta USB para que o processo de mover as contas se desse inicio.
O maior problema e o atraso foi durante o ultimo processo, a HD antiga estava com leitura muito lenta e com super aquecimento, ainda não temos todos detalhes do processo, mas a HD teve que ser congelada para que voltasse a funcionar corretamente.
Felizmente após quase 22 horas direto de trabalho conseguimos terminar de mover os arquivos.
Durante esse tempo toda equipe da ServerSP, Junior G (Gerente de Contas e do Servidor), Daniel H e Caio B (analistas sênior) e Felipe Gomes, Lucas Martins (analistas de sistema e atendimento) ficaram trabalhando com intervalos de 15 minutos a cada 2 horas, As atendentes Natalia Curti e Patricia Bastos (atendimento) foram dispensadas por volta das 23 horas pois não havia mais necessidade de suas habilidades no momento. A equipe da Iweb Sylvain D, Honoré B. e Artom L. foram os responsáveis pela troca da HD, eles também tiveram participação durante todo processo.
Dessa forma procuramos deixar o problema mais claro possível para todos afetados, fizemos tudo que poderia ser feito para não perder nenhum dado e trazer o servidor de volta o mais rápido possível.
O Servidor hd-t2791cl nesse momento conta com 2 HDs novas.
Foi perguntado por vários clientes porque não usamos o RAID, portanto segue abaixo:
Porque usar o S.M.A.R.T.
Existem outras maneiras de se proteger contra perdas de dados associadas a falhas em disco. Pode por exemplo, ter um sistema de backup que duplica os dados existentes no sistema principal em um sistema secundário (espelhamento ou RAID 1), de tal forma que se houver falha em um disco, o “disco-espelho” do mesmo automaticamente assume o lugar dele, sem perdas de dados (já que ele está totalmente espelhado no disco reserva). Existem outras soluções através da utilização de RAID, porém o custo da implantação é considerável e nem sempre justificável.
Portanto em um servidor de hospedagem e ou revenda compartilhada o uso de RAID não é viável uma vez que com isso aumentaria seu custo em quase 4x, sendo impossível oferecer os mesmos planos pelos mesmos valores. Então é por isso que adotamos a opção do SMART e backup.
Estamos abrindo esse post para comentários dos clientes caso queiram, fiquem à vontade.

