Este informe é o mesmo que se encontra no site: http://www.serversp.com.br/central- do-cliente/status-do-sistema , porem abrimos aqui a oportunidade de nossos clientes discutir, dar opiniões e criticas sobre nossa manutenção.
O servidor cl-t221-221cl esta funcionando desde 13/05/2010 sem apresentar problemas, no entanto no ultimo mês, ele começou a apresentar problemas de processamento, no entanto a verificação desse problema é um tanto problemática, pois não podemos desligá-lo para executar testes. Porem no último domingo um processador Xeon E5506 desapareceu da descrição o que nos levou a conclusão que o mesmo estava queimado. Na segunda-feira foi agendada a manutenção para ser efetuada a troca do CPU na terça feira as 4:00am. A troca foi feita em 15 minutos porem ao iniciar o servidor foi verificado falhas no disco SDA, foi feito o fdisk e após algumas horas efetuando esse processo o servidor reiniciou. Depois disso, executamos o teste SMART e encontramos falhas na leitura e gravação do HD .
Veja abaixo o resultado do SMART.
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always
- 0
3 Spin_Up_Time 0×0027 231 231 021 Pre-fail Always
- 8425
4 Start_Stop_Count 0×0032 100 100 000 Old_age Always
- 29
5 Reallocated_Sector_Ct 0×0033 200 200 140 Pre-fail Always
- 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always
- 0
9 Power_On_Hours 0×0032 084 084 000 Old_age Always
- 12068
10 Spin_Retry_Count 0×0032 100 253 000 Old_age Always
- 0
11 Calibration_Retry_Count 0×0032 100 253 000 Old_age Always
- 0
12 Power_Cycle_Count 0×0032 100 100 000 Old_age Always
- 27
192 Power-Off_Retract_CPlease ount 0×0032 200 200 000 Old_age
Always - 24
193 Load_Cycle_Count 0×0032 200 200 000 Old_age Always
- 29
194 Temperature_Celsius 0×0022 125 096 000 Old_age Always
- 25
196 Reallocated_Event_Count 0×0032 200 200 000 Old_age Always
- 0
197 Current_Pending_Sector 0×0032 200 200 000 Old_age Always
- 0
198 Offline_Uncorrectable 0×0030 200 200 000 Old_age
Offline - 0
199 UDMA_CRC_Error_Count 0×0032 200 200 000 Old_age Always
- 814
200 Multi_Zone_Error_Rate 0×0008 200 200 000 Old_age
Offline - 0
Segue abaixo o mesmo cronograma que se encontra em nosso site.
=============================================================================================
Hoje o servidor cl-t221-221cl aparentemente apresentou um problema em um dos processadores Xeon E5506.
Ainda estamos investigando o que ocorreu, no momento o servidor esta funcionando porém com uma certa lentidão uma vez que metade da capacidade de processamento foi perdida.
Já solicitamos apoio técnico, será verificado o hardware e provavelmente substituído hoje durante a noite.
=============================================================================================
Nessa madrugada 09/02 as 4:00 horas AM (horário de Brasilia) o servidor será desligado por cerca de 30 minutos para substituição da CPU.
=============================================================================================
Após a troca da CPU defeituosa o servidor iniciou parcialmente, somente o Linux teve um bom start, todos os outros sistemas não, ao tentar cortar a energia para um novo boot todo servidor falhou. Nesse momento, técnicos no Data Center fazem uma verificação física no servidor para determinar a causa disso.
=============================================================================================
Nesse momento o servidor esta fazendo uma verificação no sistema de arquivos (fdisk), isso é normal quando não reiniciado a mais de 180 dias ou encontrado algum pequeno erro no disco. O processo já esta em 60% e deve terminar em 1 hora.
=============================================================================================
O fdisk automático falhou, sendo assim agora ele será feito manualmente por um administrador.
=============================================================================================
O administrador James R. começou o fdisk manual 9:50AM, o processo deve levar cerca de 1 hora.
=============================================================================================
O fdisk terminou, estamos tentando iniciar o servidor nesse momento.
=============================================================================================
O sistema operacional e cpanel/whm estão ok, nesse momento os serviços como apache, FTP, e-mail estão sendo iniciados, esse processo deve levar cerca de 15 minutos.
=============================================================================================
Foi identificado também uma falha na HD, essa manutenção continuara aberta por mais alguns dias, iremos colocar uma nova HD e criar um sistema RAID para que esse problema não ocorra novamente. Ainda não temos a data que será feita essa manutenção, mas tentaremos agendar para o final de semana.
=============================================================================================
O servidor já esta online, nesse momento estamos verificando quais serão os próximos procedimentos para a troca da HD.
=============================================================================================
Hoje aproximadamente as 13:45 esse servidor novamente apresentou problemas, ao que tudo indica o problema é na HD defeituosa, estamos aguardando uma analise técnica sobre o problema.
=============================================================================================
Nesse momento esta sendo feito o fdisk, esse processo deve levar cerca de 1 hora.
Após esse processo e o servidor online será adicionado uma nova HD para fazer o RAID (antes estava programado para o domingo, mas nas atual condições é impossível aguardar até lá)
=============================================================================================
Hoje o problema voltou a se repetir e segue abaixo a screenshot do fdisk quando falhou em resolver o problema.

O fdisk manualmente já esta sendo feito, dentro de algumas horas devemos ter o servidor online.
Após esse processo será adicionado uma nova HD e criar um sistema RAID para que esse tipo de problema não volte acontecer.
Nesse momento esta sendo executado o fdisk manualmente, caso esse processo falhe nossa única opção será instalar novamente o OS em uma nova HD e restaurar as contas usando nosso sistema R1Soft (o backup será de ontem).
Gostaríamos de informar a todos os afetados, que infelizmente não adianta abertura de vários ticket, enviar vários e-mails, ligações ou pedidos de atendimento online, o maximo que isso gera é uma sobrecarga em nossos canais de atendimento, já temos um técnico trabalhando para solucionar esse problema, toda informação sobre o processo é postada em nosso site e aqui no blog, portanto pedimos paciência e calma durante esse tempo.
O servidor já esta online, nesse momento estamos preparando um novo HD para o sistema RAID.
Baixo segue uma screenshot que mostra a taxa de leitura da HD com problemas, esse processo esta sendo feito desde sexta-feira 11/02.

Abaixo uma screenshot de um servidor normal.

=============================================================================================
11/02/2011 – 01: 15 Nesse momento Wender Souza (técnico IWeb) acabou de entrar em contato conosco por telefone para maiores detalhes sobre esse problema.
O problema é no controlador UDMA, ainda não é possível saber se é o problema é na HD, cabo SATA ou na placa-mãe, ele irá fazer alguns testes agora tentando trocar o cabo e depois a placa-mãe, se o problema persistir será necessário trocar a HD, no entanto se o problema for na HD o processo de troca será diferente, não será possível criar um RAID a partir dela, iremos atualizar em breve com mais informações.
=============================================================================================
11/02/2011 – 01: 30 A partir de agora teremos alguns reboots para troca de hardware e testes.
=============================================================================================
11/02/2011 – 18:00 Iremos dentro de 15 minutos desligar o servidor para trocar a placa mãe e HDs, esse processo deve levar cerca de 1 hora, após isso será configurado 2 novas HDs em RAID e a HD antiga será ligada via USB para copia das contas. O processo todo deve levar cerca de 3 ou 4 horas, esperamos ter tudo pronto essa madrugada.
=============================================================================================
12/02/2011 – 14:00 Foi trocado a placa mãe e 2 novas HDs em RAID, a HD antiga esta ligada via USB e estamos sincronizando os dados para as novas HDs, esse processo é um pouco demorado e gera uma lentidão em todo servidor, esperamos terminar isso nas próximas 24 horas.
=============================================================================================
13/02/2011 – 13:30 O processo de sincronia ainda continua, esperamos terminar isso o mais rápido possível.
=============================================================================================
14/02/2011 – 09:30 O processo de sincronia esta terminando, já foi copiado 316GB de um total de 396GB.
=============================================================================================
14/02/2011 – 10:00 O processo de sincronia dos dados ainda não terminou, isso é devido ao tamanho do servidor, algumas contas de revenda tem acima de 400 domínios, isso não é o ideal para uma revenda mas foi feito, por esse motivo ainda esta sendo sincronizado os dados (desde sexta-feira).
O serviços como FTP e e-mail estão funcionando porém com uma certa lentidão, se todos tentarem acesso ao mesmo tempo ele se torna instável, para solucionar isso estamos dispostos a migrar as contas que estão afetas para outro servidor, para solicitar isso basta abrir um ticket em sua central do cliente.
=============================================================================================
14/02/2011 – 13:25 O processo de sincronia esta terminando, já foi copiado 337GB de um total de 396GB.
=============================================================================================
14/02/2011 – 14:00 Devido ao problema no UDMA e o uso do servidor, ele é capaz de copiar 5GB por hora, resta ainda cerca de 55GB, portanto o processo deve terminar nessa madrugada.
(O servidor tem 400GB de arquivos, como o processo começou na sexta por volta das 20 horas o tempo estimado era de 80 horas)
=============================================================================================
14/02/2011 – 18:15 O processo de sincronia esta terminando, já foi copiado 374GB de um total de 396GB.
=============================================================================================
Ontem por volta das 21 o sistema já havia terminado de copiar os dados para o novo sistema RAID, porém como esse problema já teve vários imprevistos ontem não foi diferente.
Wendel Souza foi o técnico da Iweb responsável pela manutenção, ainda não sabemos o que ocorreu pois desde madrugada estamos sem contato com ele, por volta das 2:00 AM foi nos informado que os novos discos estavam ok e que seria feita a troca das HDs, (retirado a antiga), feito isso demos o ok para prosseguir, o processo não deveria levar mais do que 15 minutos, após 30 minutos com o servidor desligado enviamos um e-mail cobrando uma resposta e após quase 1 hora ele volta somente com a HD antiga, o sistema RAID não esta funcionando, desde então estamos em uma resposta sobre isso.
A boa noticia é que o problema parecia ser no cabo SATA ou na placa mãe pois após trocado o problema não ocorreu mais, mesmo assim ainda aguardamos uma resposta do departamento técnico da Iweb.
Caso isso demore ou ela não seja satisfatória o processo de criação do RAID será feito da nossa forma.
Para os clientes com problemas podemos fazer a troca de servidor, lembrando que a conta será enviada para um servidor já com o sistema RAID.