[FUG-BR] kernel panic

Aprigio Neto screenblack em gmail.com
Segunda Março 9 14:32:56 BRT 2009


Galera,

Estou com o seguinte problema:
Tenho um servidor que reboota constantemente, e raramente passa de um
dia no ar. Não registra nada nos logs (/var/log/messages e
/var/log/security sem mensagem de erro). Esse servidor é um Dell
PE-SC430 (PentiumD 3.0GHz - HT), com 4 pentes de memória (1,5GB).
Esse servidor rodou sem problemas até  a versão 6.3 do FreeBSD. Depois
que foi para a 6.4, comecaram os reboots.
Migrei para a versão 7.0 (atualizando por cima da versão 6.4) e
utilizei o novo escalonador de processos (SCHED_ULE), achando que
fosse resolver o problema, mas não teve jeito. Atualmente está com a
versão FreeBSD 7.1-RELEASE, instalada do zero e rodando o segundo HD
(onde constava o instalacão antiga) em uma Jail.

Os testes que já fiz, e que todos não deram certo, foram:
- Troquei de posicão os pentes de memória, respeitando sempre o barramento;
- Retirei 2 pentes de memória por vez;
- Troquei o SO de HD, fazendo um DD de um para o outro (sendo HDs de
marcas diferentes);
- Troquei fonte de alimentacão, coloquei uma Dr. Hank de 500W Reais;
- Desativei o segundo HD (podendo ser sobre-carga);
- Retirei o cabo de forca que estava ligado no no-break e coloquei
direto em um estabilizador (podendo ser problema na tomada de forca do
no-break);
- Troquei de máquina (coloquei em um Dell Desktop), mantendo a mesma
instalacão do SO;
- Instalei o FreeBSD um HD novo e coloquei o HD anterior subindo como
jail a partir da nova instalacão (opa, aqui não reiniciou mais).
- Coloquei os HDs no servidor novamente, mantendo a estrutura (SO <-
Jail),  e então voltou a reiniciar novamente.
- Habilitei o 'debug' no kernel, para pode fazer 'dump' em /var/crash,
mas nem chega a gerar.
- Tentei criar um 'dump' da SWAP, mantendo a SWAP intacta após o
'panic', mas também não gerou.
- Após o reboot, tentei desativar os processos que apareciam na hora
que dava o 'panic', achando que fosse um deles, mas, não deu certo.
- Retornei o Kernel para o 'GENERIC', mas também foi sem sucesso.


Minha última alternativa que veio na cabeca e que está no ar a partir
do meio-dia de hoje foi:
- Recompilar o kernel sem o suporte a SMP.

Ainda não rebootou com esse último teste, mas, veremos nas próximas
horas o que irá acontecer.

As mensagens de 'panic' que dão, são sempre algo do tipo:
------
frame pointter          = 0x10:0xffffff005e60cb60
code segment          = base 0x0, limit 0xfffff, type 0x1b
                                 = DPL 0, pres 1, long 1, def32 0, gran 1
processor eflags       = interrupt enable, resume, IOPL = 0
current process        = 2831 (python2.5)
trap number             = 12
panic: page fault
cpuid                         = 1
Uptime: 2d6h23m41s
Physical memory: 1521 MB
Dumping 302MB:

Fatal trap 12: page fault while in kernel mode
cpuid: 0; apic id = 00
fault virtual address   = 0x200
fault code                   = supervisor read instruction, page not present
instruction pointer      = 0x8:0x200
stack pointer              = 0x10:0xffffffffab0da2c0
frame pointer             = 0x10:0x0
code segment            = base 0x0, limit 0xfffff, type 0x1b
                                   = DPL 0, pres 1, long 1, def32 0, gran 1
processor eflags         = interrupt enable, resume, IOPL = 0
current process          = 2831 (python2.5)
trap number               = 12
-----

Galera, não sei mais o que fazer. A única situacão que pareceu dar
certo, foi colocar um Dell Desktop como sendo o servidor, mas, isso
não é viável em um ambiente de servidores, claro.

Como não teve jeito de gravar a mensagem de erro em arquivo, então
resolvi bater foto da tela.
Está em http://screenblack.no-ip.org:88/DSCN9102.JPG

Alguma idéia?


Mais detalhes sobre a lista de discussão freebsd