[FUG-BR] Problema sério com link aggregation LACP no FreeBSD 10.2-RELEASE

Marcelo Gondim gondim em bsdinfo.com.br
Quinta Setembro 17 16:41:03 BRT 2015


On 17-09-2015 13:32, Luiz Otavio O Souza wrote:
> 2015-09-15 6:28 GMT-03:00 Marcelo Gondim:
>> Olá meus amigos,
>>
>> Não sei se sou azarado ou o que. Um ano atrás tive problemas com as
>> interfaces Intel X520-SR2 que do nada elas morriam e eu tinha que ficar
>> dando down e up pra elas voltarem à vida. Fiquei mais de 1 ano com esse
>> problema. Tentei as listas e cheguei à fazer até um PR e nada. Um belo dia
>> atualizei o router no STABLE e pronto, problema resolvido. O que foi feito
>> não faço ideia mas resolveu depois de 1 ano de sofrimento de ter trocado
>> todo o hardware e achando que era temperatura interna da X520-SR2.
>>
>> Patrick até tentou me ajudar nessa época mas o jeito foi deixar um script
>> testando e levantando a interface sempre que caía. Pura gambiarra, coisa
>> feia de se ver em um sistema.  rsrsrsrsrs
>>
>> Estava eu usando o router funcionando no 10.1-STABLE r281235 e aí então
>> resolvi passar o mesmo para o FreeBSD 10.2-RELEASE-p2 devido às melhorias da
>> 10.1 para a 10.2 e mais uma vez me decepcionei com o sistema.
>>
>> Eu tenho 2 laggs nesse router e depois que atualizei, quando chegava no
>> horário de pico e subia o tráfego nesses laggs, simplesmente meu load subia
>> pra 40.x à 53.x, minha sessão BGP de um desses laggs com a operadora caía e
>> levantava de 5 em 5 minutos me gerando grande problema aqui no provedor.
>
> A partir dessa revisão que você colocou (r281235) houveram apenas 3
> commits no if_lagg.c:
>
> https://svnweb.freebsd.org/base/stable/10/sys/net/if_lagg.c?view=log
>
> Isso se o problema for realmente no lagg e não em algum outro ponto do
> sistema (driver da placa de rede, etc, etc, etc).
>
> Sei que é difícil testar em produção, mas se você pudesse verificar
> qual desses commits introduziu o problema que esta vendo isso seria
> ótimo!
>
> []'s
> Luiz
Pois é eu mandei lacp porque essa mensagem de flapping está no fonte do 
sys/net/ieee8023ad_lacp.c mas é como você disse pode estar relacionado 
com outro problema.
Hoje vou bootar com o 10.2-STABLE, que baixei de ontem, para ver se já 
não foi corrigido nesse meio tempo.

Estou torcendo para que já esteja corrigido pelo menos no STABLE porque 
usar o CURRENT é doideira demais. :)

Agora essa do ipfw o Melifaro até hoje não fez uma MFC e isso tá desde o 
10.0. Só vejo 2 motivos para isso não ter ocorrido ainda: deve ser 
complexo de mudar na 10.2 ou vai afetar o POLA. Eu instalei o 11 aqui 
para ver e realmente o ipfw ficou bem legal porque inclusive não 
precisei mudar meus scripts de firewall e porque agora podemos dar nomes 
nas tables.  :)  Espero ver logo uma MFC do ipfw no stable. rsrsrsr

Abrs e darei notícias,

>
>
>
>> Nos logs ficavam aparecendo:
>>
>> /var/log/messages:Sep  9 19:21:43 rt01 kernel: igb5: Interface stopped
>> DISTRIBUTING, possible flapping
>> /var/log/messages:Sep  9 19:21:44 rt01 kernel: igb4: Interface stopped
>> DISTRIBUTING, possible flapping
>> /var/log/messages:Sep  9 19:27:01 rt01 kernel: igb5: Interface stopped
>> DISTRIBUTING, possible flapping
>> /var/log/messages:Sep  9 19:27:01 rt01 kernel: igb4: Interface stopped
>> DISTRIBUTING, possible flapping
>> /var/log/messages:Sep  9 19:29:13 rt01 kernel: igb5: Interface stopped
>> DISTRIBUTING, possible flapping
>> /var/log/messages:Sep  9 19:29:14 rt01 kernel: igb4: Interface stopped
>> DISTRIBUTING, possible flapping
>> /var/log/messages:Sep  9 19:46:10 rt01 kernel: igb5: Interface stopped
>> DISTRIBUTING, possible flapping
>> /var/log/messages:Sep  9 19:46:11 rt01 kernel: igb4: Interface stopped
>> DISTRIBUTING, possible flapping
>>
>> Aí pensei comigo... estava tudo funcionando e não vou cometer o mesmo erro
>> que cometi com a X520-SR2. Voltei para o 10.1-STABLE r281235 e pronto! Tudo
>> voltou à funcionar como era antes. Assim fica difícil confiar na
>> estabilidade e robustez de um sistema. Só Deus sabe agora quando que isso
>> será resolvido no sistema. 1 ano? 2 anos? Bem, vou começar à pensar em algo
>> como Juniper porque pelo menos vou poder cobrar de alguém quando isso
>> acontecer. Uns anos atrás saí do Linux para FreeBSD porque este resolveu
>> meus problemas, coisas que o Linux não me atendia mas que agora está me
>> deixando chateado com essas coisas. Saí do problema do ksoftirq do Linux
>> para outros problemas de instabilidade no FreeBSD.
>>
>> Querem ver outra coisa feia que desde o FreeBSD 10.0 existe e já tem PR, já
>> comentei na freebsd-stable? Tudo bem que pode não afetar o sistema mas já
>> acertaram na CURRENT faz tempo, pelo menos foi o que me disseram na lista. É
>> uma coisa feia demais para um sistema tão bem trabalhado:
>>
>> Experimentem fazer:
>>
>> # ipfw table 100 add 0.0.0.0/8
>>
>> Agora o resultado:
>>
>>   # ipfw table 100 list
>> ::/8 0
>>
>> iptables pode ser estranho ou difícil de aprender mas nunca vi algo assim
>> nele. Venho desde o FreeBSD 10.0 falando na lista sobre isso e cá estamos no
>> 10.2 e continua esse bug horrendo.
>>
>> Bem eu abri o PR sobre o problema do LACP e agora vamos ver quando que isso
>> vai ser resolvido porque ao meu ver isso é sério e muita gente usa lagg no
>> sistema e com certeza é um problema porque voltei a versão e tudo
>> normalizou. Fiquei 3 dias com esse problema me ferrando, para não dizer
>> outra coisa, aqui no provedor.
>>
>>   https://bugs.freebsd.org/bugzilla/show_bug.cgi?id=203031
>>
>> Desculpem o desabafo mas puts essa me deixou chateado demais com o sistema,
>> ainda mais pela importância que ele tem para o meu negócio hoje.
>>
>> Gondim



Mais detalhes sobre a lista de discussão freebsd