[FUG-BR] [OT] Squid - Ordenação otimizada de conteúdo em ACL

Celso Viana celso.vianna em gmail.com
Segunda Novembro 2 14:46:07 BRST 2009


2009/11/1 Trober <trober at trober.com>:
>> 2009/11/1 Trober <trober at trober.com>:
>>>
>>> Boa-tarde a todos :)
>>>
>>> Quero otimizar a busca do Squid por registros (domínios), dentro de ACLs
>>> de arquivos textos, que contém ao todo 531.681 linhas, distribuídas em
>>> 38
>>> arquivos.
>>>
>>> Sabendo que existem diferentes algoritmos de busca, consultei o
>>> código-fonte do Squid, com o objetivo de interpretar e adequar meus
>>> arquivos à forma de busca empregada no Squid. Para isso, atualmente,
>>> converto todos os caracteres dos arquivos texto para minúsculo com "tr",
>>> elimino as linhas em branco com "sed", ordeno com "sort -f -b" e removo
>>> duplicados com "uniq" (importante para evitar o conflito de duplicidade,
>>> detectado na função da linha 2675 do "acl.c").
>>>
>>> No final de tudo, rodo um "squid -k parse", elimino eventuais "sujeiras"
>>> e, se tudo estiver certo, um "-k reconfigure" para concluir.
>>>
>>> Como não tive muito êxito na análise do "acl.c" e no enfileiramento de
>>> aclDumpDomainList, pergunto: qual a ordenação mais adequada compatível
>>> com
>>> o Squid?
>>>
>>> Muito grato!
>>>
>>> Bom feriado a todos.
>>>
>>> Saudações,
>>>
>>> Trober
>>> -
>>> -
>>> -
>>> -
>>> -
>>>
>>> -------------------------
>>> Histórico: http://www.fug.com.br/historico/html/freebsd/
>>> Sair da lista: https://www.fug.com.br/mailman/listinfo/freebsd
>>>
>>
>> Não seria mais interessante/prático (se é que eu entendi) você usar o
>> squidguard ou dansguardian ?
>>
>> --
>> Celso Vianna
>> BSD User: 51318
>> http://www.bsdcounter.org
>>
>> 63 8404-8559
>> Palmas/TO
>> -------------------------
>>
>
> Salve Celso! :)
>
> Desculpe-me pela mensagem anterior. O gato pulou no teclado e enviou a
> mensagem pela metade :S
>
> Sim. Concordo que o uso de um banco de dados é melhor, mas não fui
> autorizado a migrar :(
>
> O problema da ordenação, é que eu recebo as listas de bloqueio prontas
> da equipe de "parsing" (que revisa manualmente cada domínio).
>
> As vezes vem na ordenação padrão do Excel, às vezes do OpenOffice, e ambas
> são ordenações carnavalescas, no que refere-se ao tratamento de caracteres
> especiais (hífens, underlines etc).
>
> A intenção é saber qual é a ordem utilizada no Squid, para tratamento de
> ordenação de strings.
>
> Por exemplo:
>
> .45-testededominio.com
> .45outroteste.com
>
> Dependendo do programa, a ordenação é:
>
> .45outroteste.com
> .45-testededominio.com
>
> A dúvida é saber como é o tratamento de ordenação do Squid. Consultei nos
> fontes e não tive êxito.
>
> Saudações,
>
> Trober
> -
> -
> -
> -
> -
>
>
> -------------------------
> Histórico: http://www.fug.com.br/historico/html/freebsd/
> Sair da lista: https://www.fug.com.br/mailman/listinfo/freebsd
>

Como diria um amigo: a função básica do Squid é "cache"... se se cria
ACL's que consultam listas grandes de palavras, a performance vai pro
buraco... tente convencer o pessoal de "parsing" de que o squid não é
adequado para essa tarefa; deixa ele fazer o que ele faz muito bem:
"cache"; o squidguard é show para tratar grandes quantidades de
palavras/domínios...

-- 
Celso Vianna
BSD User: 51318
http://www.bsdcounter.org

63 8404-8559
Palmas/TO


Mais detalhes sobre a lista de discussão freebsd