sexta-feira, 19 de junho de 2015

[P12] Arquivos de Log de um site na Internet

     Criei um logger, um script para salvar os downloads do meu site pessoal na Internet em 19/06/2010 (foram 1826 dias de log). Cinco anos depois, em 19/06/2015, torno público os resultados obtidos. As capturas guardam a data de cada download, o arquivo que foi baixado e o endereço IP origem do download.
     É possível observar que em algumas datas, alguns endereços IPs foram mais utilizados que outros (provavelmente um ataque?), assim como existem arquivos que são mais baixados que outros.
     A seguir, apresento algumas informações interessantes sobre o endereçamento geográfico e distribuição de endereços IP pelo globo terrestre, para facilitar a implementação de alguns itens dos projetos.

Endereçamento dos Protocolos de Internet

     Existem duas formas de endereçar máquinas na Internet: através dos protocolos IPv4 e IPv6 (onde está o IPv5?). O IPv4 possui uma quantidade limitada de endereços, então está sendo gradualmente substituído (há uns 15 anos já...) pelo protocolo IPv6 que tecnicamente possui tantos endereços IP quanto partículas de areia no universo.
     Existe uma governança da Internet, mas quem controla os endereços é a ICANN - Internet Corporation for Assigned Names and Numbers - Corporação da Internet para Atribuição de Nomes e Números.
     Enquanto que o IPv4 endereça cerca de 4 bilhões (4x109) de endereços IP, o IPv6 consegue endereçar 3,4x1038 endereços. Este fato é particularmente interessante quando se sabe que a rede está expandindo à medida que o tempo passa com a adição de novos dispositivos (tablets, smartphones, etc). A seguir, são apresentados exemplos de endereços de cada protocolo:
IPv4 => 173.194.119.49
IPv6 => 2001:bce4:5641:3412:341:45ae:fe32:65
     O livro "IPv6 Address Planning: Designing an address plan for the future", escrito por Tom Coffeen (Publicação: O'Reilly Media, Data: November 2014, 286 páginas) apresenta uma tabela interessante sobre os endereçamentos dos protocolos (e outras contagens interessantes) - clique na imagem para expandi-la:


Dados

     Um único arquivo de dados contém tudo, com o seguinte cabeçalho:
#IP = 0 | ARQUIVO = 1 | DATA = 2 ; VALOR ; QUANTIDADE
     O primeiro campo é um valor 0,1 ou 2 indicando que se trata de um endereço IP, um arquivo ou uma data, seguido do valor correspondente e uma quantidade.

     IP é um endereço conforme o protocolo IPv4, com quatro sequências de 256 caracteres separadas por ponto ('.'):
XXX.XXX.XXX.XXX => XXX varia entre 0 e 255 (inclusive)
     DATA é uma data entre 19/06/2010 e 19/06/2015, no seguinte formato:
DD/MM/AAAA, onde D=Dia, M=Mês, A=Ano
     Se for um arquivo, mostra o nome do arquivo presente no site. Todos os arquivos que foram baixados pelo menos uma vez encontram-se na listagem.

     Cada país recebe uma faixa de endereços IP, sendo possível saber o país de origem do IP. Os dados foram obtidos do site http://services.ce3c.be/ciprg/ no dia 18/06/2015 (os dados mudam constantemente). O nome do arquivo é IP-RANGES-ALL COUNTRIES.txt, disponível para download.

     Baixe neste link os arquivos para este projeto

Questões interessantes deste projeto
  1. Aspectos gerais - estatísticas interessantes
    1. Quantos IP foram salvos, quantas datas e quantos arquivos existem no arquivo de log?
    2. Qual país possui o maior número de faixas nas atribuições da Internet?
  2. Sobre os endereços IP utilizados
    1. Qual é o endereço IP que mais baixou arquivos?
    2. Conforme o país do download, quais foram os países que mais baixaram arquivos?
    3. Conforme o continente, quantos downloads foram realizados? (considere: América do Sul, América do Norte, América Central, África, Ásia, Oceania e Europa)
  3. Sobre os arquivos baixados
    1. Qual foi o arquivo mais baixado?
    2. Quantos downloads de cada tipo foram feitos? (por exemplo, .pdf, .txt, .z0, etc)
    3. Quantos artigos foram baixados (um artigo possui um nome todo em maiúsculo seguido de um ano, por exemplo ICGSE2006.pdf)
    4. Quais são os N arquivos mais baixados (onde N é passado por parâmetro)?
  4. Sobre as datas de download
    1. Qual foi a data com maior número de acessos?
    2. Qual data possui o menor número de acessos? (mostre todos os empates de acessos)
    3. Quais são as N datas com mais acessos (onde N é passado por parâmetro)?
    4. Quantas datas possuem apenas 1 acesso?

Nenhum comentário:

Postar um comentário