sexta-feira, 31 de julho de 2015

[S5] Solução do problema das Sextas-Feiras 13


     O problema das Sextas-Feiras 13, publicado em 14/03/2015, aguçou minha curiosidade e resolvi atacá-lo com Perl e MS-Excel.

     Conforme mencionado anteriormente:
#UNIX time: http://en.wikipedia.org/wiki/Unix_time
#início: Quinta-Feira, 1 de Janeiro de 1970
#   fim: Domingo, 7 de Fevereiro de 2106 (para máquinas 32 bits)
     Algumas datas a seguir só fazem sentido no Calendário Gregoriano, calendário que iniciou em 1582.

Fatos e datas interessantes (formato DD/MM/AAAA, D=Dia,M=Mês,A=Ano):
01/01/0000 - [Mundo] Início do calendário - seria um Sábado
22/04/1500 - [Brasil] Descobrimento do Brasil foi um Domingo
14/07/1789 - [França] Tomada da Bastilha foi uma Terça-Feira
07/09/1922 - [Brasil] Independência do Brasil foi uma Quinta-Feira
09/11/1989 - [Alemanha] Queda do Muro de Berlim em uma Quinta-Feira
11/09/2001 - [Estados Unidos da América] Onze de Setembro foi uma Terça-Feira
08/07/2014 - [Brasil] Mineiraço aconteceu em uma Terça-Feira

     De 01/01/1970, uma Quinta-Feira, até 06/02/2106, um Sábado, existem 49.711 dias e de 01/01/0000, um Sábado, até 06/02/2106, um Sábado, existem 769.238 dias.

     As análises a seguir correspondem à totalidade dos dados (769.238 dias). Observe a figura a seguir:


     As Sextas-Feiras 13 são tão comuns quanto Sábados dia 14 (totalizando 3622 dias neste conjunto). Observe também que um dia mais raro (com 3601 ocorrências) seria uma Sexta-Feira dia 12...

     A seguir, para completar as informações descobertas na massa de dados, são mostradas as contagens para os dias 29-30-31:


     Foram utilizados os arquivos de dados disponibilizados aqui e funções de contagem do MS-Excel (CONTA.SE).

     Então, se fosse necessário escolher uma data bastante rara, seríamos obrigados a escolher uma Quarta-Feira 31!!!!.

     Esta é a data que acontece menos vezes em toda a massa de dados. A próxima Quarta-Feira 31 será dia 31/08/2016, daqui um ano e um mês desta postagem.

Arquivos do projeto

     Existe basicamente dois arquivos para este projeto:
  1. datas-unix.txt: contém as datas de 01/01/1970 até 06/02/2106
  2. datas-todas.txt: contém as datas de 01/01/0000 até 06/02/2106
Faça o download do arquivo neste link.

Questões interessantes deste projeto
  1. Sabendo-se que dia 01/01/1970 foi uma Quinta-Feira e que dia 01/01/0000 foi um Sábado, faça um programa que cria as datas até 06/02/2106. Verifique sua resposta a partir dos arquivos disponibilizados
  2. A partir de uma data específica, por exemplo, 11/09, descubra os anos de quando foi uma terça-feira
  3. Salve em um novo arquivo todas as ocorrências de Quarta-Feira 31 na base de dados

sexta-feira, 17 de julho de 2015

[P14] Qualis CAPES

     O Qualis da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) é uma listagem que mostra o International Standard Serial Number (ISSN) das revistas científicas (journals) conforme as seguintes áreas:
-Administração, Ciências Contábeis e Turismo
-Antropologia, Arqueologia
-Arquitetura e Urbanismo
-Artes/Música
-Astronomia/Física
-Biodiversidade
-Biotecnologia
-Ciência da Computação
-Ciência de Alimentos
-Ciência Política e Relações Intern.
-Ciências Agrárias I
-Ciências Ambientais
-Ciências Biológicas I
-Ciências Biológicas II
-Ciências Biológicas III
-Ciências Sociais Aplicadas I
-Direito
-Economia
-Educação
-Educação Física
-Enfermagem
-Engenharias I
-Engenharias II
-Engenharias III
-Engenharias IV
-Ensino
-Farmácia
-Filosofia/Teologia
-Geociências
-Geografia
-História
-Interdisciplinar
-Letras/Lingüística
-Matemática, Probabilidade e Estatística
-Materiais
-Medicina I
-Medicina II
-Medicina III
-Medicina Veterinária
-Nutrição
-Odontologia
-Planejamento Urbano e Regional, Demografia
-Psicologia
-Química
-Saúde Coletiva
-Serviço Social
-Sociologia
-Zootecnia, Recursos Pesqueiros
     Um dos usos destas divisões é classificar os programas por área e dar uma nota para cada revista científica, conforme os seguintes estratos (do melhor qualificado para o pior): A1, A2, B1, B2, B3, B4, B5 e C.

     O problema é que uma mesma revista científica pode ser qualificada de diferentes formas conforme os estratos do Qualis (eu não tenho a resposta para isso), ao invés de simplesmente utilizar o Fator de Impacto de cada revista. Isso faz com que, por exemplo, um pesquisador olhe cada ISSN e escolha os melhores estratos, por exemplo, a revista Applied Mathematics and Computation (ISSN 0096-3003), possui um fator de impacto considerado razoável (Impact Factor: 1.551), mas possui os seguintes estratos em cada área:
SAÚDE COLETIVA (A2)
CIÊNCIA DA COMPUTAÇÃO (A2)
ENGENHARIAS II (B1)
ENGENHARIAS III (A2)
ENGENHARIAS IV (A2)
INTERDISCIPLINAR (A2)
BIODIVERSIDADE (B1)
CIÊNCIAS AGRÁRIAS I (B1)
CIÊNCIAS AMBIENTAIS (B3)
CIÊNCIAS BIOLÓGICAS II (B3)
MATEMÁTICA / PROBABILIDADE E ESTATÍSTICA (B1)
GEOCIÊNCIAS (B1)
MEDICINA II (B1)
MEDICINA III (B1)
MATERIAIS (B2)
ENSINO (B3)
QUÍMICA (B3)
     Observe que a mesma revista, com o mesmo fator de impacto, varia de A2 (uma excelente classificação conforme o Qualis) até B3 (considerado ruim). O Qualis, desta forma, incentiva os pesquisadores a escolher a "revista perfeita" na hora de submissão, ao invés de escolher conforme o fator de impacto, que seria muito mais razoável.

Arquivos do projeto

     Existe basicamente um arquivo para este projeto:
  1. lista-de-revistas.txt: contém 59517 revistas do Qualis (baixado do sistema da CAPES em 15/Julho/2015), com seus respectivos ISSNs e estratos conforme áreas da CAPES
Faça o download do arquivo neste link.

Questões interessantes deste projeto
  1. Faça um programa que mostra, para cada ISSN, a lista de todos seus estratos da CAPES
  2. Para cada estrato da CAPES, mostre as revistas qualificadas
  3. Descubra as revistas com maiores variações em termos de estratos (por exemplo, de A1 até B3)
  4. Descubra as revistas com maior quantidade de estratos CAPES

sexta-feira, 3 de julho de 2015

[P13] Pesquisadores brasileiros (Dados de Julho de 2015)


     O Brasil investiu muito dinheiro em pesquisa nos últimos anos. Isso refletiu em citações nos artigos de outros pesquisadores do mundo inteiro, de forma positiva, colocando o país em uma posição de destaque na pesquisa internacional.

     O site Webometrics - Ranking Web of Universities disponibiliza um ranking de pesquisadores do mundo inteiro a partir do H-Index e do total de citações em artigos. O link Ranking of scientists in Brazilian Institutions according to their Google Scholar Citations public profiles mostra o ranking do Brasil.

     Mas o que significa o H-Index? Meu perfil no Google Scholar, datado de hoje, 3/Julho/2015 (vamos usar este método, neste post, existem outras maneiras, tais como usar o Scopus, etc), indica que o meu H-Index é 7. Isso significa que eu tenho pelo menos 7 artigos com 7 citações cada (obviamente, eu tenho mais do que 7 artigos, mas estes tem menos de 7 citações, então não entram no cômputo do índice). Este H-Index é considerado baixo, já que o primeiro pesquisador do ranking do Webometrics possui H-Index de 126 (ou seja, ele tem pelo menos 126 artigos com 126 citações cada).

     As dificuldades de se usar o H-Index como métrica para bons pesquisadores são muitas, por exemplo, eu poderia apenas citar meus próprios trabalhos, com o objetivo de aumentar o meu índice. Existem maneiras de coibir isso, retirando da contagem de citações as chamadas auto-citações, entre outras técnicas (avaliações de pares consistentes, que removam estes comportamentos, etc). Hoje em dia, observa-se que os pesquisadores lutam para serem citados, pois reflete diretamente no aumento do seu H-Index. Claro que bons pesquisadores desejam realizar apenas pesquisas relevantes, sendo citados de forma natural por outros pesquisadores, mas muitas vezes, não é isso que se observa.

Dados

     Baixe neste link os arquivos para este projeto - existe apenas um arquivo, ordenado por H-Index, com tamanho de 400Kb, com dados de Julho de 2015, contendo o seguinte cabeçalho:
#RANK;NAME;ORGANIZATION;H-INDEX;CITATIONS
  onde:
#RANK mostra o número do pesquisador no ranking (variando de 1 a 6000, com possibilidade de existir valores repetidos)
#NAME indica o nome do pesquisador
#ORGANIZATION mostra a afiliação do pesquisador (podendo ter mais de uma)
#H-INDEX mostra o índice H do pesquisador
#CITATIONS indica o total de citações (de todos os seus artigos científicos) feita por ele ou por outros pesquisadores
     Por exemplo, os primeiros 5 pesquisadores são:
RANK NOME ORGANIZATION H-INDEX CITATIONS
1Cesar VictoraUniversidade Federal de Pelotas10647202
2Maria Elena PolCentro Brasileiro de Pesquisas Físicas10553007
3S F NovaesUniversidade Estadual Paulista10047511
4Eduardo de Moraes GregoresUniversidade Federal do ABC10044555
5Luiz MundimUniversidade do Estado do Rio de Janeiro9844501

Questões interessantes deste projeto
  1. Aspectos gerais - estatísticas interessantes
    1. Quais instituições, sem repetição estão listadas no arquivo?
    2. Construa um ranking por instituição que mais possui pesquisadores na listagem
    3. Crie um arquivo novo chamado pesquisadores-citacoes.txt que organiza os pesquisadores pelo seu total de citações (e não pelo H-Index)
    4. Quantos pesquisadores empataram no ranking?
  2. Desafio
    1. Tente classificar os pesquisadores por região do Brasil, conforme a localização da Universidade (descubra onde fica cada universidade, esta informação não foi disponibilizada em nenhum arquivo)