Hackathon fervilhante e produtiva!

O espaço do Hacklaviva Porto esteve todo o fim-de-semana com pessoal a trabalhar entusiasticamente no projecto.
O balanço é francamente positivo, porque o trabalho realizado foi bastante e de qualidade. O entrosamento entre os elementos a participar também, tendo-se registado novas aquisições e o regresso de antigos elementos que quiseram dar uma ajuda neste sprint.
A logística e toda a preparação foi muito bem preparada, pelo que tudo correu às mil maravilhas.
Em relação ao trabalho realizado, as baterias estiveram orientadas para a criação de outputs a partir dos dados já recolhidos ao longo dos últimos 3 meses.
Usámos muito o irc para comunicarmos ente nós, participantes no HV Porto, e a Dropbox e o Gitorious.

Internacionalização

A interactividade com grupos de Hackers ou grupos organizados para o evento não foi muito marcante. O contacto com Lisboa e Brasil foi muito pontual, tendo-se tirado fraco partido do irc, twitter ou mesmo email. Porém, tivemos o privilégio de receber um casal de Vigo, a Marta e o Juan, que estando no porto, quiseram conhecer o projecto, pois pretendem participar em algo da mesma natureza na sua região. Como bons anfitriões, não só explicámos o que fizemos como os pusemos em contacto com o Hacker Space de Vigo.

Tarefas realizadas

Scraping
  • Listagem dos deputados com página na Wikipédia (zé)
  • Recolha dos short names dos deputados do site parlamento.pt (pedro)
Base de dados
  • Integração da informação da rede social na base de dados e criação de ficheiro .csv (eduardo)
  • Criação de script para calcular distribuição por género entre os deputados no total e por legislatura (eduardo)
  • Query à base de dados para obtenção de um ficheiro .csv de campos oriundos de duas tabelas (eduardo)
  • Script para gerar o short name dos deputados (pedro)
Análise de dados
  • Estatística a partir dos dados dos deputados: distribuição por género, por exemplo (margarida, eduardo, pedro)
Depuração dos dados
  • Limpeza e uniformização dos valores das tabelas mp e facts, usando o Google Refine (victor)
Vocabulários
  • Levantamento de fontes para listar temas discutidos na Assembleia, Comissões (nelson)
Website
  • Criação de protótipo de site em Django/ Python com informação base de deputado, inclusão das notícias (via API do Google News), últimos tweets e toda a rede social do deputado (ricardo+ana)
  • Aplicação de feeds dos deputados no managing News (profile do Drupal), que permite consulta dos deputados por legislatura e localização geográfica. Esta versão permite criar widget para embeber em qualquer site.
Documentação
  • Edição da wiki, praticamente com estrutura e modelos já claramente definidos para receber dados (cláudia)
  • Mais fotos do evento aqui.

Preparar a Hackathon (Skype)

Ontem, realizou-se uma conversa via skype  com o Vítor, Victor e Cláudia para alinhavar algumas ideias relativamente ao que se pode fazer na Hackathon de 4 e 5 de Dezembro.
Focámo-nos em alguns pontos que podem ser objecto de atenção na maratona. Achámos que não existem tarefas que possam ser realizadas integralmente no período dos dois dias. Ficámos mais por compilação e preparação de fases seguintes.

Possíveis to-dos
1. ANÁLISE DE DADOS – Estudar a ferramenta usada pelo OpenParliament (Canadá) disponível no GitHub do responsável para ensaiar algo com o dataset do DAR já criado. A tecnologia usada foi Django e Python.

2. DEPURAR DADOS – Ponderar o interesse em aplicar o Google refine para detectar bugs nos ficheiros DAR e caso seja desajustado, estabelecer uma task force e metodologia para fazer essa revisão de forma mais ou menos sistemática e profunda.

3. COMPILAÇÃO DE INFORMAÇÃO – Esta é uma tarefa pouco animadora, mas necessária para o trabalho poder avançar no futuro. Existem certamente muitos elementos informativos que é necessário reunir para uma análise consistente, mas considerámos os seguintes:

3.1. Dar continuidade à lista de organismos públicos que começou a ser criada. Essa tabela já existe, tem vários campos, mas não contemplava o da morada da entidade. Convém incluir para começar a fazer mapas geográficos. Na maratona pode pôr-se no Gitorious. O Google refine também gera coordenadas a partir de campos de moradas, podendo vir a ser uma boa forma de automatizar o processo.

3.2. Dar início à referenciação de Datasets públicos de Portugal (Parlamento, CNE, Base, Pordata…)

3.3. Completar lista do social dos deputados: twitter…, wikipédia

4. SCRAPPING DE DADOS – Extrair do Parlamento (Biografias deputados) as listas de interesses, umas em pdf outras em HTML, onde se registam nomes de empresas que podem ser usadas numa outra lista (Nome, morada, deputados com ligações).

5. DOCUMENTAÇÃO DO PROJECTO – Estabelecer uma estrutura mais rica na wiki do projecto. Partindo do que já existe, tentar organizar melhor:
Proposta para  a página de entrada Transparência Hackday Porto:

  • Seguir e contactar: mailing, irc, blog, wiki…
  • Glossário: o que é api, scrapping… e outros termos na perspectiva do projecto
  • Gráficos: “bonecos”, diagramas a explicar o que se pretende
  • Apresentação: descrição (ok), objectivos (ok)
  • Equipa
  • Lista de: done, to do, wish list
  • Registos (work in progress): seccionar os trabalhos/ núcleos, dando os seguintes elementos: descrição do que se pretende, fontes/datasets usados, tratamento dado, ferramentas usadas, dificuldades encontradas, resultados obtidos, cronograma. Ex. Núcleo do scrapping, no quals e deve explicar a estrutura dos dados capturados, a forma de armazenamento e porquê, as ferramentas usadas para a recolha, como se lidará com a actualização, etc…
  • Documentação de apoio (projectos externos). Nota: Já está a ser criada esta secção.

6. SOLICITAR COLABORAÇÃO EXTERNA – Este contacto com várias comunidades pode ser um momento oportuno para pedir colaboração de terceiros para fornecerem informação das listagens e tabelas de recolha de informação em curso, e de fontes importantes de datasets públicos de que tenha, conhecimento.