Hackday: sessão #13

Encontro presencial e via IRC com alguns elementos do Transparência com o objetivo de concretizar objetivos avançados no último Hackday.
Concretamente e de acordo com o previsto na agenda:

1. Resumos dos encontros

Apesar de não ser uma tarefa que gostemos muito, é importante manter um registo das atividades do Hackday, tanto para quem esteve presente como sobretudo para os que não puderam marcar presença.

Assim, realizámos a sinopse dos trabalhos da sessão anterior numa tentativa de manter informados todos os que queiram participar e dar o seu contributo aos novos projetos.
Da mesma forma, disponibizou-se o resumo do próprio encontro. Este esforço é para manter. As sinopses das ações realizadas estão aqui no blogue do Transparência.

2. transparenciahackday.org

Pretende-se criar um espaço de trabalho específico para os projetos do Transparência. Nesse capítulo, avançou-se no logo, mas o esforço foi sobretudo para a instalação e configuração do OpenAtrium como ferramenta de gestão dos projetos.

Uma homepage geral fica disponível para anónimos para que possam conhecer todos os projetos em curso e escolher os do seu interesse.

Existe link de registo, um pequeno Guia de registo para quem precisar.

Já podem fazer o registo em http://projetos.transparenciahackday.org e indicar no e-mail fornecido que projetos vos interessam. À medida que recebemos pedidos, increvemos as pessoas nos grupos/ projetos para terem acesso integral às funcionalidades da ferramenta e ao conteúdo dos projetos escolhidos.

3. Datasets

Na categoria datasets, foi iniciado um novo grupo de informação. O Ricardo teve a oportunidade de lançar o desafio via e-mail para a mailing e houve pessoas que à distância começaram logo a trabalhar.

O desafio é criar um inventário das empresas do PSI-20 e respectivas subsidiárias/holdings, para iniciarmos um OpenCorporates em Portugal. O resultado provisório está aqui: https://docs.google.com/spreadsheet/ccc?key=0AsPdCOEym7AWdERGeF9tMlJyaFcxM1FwdVprcWt6OWc

É fácil contribuir: indo à página do PSI-20 na Wikipédia, temos a lista das empresas e respectivos links. Através do publicacoes.mj.pt conseguimos descobrir o nome completo de cada uma e o seu NIF.

4. Próximo Hackday

Não ficou estabelecida uma data para o Hackday que se segue, mas é provável que uma das atividades seja uma apresentação do OpenAtrium e de como funcionar com esta ferramenta para nos organizarmos melhor e trabalharmos como equipas mais produtivas e com pontos de situação claros para todos os intervenientes.

Hackday: sessão #12

Transparência Hackday volta em grande com nova dinâmica e mais projectos.
Com programa previamente delineado, o encontro na GESTO, foi preenchido com algumas apresentações e discussão de próximos passos.

Apresentações

Na primeira apresentação pelo Ricardo Lafuente o foco foi o demo.cratica em jeito de ponto da situação e novidades. Algumas dificuldades ligadas à deteção e correção de erros, à mudança do padrão dos ficheiros criados pelo Parlamento.pt, foi introduzida uma opção de edição que permitirá no futuro corrigir de forma muito intuitiva gralhas e criar relações discurso/ deputado durante o processo de leitura.

Paralelamente, um sistema de revisões assente no histórico das edições que podem ser revertidas.

A prioridade deste projeto são as sessões, que poderão ser enriquecidas com a ligação aos vídeos do serviço Canal Parlamento.

O Nuno Moniz prosseguiu com o tema Open Legislation em Portugal decorrente do trabalho de investigação que está a realizar e que consiste na análise do Diário da República, série I, e brevemente série II. O objetivo é chegar a um padrão que permita extrair entidades (organizações, pessoas, documentos). Lamentavelmente os Diários estão em pdf com a agravante de terem texto em duas colunas. A sua participação no evento http://transparencycamp.org em Washington DC, referiu que a opinião unânime é a de banir o formato pdf e obrigar os Estados a escolherem formatos abertos.

Mapping foi o tema que se seguiu com Victor Cardoso a apresentar as possibilidades ligadas ao mapping sobretudo com tecnologia Openlayers e Drupal.

Inês Silva trouxe uma apresentação do Parliament Watch com origem na Alemanha, mas recentemente adotado ou em fase de adoção por outros países europeus, inclusive Portugal. O conceito é grosso modo o de estreitar as relações deputados/ cidadãos com recurso a um sistema de perguntas e respostas sem mediadores. Portanto, as respostas dos deputados são publicadas ipsis verbis. No caso das questões, é feito um filtro no sentido de identificar duplicados e são corrigidos erros ortográficos se for o caso. A plataforma de publicação de questões e respostas compomete-se em duas horas a garantir o ciclo cidadão questiona – deputado responde – cidadão recebe resposta. Porém, o deputado é livre de responder ou deixar em aberto a questão que lhe é dirigida, pelo que em tempo real sabe-se quantas questões foram dirigidas a que deputado, a quantas respondeu e qual o teor e conteúdo de umas e outras.

Novos projetos

No arranque e durante o encontro, ainda houve espaço para propor novos projetos.

Projeto acessibilidade para pessoa com deficiência

Programa para mapear dificuldades na deslocação de peões com deficiências motoras, com necessidade de se deslocarem de cadeira de rodas. O programa será capaz de definir o trajeto ótimo de um ponto a outro tendo em conta a distância e o número de obstáculos.

Projeto sobre Administração Pública e cidadão

Visa que cidadãos partilhem dicas e soluções para problemas comuns relacionados com a AP, poupando tempo e ajudando a que todos se orientem melhor nos serviços públicos, tornando a AP verdadeiramente mais transparente e fácil de usar.

Casas devolutas

Pretende criar versão portuguesa do Casas tristes de Espanha, mas tentar ir mais longe, pontuando também casos de sucessod e recuperação de prédios devolutos. Ficou estabelecida como tecnologia a usar: Drupal, openlayers, tilemill para criar os próprios tiles.

Próximos passos

  • Criação de domínio próprio transparenciahackday.org
  • Instalação de ferramenta de gestão de projetos: OpenAtrium, de base Drupal para discutir aspetos associados a um projeto, organizar e distribuir tarefas

Hackday: sessão #11

No último sábado, entre o Clube Literário do Porto e o HardClub Café desenrolou-se mais uma sessão de trabalho do Hacklaviva antes de Agosto. O objetivo principal do encontro foi fazer balanço das atividades e lançar novas ideias e projetos.

Open Data Europa

Este tema abriu a conversa por se tratar de uma iniciativa da União Europeia com realização recente de um concurso Open Data Challenge que deu a conhecer bons e originais projetos na área dos dados abertos (vale a pena ver os premiados!). O Hacklaviva também concorreu com o demo.cratica

Foi referido que as iniciativas dos repositórios opendata nos 27 partem das mais diversas entidades: Hackerspaces, Fundações, entidades mais ou menos institucionalizadas. No caso português, não existe ainda qualquer repositório, havendo iniciativas de cidadãos dispersas e de atividade não regular.

Neste cenário, começa a impor-se como prioritário uma organização e congregação de esforços para uma visibilidade maior do opendata português.

A iniciativa de reunir datasets dos vários países europeus num único local está a ser liderada pela Open Knowledge Foundation com a qual o Hacklaviva já tem contactos e à guarda da qual já entregou os seus datasets, alojados e submetidos no ckan.net, mas cuja consulta e interface público é o website Publicdata.eu

publicdata.eu

demo.cratica

Relativamente a este projeto e a outros que possam vir a ser desenvolvidos ou vir em complemento, existe uma excelente infraestrutura e o experiência de webmaster do José Monteiro a favor.

Está a ser realizado o parser dos deputados em python e json ao contrário do original em php. Está em fase final e pretende-se automatizar a atualização da informação dos deputados.

A recetividade do demo.cratica foi boa, tendo conhecido dois picos: o do lançamento e o das eleições, altura em que o website do parlamento.pt esteve offline. O canal que amis contribuiu para passar a mensagem foi o Facebook com 300 shares logo no arranque. Já o twitter não foi muito útil nessa difusão.

Dados que se considerará no futuro para enriquecer a informação consultada, terão a data de falecimento dos deputados e ainda se está a pesquisar a eventualidade de inserir timestamp nas intervenções das sessões para que seja possível ligar transcrição e parlamento.tv Esta vai ser uma sugestão do grupo à equipa de redação das transcrições.

Nuno Moniz, que desenvolve um projeto no âmbito da semântica e do RDF, tem na mira o parsing do Diário da República. O repto foi lançado no sentido de haver uma troca e aproximação já que o demo.cratica pode funcionar como uma campo excelente para aplicação de resultados que forem sido conseguidos no âmbito deste projeto.

Propostas de ação

O Ricardo planeia dedicar-se à conclusão do parser dos deputados com o Pedro. Paralelamente, conta apostar agora nas visualizações e normalização dos datasets.
A Ana está a fazer os logos dos partidos com representação na Assembleia em vetorial, já que a qualidade inicial de alguns ficheiros era muito fraca. Pretende focar depois a sua atenção nalguns plugins de visualização dos deputados, como consulta interativa de deputados por género, partido e governo.

A Cláudia, o Victor e o João, vão concentrar esforços no levantamento e visualizações de da evolução das freguesias e concelhos ao longo dos tempos com base nas listas oficiais para as eleições desde 1975.

O Eduardo está a orientar o trabalho para o mapeamento de notícias da área parlamentar ao longo do tempo via tagging. Pensa usar uma API, tendo sido recomendada a do Destakes por ter arquivo e por estar bem feita. O projeto Veronica da universidade do Porto materializa de certa forma a ideia proposta.

Demo.cratica.org live. E agora?

Sem muito alarido, o demo.cratica.org sai à rua no dia 21 de Maio. É o fruto de 9 meses de trabalho, mas muito know-how acumulado para projectos da mesma natureza ou simplesmente outros. (Uma hackathon do Parlamento da Galiza poderá vir a ser uma ideia).

Afinaram-se ferramentas, consolidaram-se metodologias. Sabemos, por exemplo, que os sprints, as hackathons, os pequenos projectos somados num grande, são o melhor para nós em termos de nos conduzir mais rapidamente a resultados.
Andámos muito tempo e andaremos ainda mais à volta de algumas soluções para assuntos mais densos como a análise de texto (categorização, mapa de temas). A análise de dados é sempre um desafio que será transversal nos projectos, por isso ainda vamos investir mais algum tempo em apurar esse lado no Demo.cratica.

Mas a equipa quer que outros elementos alheios a esta fase se envolvam e realizem os seus projectos em torno dos resultados deste e estendam as possibilidades de análise, consulta, visualização. Queremos ir dedicando a nossa energia e saber a outras áreas. E há tantas coisas para fazer!

A nossa filosofia é sempre a de dar o pontapé de saída, criar um produto, em tom de desafio, e dar espaço a novas ideias. Refrescar pessoas, ideias e propostas é sempre boa política.

As reacções foram positivas, mas de entre elas destaco a de Paulo Querido, não pela figura, mas sobretudo pela forma escolhida de análise comparativa demo.cratica.org/ parlamento.pt Desafia as pessoas a experimentarem, a verem o que conseguem num com que esforço e o que não descobrem noutro, depois de muito suar. Até eu não me tinha dado conta do quão simples é obter informação relevante no Demo.cratica. Não está perfeito, mas fica a anos-luz do serviço do Estado.

Esta experiência de utilizador é seguramente determinante para mostrar aos responsáveis que o acesso fácil e imediato à “cousa” pública é algo que não só faz sentido, como é urgente. Há muitas formas de publicar a informação pública que não têm de passar por arquivos digitais complexos e inacessíveis. E é isso que queremos provar.

Sente-te parte deste projecto se achas que podes acrescentar-lhe valor. Há muitas pontas, alinhavos e nós por dar. Do trabalho de patchwork teremos mais cor, mais texturas, mais impacto visual, mais formas, mais técnicas de unir os fragmentos, que é como quem diz, melhor serviço à transparência.

Créditos: net_efekt

Transparência vai a Vigo

No dia 9 de Abril, alguns elementos do Hacklaviva deslocaram-se a Vigo para uma sessão de partilha de informação no âmbito do tema Transparência. Outra motivação era conhecer o Hackerspace na  Cova de los Ratos, o Kaleidoskopio.

Ambiente na Cova dos Ratos

A experiência ganhou logo sentido na visita ao espaço e na conversa informal sobre a actividade de cada um. A área disponível é bastante generosa e muito bem decorada e acolhedora. Aí desenvolvem ateliers de pintura, cozinha e tecnologia. Sim, porque a tónica dominante é mesmo a natureza, a alimentação saudável. Também a igualdade de género é um tema forte na cultura e programa deste Hackerspace.

Na apresentação do projecto Transparência participaram poucos elementos, mas a atenção dada à exposição foi bem visível. As perguntas e o retrato do poder da “Comunidad autonomica”, com reparo especial à da Galiza, deixaram passar a ideia de que a corrupção grassa e, impune, floresce aqui e ali. O grave era os próprios estarem convencidos que nem sequer tinham dados da actividade dos organismos e do poder político público para recolher e confrontar com o sentimento e impressão.
Esta ideia de ausência de matéria da “coisa” pública soou-nos a algo de estranho. Aliás, depois de termos exposto os objectivos do projecto, os presentes foram unânimes em anunciar que na matéria de Transparência estávamos a anos-luz e que a Galiza era um caso atípico.

As principais ideias vinculadas na nossa exposição, e que aliás são as que enformam o projecto desde a sua criação, foram:

  • em termos de objectivos, procurar não tomar posição, porque disponibilizar a informação é dar a possibilidade a qualquer pessoa de explorar e fazer as suas próprias reflexões e associações, e isso nada tem a ver com o interpretar ou forçar uma leitura;
  • no que se refere às fases, mencionámos a da recolha de dados oficiais, a do tratamento/ modelação, e, por último, a da visualização;
  • sobre os produtos já resultantes, mostrámos os datasets e ainda uma versão beta de um site para pesquisa da informação dos deputados e das suas intervenções;
  • finalmente, referimos genericamente as ferramentas usadas, mas aguardámos para a sessão da tarde, mais prática, o sumo dos detalhes.

Seguiu-se um almoço com umas “empanadas caseras” muito saborosas. Havia de algas, de legumes.

Almoço ligeiro, mas saboroso

Reconfortados, pegámos de novo no batente e passámos à parte mais divertida – mostrar os scrapers, explicar o que fazem e explorar dados disponíveis. Picados pelo facto de terem referido existir um vazio no que respeitava a dados, pesquisámos e demos com o gato. Afinal havia um rabo de fora. E tal como seria razoável esperar, existem registos das sessões do parlamento da Comunidad aqui, basta escolher a legislatura e lançar a pesquisa para obter o conjunto das transcrições desssa legislatura em concreto. Esta descoberta ainda deu mais entusiasmo e sentido à explicação.

Parlamento de Galicia - pesquisa das sessões parlamentares

De imediato, descarregou-se um pdf a título de exemplo, aplicou-se o script em python que usámos para as transcrições das sessões do parlamento português e descobrimos uma interessante e surpreendente analogia na estrutura dos textos. Ou seja, muito provavelmente, as sessões são geridas pelo mesmo software e modelo de estruturação e composição da informação. Com pequenos retoques, a aplicação usada numa situação pode ser utilizada num outro projecto. Esta é a beleza deste tipo de comunidades e iniciativas de cidadãos.

In loco e numa situação bem real, testemunhámos as linhas de força do Transparência Hackday – partilhar, reutilizar, criar sinergias.

Além da excelente hospitalidade, ficou o espaço para trocas mais regulares e a ideia de que o conformismo tolda por vezes a visão e embarga a acção. Não foi necessário número de magia nem espionagem para tropeçar nos dados. Lição: a informação é pública, o problema é estar pouco visível e apresentar-se pouco convidativa. Se queremos retirar algum dado, temos empreitada para anos. Mostrarmos que conhecemos essa informação e que questionamos o exercício do poder e nos dispomos a escrutinar as decisões e opções dos nossos governantes conduzirá necessariamente a mais atenção por parte dos Estados a estas questões.

Nota: Todas as fotos aqui.

Hackday – sessão #10

Depois de um longo período silencioso com arrumações do espaço à mistura para a mudança a realizar em Março, decorreu mais uma sessão Hackday.

Foi dada prioridade à revisão e reestruturação do layout do website com a informação do Parlamento pela mão da Ana e do Ricardo.

A Cláudia e o Victor dedicaram-se à questão do vocabulário/ corpus necessário ao processamento da linguagem para os discursos dos deputados na Assembleia. Depois da consulta de dois títulos e de uma conversa entre os quatro, ficou decidido utilizar o tesaurus do Eurovoc como base da categorização do conteúdo.

O que foi conseguido nesta sessão foi o download dos pdf de cada uma das áreas temáticas do Eurovoc, e à consequente conversão para html com recurso ao pdftohtml, usando o encoding UTF-8. Na linha de comandos:

>>>  pdftohtml ficheiro.pdf -stdout enc UTF-8 > ficheiro.html

O Eurovoc está disponível quer na versão pdf quer SKOS/XML (requer registo e pedido por escrito). Cobre todas as áreas de interesse de discussão num Parlamento, serve à categorização dos textos da União Europeia e é recomendada para a indexação dos documentos dos Parlamentos nacionais. Visto tratar-se de um tesaurus, possui relações entre os descritores: termos genéricos, específicos de nível 1 e 2, termos relacionados.

No futuro próximo, iremos utilizar este vocabulário para atribuir o(s) tópico(s) adequado(s) a cada intervenção no Parlamento de forma automática. Também verificar a ocorrência de termos segundo vários critérios (ao longo do tempo, de uma legislatura, por bancada parlamentar). Os textos em pdf e html encontram-se na Dropbox na pasta transparencia.

O Victor descobriu um link que poderá vir a interessar explorar: o projecto Projecto de Processamento de Linguagem, Text Mining & Visualização da FEUP.

Títulos

  • Natural Language Processing with Python, Bird, Klein & Loper, O’Reilly, 2009
  • Python Text Processing with NLTK 2.0 Cookbook, Packt Publishing, 2010

Hackday – sessão #9

Todo o passado sábado, dia 8 de Janeiro, foi dedicado a uma longa sessão do Transparência Hackday. Serviu o encontro para ponderar uma série de aspectos ligados ao projecto em curso e ainda avançar nalguns pontos.

Legalidades
As questões de uso da informação do parlamento.pt e logos dos partidos mereceu alguma troca de pontos de vista. No primeiro caso, a dúvida foi suscitada por eventuais restrições na distribuição. Porém, a situação não parece conter em si qualquer obstáculo, já que o copyright parece estar circunscrito a serigrafias e livros.
Quanto aos logos dos partidos, poder-se-á substituir a exibição de logos por cores até haver autorização para o seu uso.

Website
A plataforma que reúne informação já recolhida e permite a pesquisa e consulta já está bastante adiantada, tendo dado lugar a uma breve apresentação para comentar aspectos a melhorar e estudar novas melhorias.
Uma das preocupações na sua construção foi a economia de cliques, daí o utilizador ter de fazer no máximo 3 cliques para chegar a informação substancial.

  • Notícias – Na página de cada deputado existe um quadro com as notícias referentes ao mesmo, tendo-se usado para o efeito a API do Google News. Acontece que alguns nomes são tão comuns que é complicado filtrar o que efectivamente diz respeito ao deputado. Face ao problema, o Vítor sugeriu que fosse testada a API do Destakes, uma base de dados de notícias já filtradas e pensadas para o universo nacional.
  • Tweets – Tal como as notícias, também são exibidos os últimos tweets dos deputados com recurso à API do Twitter.
  • Intervenções – Na visualização das intervenções, os aplausos e interrupções do discurso principal têm o mesmo protagonismo. Esta questão vai ser trabalhada e foi mesmo sugerido que o fundo da intervenção assumisse a cor do partido do deputado que está a intervir.
  • Conceitos/ Temas – para a análise das intervenções é prioritário. Já existe um ficheiro stopwords, mas é preciso criar por tema/ subtema um conjunto de termos que permitam posteriormente responder a questões do género: “quando ocorreu a primeira intervenção de uma deputada mulher sobre a interrupção voluntária da gravidez?”
  • Ainda utilizando técnicas simples, podem vir a ser disponibilizadas as intervenções mais hilariantes (usar os risos como marcador), ou as intervenções mais quentes (recorrer à concentração de pontos de exclamação, termos relacionados com acusações, insultos, exemplo, mentiroso)
  • Registo de interesses – Esta informação não foi carregada para o website, porque o preenchimento é muito irregular. Há deputados que o fazem, outros nunca o fizeram. Porém, o problema pode ser contornado com a disponibilização do pdf onde actualmente são colocados os registos de interesse.
  • Outras propostas – Um outro aspecto mencionado pelo Victor seria a possibilidade de do utilizador poder personalizar o dashboard, ou seja, ele escolhe em cada momento que widgets deseja ver, que dados pretende ter visíveis. Outro alvo em mira é a criação de uma app para Android baseada no Congress americano, de preferência por uma pessoa já versada na programação para Android que quisesse dar uma maõzinha, utilizando o código da Sunlight Foundation.

Alojamento
O website vai ficar alojado no servidor da Nazaré cedido pela Unimos. Um terabyte disponibilizado pelo Pedro poderá ser de grande utilidade para guardar os ficheiros estáticos.
Também uma série de optimizações de cache e outras, terão de ser efectuadas antes do lançamento.

Divulgação
Não está posta de parte a eventualidade de contactar alguns jornais e dar-lhes acesso exclusivo 2 ou 3 dias antes do lançamento oficial.
Para além dos media, crê-se que poderá haver interesse da parte das Universidades, o que poderia originar parcerias interessantes.
O contacto de pessoas influentes no meio como Paulo Querido pode ser também um ponto a favor do projecto.
O workshop sobre o uso da tecnologia por Associações e Partidos locais organizado pelo Vítor poderá servir também para apresentar o projecto.

Prazos e tarefas urgentes
Em relação a prazos, está prevista uma beta private para Fevereiro e uma ou mais sessões públicas em finais de Março.
Nos próximos dias, quem desejar pode ter acesso ao dump da BD e à instalação local do Django+python para testes e proposta de melhoria.
Os trabalhos mais prementes prendem-se nesta fase com o ultimar das tarefas em curso, com os testes à plataforma e ainda com a criação dos vocabulários. Não vale a pena recolher mais informação.

Hackathon fervilhante e produtiva!

O espaço do Hacklaviva Porto esteve todo o fim-de-semana com pessoal a trabalhar entusiasticamente no projecto.
O balanço é francamente positivo, porque o trabalho realizado foi bastante e de qualidade. O entrosamento entre os elementos a participar também, tendo-se registado novas aquisições e o regresso de antigos elementos que quiseram dar uma ajuda neste sprint.
A logística e toda a preparação foi muito bem preparada, pelo que tudo correu às mil maravilhas.
Em relação ao trabalho realizado, as baterias estiveram orientadas para a criação de outputs a partir dos dados já recolhidos ao longo dos últimos 3 meses.
Usámos muito o irc para comunicarmos ente nós, participantes no HV Porto, e a Dropbox e o Gitorious.

Internacionalização

A interactividade com grupos de Hackers ou grupos organizados para o evento não foi muito marcante. O contacto com Lisboa e Brasil foi muito pontual, tendo-se tirado fraco partido do irc, twitter ou mesmo email. Porém, tivemos o privilégio de receber um casal de Vigo, a Marta e o Juan, que estando no porto, quiseram conhecer o projecto, pois pretendem participar em algo da mesma natureza na sua região. Como bons anfitriões, não só explicámos o que fizemos como os pusemos em contacto com o Hacker Space de Vigo.

Tarefas realizadas

Scraping
  • Listagem dos deputados com página na Wikipédia (zé)
  • Recolha dos short names dos deputados do site parlamento.pt (pedro)
Base de dados
  • Integração da informação da rede social na base de dados e criação de ficheiro .csv (eduardo)
  • Criação de script para calcular distribuição por género entre os deputados no total e por legislatura (eduardo)
  • Query à base de dados para obtenção de um ficheiro .csv de campos oriundos de duas tabelas (eduardo)
  • Script para gerar o short name dos deputados (pedro)
Análise de dados
  • Estatística a partir dos dados dos deputados: distribuição por género, por exemplo (margarida, eduardo, pedro)
Depuração dos dados
  • Limpeza e uniformização dos valores das tabelas mp e facts, usando o Google Refine (victor)
Vocabulários
  • Levantamento de fontes para listar temas discutidos na Assembleia, Comissões (nelson)
Website
  • Criação de protótipo de site em Django/ Python com informação base de deputado, inclusão das notícias (via API do Google News), últimos tweets e toda a rede social do deputado (ricardo+ana)
  • Aplicação de feeds dos deputados no managing News (profile do Drupal), que permite consulta dos deputados por legislatura e localização geográfica. Esta versão permite criar widget para embeber em qualquer site.
Documentação
  • Edição da wiki, praticamente com estrutura e modelos já claramente definidos para receber dados (cláudia)
  • Mais fotos do evento aqui.

Preparar a Hackathon (Skype)

Ontem, realizou-se uma conversa via skype  com o Vítor, Victor e Cláudia para alinhavar algumas ideias relativamente ao que se pode fazer na Hackathon de 4 e 5 de Dezembro.
Focámo-nos em alguns pontos que podem ser objecto de atenção na maratona. Achámos que não existem tarefas que possam ser realizadas integralmente no período dos dois dias. Ficámos mais por compilação e preparação de fases seguintes.

Possíveis to-dos
1. ANÁLISE DE DADOS – Estudar a ferramenta usada pelo OpenParliament (Canadá) disponível no GitHub do responsável para ensaiar algo com o dataset do DAR já criado. A tecnologia usada foi Django e Python.

2. DEPURAR DADOS – Ponderar o interesse em aplicar o Google refine para detectar bugs nos ficheiros DAR e caso seja desajustado, estabelecer uma task force e metodologia para fazer essa revisão de forma mais ou menos sistemática e profunda.

3. COMPILAÇÃO DE INFORMAÇÃO – Esta é uma tarefa pouco animadora, mas necessária para o trabalho poder avançar no futuro. Existem certamente muitos elementos informativos que é necessário reunir para uma análise consistente, mas considerámos os seguintes:

3.1. Dar continuidade à lista de organismos públicos que começou a ser criada. Essa tabela já existe, tem vários campos, mas não contemplava o da morada da entidade. Convém incluir para começar a fazer mapas geográficos. Na maratona pode pôr-se no Gitorious. O Google refine também gera coordenadas a partir de campos de moradas, podendo vir a ser uma boa forma de automatizar o processo.

3.2. Dar início à referenciação de Datasets públicos de Portugal (Parlamento, CNE, Base, Pordata…)

3.3. Completar lista do social dos deputados: twitter…, wikipédia

4. SCRAPPING DE DADOS – Extrair do Parlamento (Biografias deputados) as listas de interesses, umas em pdf outras em HTML, onde se registam nomes de empresas que podem ser usadas numa outra lista (Nome, morada, deputados com ligações).

5. DOCUMENTAÇÃO DO PROJECTO – Estabelecer uma estrutura mais rica na wiki do projecto. Partindo do que já existe, tentar organizar melhor:
Proposta para  a página de entrada Transparência Hackday Porto:

  • Seguir e contactar: mailing, irc, blog, wiki…
  • Glossário: o que é api, scrapping… e outros termos na perspectiva do projecto
  • Gráficos: “bonecos”, diagramas a explicar o que se pretende
  • Apresentação: descrição (ok), objectivos (ok)
  • Equipa
  • Lista de: done, to do, wish list
  • Registos (work in progress): seccionar os trabalhos/ núcleos, dando os seguintes elementos: descrição do que se pretende, fontes/datasets usados, tratamento dado, ferramentas usadas, dificuldades encontradas, resultados obtidos, cronograma. Ex. Núcleo do scrapping, no quals e deve explicar a estrutura dos dados capturados, a forma de armazenamento e porquê, as ferramentas usadas para a recolha, como se lidará com a actualização, etc…
  • Documentação de apoio (projectos externos). Nota: Já está a ser criada esta secção.

6. SOLICITAR COLABORAÇÃO EXTERNA – Este contacto com várias comunidades pode ser um momento oportuno para pedir colaboração de terceiros para fornecerem informação das listagens e tabelas de recolha de informação em curso, e de fontes importantes de datasets públicos de que tenha, conhecimento.

Hackday – sessão #7

Esta sessão inclui uma breve introdução ao GIT, a apresentação de nova actividade e várias tarefas do projecto.

Hackathon

As comunidades dedicadas à Transparência gostam de partilhar, por isso agendaram um evento super-original, uma maratona mundial dos trabalhos de Transparência. O RIcardo apresentou linhas gerais e modo de funcionamento e disse que ainda haveria um Hackday antes do evento para preparar ainda melhor o trabalho para a maratona.

  • Participantes – são uma série de comunidades que estarão presentes
  • Condições – uso IRC; logística; temas; datasets para trabalhar. A ideia está muito bem explicada aqui.
  • Duração – sábado e domingo, com “noitada” (4 e 5 de Dezembro)
  • Objectivos – promover a comunicação e troca com núcleo do Brasil (S. Paulo) e outros núcleos. Focalização e concretização de alguns pontos (sprint)
    • Usar técnica de scrapping mais sistemática e eficiente
    • Criar backend com Django para os deputados e intervenções
    • Desenvolver a documentação do projecto
    • … (temas mais específicos a definir)

GIT

O GIT foi criado por Linus Torvals e é de grande popularidade e utilidade. O Ricardo fez um pequeno tutorial de como instalar o GIT no Ubuntu, embora ainda vá ser retomado na próxima sessão. Haverá um tutorial na wiki sobre o Git e criação de chaves SSH.

Passo 1 – Instalar o GIT no local: sudo apt-get install git-core

Passo 2 – O repositório do GIT Transparência está em http://gitorious.org/transparencia-porto. Existe um help (?) com alguns comandos básicos.

Passo 3 – Cópia local usando o Git clone. No caso de ser uma sessão de trabalho de grupo, é possível fazer apenas um git clone local e todos os elementos acedem ao mesmo clone local. É óptimo sobretudo quando o repositório é grande.

  • Clicar “clone repository”
  • Usar comando: git clone git://gitorius.org/transparencia-porto/transparencia-porto.git

Principais comandos

  • git status – indica a estado do repositório
  • git add file – acrescenta ficheiro ao repositório localmente
  • History – guarda os ficheiros e toda a história de revisões
  • git commit – adiciona os repositório, ter o cuidado de pôr a info. Ex. git commit -m “Comentário entre aspas”
  • git diff – assinala as diferenças
  • git push origin master – vai buscar ficheiro que já existe no repositório

Tarefas várias

Ricardo – Colocou os textos das sessões parlamentares no Gitorius para se trabalhar. O volume é considerável 60MB. Para notificar erros detectados será criado um link na wiki, já que o Gitorious não tem Bug tracker.

Eduardo – Preparou a lista de links directos para os diários de república obtida com um script em python. Esse é um dos primeiros produtos do trabalho já realizado. O aspecto visual ainda não foi trabalhado, mas o conteúdo e a acessibilidade da solução já estão asseguradas.

Ana – Ocupou-se da criação da homepage para o projecto em Html com folha de estilos para começar a criar identidade e a “mostrar trabalho”. A ideia é colocar a homepage na raiz transparencia.hacklaviva.net, deslocando o blog para transparencia.hacklaviva.net/blog. Da sessão já resultou uma página muito simples que vai ter informação básica do projecto. Esse trabalho está no Gitorious, bem o svg usado, para quem desejar fazer experiências e propor alterações. Ainda vai ser trabalhado um logo.

Victor – No parlamento.pt obtém-se o dado de nº de deputados por legislatura de cada um dos partidos. Porque não existe uma coincidência numérica entre o nº de deputados realmente eleitos e os deputados que exercem, procurou-se junto da CNE (Comissão nacional de Eleições) informação complementar que desse maior consistência na análise dos números do Parlamento. Assim, começou-se por criar um ficheiro com os resultados detalhados das legislativas (não inclui as últimas eleições legislativas), algo relativamente simples, porque a CNE tem essa informação em Excel . De seguida, recorreu-se aos Mapa oficial das eleições (em pdf!) que listam nominalmente os deputados eleitos. O objectivo desta recolha é identificar do total dos deputados que exerceram aqueles que foram realmente eleitos.

Cláudia + Tiago – Confirmado o funcionamento do Node import para criação de nodes dos deputados a partir de um único csv. Os campos a incluir são todos os respeitantes ao deputado (id, nome, profissão, distritos, legislaturas, partidos, cargos exercidos). Os campos multivalor são separados por |.