User Tools

Site Tools


Sidebar

Olá! Esta é a wiki onde vamos anotando e organizando as nossas ideias, projectos e planos.

O registo está fechado por causa do spam. Para criar conta escreve-nos para bomdia [AT] transparenciahackday.org

Wiki

recursos

This is an old revision of the document!


A PCRE internal error occured. This might be caused by a faulty plugin

Ainda estamos a arrumar esta página e a decidir a melhor estrutura. Não demoramos. ===== Fontes de dados em Portugal ===== * [[http://dados.gov.pt | Dados.gov.pt]], datasets publicados por organismos públicos * [[http://www.parlamento.pt | Parlamento]] * [[http://www.dgai.mai.gov.pt/?area=103 | Administração Eleitoral]], processos eleitorais * [[http://cne.pt/ | Comissão Nacional de Eleições]], processos eleitorais * [[http://www.base.gov.pt | BASE]], gastos da administração pública * [[http://www.ine.pt | Instituto Nacional de Estatística]], vários dados estatísticos (público) * [[http://www.pordata.pt | Pordata]], vários dados estatísticos (privado) * [[http://censos.ine.pt/xportal/xmain?xpid=CENSOS&xpgid=ine_censos_publicacao_det&contexto=pu&PUBLICACOESpub_boui=73212469&PUBLICACOESmodo=2&selTab=tab1&pcensos=61969554 | Censos 2011]], Datasets dos censos (xls, csv) * [[http://mapas.igeo.pt/ | Instituto Geográfico Português]], mapas online * [[http://www.igeoe.pt/ | Instituto Geográfico do Exército]] * [[http://snig.igeo.pt/portal | Sistema Nacional de Informação Geográfica]] * [[http://www.dgterritorio.pt/ | Direcção-Geral do Território]] * [[http://intersig.apambiente.pt/intersig/ | Agência Portuguesa do Ambiente - InterSIG]], informação geográfica e hídrica (antigo Instituto Nacional das Águas) * [[http://www.anacom.pt/ | Anacom]], infra-estruturas de comunicação nacional * [[http://www.dgsi.pt/ | Bases de Dados Juridico-Documentais]] * [[http://www.lisboaparticipa.pt/pages/apresentacaoDados.php | Open Data LX]], datasets e iniciativas open data pela Câmara de Lisboa * [[http://thedatahub.org/dataset?q=portugal | Portugal no Datahub]] * [[http://openspending.org/eu-commission-fts/country/pt/entries | Portugal no Openspending]] ===== Outras fontes de dados com interesse ===== * [[http://openstreetmap.org | OpenStreetMap]], mapas livres e detalhados com uma API extensa * [[https://github.com/datasets | Core Datasets @ GitHub]], um conjunto de datasets importantes, principalmente dos EUA * [[http://open-data.europa.eu/open-data/data/ | EU Open Data Portal]] * [[http://publicdata.eu/ | PublicData.eu]] * [[http://freegisdata.rtwilson.com/ | Free GIS Data list]], lista de sites com dados gratuitos para Sistemas de Informação Geográfica e Detecção Remota ===== Ferramentas ===== ==== PDF: análise e manipulação ==== * [[http://www.unixuser.org/~euske/python/pdfminer/index.html | PDFMiner]] (Python), para extrair sem erros o texto dos PDF, a fim de o converter para estruturas JSON. Preserva a maior parte dos atributos do PDF (fontes, imagens), mas perde outros (links) * [[https://github.com/jcushman/pdfquery | PDFQuery]] (Python), permite procurar elementos na página com selectores tipo JQuery * [[http://itextpdf.com/ | iText]] (Java/C#) * [[http://www.garysieling.com/blog/extracting-tables-from-pdfs-in-javascript-with-pdf-js | PDF.js]] (Javascript), para extrair tabelas * [[http://pdfbox.apache.org/ | PDFBox]] (Java/C#) * [[http://tabula.technology/ | Tabula]], para extrair tabelas de PDFs para CSV ou folha de cálculo do Excel ==== Scraping ==== * [[https://github.com/sunlightlabs/billy/ | Billy]], um conjunto de ferramentas para extração de info legislativa (e não só) * [[http://www.sikuli.org/ | Sikuli]], ferramenta para automatizar interações com GUI's * [[http://compiletoi.net/fast-scraping-in-python-with-asyncio.html | Fast scraping in python with asyncio]], técnica para acelerar scrapers escritos em Python * [[http://scraperwiki.org | ScraperWiki]] ==== Análise de dados/Data mining ==== * [[http://okfnlabs.org/recline/ | Recline.js]], ferramenta para analisar e visualizar dados no browser * [[http://pandas.pydata.org/ | Pandas]], kit Python para análise de dados * [[http://jeroenjanssens.com/2013/09/19/seven-command-line-tools-for-data-science.html | 7 command-line tools for data science]]: ''jq'', ''json2csv'', ''csvkit'', ''scrape'', ''xml2json'', ''sample'' e ''rio'' * [[https://code.google.com/p/csvfix/ | csvfix]], consertar e trabalhar com CSV * [[https://github.com/okfn/csv.js | csv.js]] * [[https://source.opennews.org/en-US/articles/introducing-sheetdown/ | Sheetdown]], converter Google Spreadsheets para tabelas Markdown * [[http://alyssafrazee.com/introducing-R.html | Introducing R to a non-programmer in one hour]], sobre a linguagem de análise estatística R * [[http://openrefine.org/ | Google Refine]], canivete suíço para sanear dados desorganizados ==== Visualização de dados ==== * [[http://www.pinterest.com/gelicia/resources-for-learning-d3js/ | Lista de recursos]] para aprender D3 * [[http://bokeh.pydata.org/ | Bokeh]], toolkit de visualização em Python * [[http://okfnlabs.org/blog/2013/10/11/timemapper.html | TimeMapper]], timemaps que podem ser usados como widget a partir de uma spreadsheet * [[http://raw.densitydesign.org/ | Raw]], a ponte entre spreadsheets e gráficos bonitos * [[http://idl.cs.washington.edu/projects/lyra/ | Lyra]] ([[https://github.com/uwdata/lyra | Github]], [[http://vallandingham.me/make_a_barchart_with_lyra.html | tutorial]]) * [[http://visualcomplexity.net | Visual Complexity]] * [[http://infosthetics.com | Infosthetics]] * [[http://newsvis.org | News Visualization]] * [[http://gionkunz.github.io/chartist-js/ | Chartist.js]], gráficos simples e com layout respondão * [[https://datawrapper.de/ | Datawrapper]], gráficos em instantes === Livros sobre visualização === * **Beautiful Data** -- O'Reilly Media, 2010 ([[http://science.slashdot.org/story/10/08/02/1258208/Beautiful-Data?art_pos=2 | resumo]], [[http://www.amazon.com/dp/0596157118 | Amazon]]) ==== Web e ferramentas no browser ==== * [[http://opendatakit.org/about/tools/ | OpenDataKit]], gerar e trabalhar com formulários online === Ferramentas gerais para trabalhar com dados === * [[http://processing.org | Processing]] -- ambiente de programação rápida (Java) * [[http://nodebox.net | Nodebox]] e [[http://shoebot.net | Shoebot]] -- ambientes de programação rápida (Python) * [[http://www.gnuplot.info | GNUplot]] -- criação rápida de gráficos * [[http://pipes.yahoo.com | Yahoo Pipes]] ==== Processamento natural de linguagem (NLP) ==== * [[http://www.linguateca.pt/ | Linguateca]], centro de recursos distribuído para o processamento computacional da língua portuguesa * [[http://www.nltk.org/book/ | Natural Language Processing with Python]], manual oficial do NLTK ((ver também o [[http://natura.di.uminho.pt/natura/natura | projecto Natura]], em português) * [[http://blog.scripted.com/scripted-updates/nlp-hacking-in-python/ | Teaching a Computer to Read: NLP Hacking in Python]] * [[http://wordnet.princeton.edu" | WordNet]] -- base de dados de palavras que ajuda ao processamento de linguagem (ver também [[http://www.clul.ul.pt/clg/wordnetpt/index.html | WordNet em português]]) ==== Mapas e GIS ==== * [[http://sensitivecities.com/so-youd-like-to-make-a-map-using-python-EN.html | So You’d Like To Make a Map Using Python]], tutorial com o Pandas e IPython * [[http://colorbrewer2.org | ColorBrewer]], esquemas de cor para cartografia * [[http://cartodb.com/ | CartoDB]], mapas a partir de datasets * [[http://cartodb.github.io/odyssey.js/ | Odissey]], histórias interactivas * [[https://www.mapbox.com/tilemill/ | Tilemill]], ferramentas de criação e edição simples de mapas ==== Crowdsourcing ==== * [[http://crowdcrafting.org/about | CrowdCrafting]] e [[http://dev.pybossa.com/ | PyBossa]], para trabalhar com contributos externos de forma a resolver tarefas complexas ==== Software para portais de dados ==== * [[http://ckan.org/ | CKAN]], plataforma para organização, gestão e publicação de datasets, feito pela Open Knowledge Foundation * [[http://pandaproject.net/ | Panda Project]], uma ferramenta para organizar coleções de datasets e documentos ===== Guias e recursos online ===== * [[http://opendata.stackexchange.com | Open Data StackExchange]], Q&A de open data * [[http://blog.chryswu.com/2014/02/21/nicar14-slides-tutorials-links-tools/ | Slides da NICAR 2014]], uma conferência sobre dados e visualização com talks sobre todos os temas possíveis * [[http://selection.datavisualization.ch/ | Datavisualization.ch Selected Tools]] * [[https://drawingbynumbers.org/visualisation-tools | Drawing by Numbers]], mais uma selecção de ferramentas para Data Viz ==== CouchDB ==== * [[http://guide.couchdb.org/ | CouchDB: The definitive guide]] * [[http://www.sendung.de/2011-11-11/what-i-learned-about-couchdb/ | What I learned about CouchDB]], boa introdução ao ''couchdbkit'' e questões de organização de DBs

recursos.1419783037.txt.gz · Last modified: 2015/01/05 07:55 (external edit)