janeiro 9, 2013
Gerenciamento do ciclo de abertura de Dados
O ciclo que envolve Dados que se abrem, seja no governo ou não, é amplo e precisa ser observado para que as iniciativas de publicação e abertura de dados sejam sustentáveis. Em outras palavras, para que os benefícios prometidos pelos estudiosos que propagam a filosofia dos dados abetos se tornem algo palpável para a humanidade é necessário que se observem todas as pontas que envolvem a publicação de dados abertos na Web.
Segue um gráfico que pretende ilustrar melhor as relações entre as principais fases envolvidas na publicação de dados.
(este gráfico está publicado em formato aberto e vetorial – svg- no GitHub)
De acordo com o gráfico, o ciclo que um determinado dado percorre pode começar a partir da fase de COLETA. Em tempos de uma sociedade informatizada e com dispositivos de hardware à disposição por preços relativamente acessíveis, é hora de aproveitar a abundância de possibilidades de fontes de informação para ser criativo na hora de acumular dados que possam servir para beneficiar as pessoas em um futuro próximo.
Situações de coleta
Formulários, sensores, dados fornecidos de modo espontâneo e outros podem ser utilizados para estabelecer bases interessantes. É importante frisar aqui que o monitoramento não deve se dar sobre as pessoas, mas sim sobre o ambiente em que vivem. Se algum dado depender de um ser humano para ser fornecido, este deve estar sempre protegido por leis de privacidade e contribuindo de forma não imposta e livre, nunca sendo obrigado a fazê-lo. A vantagem de se desenhar a coleta de dados em uma determinada situação é a possibilidade de prever ferramentas para facilitação em todas as outras fases. Isso significa que se a solução para a coleta é planejada pode conter elementos importantes, tais como recursos de web semântica e acessibilidade que podem poupar trabalho (principalmente nas fases de uso e reuso) e qualificar de maneira inovadora a base de dados em questão.
Um bom exemplo disso é a base que foi utilizada para o aplicativo “Open Self Medication“, que combina bases de dados semânticos sobre remédios, as substâncias que os compõe e os sintomas para cada tipo de doença, relacionando cada caso de maneiras diferentes que podem, por exemplo, diminuir o erro na hora da prescrição de uma droga.
Situações de extração
As situações de extração precisam ser realizadas quando os dados foram publicados modo fechado. Quase sempre esses estão em formatos fechados e proprietários ou desestruturados, com campos faltantes ou recheados de informações erradas ou inúteis. Não é à toa que o processo de tornar estes dados utilizáveis analisando-os leva o nome de mineração. Da mesma maneira, o processo de capturar dados públicos que estão em bancos de dados fechados e em formatos de acesso limitado e abrir com atividades de código é chamado de hacking, mas também é conhecido como Web scraping.
Para as atividades de extração existem vários métodos e ferramentas que podem ser utilizadas. No GitHub do DadosGovBr existe um repositório de ferramentas muito útil, que busca documentar algumas ferramentas relacionadas.
Armazenamento/publicação/distribuição de Dados Abertos
Depois de ter os dados em mão, se a intenção é publicar ou republicar, é necessário que sejam armazenados em repositórios estruturados e planejados para receber e distribuir dados de forma aberta e interoperável. Estes são os catálogos.
A formação de catálogos consistentes depende de algumas regras básicas que foram definidas para catalogar, inicalmente, conteúdos em bibliotecas. Com o advento da era da informação elas foram transpostas e adaptadas para o contexto da formação dos catálogos de dados. Os usuários podem utilizar catálogos para refinar uma busca ou ajudar na interpretação de uma entrada. Segundo o Comitê Gestor da Internet no Brasil,
“A semântica das informações precisa ser convencionada com antecedência, de modo que todas as partes envolvidas tenham um entendimento comum do significado dos dados trocados. No nível internacional, isso pode ser uma questão complexa, visto que alguns conceitos legais podem diferir de um país para outro. O objetivo final é ser capaz de interpretar os dados de maneira uniforme entre as diferentes organizações e plataformas envolvidas na troca de dados. Para isso, seria útil publicar na Web os nomes e definições dos elementos usados no momento em formato partilhável e referenciável, independentemente do grau de apoio que se obteve.”
A qualificação semântica dos dados pode agregar muito ao banco escolhido. Tesáuros, taxonomias, vocabulários, esquemas de classificação, entre outros, são recursos utilizados para produzir dados 5 estrelas. Escolher ou construir estas ferramentas depende de conhecer bem alguns padrões Web e algumas ferramentas para armazenamento e publicação de catálogos de dados.
Uma das ferramentas mais utilizadas para a exposição de catálogos é o CKAN, que também é uma ferramenta de publicação, armazenamento e gerenciamento de conjuntos de dados. O Ckan é um software livre, desenvolvido e mantido por uma comunidade, o que significa que não tem custos e uma curva de aprendizado muito positiva. É atualmente o software utilizado para manter o portal de dados abertos do governo brasileiro, o Dados.gov.br.
Independente do conjunto de softwares adotado para realizar a tarefa de armazenamento e publicação, é importante incluir ao planejamento do ciclo de abertura de dados os conceitos de alguns padrões. São eles (retirado daqui)
- URI: é um identificador de recursos que serve para identificar ou apontar para alguma coisa na Web.
- Um URL é um URI que identifica um recurso e provê meios de agir sobre ele, obter e/ou representar este recurso, descrevendo seu mecanismo de acesso primário ou a localização na “rede”.
Por exemplo, o URL http://www.w3c.br/ é um URI que identifica um recurso (Site do W3c Brasil) e representa este recurso (o HTML da página por exemplo) e está disponível via HTTP de um hospedeiro de redes chamado http://www.w3c.br.
Abaixo um esquema que mostra a estrutura de uma URI. (Retirado deste site)
- Um URL é um URI que identifica um recurso e provê meios de agir sobre ele, obter e/ou representar este recurso, descrevendo seu mecanismo de acesso primário ou a localização na “rede”.
- RDF/XML: O XML é um formato padrão do W3C para a criação de documentos com dados organizados de forma hierárquica, como se vê, frequentemente, em documentos de texto formatados, imagens vetoriais ou bancos de dados.
- SPARQL: o “sparkle“, também recomendado pelo W3C e aos cuidados dos grupos de Web Semântica do W3C é utilizado para buscar a informação independente do formato dos resultados.
Abaixo, um exemplo de como funciona essa estrutura de distribuição:
Existem padrões para publicações de dados em formato aberto. É imprescindível que esses padrões estejam especificados e regulamentados também em Leis ou qualquer outra recomendação governamentao para possibilitar um ambiente interoperavel em todos os dominios e-gov.
Quando os dados são dinâmicos e interoperáveis, alimentados de maneira sistêmica, os gastos são diminuídos e os processos, incorporados à rotina da administração. (tal e qual preencher tabelas no excel). Isso quer dizer, na prática, que o planejamento pode ser lento e caro, mas isso diminui os preços de se manter o ambiente sustentável.
A importância das APIs
Quando se fala em grandes volumes de dados dinâmicos e abertos, a melhor maneira de planejar abrir seus dados é incluir a conversa sobre APIs e considerar seriamente utilizar esse recurso. As APIs sao os dutos pelos quais os computadores podem conversar entre si.
API signfica Application Programming Interface. Uma API é um conjunto de regras pré-determinadas de programação que permite que sejam feitos aplicativos que se utilizem dessas regras para obter dados, em camadas que não aparecem para o usuário comum. Elas se conectam e permanecem “funcionando”, interoperando vários sistemas e aplicativos quando os dados são requisitados. As APIs devem ser abertas e transparentes para que os desenvolvedores tenham acesso à mesma e possam sugerir novas features visando melhorar seus aplicativos.
A apresentação que acompanha essa parte do curso está disponível para download aqui e disponível para leitura online aqui.
Uso/reuso
Continua no próximo post, sobre visualizações e aplicativos.