Blog

Melhores práticas pra Dados Na Web: Forneça Metadados! #UmaPorDia

Na semana passada eu publiquei um post falando que ia comentar uma Melhor Prática por dia, do documento de Melhores Práticas para Dados na Web, produzidas pelo WG DWBP.

Pois bem, hoje é dia da primeira:

BP1: Forneça Metadados

Os metadados podem ser considerados etiquetas que ajudam as máquinas e pessoas a identificar do que se trata e o que tem dentro dos datasets. Para entender porque eles são necessários, imagine um depósito do Wall Mart cheio de caixas empilhadas com produtos para vender. Agora, imagine que a Web é o interior da loja e você é o encarregado de colocar tudo nas prateleiras, organizando por tipo de produto. Pra otimizar o seu trabalho, os encarregados de empilhar as caixas no depósito deixaram tudo etiquetado, identificando o conteúdo de cada caixa, evitando que você tenha que abrir tudo para ver o que tem dentro antes de começar a arrumar. Pois bem, esses encarregados que etiquetaram tudo deixaram metadados pra você.

Assim fica fácil entender porque fornecer metadados quando colocar seus dados na Web é tão importante!

Forneça metadados para que humanos e aplicações de computador possam ler

Fornecer metadados é importante quando se publica dados na web porque publicadores de dados e consumidores de dados podem não se conhecer. Por causa disso é preciso prover informação que ajude humanos e computadores a entenderem os dados publicados, assim como outros importantes aspectos que podem ser descritos usando metadados.

“Metadados são um recado de amor pro futuro – foto de https://flic.kr/p/digHTN – Creative Commons 2.5 Licence”

Resultado esperado

Humanos poderão entender os metadados, assim como aplicações de computador – especialmente os user agents, serão capazes de processa-los.

Possível Implementação

Para dados que voê quer que humanos leiam, você pode fornecer metadados como parte de uma página HTML ou prover metadados em um arquivo-texto em separado.

Para dados legíveis por máquina, você pode utilizar um formato de serialização, tipo Turtle ou JSON ou pode embedar no html usando o HTML-RDFAou JSON-LDSe múltiplos formatos forem publicados separadamente, eles devem vir da mesma URL usando negociação de conteúdo (ou conneg) e ficar disponíveis em URIs diferentes, diferenciadas pela exptensão do nome do arquivo. A Manutenção de múltiplos formatos fica melhor se você puder gerar cada formato “on the fly” se baseando numa fonte única de metadados.

Além disso, quando você quiser tornar disponível dados sobre datasets para máquinas, é bom que você use padrões que já existem ou vocabulários que muitos outros publicadores já usam. Por exemplo, os termos do Dublin Core Metadata (DCMI), chamados de DCMI Metadata Terms e o Data Catalog Vocabulary

Só lembrando que o grupo precisa do seu feedback sobre as práticas, implementações, exemplos e também os vocabulários produzidos pelo grupo. Se você quiser, pode comentar aqui ou mandar um e-mail para o grupo com suas considerações.

Precisamos do seu feedback!

Se quiser comentar ou melhorar esse post, pode também sugerir mudanças direto no Github, eu ficarei muito feliz em receber pull requests ?

Lembrando que esse post reproduz parte de uma especificação do W3C traduzida e que por causa disso, está sob a mesma licença para documentos do W3C. O importante é: a reprodução é livre, desde que citada a fonte.

yaso
Publicado por Yasodara Córdova em 30 de maio de 2016
*Versão original publicada no Blog do W3C Brasil