Saltar al contenido principal

Metadatos

Los metadatos son "datos sobre datos".

Los metadatos se utilizan para almacenar información sobre los activos de datos que se almacenan en el motor de conocimiento de GBAD. Nos esforzamos para que los metadatos sean JUSTOS (encontrables, accesibles, interoperables y reutilizables).

Además, recopilamos metadatos sobre los procesos de ingesta de datos en Knowledge Engine para garantizar que se realice un seguimiento de todo el linaje de datos.

Esquema de metadatos

"Un esquema de metadatos es un conjunto de reglas sobre qué tipo de declaraciones sujeto-predicado-objeto se permite hacer y cómo se permite hacerlas". -Jeffery Pomerantz

Una declaración sujeto-predicado-objeto consta de:

  • Asunto = lo que se describe
  • Objeto = la cosa que describe el tema
  • Predicado = relación entre el sujeto y el objeto

Por ejemplo:

  • Asunto = conjunto de datos QCL de FAOSTAT
  • Objeto = FAO
  • Predicado = creador

En esta declaración de sujeto-predicado-objeto, la FAO es la creadora del conjunto de datos QCL de FAOSTAT.

Con base en este modelo, podemos crear un esquema de metadatos que defina los predicados (también llamados elementos) que nos gustaría usar para describir un recurso. Vocabularios de metadatos como Dublin Core, schema.org, [PROV-DM](https://www.w3 .org/TR/prov-dm/) y DCAT, proporcionan elementos de metadatos que se pueden utilizar para describir datos. No existe una solución única cuando se trata de metadatos. Existen varios conjuntos de elementos de metadatos estándar porque lo que incluirá en los metadatos depende de cuál sea su caso de uso.

Hemos seleccionado elementos de metadatos de esquema.org y PROV-DM para describir datos y rastrear el linaje de datos en el motor de conocimiento (consulte la figura a continuación).

![Modelo de metadatos](./images/metadata Model.drawio.png)

Esquema de codificación

Cada elemento de metadatos debe tener instrucciones sobre los valores esperados para cada elemento. Por ejemplo, hay muchas formas diferentes de especificar una fecha: 04/01/23 podría significar 4 de enero de 2023 o 1 de abril de 2023. Por lo tanto, cualquier valor para cualquier elemento que especifique una fecha debe usar [ISO-8601](https: //www.iso.org/iso-8601-date-and-time-format.html) para garantizar que todas las fechas tengan el formato estándar.

El esquema de codificación para cada elemento de metadatos utilizado en metadataModel se encuentra a continuación:

ElementoEsquema de codificaciónTipo esperado
nombretexto librecadena
codeRepositoryenlace al repositorio de GitHubcadena
Plataforma de tiempo de ejecuciónnombre del lenguaje de programación o plataforma utilizada en tiempo de ejecución (necesita vocabulario controlado)cadena
fecha de creaciónISO-8601fechahora
hora de inicioISO-8601fechahora
hora finalISO-8601fechahora
prov:tipoVocabulario controlado que se creará para el caso de uso (es decir ingestionEvent, dataCleaning, etc.)cadena
descripcióntexto librecadena
urlURLcadena
identificador ​​URL, doi o uricadena
licenciaURLcadena
Cobertura temporalISO-8601fechahora
creadortexto librecadena
inDefinedTermSetURLcadena
Código de términocódigo del conjunto de términos definidocadena
LugarGeoNamescadena
Tamaño del contenidoTamaño del archivo en megabytesflotador
formato de archivoFormato de archivo. Uno de: csv, json, dbtable, etc. (se requiere vocabulario controlado)cadena
URL del contenidoURLURL
fecha de cargaISO-8601fechahora

Decisión necesaria:

Actualmente, las palabras clave para metadatos se crean extrayendo términos (como especies) de conjuntos de datos.

Es necesario crear un vocabulario controlado al que vincular las palabras clave. Hemos comenzado a hacer esto recopilando todas las clasificaciones y definiciones de especies de fuentes de datos; sin embargo, aún no se han identificado sinónimos.


Vocabularios y Ontologías

Se accederá a vocabularios y ontologías preexistentes, se perfeccionarán, compararán y ampliarán para crear un Vocabulario controlado para GBAD. Se accederá a la semántica de cada fuente de datos para garantizar que las palabras utilizados para describir los datos son consistentes entre las fuentes de datos.

  • Se obtendrán vocabularios para fuentes de datos que no citan estándares de vocabulario y se en comparación con estándares de datos preexistentes como AGROVOC (vocabulario controlado de la FAO)
  • Los vocabularios recopilados se compararán para todas las fuentes de datos, para ver cómo se comparan las descripciones de los términos entre sí.
  • El objetivo es proporcionar un estándar para GBAD, aumentando la interoperabilidad y la calidad de los datos, lo que en última instancia conduce a modelos y estimaciones superiores
  • También los vocabularios controlados conducen a mejores sistemas y permiten la automatización de tareas.

Agroportal es una herramienta de mapeo de ontologías que permitirá a los GBAD determinar ontologías adecuadas y mapear entre vocabularios estandarizados relacionados con el sector agrícola.

  • También reconocemos que no podemos esperar que los contribuyentes de datos cambien su vocabulario para seguir el de los GBAD. (y si preguntamos, puede disuadir a las personas de aportar datos). Esto subraya la importancia del vocabulario. mapeos.

Almacenamiento y gestión de metadatos

"Todo el conocimiento está en las conexiones"

-- David Rumelhart

GBADs Informatics utiliza neo4j, un sistema de gestión de bases de datos gráficas, para gestionar y almacenar metadatos e información sobre personas y grupos involucrados en el proyecto. Como aprenderá en esta sección, una base de datos de gráficos es un tipo de base de datos que aprovecha la idea de conexiones entre entidades como un método para derivar ideas y nuevos conocimientos a partir de datos que de otro modo estarían desconectados.

¿Qué es una base de datos gráfica?

Una base de datos de gráficos es un tipo de base de datos que almacena datos utilizando relaciones entre ideas o entidades principales. Las relaciones entre diferentes entidades muestran conectividad, lo que permite obtener más información que una base de datos relacional tradicional. Debido a que los datos son muy complejos y multidimensionales en términos de estructura, procedencia, gobernanza, seguridad y semántica, GBAD utiliza bases de datos de gráficos para la gestión de metadatos maestros y la catalogación de datos. Al aprovechar la naturaleza dinámica de la base de datos de gráficos y estructurar nuestro modelo de gráficos de una manera que permita una mejor comprensión de las muchas dimensiones de los datos, podemos visualizar y comprender cómo fluyen los datos fuera y dentro de nuestra organización. Las bases de datos de gráficos también nos permiten agregar y cambiar la estructura a medida que cambia la estructura de la información sobre los datos. Esto quedará más claro a medida que presentemos el modelo de datos del gráfico GBAD preliminar.


Tradicionalmente, los datos se organizan en una serie de tablas. Cada una de las tablas tiene columnas y algunas tablas tienen columnas comunes. Con estas columnas comunes puede especificar uniones entre tablas, lo que da como resultado una nueva tabla.

La mayor ventaja de las bases de datos relacionales es la capacidad de unir tablas comunes para obtener información. Por otro lado, las bases de datos relacionales requieren esquemas rígidos que requieren que los ingenieros de bases de datos estructuren sus datos para que se ajusten al esquema. Esto viene con el supuesto de que sabemos cómo son todos nuestros datos, lo que no siempre es el caso para la investigación.


Partes de una base de datos gráfica

Las bases de datos de gráficos se componen de nodos (entidades) y aristas (relaciones). Los nodos pueden tener propiedades y etiquetas, mientras que los bordes sirven como conexión o relación entre nodos.

Un modelo gráfico es un modelo de qué tipos de nodos estás representando y cómo están conectados (qué relaciones tendrás).

Modelo gráfico

Base de datos gráfica y API de metadatos

Se actualizará cuando se lance la API