1. Esquemas
de metadatos
Entre las principales funciones de
los sistemas que publican los contenidos, se encuentra la de fortalecer la
visibilidad de la información, para lo cual, es necesario que se asegure la
capacidad de entregar sus metadatos a diversos tipos de plataformas de una
forma estructurada y estandarizada (interoperabilidad).
Esta interoperabilidad se
fundamenta en tres grandes bases: el protocolo de intercambio de información,
el esquema de metadatos y los lineamientos de sintaxis que se aplicarán a los
metadatos.
Para el protocolo de intercambio de
información, los sistemas se apegarán a las especificaciones del estándar
conocido como OAI-PMH (Open Archives Initiative – Protocol for Metadata
Harvesting), para el esquema de metadatos se utilizará el esquema de metadatos
denominado Dublin Core y para la sintaxis se aplicarán las recomendaciones de
OpenAIRE para los recursos textuales, mismas que serán complementadas con
especificaciones que se describen a continuación.
Acerca de Dublin Core
En el año 1995 en la ciudad de
Dublin, Ohio, a partir de una convocatoria de trabajo a la que asistieron
expertos en diversos ámbitos como la bibliotecología, el marcado de texto, la
publicación digital y la distribución de contenidos se creó la Dublin Core
Metadata Initiative con el objetivo de crear un conjunto de descriptores que
fueran fáciles de crear y de entender, permitiendo además la organización y la
recuperación de diversos tipos de contenidos a través de un vocabulario común,
de forma que los usuarios localicen los contenidos aunque estos sean de
distintas disciplinas.
Actualmente el esquema de Dublin
Core ha sido traducido a más de 20 idiomas, contando con carácter oficial en el
Consorcio de la WWW, además de que ha sido adoptado como norma oficial en USA a
través del estándar ANSI/NISO z39.85 y en Europa por el CEN/ISSS (Comité
Europeo de Normalización / Sistema de Normalización para la Sociedad de la
Información) a través del estándar ISO 23950. También puede encontrarse
descrito en dos Request For Comments: RFC 5013 y RFC 5791.
Para su mejor comprensión, es
necesario listar algunas definiciones importantes:
DCMI Son las siglas de la Dublin Core
Metadata Initiative y es la organización encargada del mantenimiento del
estándar de metadatos Dublin Core.
Recurso Es el contenido que se
desea publicar y preservar de acuerdo con la definición realizada previamente
en estos lineamientos, independientemente de su tipología y formato.
Ciclo de vida de un recurso Es una secuencia de hechos que
marcan el desarrollo, transformaciones y uso de un recurso, desde su creación,
sus procesos de revisión, aprobación, publicación, depósito, consulta, hasta
las actividades necesarias de preservación del contenido en el largo plazo,
incluyendo cualquier tipo de alteración que se le realice, ya sea por sistemas
o por personas.
Elemento Es cada una de las etiquetas
descriptivas que utilizando una semántica común buscan facilitar la comprensión
para los usuarios de las características, contenido, formato y derechos con que
cuenta el recurso.
Conjunto de elementos Son todas las etiquetas
descriptivas que en conjunto permiten describir correctamente el recurso. Para
hacer esto, cada etiqueta utiliza una palabra única, que sea comprensible para
los usuarios y que a su vez pueda ser interpretada por las computadoras para
crear esquemas de codificación y procesar adecuadamente la información.
Estas etiquetas se agrupan por
tipo: las que permiten describir el contenido, las que describen los formatos y
aspectos técnicos y las que describen información relacionada con la propiedad
intelectual y los derechos.
En segundo lugar, las etiquetas
cuentan con dos niveles: el básico, conformado por un conjunto de 15 elementos
y el cualificado, conformado por subelementos que pueden ser relacionados con
los elementos básicos.
Recomendaciones generales
para el uso de Dublin Core
Aunque ciertos lenguajes permiten
el uso indistinto de letras mayúsculas y minúsculas en la definición de
etiquetas, lo más recomendable es apegarse a la especificación respetando el
uso de mayúsculas y minúsculas en los nombres de los elementos, esto permitirá
mayor interoperabilidad en casos en que se intercambie información con sistemas
o lenguajes como XML, en el que sí se diferencian mayúsculas de minúsculas.
Cada elemento es opcional y puede
ser repetido según las necesidades de la organización, sin embargo, su uso
deberá apegarse a las indicaciones que se indican más adelante, en este
documento.
Para más información con respecto
al uso de Dublin Core, vocabularios controlados o detalles de la
especificación, es necesario consultar el sitio oficial: https://www.dublincore.org
2. Protocolos
de intercambio
Para asegurar que los sistemas
puedan intercambiar información con los motores de búsqueda, índices,
plataformas de descubrimiento y otros, es necesario que cumplan con ciertos
estándares que permitan un flujo de datos estructurado, comprensible y normalizado.
Por lo que, las plataformas deberán
apegarse a los siguientes estándares:
Lineamientos OpenAIRE
Es una infraestructura tecnológica
y de servicios creada en el año 2009 para apoyar, acelerar y medir la correcta
implementación de políticas europeas de acceso abierto a publicaciones
científicas y datos de investigación.
OpenAIRE cuenta con una sólida red de
National Open Access Desks (NOADs), agentes que actúan como puntos de
referencia nacional para divulgar y difundir las políticas de acceso abierto de
la Comisión Europea entre las instituciones y los investigadores, así como para
facilitar la coordinación de las políticas nacionales con las europeas.
Dentro de los servicios con que
cuenta, OpenAIRE desarrolla y pública lineamientos de uso de metadatos basados
en Dublin Core para la descripción de recursos textuales, material multimedia,
sets de datos, software, patentes, libros, working papers, entre otros.
El apego a los lineamientos
publicados por OpenAIRE, permite asegurar la interoperabilidad del Repositorio
Digital con otros repositorios, buscadores, índices, cosechadores y otro tipo
de sistemas especializados alrededor del mundo que faciliten la localización de
los contenidos por parte del público.
Para los recursos textuales, se
recomienda el apego a las especificaciones descritas en OpenAIRE Guidelines for
Literature Repositories en su versión v3, en particular, se recomienda el uso
de aquellos elementos definidos como obligatorios (M): https://guidelines.openaire.eu/en/latest/literature/index_guidelines-lit_v3.html
Para los recursos del tipo set de
datos o software, se recomienda el apego a las especificaciones descritas en
OpenAIRE Guidelines for Data Archives en su versión v2, en particular, se
recomienda el uso de aquellos elementos definidos como obligatorios (M): https://guidelines.openaire.eu/en/latest/data/introduction.html
Acerca de OAI-PMH
La Open Archives Initiative (OAI)
es una iniciativa que desarrolla y promueve normas de interoperabilidad que
tienen por objeto facilitar la difusión eficaz de contenidos. Esta iniciativa
cuenta con fondos y respaldo de fundaciones, universidades y organizaciones de
investigación, y surgió como un esfuerzo para mejorar el acceso a los recursos
digitales que las organizaciones educativas y de investigación producen y
publican, principalmente en acceso abierto.
Open Archives Initiative - Protocol
for Metadata Harvesting es un protocolo para la comunicación e intercambio de
metadatos a través de Internet. Este protocolo define un mecanismo de
recolección de registros que contienen los metadatos que describen la información
alojada en repositorios, revistas y otras plataformas que publican productos de
la investigación.
Su funcionamiento opera a través de
transacciones sobre HTTP en las que un sistema recolector de contenidos
solicita a un repositorio o revista que proporcione los metadatos de los
documentos que almacena. En respuesta, el repositorio o la revista devuelve un
conjunto de registros en formato XML según criterios previamente determinados,
como pudiera ser la fecha de creación de los registros, el identificador
persistente, la tipología de los documentos o las áreas temáticas a las que
pertenecen.
Para poder operar correctamente, el
protocolo OAI-PMH requiere que los metadatos solicitados sean devueltos en
formato Dublin Core cualificado de
acuerdo con los lineamientos definidos por OpenAIRE.
Por qué utilizar OAI-PMH
El uso del protocolo OAI-PMH
permitirá recolectar los metadatos de los contenidos digitales de los sistemas
institucionales que publican resuldatos de investigación. Su uso como
herramienta de intercambio de metadatos permitirá alimentar de forma estandarizada
a diversos sistemas que fortalezcan la visibilidad y el posicionamiento de los
contenidos.
En estos lineamientos se ha
definido el uso del esquema Dublin Core con apego a los lineamientos de
OpenAIRE.
Para que las tareas que se
describen a continuación se realicen de forma correcta, los sistemas deberán
reportar la fecha bajo el estándar ISO 860, el apego a este estándar evitará
malas interpretaciones en la marca de fecha.
Marca de fecha: Este parámetro se
muestra en el encabezado de cada registro y contiene la fecha de
creación, modificación o eliminación del registro y que a su vez será
tomado en cuenta por los cosechadores para permitir la recolección
selectiva siguiendo las siguientes marcas:
Modificación: La respuesta que
envíe el sistema debe incluir registros que correspondan al argumento
metadataPrefix y que hubieran cambiado en los límites de los argumentos
“from” y “until”.
Creación: La respuesta que envíen
los sistemas debe incluir registros que correspondan al argumento
metadataPrefix y que hayan pasado a estar disponibles dentro de los
límites de los argumentos “from” y “until”.
Eliminación: La respuesta que
envíen los sistemas debe incluir registros que correspondan al argumento
metadataPrefix que se hayan extraído del repositorio local dentro de los
límites de los argumentos “from” y “until”. El estado de eliminación del
registro se indicará en el header o “encabezado” del registro y no se
incluirá ningún metadato.
Reporte de registros eliminados
Si un registro deja de estar
disponible para su consulta dentro del repositorio éste se debe considerar como
eliminado. Los sistemas deberán reportar el nivel de eliminación de un registro
en el elemento deletedRecord de la respuesta de Identify, por lo que es
importante que los sistemas declaren alguno de los siguientes 2 niveles que
soportan los registros eliminados en el elemento DeletedRecord de la respuesta
de Identify:
Uso del nivel transitorio: El RI no garantiza el mantenimiento
permanente de su lista de eliminaciones.
Vigencia: 60 días.
Uso del nivel persistente: El RI conserva sin límite de tiempo la
información sobre las eliminaciones de registros. El RI debe comprometerse
a realizar un seguimiento permanente en el historial de sus eliminaciones.
Vigencia: Sin límite de tiempo.
Uso del testigo de reanudación
Un testigo de reanudación es un
valor que envía el sistema hacia el cosechador, cuando éste último se encuentra
haciendo la recolecta de registros. Su objetivo principal es permitir al
cosechador recuperarse de posibles errores de red o de otro tipo a fin de que
no sea necesario reanudar la secuencia de solicitudes de recolección a los
sistemas desde un inicio. El cosechador empleará el testigo
de reanudación con el fin de recolectar listas completas de los nuevos
registros agregados periódicamente.
Para lograr este objetivo, el cosechador
enviará peticiones a los sistemas que le devolverán listas de registros, de
identificadores o de sets a fin de reanudar la secuencia de los listados
incompletos. El testigo de reanudación del cosechador reconocerá que la
respuesta de los sistemas contiene una lista incompleta por lo que debe
enviarse una nueva petición para obtener la siguiente parte del listado.
Vigencia del testigo de reanudación
El tiempo medio de vida de un
testigo de reanudación es el tiempo durante el cual el sistema guarda en
memoria el testigo junto con la información de reanudación.
Los sistemas deberán conservar
activo el testigo de reanudación durante un mínimo de 48 horas a fin de dar
tiempo suficiente para reanudar la recolecta por parte del cosechador.
Uso del set de metadatos
Un set (tamibén conocido como
CONTEXTO) es una agrupación de ítems dentro de un repositorio que permite una
partición lógica de ítems para una recolección selectiva de metadatos.
Los Sets
definen grupos de metadatos en un sistema, y los metadatos se pueden agrupar
por cualquier característica que proporcione una partición razonable para una
recolección selectiva.
Los sistemas podrán configurar
cuantos sets consideren necesarios para distintos tipos de cosechadores.
3. Protocolos
de pruebas de interoperabilidad
Es necesario que se realice una validación de
pruebas de interoperabilidad con algún sistema externo que proporcione un
cosechador publicado de forma abierta por alguna institución reconocida.