Es importante partir de la
premisa fundamental de que todo proceso relacionado con la construcción y
publicación de información digital, debe considerar el uso de formatos abiertos
en el mismo momento en que se crea el contenido, por lo tanto, es muy importante
lograr, en la medida de lo posible, la participación y la cooperación de los
diversos actores, ya sean autores, revisores, colaboradores diversos,
asistentes, gestores de la información, formadores y cualquier persona que
afecte a los contenidos en cualquier punto del proceso.
Es por ello, que los
administradores de los sistemas de información deben evaluar y seleccionar
correctamente el tipo de formatos sobre los cuales se trabajará, vigilando que
sean abiertos, altamente reconocidos, flexibles y con capacidad de operar sobre
diversas tecnologías.
ASPECTOS A TOMAR EN CUENTA
Se recomienda ampliamente
la consulta y el apego a los siguientes estándares, recomendaciones y buenas
prácticas:
Principios
FAIR The FAIR Guiding Principles
for scientific data management and stewardship, https://www.nature.com/articles/sdata201618.
Son los ejes rectores para
hacer que los datos de investigación sean fáciles de encontrar, accesibles,
interoperables y reutilizables, y proporcionan una guía para la gestión de
datos científicos, que recomienda que cualquier conjunto de datos debe contar
con la estructura que les permita:
1. Ser
encontrables (FINDABLE), a través de la asignación de identificadores
persistentes, de la descripción utilizando metadatos estandarizados y
detallados, de su registro en motores o sistemas de búsqueda y de la inclusión
de los identificadores persistentes en los metadatos que describan a los datos.
2. Ser
accesibles (ACCESSIBLE), a través de dotarles de capacidad para que puedan ser
descargados, para lo cual es necesario que puedan ser recuperados mediante
protocolos de comunicación estandarizados, abiertos, gratuitos y de
implementación universal, que permitan en caso de ser necesario, mantener el
registro de los metadatos y la capacidad de gestionar la autentificación de
usuarios y la autorización de uso.
3. Ser
interoperables (INTEROPERABLE), a través del uso de un lenguaje formal,
accesible, compartible y ampliamente aplicable, así como del uso de
vocabularios controlados que, a su vez, sean compatibles con los principios
FAIR y, por último, a través de asegurar que los datos y los metadatos incluyan
referencias cualificadas a otros datos o a otros metadatos.
4. Ser
reutilizables (REUSABLE), que permitan que otras personas puedan reutilizarlos,
dejando clara su procedencia y las condiciones de reutilización, para lo que es
necesario que cuenten con una multitud de atributos precisos y relevantes, con
licencias claras y accesibles, con metadatos que permitan identificar su
procedencia y que siguen estándares relevantes que utiliza la comunidad
relacionada con el campo para el que fueron creados.
Codificación de caracteres UTF-8
Elegir y aplicar una
codificación de caracteres, recomendaciones de internacionalización de la W3C (https://www.w3.org/International/questions/qa-choosing-encodings).
Estos lineamientos deberán
ser tomados en cuenta por codificadores de HTML (que usen editores o scripts),
desarrolladores de scripts (PHP, JSP, etc.), codificadores CSS, jefes de
proyectos Web, y cualquiera que sea nuevo en codificación de caracteres y necesite
una introducción a cómo elegir y aplicar codificación de caracteres.
Esta práctica permite el
correcto uso y mejor control de idiomas en los sitios web y en los contenidos
que estos presentan, por lo que es importante, ya que además UTF-8 es la
codificación más extendida en Internet.
DEFINICIÓN DE LOS FORMATOS ABIERTOS A UTILIZAR
Para el uso de formatos, se
recomienda tomar en cuenta los siguientes aspectos:
a) Los formatos seleccionados
deben contar con una especificación abierta, pública y con documentación
completa.
b) Los formatos no deberán
contar con barreras legales, técnicas o financieras que impidan o limiten su
libre uso, ya sea para construir archivos, interpretarlos o transformarlos.
c) Utilizar formatos de
archivo compatibles con FAIR o los siguientes formatos estándar:
o Contenedores: TAR,
GZIP, ZIP
o Bases de datos: XML,
CSV, JSON
o Geoespacial: SHP,
DBF, GeoTIFF, NetCDF
o Video: MPEG,
AVI, MXF, MKV
o Sonido: WAVE,
AIFF, MP3, MXF FLAC
o Estadísticas: DTA,
POR, SAS, SAV
o Imágenes: TIFF,
JPEG 2000, PDF, DNG, GIF, BMP, SVG
o Datos tabulares: CSV,
TXT
o Texto: XML,
PDF / A, HTML, JSON, TXT, RTF
o Archivo web: WARC.
A continuación, se
presentan los esquemas básicos a los cuales se deben apegar los contenidos
entregados en determinados formatos.
1. Para sets de datos en formato CSV:
es necesario apegarse a la especificación Common Format and MIME Type for
Comma-Separated Values (CSV) Files, publicada por The Internet Society en 2005
(https://tools.ietf.org/html/rfc4180).
2. Para el intercambio de datos JSON:
es necesario apegarse a la especificación The JavaScript Object Notation (JSON)
Data Interchange Format, publicada por The Internet Society en 2014
(https://tools.ietf.org/html/rfc7159).
3. Para gráficos de vectores SVG:
guiarse por la descripción Scalable Vector Graphics (SVG), Version 1.1
publicada por la Library of Congress, actualizada en línea en el mes de marzo
de 2020
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000020.shtml).
4. Para imágenes TIFF: guiarse por la
descripción TIFF, Revision 6.0, publicada por la Library of Congress,
actualizada en 2009
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000022.shtml).
5. Para archivos de audio WAV: guiarse
por la descripción WAVE Audio File Format, publicada por la Library of
Congress, actualizada en 2012
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000001.shtml).
6. Para archivos de audio MP3: guiarse
por la descripción MP3 File Format, publicada por la Library of Congress,
actualizada en 2010
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000105.shtml).
7. Para archivos de intercambio de
recursos multimedia RIFF: guiarse por la descripción RIFF Resource Interchange
File Format, publicada por la Library of Congress, actualizada en el mes de
septiembre de 2004
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000025.shtml).
8. Para archivos de video MPEG:
guiarse por la descripción MPEG-4 File Format, V2, publicada por la Library of
Congress, actualizada en 2012
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000155.shtml).
9. Para archivos de video AVI: guiarse
por la descripción AVI Audio Video Interleaved File Format, publicada por la
Library of Congress, actualizada en el mes de marzo de 2016
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000059.shtml).
10. Para
archivos de video MPEG: guiarse por la descripción MPEG-4 File Format, V2,
publicada por la Library of Congress, actualizada en 2012
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000155.shtml).
11. Para
archivos de texto PDF: guiarse por la descripción PDF/A Family, PDF for
Long-term Preservation, publicada por la Library of Congress, actualizada en el
mes de diciembre del 2020
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000318.shtml).
12. Para
archivos de texto DOCX: guiarse por la descripción DOCX Transitional (Office
Open XML), ISO 29500:2008-2016, ECMA-376, Editions 1-5, publicada por la
Library of Congress, actualizada en 2017
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000397.shtml).
13. Para
archivos de texto XML: guiarse por la norma ANSI/NISO z39.96-2019, JATS:
Journal Article Tag Suite, Version 1.2, publicada por la National Information
Standards Organization, aprobada el mes de febrero de 2019
(https://www.niso.org/publications/z3996-2019-jats).
14. Para
archivos de relacionados ARC: guiarse por la descripción ARC_IA, Internet
Archive ARC File Format, publicada por la Library of Congress, actualizada en
el mes de febrero de 2008
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000235.shtml).
15. Para archivos de relacionados WARC:
guiarse por la descripción WARC, Web ARChive file format, publicada por la
Library of Congress en el mes de febrero de 2008
(https://www.loc.gov/preservation/digital/formats/fdd/fdd000236.shtml).