Tendencias y cuestiones en sistemas integrados de información científica

Isabel Bernal Martínezclip70-Isabel-Bernal

Oficina Técnica de DIGITAL.CSIC

Motivaciones para una gestión integrada de la información científica institucional.

Los llamados CRIS, acrónimo de Current Research Information Systems, y término acuñado con mayor fortuna que otras siglas para denominar infraestructuras similares (por ejemplo, RIM, Research Information Management o RIS, Research Information Systems), se han convertido en los últimos años en el centro de atención como panacea indiscutible a la hora de hablar de sistemas integrados de información científica y de estrategias de análisis de la productividad de la investigación. Hasta hace relativamente poco, la gestión de la información científica institucional se caracterizaba por una fuerte fragmentación en sistemas, bases de datos y hojas de cálculos, lo que conllevaba a cargas administrativas onerosas, datos duplicados, incompletos y/o inconsistentes y análisis no exhaustivos, lo que a su vez podía repercutir negativamente en la toma de decisiones estratégicas y de planificación dentro de la institución.

Pero, ¿de qué estamos hablando, exactamente? ¿Los CRIS hacen referencia a programas informáticos o a modelos de gestión de datos? En realidad, apuntan a ambos componentes y su protagonismo actual deriva en gran medida de la presión creciente en las universidades, organizaciones de investigación y agencias financiadoras para demostrar, en pleno ciclo de crisis económica, los retornos de inversión en el campo de la ciencia -considerando, además, la fuerte impronta de financiación pública del sector. Paralelamente a esta mayor necesidad de rendición de cuentas y de optimización de la gestión de recursos limitados por parte de las propias instituciones, se ha generado un debate internacional sobre la exigencia de evaluar no solo la excelencia científica sino también el impacto socioeconómico de los resultados de investigación, entendido en el sentido más amplio de la palabra. Ante este panorama, los CRIS han irrumpido con fuerza a nivel institucional y nacional como nuevo modelo para organizar y analizar, desde una perspectiva integradora, toda la información relativa a la actividad científica.

Entre los posibles servicios de estos sistemas integrados se pueden subrayar la fácil gestión, recuperación y enriquecimiento de información científica institucional, así como la capacidad de medir y analizar, en modo comparativo, toda la actividad investigadora de una institución por departamentos, institutos, áreas científicas, líneas de actividad, proyectos, equipos e investigadores. Por otra parte, esta mayor eficacia en la gestión repercute positivamente en los procesos de seguimiento y evaluación exigidos por las agencias financiadoras y a nivel global allana el camino para la mejor identificación de organizaciones, proyectos y equipos que trabajan en campos similares de investigación y de los focos de excelencia científica por disciplinas.

En sus funciones los CRIS no sustituyen a los repositorios sino que actúan como sistemas que cubren tanto las necesidades administrativas internas de las instituciones como el análisis de las actividades de investigación. Provistos de múltiples herramientas para recuperar, buscar, organizar, presentar y evaluar grandes volúmenes de datos de diversa naturaleza, manejan información sobre publicaciones y otros resultados de proyectos, propiedad intelectual, patentes y spin offs, presupuestos, recursos humanos, contratos, nóminas y becas, perfiles de autores y reclutamiento de estudiantes, características de proyectos, fuentes de financiación, colaboraciones nacionales e internacionales etcétera. La diferencia fundamental con los repositorios institucionales radica en el hecho de los CRIS suelen albergar simplemente los metadatos necesarios para su evaluación, mientras que la misión de difusión pública y de acceso abierto a los objetos digitales completos de los resultados de investigación sigue siendo la seña de identidad de los repositorios. Por otra parte, éstos actúan como las plataformas institucionales válidas para el cumplimiento de los cada vez más frecuentes mandatos de acceso abierto de agencias financiadoras.

Un nuevo espacio para productos comerciales

El panorama que inició en muchas universidades y otras instituciones como una andadura más o menos compleja hacia el desarrollo de sistemas locales, resultado de la integración de plataformas y bases de datos institucionales ya existentes, que de una manera ni integrada ni automatizada organizaban parcelas de la información de sus actividades de investigación, se enriqueció con soluciones de pequeñas start-ups de software que de un modo bastante rápido coparon un mercado escasamente explotado.

Entre ellas, las más fructíferas en el mundo anglosajón y nórdico europeo han sido Symplectic, desarrollador del sistema Elements, y Atira, desarrollador de Pure. Por un lado, Symplectic fue fundada por varios estudiantes de doctorado de Físicas del Imperial College de Londres mientras que Pure vio la luz como proyecto local diseñado para la Universidad de Aalborg (Dinamarca). En menos de una década, la situación ha cambiado radicalmente y hoy día se caracteriza por el desembarco decidido de grandes proveedores de servicios para la gestión de la información científica, cuyos hitos principales incluyen la compra de Pure por Elsevier en 2012, de Avedas (con su sistema Converis) por Thomson Reuters en 2013 y la incorporación de Symplectic en la familia Digital Science-Macmillan en 2010.

Como resultado, el sector de los CRIS ha adquirido un importante componente comercial y viene marcado por la consolidación de sistemas propietarios con paquetes integrados de servicios para gestionar contratos, proyectos, publicaciones, patentes y portales de investigadores así como herramientas de análisis, minería y visualización de resultados de investigación. Como tímido contrapunto, se encuentran algunas soluciones de código abierto, en general menos sofisticadas y con frecuencia aplicadas en entornos locales. En este sentido, destaca el módulo CRIS desarrollado por la empresa italiana CINECA para su configuración en las versiones más recientes de los repositorios DSpace

Captura automática de datos y aplicación de modelos

Entre los principales retos de los CRIS se encuentra la recuperación automatizada de metadatos desde fuentes bibliográficas de autoridad con el objetivo de reducir al mínimo la inserción manual de metadatos, aumentar la calidad y la cantidad de los datos y ganar en eficiencia. En este contexto, bases de datos comerciales como Web of Science y Scopus, otras de carácter gratuito como Pubmed, diversos exportadores bibliográficos como EndNote y Zotero y estándares emergentes como ORCID se han convertido en fuentes primarias de datos en muchos de estos sistemas. Sin embargo, con frecuencia, la extracción sistemática de datos ha tenido que ir acompañada de labores de normalización y desambiguación de entidades y autores para garantizar la recuperación correcta de la información y de cierto grado de input manual para enriquecimiento de datos.

En cuanto a modelos descriptivos y relacionales en los CRIS, destaca la vocación uniformadora del estándar CERIF (Common European Research Information Format). Creado originariamente en 1991 bajo los auspicios de la Comisión Europea para armonizar bases de datos de proyectos de investigación, desde 2002 es mantenido y desarrollado por euroCRIS, una asociación profesional que ha revisado y expandido el modelo para dar cabida a otros tipos de información científica y que funciona como foro de diálogo de profesionales y organizaciones sobre el uso de las tecnologías en los sistemas de gestión de investigación. CERIF es un modelo relacional complejo en formato XML para facilitar el intercambio de información y construido sobre un esquema conceptual en torno a 5 grandes entidades (investigadores, unidades organizativas, proyectos, resultados de investigación y eventos). Su implementación internacional hasta ahora ha sido parcial, si bien es verdad que la Comisión Europea le dio un espaldarazo importante hace varios meses con la inclusión de CRIS compatibles con este estándar como fuentes de datos en el agregador de repositorios de información científica europea, OpenAire+. Por otra parte, la nueva generación de CRIS de carácter comercial suele cumplir con los requerimientos de CERIF.

Por otra parte, en Norteamérica sobresale la agenda estandarizadora de la organización CASRAI a través del desarrollo y mantenimiento de un vocabulario controlado y de perfiles modelo derivados del mismo, extensibles para acomodar los diversos requerimientos de registro y gestión de la actividad de instituciones de investigación y agencias financiadoras. En 2012, ambas organizaciones sellaron un acuerdo de colaboración y compatibilidad técnica por el cual euroCRIS apoyará el vocabulario controlado propuesto por CASRAI como buena práctica internacional mientras que ésta promocionará CERIF como modelo de almacenamiento de datos.

Interoperabilidad con los repositorios institucionales

En general, las universidades e instituciones de investigación crearon en primer lugar repositorios de acceso abierto como novedosas plataformas para organizar, difundir gratuitamente y preservar los resultados de investigación de su comunidad institucional, alineándose con el movimiento internacional de acceso abierto, permanente e inmediato a la producción científica digital. La explosión de los CRIS ha tenido lugar en una etapa posterior y el desarrollo paralelo de ambas infraestructuras hoy día ha puesto en evidencia las muchas oportunidades que brinda la gestión integrada.

Los retos no son solamente de carácter técnico, sino también de naturaleza organizativa y de armonización de culturas de trabajo diferentes ya que en la mayoría de las ocasiones los repositorios recaen dentro de la gestión de las bibliotecas mientras que los CRIS dependen directamente de los departamentos de gestión académica y evaluación. Uno de los retos principales, aún no abordado de modo sistemático ni estandarizado, hace referencia a la interoperabilidad técnica entre los CRIS y los repositorios institucionales, para la que son necesarios un formato de metadatos y un vocabulario común que permitan el fácil intercambio de información entre ambas infraestructuras. En este sentido, múltiples prácticas se dan en la actualidad y un estándar global sería muy beneficioso para que la introducción de metadatos ganara en efectividad y sincronización, se redujeran las duplicaciones y la pérdida de información y aumentase la reusabilidad de los metadatos y, en definitiva, la calidad de los servicios asociados.

Algunos ejemplos de CRIS y su relación con repositorios

Inaugurada en 2011, conCIENCIA es la infraestructura institucional del CSIC para la gestión y evaluación de la información relativa a su actividad científica. Es un desarrollo propio sobre JAVA, SOLR y Alfresco y accesible desde la intranet de la web corporativa y se sirve de distintas fuentes de datos para su alimentación sistemática, entre las que destaca Scopus. En julio de 2012 se inauguró la Pasarela conCIENCIA > DIGITAL.CSIC que permite volcar en el repositorio institucional los metadatos y los textos completos alojados en conCIENCIA y válidos para difusión a través del repositorio. El protocolo de intercambio de datos utilizado es SWORD.

La Pasarela conCIENCIA > DIGITAL.CSIC está accesible todo el año a la comunidad bibliotecaria del CSIC encargada del Servicio del Archivo Delegado en su centro/instituto CSIC y a los administradores del repositorio DIGITAL.CSIC. A través de una sencilla interfaz, es posible realizar consultas sobre la producción científica, docente y divulgativa CSIC alojada en conCIENCIA. Desde 2013 más de la mitad de los nuevos contenidos depositados en el repositorio institucional se canalizan a través de esta herramienta, que convive con la modalidad de carga del software del repositorio DSpace. Esta integración ha permitido acelerar el ritmo de crecimiento del repositorio, reducir el registro manual de metadatos y eliminar la inserción repetitiva de datos en distintas plataformas institucionales.

La Universidad de St. Andrews usa PURE como sistema integrado de gestión de información científica institucional y actúa también como fuente de alimentación de datos de su repositorio de acceso abierto Research@ St. Andrews montado sobre DSpace.

HKU Scholars Hub de la Universidad de Hong Kong funciona tanto como CRIS institucional como repositorio de acceso abierto y está montado sobre DSpace y el módulo CRIS de código abierto desarrollado por CINECA.

Los CRIS están ampliamente extendidos en las universidades holandesas y usan el sistema METIS. El portal nacional NARCIS recoge información científica generada en el país a partir de fuentes heterogéneas como repositorios institucio-nales, los CRIS universitarios y la plataforma nacional EASY para datos de investigación.

El sistema nacional de información científica en Noruega se llama CRIStin y es mantenido por la Universidad de Oslo. Consta tanto de metadatos de publicaciones como de textos completos, de los que a su vez se alimentan los repositorios locales, en su mayoría desarrollados con DSpace y BIBSYS.

La plataforma Lattes es el principal sistema de información científica en Brasil y depende del Conselho Nacional de Desenvolvimento Científico e Tecnológico. Permite gestio-nar la información curricular de investigadores e institu-ciones mediante el programa de código abierto scriptLattes. Es fuente de datos para los repositorios institucionales.

Estándares internacionales emergentes y nuevos productos

Tanto los CRIS como los repositorios han puesto de manifiesto lo mucho que hay por hacer para que la gestión, la evaluación y el intercambio de la información científica digital alcancen estándares internacionales de interoperabilidad, integración y exhaustividad. Tras una primera fase en que los esfuerzos de los CRIS se centraron en abordar la integración técnica de bases de datos locales e institucionales ya existentes y aisladas entre sí, en implementar procesos de recuperación automatizada de datos y en facilitar la interoperabilidad con los repositorios institucionales, en la actualidad hay un creciente interés en consensuar formatos y vocabularios válidos a nivel global para que la información sea fácilmente intercambiable y reutilizable por múltiples infraestructuras en la web.

Entre las iniciativas de mayor dinamismo y apoyo internacional destaca ORCID, una organización que desarrolla el identificador numérico de autor que se está convirtiendo en estándar internacional de facto para superar los problemas derivados de la desambiguación de autoría en el medio digital. Otras propuestas de colaboración internacional para promocionar estándares incluyen FundRef para la identificación de fuentes de financiación mientras que entre los esfuerzos por construir una ontología semántica de aplicación global para repositorios de acceso abierto destaca la labor de COAR a través de su grupo de trabajo de vocabularios controlados, cuyo objetivo es transformar el vocabulario info:eu, originariamente desarrollado por los sistemas DRIVER y OpenAire, en un estándar internacional para repositorios e interoperable con otras infraestructuras de gestión de información científica y resultados de investigación.

Al mismo tiempo, nuevas oportunidades empresariales y de innovación tecnológica se abren camino dentro de este panorama tan dinámico. Así, han aparecido empresas dedicadas a desarrollar programas para la gestión de información científica para agencias financiadoras desde una perspectiva integrada para optimizar resultados y el intercambio de información entre distintas infraestructuras. Entre ellas, cabe mencionar UberResearch, incorporada también a la familia de Digital Science-Macmillan, y ResearchFish, originariamente un prototipo diseñado para el UK Medical Research Council y en vías de implementación en un número creciente de instituciones británicas de investigación médica y agencias financiadoras.

Para terminar, la multiplicación de nuevos formatos y tipologías de resultados de investigación y de otras actividades susceptibles de ser analizables y evaluadas por universidades, centros de investigación y agencias financiadoras, así como la aparición de nuevos indicadores de impacto han traído consigo la urgencia por implantar estándares para identificar y describir metodologías, instrumentos, recursos y hechos, como por ejemplo la iniciativa NISO sobre indicadores de impacto alternativos. Nuevos servicios han hecho su aparición también en este territorio, y por ejemplo Snowball Metrics, testado en el Reino Unido y en proceso de despliegue internacional, tiene como objetivo la introducción de metodologías para métricas de impacto que permitan a las universidades y centros realizar ejercicios de evaluación desde enfoques globales comparativos.

Categorías

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

* Se requiere casilla de verificación RGPD

*

I agree