A partir de ahora inauguro una nueva sección en el blog: preguntas y respuestas. En este blog tratamos de poner la mayor cantidad de información posible que los ayude a tomar decisiones sobre cómo armar su proyecto de digitalización, pero a veces no alcanza, y entonces es cuando algunas personas entran en contacto para hacer preguntas por privado. No van a ser artículos tan elaborados, pero espero que igual les resulten de utilidad. Y obviamente dejamos cosas afuera: por ejemplo, acá no hablo de herramientas de post-procesamiento.

Ahora sí, vamos a la consulta. Fernando me escribe un correo porque están armando una propuesta para un proyecto de digitalización. Esta es su consulta:

Nosotros queremos proponer digitalizar el fondo antiguo de una institución, donde poseen libros de los siglos XVI – XIX. Podríamos hacer esta tarea con los incunables y obras más antiguas, teniendo en mente como primer objetivo la preservación. Estas son las dudas que todavía tenemos.

Estuve leyendo tu blog, pero todavía tengo dudas: ¿qué es el proyecto GLAM? No termino de entender si es una asociación civil, una sociedad de amigos, o un colectivo virtual que trabaja desde Internet.

En términos prácticos, creo que no existe algo así como el “proyecto GLAM”. GLAM es un acrónimo por “Galleries, Libraries, Archives & Museums”, y he visto también que la sigla se usa bastante en castellano (como BAM = Bibliotecas, Archivos y Museos). Sin ir más lejos, existe el EBAM, que es un encuentro que reúne a profesionales del sector.

La idea detrás de “Open GLAM” es que es un espacio abierto a la conversación de todo el sector profesional que está trabajando en la intersección del patrimonio cultural digital y el acceso abierto (de ahí lo de “open”). Cualquiera puede participar, y en ese sentido no es una entidad legal ni un grupo específico de gente; es un hashtag en Twitter (#openGLAM u @openglam), una conversación profesional, un sitio web, una red de profesionales. Es como el movimiento del “acceso abierto” en bibliotecas y en ciencia.

openglam_corazon
Logo de Open GLAM.

¿Qué hago yo dentro de este espacio difuso del “Open GLAM”? Varias cosas. En principio estoy ayudando con la curaduría de una publicación en Medium llamada Open GLAM; curo la cuenta de Twitter @openglam, donde invitamos a gente de todos los países que están trabajando en esta intersección de GLAM y acceso abierto a compartir durante dos semanas cómo ven esto en su región. En este momento, además, estamos impulsando junto con la Fundación Wikimedia, Creative Commons y otros, una Declaración sobre Acceso Abierto para el Patrimonio Cultural. Esto incluye también revitalizar un poco el sitio web Open GLAM.

Dicho esto, no hay una relación directa entre armar un proyecto de digitalización y la participación en “open GLAM”, aunque de alguna manera “open GLAM” presupone algunas condiciones sobre el patrimonio cultural, por ejemplo, que esté digitalizado o que haya algún tipo de información que pueda ser re-utilizada en proyectos de datos abiertos enlazados, como Wikidata.

¿Qué es el proyecto de “los escáneres DIY”? ¿Cómo se arma un escáner DIY? ¿Cuánto cuesta aproximadamente?

El proyecto de los escáneres DIY es, en efecto, algo separado del movimiento de “Open GLAM”, aunque haya vasos comunicantes entre ambos.

También vale la pena señalar que construir un escáner de libros y armar un proyecto de digitalización son objetivos que pueden ser complementarios, pero de naturaleza radicalmente diferente. Lo que hay que hacer es analizar primero si conviene o no armar un escáner de este tipo o ir por otras opciones.

Los escáneres DIY son un proyecto que nació en Estados Unidos allá por el año 2009 (¡hace ya diez años!), cuando Daniel Reetz armó su primera versión de un escáner de libros “do it yourself”, publicó las instrucciones de cómo hacerlo en Internet, y armó un foro para compartir ideas sobre cómo armar escáneres de libros “do it yourself”. A mí me introdujo en este tema un amigo cuando me mostró el foro de los escáneres DIY. En Argentina hay varias personas que han tomado esta idea y armado sus propios diseños.

ArchivistDSC09059_full-1024x1024
El Archivista por Daniel Reetz.

Mi experiencia es armando los escáneres de Daniel (el Hackerspace primero y el Archivista después). Trabajé con él durante varios años y entiendo que hay muchas ventajas respecto de su diseño en relación con otros diseños que circulan. Por supuesto, mucho de esto también queda atado a estimaciones de cálculo-beneficio: qué y cuánto material se quiere digitalizar, de cuánto dinero disponemos, o de la disponibilidad de ciertos materiales para armar el escáner.

Lo que sigue ahora es una recomendación sobre el Archivista. Si siguen el link van a encontrar una guía muy completa sobre cómo armarlo. Pero obviamente también pueden ir al foro de los escáneres DIY y encontrar variedades de escáneres.

Primero: lista de materiales

Lo primero para armar un escáner DIY (y estimar el costo) es armar una lista de los materiales que necesitamos. Esta es una lista un poco incompleta pero que permite armar un presupuesto inicial. No tiene precios porque vivimos en Argentina. Hay que tener en cuenta que hablamos de las Raspberry porque en el modelo “Archivista” tal como lo estaba entregando yo, lo entregaba con los controladores para tomar las imágenes con las cámaras. La Raspberry utiliza este programa: PiScan.

Segundo: planos

Lo segundo es contar con los planos. Los planos están disponibles acá en su versión más sofisticada y acá en su versión lista para corte.

Tercero: maderas y/o cortes

Lo tercero, es encontrar un proveedor que pueda hacer los cortes en la madera (se utiliza una máquina especial conocida como “CNC router”). Los cortes también se pueden hacer a mano con las herramientas adecuadas, aunque obviamente es más intensivo en mano de obra, o con una cortadora láser. Las cortadoras láser tienen sus complejidades.

En este escáner se utiliza una madera de bastante buena calidad, como es el contrachapado de abedul (por cierto, no hace falta que sea de abedul, aunque es recomendable). Hay otro tipo de maderas como el MDF o el aglomerado que son un poco más baratas, pero obviamente de menor calidad y enfrentan otros desafíos a la hora de ser cortadas con láser. Además utiliza un tipo de plástico especial para el módulo de iluminación, pero esto se consigue en Argentina.

Cuarto: cámaras

El cuarto costo son las cámaras. Cómo elegir una cámara es un tema de debate bastante largo, porque las opciones varían bastante. Primero, lo que NO tenemos que mirar: los DPI. Las cámaras no miden en DPI y en general los DPI por sí solos son una medida bastante inútil para determinar la calidad de una imagen, y solamente son relevantes a la hora de hacer OCR. En general nos conviene mirar otras cosas, pero fundamentalmente es la cantidad de megapíxeles (acá más sobre el tema) y la compatibilidad del dispositivo con gphoto2 o CHDK si vamos a usar el controlador de PiScan.

CHDK_Logo_2.jpg
Controlar las cámaras, uno de los grandes desafíos.

Yo, personalmente, no empezaría por las obras del tesoro: en general son libros que queremos tratar de capturar en detalle y con buena calidad. Para eso necesitamos cámaras que son caras.

Dicho esto, el principio constructivo detrás de estos escáneres es relativamente simple: dos cámaras que apuntan a una página que idealmente permanece plana mediante algún mecanismo, como un vidrio que la aplana. Obviamente lo demás se va en mejores materiales, diseños más sólidos, etcétera. Pero remarco esto porque si la intención es digitalizar un par de libros o un par de páginas, hay opciones más simples y baratas.

¿Cómo se arma un proyecto de digitalización? ¿Cuánto cuesta en total un proyecto de digitalización, entre dispositivos y honorarios? ¿Cuánto tiempo lleva digitalizar unos mil volúmenes?

Esta es una pregunta compleja de responder, por dos razones. La primera es que depende mucho de qué tipo de proyecto estemos hablando. No es lo mismo digitalizar fotos que libros, papeles sin encuadernar que libros, u otro tipo de materiales. Incluso dentro del mundo de los materiales impresos nos vamos a encontrar con suficiente variedad como para que tengamos que hacer una evaluación de cuál es el equipamiento que nos conviene, lo que obviamente va a afectar a nuestro presupuesto. En definitiva, no siempre se necesita un escáner de libros. Esta es la primera evaluación que tenemos que hacer antes que todas las demás: ¿qué es exactamente lo que necesitamos?

En términos presupuestarios, hay una serie de elementos que no hay que dejar de lado. Obviamente tenemos el costo del equipamiento que es importante, pero también tenemos que considerar otros costos que pueden impactar:

  • ubicación y mobiliario: ¿dónde va a estar trabajando la persona? ¿tiene todo lo que necesita, incluyendo mesas y conexión eléctrica? ¿entra luz o podemos trabajar con el escáner a oscuras? Hay que considerar todo para saber si hay que hacer algún tipo de readaptación del espacio de trabajo, o buscar un lugar más adecuado.
  • computadoras de post-procesamiento: siempre es recomendable tener al menos una computadora donde se puedan post-procesar las imágenes y que sea relativamente nueva (idealmente con una arquitectura de 64 bits)
  • dispositivos de almacenamiento: ¿dónde vamos a guardar las imágenes que vayamos generando? Las opciones pueden ir desde alquilar un servidor en la nube de Amazon hasta la opción más barata, como los discos rígidos externos, que no es siempre la mejor.
  • otros dispositivos para control de calidad: por ejemplo, si estamos tomando imágenes a color con cámaras de buena calidad, necesitamos implementar otro proceso que incluya cartas de colores, de grises, dispositivos para controlar la calibración de los monitores, etcétera.
  • estado de la colección: ¿necesito hacer un tipo de conservación preventiva? ¿los materiales se pueden manipular tranquilamente o necesitamos manipularlos con guantes, etc.?

Ahora, sobre cómo calcular tiempo de trabajo, esto en general puede resultar más complejo. Hay varias formas de calcular los tiempos, algunas son más precisas, otras menos. En general, lo que hay que calcular en todos los casos no es solamente el tiempo de digitalización, sino también el postprocesamiento, la subida de los materiales, estado de los materiales (si son materiales frágiles voy a tardar más en manipularlos), y tiempos muertos.

scan_tailor
El postprocesamiento, el rey de los tiempos muertos.

El tiempo base va a ser siempre la cantidad de horas que nos va a llevar digitalizar una cierta cantidad de páginas. Para hacer eso tenemos dos opciones, tomar una muestra (una cierta cantidad representativa de libros) y proyectar a partir de eso, o podemos medir por volumen, por ejemplo, medimos el grosor de los libros (cuánto ocupan en total en un estante), cuántas páginas entran por cm, y extrapolamos a la cantidad de metros que tenemos en la biblioteca de los libros que queremos digitalizar.

Nuestra unidad de medida en definitiva siempre va a ser la misma (páginas) pero va a variar cómo vamos a estimar la cantidad de páginas.

Para calcular el tiempo lo más conveniente es hacer una muestra. Si conocemos a una biblioteca que ya tenga un escáner de libros podemos pedirles que nos dejen escanear uno o dos libros, y si no es el caso, la opción es digitalizarlo con un escáner de cama plana, y seguir todo el proceso de postprocesamiento con ScanTailor, por ejemplo, o con alguna otra herramienta de nuestra preferencia.

Lo mejor es siempre agregar entre un 15% y 20% más del tiempo que estamos calculando en total. Esto dice poco sobre cuánto lleva digitalizar 1000 libros (que era la pregunta inicial), pero ayuda a estimar al menos cuánto tiempo puede llevar.

En términos de costos, hay muchas decisiones que pueden hacer que los costos de la mano de obra varíen dramáticamente. Por ejemplo, si la biblioteca es una institución pública y ya tiene a alguien del personal comprometido a hacer el trabajo, no es necesario considerar ese costo a la hora de presupuestar. Si hay que pagarle a alguien externo, entonces hay que presupuestarlo. Cómo presupuestar mano de obra depende mucho de qué convenio colectivo de trabajo se tome como referencia o qué tipo de contrato se haga con la persona. En algunos casos incluso se podría cubrir la mano de obra con personas voluntarias.

¿Qué pasa con las obras una vez que están digitalizadas? ¿Dónde deberían subirse?

Esto en general es decisión de la institución. Yo recomiendo leer justamente este post que traduje hace poco: “¿Todavía necesitamos colecciones en línea?“.

Si son obras que están en el dominio público, hay que hacer una evaluación muy cuidadosa para ver si tiene sentido o no embarcarse en la tarea de armar un Content Management System (CMS) o un gestor de colecciones. Depende mucho de la institución, cómo están gestionando su catálogo en línea, etcétera.

Lo que sí me parece clave es recordar algo: digitalizar es un trabajo mecánico, muy mecánico, y poco edificante. Lo mejor que se puede hacer es publicar rápido y mostrar resultados rápidos, incluso si no es en el megasitio perfecto. Construir esos gestores de colecciones lleva tiempo, involucra aún más presupuesto, y muchas veces el dinero (y el tiempo) estaría mejor invertido en tratar de que las colecciones estén en todos lados, se visibilicen y la gente las use que en cualquier otra cosa.

open_access_logo
El logo del acceso abierto.

En definitiva, la institución tiene que tener un consenso básico sobre implementar una política de acceso abierto y de publicación rápida. Lo que sí está clarísimo es que digitalizar para no subir a Internet, o digitalizar para que quede viviendo en algún disco externo, es una pésima política. No tiene sentido digitalizar el material para que vayan a consultarlo a la biblioteca o a la institución física.


Algo de bibliografía adicional de consulta

Les recomiendo los siguientes materiales para seguir profundizando en el tema. Por desgracia están en inglés porque hay pocas cosas bien escritas en castellano sobre el tema.