El Español (1810-1814): proyecto de corrección de OCR

Proyecto de corrección de textos transcritos a través de tecnología OCR, en la publicación El Español (Londres).

Tras refugiarse en febrero de 1810 en Inglaterra, José María Blanco White (1775-1841) publicó los 47 números de este periódico, en lengua castellana, desde abril de este año hasta junio de 1814. Considerado como “la más relevante crítica a las Cortes de Cádiz, pero también a las Juntas y a la Regencia, desde el liberalismo”, según Checa Godoy, suscitó animadversión y múltiples reacciones en contra que señalaron a Blanco White como “antipatriota”. La tradición relegaría al olvido al autor y toda su obra; hoy se considera a El Español como el principal periódico del exilio liberal español.

Los contenidos de este periódico son extensos artículos de carácter doctrinal, pero también históricos, políticos, filosóficos, literarios, etc., que son verdaderos ensayos, con referencia a los convulsos acontecimientos que España, Europa y América estaban viviendo, con un denominador común, el ataque ideológico a toda tiranía; acompañados de documentos, dictámenes, cartas, decretos, etc., y noticias extractadas de la actualidad tanto española como europea y americana. Blanco White firmó los artículos con sus iniciales (B.W.) y también con el seudónimo Juan Sin Tierra. Aparecen también textos firmados por Martínez de la Rosa y Flórez Estrada. El Español tuvo una frecuencia mensual, apareciendo el último día de cada mes en números que superan las ochenta páginas, hasta que, debido al estado de salud de Blanco, los tres números que edita en 1814 tendrán una periodicidad bimensual, aumentando su paginación y correspondiendo el último a mayo-junio de este año.

Este proyecto de ComunidadBNE permitirá descubrir y sumergirnos en esta publicación de nuestro fondo prensa histórica, y contribuir a una mejor localización y recuperación de los textos que incluye, mediante la corrección colaborativa del texto obtenido por OCR.

¿Qué es el OCR (Optical Character Recognition)?

En el proceso de digitalización de documentos, los impresos son en primer lugar digitalizados y convertidos a imagen. Posteriormente, el texto es extraído de manera automatizada gracias a la tecnología de reconocimiento óptico de caracteres (OCR). Pero este proceso automático genera errores (por motivos diversos: contraste, tipografías y caracteres o disposición del texto, etc.). Revisar y corregir este texto permitirá búsquedas más precisas, contribuirá a crear un corpus textual “limpio”, o facilitará la producción de otros formatos como el ePub, y ponerlo a disposición de todos.

Consulta el siguiente videotutorial con las pautas básicas para empezar a corregir.

Participa en El Español (1810-1814): proyecto de corrección de OCR contribuyendo con las tareas abiertas

En esta página podrás buscar una tarea mediante el uso del cuadro de búsqueda y pulsando el botón "Buscar" o si lo prefieres, podrás acceder directamente a una tarea de forma aleatoria pulsando el botón "Modo aleatorio"


¡Compártelo en tus redes!

Las cookies nos ayudan a ofrecer nuestros servicios. Al usar nuestros servicios, usted acepta nuestro uso de cookies.