La production de documents d'archives numérisés à afficher sur le Web nécessite une équipe variée de personnes compétentes pour photographier, transcrire et encoder chaque document.
L'équipe d'imagerie numérique saisit les images des collections conformément aux normes de l'industrie en matière de saisie numérique, de traitement et d'archivage des documents d'archives.
Les fichiers d'images d'archives sont créés tout en couleur (24 bit RVB) à une résolution de 300 pixels ou points par pouce (ppp). Les commandes de variation de teinte et d'équilibre chromatique sont établies avant de saisir les images, afin de créer des substituts numériques dont l'apparence correspond exactement à celle des documents originaux. L'accentuation des contours des images est effectuée au besoin pendant le processus de transformation des images, à l'aide d'un algorithme de masquage flou, pour produire des images qui correspondent approximativement aux images originales. Les images d'archives sont mises en mémoire dans la forme de fichiers non compressés en format TIFF (ordre d'octet Intel, version 6 d'en-tête).
Afin d'améliorer l'accès réseauté aux images, des substituts à résolution réduite sont dérivés des fichiers d'images d'archives en format TIFF. Des substituts sous forme de vignettes et des substituts grandeur nature sont créés à une résolution de 72 ppp et sauvegardés tout en couleur en fichiers de format JPEG (24 bit RVB).
Les images d'archives (en format TIFF) sont sauvegardées aux CD-R et les substituts (en format JPEG) sont téléchargés vers un serveur Unix/Apache qui fait l'objet d'une sauvegarde informatique effectuée pendant la nuit.
Les métadonnées descriptives sont créées aux niveaux des documents et des images composantes, selon l'infrastructure de métadonnées enrichie du Dublin Core utilisée par l'Electronic Text Centre (ETC). Le projet s'appuie sur le cadre du Dublin Core en matière de normes terminologiques et vocabulaires normalisés visant à créer des enregistrements de métadonnées qui sont riches et très portatifs.
Les transcriptions sont tapées en format de fichier de traitement de texte par les transcripteurs selon des conventions éditoriales visant à faciliter l'encodage automatique de la transcription en XML. Les transcriptions sont vérifiées par deux personnes qui les lisent à haute voix.
Tous les textes sont encodés en XML (langage de balisage extensible) et conformément aux lignes directrices de l'Initiative d'Encodage de Textes (TEI) pour la représentation de textes électroniques en mode numérique.
L'encodage initial des transcriptions de documents est automatisé dans le langage PERL pour la mappage des structures et des conventions textuelles dans la transcription, pour qu'elles correspondent aux éléments de la TEI. Une fois le mappage achevé, le texte transcrit est encodé au moyen du balisage approprié de la TEI.
Ensuite, les codeurs du projet vérifient et révisent l'encodage initial XML en se servant de oXygen XML Editor. En plus de corriger les erreurs et les omissions dans le texte ou le balisage, les codeurs s'occupent de plusieurs tâches majeures :
Les codeurs veillent à ce que l'entrée des éléments de métadonnées soit effectuée de façon convenable. Chaque document XML comporte des métadonnées descriptives sur le document, le document d'origine sur lequel il est basé et les conventions appliquées dans l'encodage.
En se servant d'images et de métadonnées créées par l'équipe d'imagerie numérique, les codeurs trouvent les images de documents d'origine et créent des liens au texte encodé.
Les codeurs attribuent un identificateur unique à chaque nom personnel ou géographique, ce qui permet d'indexer de manière cohérente les noms aux épellations variées, tels qu'identifiés par l'équipe de recherches.