Des vues complémentaires

Introduction

Dans cette section, nous analysons ce qu'est un document textuel pour déterminer les critères amenant à une bonne représentation numérique. Le cours sur le Web a déjà introduit un exemple de représentation numérique de document dont une caractéristique essentielle est de représenter contenu et structure d'un côté dans le langage HTML et présentation d'un autre côté avec une feuille de style CSS . Cette représentation facilite les traitements et la transmission à travers les réseaux et permet l'affichage sur tout type d'écran. Cette distinction entre structure, contenu et présentation est plus générale et résulte de l'analyse de ce qu'est un document textuel.

L'analyse des documents textuels met en évidence quatre vues complémentaires : les vues séquentielle, structurée, qualifiée et de présentation.

Le contenu, une vue séquentielle

Le premier constat évident est qu'un document textuel est une suite de symboles. C'est la vue séquentielle du document. L'ordre est important et le parcours naturel est de commencer par le début, passer d'un symbole au symbole suivant jusqu'à la fin.

Grâce à cette organisation séquentielle, il est déjà possible d'imaginer des traitements : rechercher, remplacer, couper, copier, coller, identifier des mots et pourquoi pas en vérifier l'orthographe, ...

La structure, une vue arborescente

Les mots, phrases et paragraphes définissent une première structuration du document. Cependant, tout document textuel contient des niveaux plus abstraits de structuration : un livre contient une page de titre, une page de garde, une préface, des chapitres ; un rapport contient un titre, un résumé, une introduction, des sections et sous-sections, des listes, etc... C'est la vue structurée . Elle est souvent hiérarchique ou arborescente car il y a des relations d'inclusion : un paragraphe dans une sous-section dans une section dans le document.

Grâce à cette organisation structurelle, de nouveaux traitements sont disponibles : extraire le résumé, numéroter les sections, construire une table des matières, réordonner des sections avec mise à jour de la table des matières, ...

Les métadonnées, une vue qualifiée

Une troisième vue découle de besoins que l'on peut illustrer par les exemples suivants : un utilisateur peut souhaiter retrouver la date de création d'un document, un bibliothécaire cherche des documents par auteur, par titre, par mot-clef, par édition et numéro d'édition, ou encore par date. Ces éléments ne figurent pas nécessairement dans le document mais ils le qualifient. Ce sont des méta-informations (ou métadonnées ), c'est-à-dire des informations à propos des informations. Elles forment la vue qualifiée du document. Très souvent ces informations sont mémorisées sous la forme de propriétés (ou attributs) ayant une valeur. Par exemple, la propriété titre de ce document vaut Culture numérique , la propriété datecréation de ce document vaut 10 septembre 2015 , etc...

Grâce à cette vue qualifiée et ces métadonnées , les traitements sur des ensembles de documents sont facilités : on peut classer par auteur, rechercher par titre, ordonner des versions par date, ...

La présentation, une vue pas uniquement graphique

Enfin, les choix du dessin de chaque caractère, de leur taille, de la couleur du titre, de la taille des marges, etc. participent à la présentation ou forme du document. Cette forme va s'appliquer au contenu en s'aidant de la structure mais il est important de bien distinguer la présentation et le contenu structuré . En effet, comme vous l'avez vu dans le cours sur le Web, la séparation entre contenu et structure dans un fichier HTML et présentation dans une feuille de style css permet d'afficher un même contenu avec différentes formes mais aussi de faciliter certains traitements. Enfin, soyez vigilants car les traitements de textes entretiennent la confusion entre contenu, structure et forme. Or, un document mis en forme n'est pas un document structuré. Les interfaces proposées qui semblent très intuitives entraînent souvent de mauvais apprentissages et de mauvais usages.

Cette vue de présentation est néanmoins très importante pour des questions de communication et de diffusion car il faut toujours adapter la forme à la fonction du document. La forme d'un document pour impression et lecture diffère de la forme d'un document pour affichage sur écran. La forme peut dépendre de l'objectif de communication visé.

Un point d'étape

Chacune des vues contenu, structure, qualifiée et de présentation est importante. Elles contribuent toutes, à des degrés divers, à des objectifs complémentaires : l'intelligibilité est essentiellement portée par le contenu et la structure ; la lisibilité est majoritairement une affaire de présentation ; la capacité à être efficacement traité par une machine repose sur le contenu, la structure et les métadonnées .