Dans cette section, nous analysons ce qu'est un document textuel pour
déterminer les critères amenant à une bonne représentation numérique.
Le cours sur le Web a déjà introduit un exemple de représentation
numérique de document dont une caractéristique essentielle est de
représenter contenu et structure d'un côté dans le langage
HTML
et
présentation d'un autre côté avec une feuille de style
CSS
. Cette
représentation facilite les traitements et la transmission à travers
les réseaux et permet l'affichage sur tout type d'écran. Cette
distinction entre structure, contenu et présentation est plus générale
et résulte de l'analyse de ce qu'est un document textuel.
L'analyse des documents textuels met en évidence quatre vues complémentaires : les vues séquentielle, structurée, qualifiée et de présentation.
Le premier constat évident est qu'un document textuel est une suite de symboles. C'est la vue séquentielle du document. L'ordre est important et le parcours naturel est de commencer par le début, passer d'un symbole au symbole suivant jusqu'à la fin.
Grâce à cette organisation séquentielle, il est déjà possible d'imaginer des traitements : rechercher, remplacer, couper, copier, coller, identifier des mots et pourquoi pas en vérifier l'orthographe, ...
Les mots, phrases et paragraphes définissent une première structuration du document. Cependant, tout document textuel contient des niveaux plus abstraits de structuration : un livre contient une page de titre, une page de garde, une préface, des chapitres ; un rapport contient un titre, un résumé, une introduction, des sections et sous-sections, des listes, etc... C'est la vue structurée . Elle est souvent hiérarchique ou arborescente car il y a des relations d'inclusion : un paragraphe dans une sous-section dans une section dans le document.
Grâce à cette organisation structurelle, de nouveaux traitements sont disponibles : extraire le résumé, numéroter les sections, construire une table des matières, réordonner des sections avec mise à jour de la table des matières, ...
Une troisième vue découle de besoins que l'on peut illustrer par les
exemples suivants : un utilisateur peut souhaiter retrouver la date de
création d'un document, un bibliothécaire cherche des documents par
auteur, par titre, par mot-clef, par édition et numéro d'édition, ou
encore par date. Ces éléments ne figurent pas nécessairement dans le
document mais ils le qualifient. Ce sont des
méta-informations
(ou
métadonnées
), c'est-à-dire des informations à propos des
informations. Elles forment la
vue qualifiée
du document. Très
souvent ces informations sont mémorisées sous la forme de propriétés
(ou attributs) ayant une valeur. Par exemple, la propriété
titre
de ce document vaut
Culture numérique
, la propriété
datecréation
de ce document vaut
10 septembre 2015
, etc...
Grâce à cette vue qualifiée et ces métadonnées , les traitements sur des ensembles de documents sont facilités : on peut classer par auteur, rechercher par titre, ordonner des versions par date, ...
Enfin, les choix du dessin de chaque caractère, de leur taille, de la
couleur du titre, de la taille des marges, etc. participent à
la
présentation ou forme
du document. Cette forme va s'appliquer au
contenu en s'aidant de la structure mais il est important de bien
distinguer la
présentation
et le
contenu structuré
. En effet,
comme vous l'avez vu dans le cours sur le Web, la séparation entre
contenu et structure dans un fichier
HTML
et présentation dans une
feuille de style
css
permet d'afficher un même contenu avec
différentes formes mais aussi de faciliter certains traitements.
Enfin, soyez vigilants car les traitements de textes entretiennent la
confusion entre contenu, structure et forme. Or, un document mis en
forme
n'est pas
un document structuré. Les interfaces proposées qui
semblent très intuitives entraînent souvent de mauvais apprentissages
et de mauvais usages.
Cette vue de présentation est néanmoins très importante pour des questions de communication et de diffusion car il faut toujours adapter la forme à la fonction du document. La forme d'un document pour impression et lecture diffère de la forme d'un document pour affichage sur écran. La forme peut dépendre de l'objectif de communication visé.
Chacune des vues contenu, structure, qualifiée et de présentation est importante. Elles contribuent toutes, à des degrés divers, à des objectifs complémentaires : l'intelligibilité est essentiellement portée par le contenu et la structure ; la lisibilité est majoritairement une affaire de présentation ; la capacité à être efficacement traité par une machine repose sur le contenu, la structure et les métadonnées .