Nous avons analysé ce qu'est un document textuel. Nous avons mis en évidence les quatre vues de contenu, de structure, de forme et qualifiée. Nous avons discuté des formats de document. Nous allons maintenant étudier comment peuvent être saisis des documents numériques textuels. Nous allons voir deux approches :
Auparavant, nous traitons la question du codage des caractères.
Un document textuel est construit avec des caractères et une séquence de caractères correspond souvent à un texte intelligible par l'homme. Nous présentons donc, dans un premier temps, comment sont représentés en machine les caractères .
Précisons d'abord la notion de caractère en prenant l'exemple de la langue française. Les caractères sont les minuscules, les majuscules, les lettres accentuées, les chiffres, l'espace et les symboles de ponctuation. On peut aussi considérer des caractères comme le "e dans l'o" ou les symboles monétaires...
Mais avec l'internationalisation et la numérisation de textes anciens, il faut être également capable de représenter tous les caractères de toutes les langues, vivantes ou mortes.
Ce travail d'inventaire est long et complexe. Fort heureusement, il existe des groupes internationaux qui ont pour mission d'établir des normes pour la représentation numérique des caractères. C'est le cas du consortium international Unicode fondé il y a plus de 20 ans. Il définit en premier lieu le quoi , c'est-à-dire quels caractères ou symboles il faut coder. À l'heure actuelle, la plupart des caractères et symboles de la très grande majorité des langues sont codés. Mais le consortium introduit régulièrement des nouvelles langues rares ou anciennes ou même des langages comme les Emoji.
Dans ces normes comme Unicode, ce ne sont pas les dessins qui sont répertoriés mais les caractères eux-même. Cette distinction est parfois assez subtile : majuscules et minuscules sont des caractères différents mais un a minuscule en gras ou italique en écriture attachée ou en script est toujours le même caractère. À ces caractères, s'ajoutent des caractères particuliers, dits caractères de contrôle souvent invisibles. C'est par exemple, le caractère qui signifie la fin d'un fichier texte. D'autres proviennent même de l'époque des machines à écrire comme la tabulation, le retour à la ligne ou même le retour chariot qui permettait à la tête d'écriture de revenir en début de ligne.
Le consortium unicode définit en second lieu le
comment
. Il s'agit
d'associer à tout caractère pris en charge par Unicode, un nom et un
numéro appelé
point de codage
. Par exemple, A a pour nom "Latin
Capital Letter A" et pour numéro 65, * a pour nom "Asterisk" et pour
numéro 42. Ces choix ont une histoire et ont été faits de façon
astucieuse pour faciliter certains traitements. Par exemple, pour
passer d'une lettre majuscule de notre alphabet à la lettre minuscule
correspondante, il suffit d'ajouter 32 à son numéro. Avec Unicode,
tout caractère a donc un numéro, il reste à préciser comment ce numéro
est représenté comme une suite de 0 et de 1. Il existe
différents codages, le plus répandu en place est
UTF-8
.
Un document textuel peut être réduit à la seule vue séquentielle,
c'est-à-dire une simple séquence de caractères. Dans ce cas, le format
de représentation privilégié est celui communément appelé
texte
simple
, dont l'extension principale est
txt
et le logiciel
principal pour le manipuler est un
éditeur de textes
. Pour
l'utilisateur, il existe cependant un niveau implicite de structure :
Ce niveau de structure n'est pas explicitement représenté. Par exemple, il n'existe pas de codage de la notion de fin de mot. La notion de mot est le résultat d'un traitement par la machine dépendant des choix des concepteurs des logiciels qui peuvent reposer sur la langue, de la définition des symboles de ponctuation.
Au delà de cette structure informelle ou naturelle (les mots, les
phrases et les paragraphes), nous avons vu qu'il était important de
structurer un document de manière plus explicite et plus précise en
déclarant des parties, sections, sous-sections, listes, etc. La
définition de cette structure est exclusivement sous la responsabilité
humaine. C'est le concepteur du document qui sait quelle organisation,
quelle structure associer à son contenu. Il existe deux grandes méthodes
pour interagir avec la machine, soit utilisant un langage spécifique
qui à l'aide de mots et de symboles permet de décrire la structure
comme avec le langage
HTML
dont nous avons déjà parlé, soit en
utilisant les fonctions prédéfinies d'un traitement de texte.
Étudions ces deux options un peu plus en détail.
Pour définir un document textuel, on peut décrire les différentes vues sur ce document. On parle alors de composition de document en mode WYSIWYM pour "What You See Is What You Mean", en français ce que vous voyez est ce que vous vous représentez . Pour cela, on va décrire le document par un texte dans un langage de description. Dans ce langage certains caractères ou certaines suites de caractères ont un sens particulier. Les éditeurs de texte servent à écrire directement dans le langage de description, et des logiciels spécifiques sont ensuite utilisés pour calculer une vue de présentation du document à partir de sa description.
*
est un titre,
**
pour un
sous-titre. Une ligne vide sépare les paragraphes. Un programme
de calcul peut construire une page Web à partir d'une description
textuelle en langage Wiki.
\section{titre de section}
. La forme est définie par les règles
externes de l'édition scientifique. Un programme de calcul prend en
entrée le document texte décrivant le document et produit en sortie
un document lisible et imprimable au format
pdf
respectant ces
règles d'édition.
<
,
>
et
/
pour définir des balises. Par exemple, les balises
<section>
et
</section>
permettent de définir une section. Le corps du document
html
contient le contenu et la structure. L'entête du document
contient des méta données comme le codage des caractères utilisé par
le navigateur pour un affichage correct de la page, mais aussi des
mots clés à destination des robots pour une bonne indexation du
document. Enfin, la forme est définie dans un fichier texte
structuré (une feuille de style) dans
le langage css
.
Quand la définition de la structure se traduit par une suite d'actions
dans un logiciel, on parle alors de composition
WYSIWYG
pour "What
You See Is What You Get" en français
ce que vous voyez est ce que
vous obtenez
. Dans ce mode de composition, vos actions définissant la
structure, le contenu ou la présentation sont immédiatement
interprétées par le logiciel. Vous voyez donc à l'écran une image
presque fidèle du document imprimé final. Les logiciels de
traitements de textes
comme
Word
ou
LibreOffice Writer
ou même
certains éditeurs de contenu Web fonctionnent selon ce principe.
Le mode WYSIWYG semble très facile d'accès car vous échappez à l'apprentissage contraignant d'un langage de description très formel. Mais vous ne devez pas oublier que l'interaction avec le logiciel repose toujours sur les vues structure, contenu, forme et métadonnées lorsque vous composez un document textuel. En effet, si vous les respectez, vous aurez alors facilement accès aux fonctionnalités de haut niveau des traitements de texte : la génération automatique de table des matières, de bibliographie, d'index ; la réorganisation des sections ; la modification de la présentation dans tout votre document ; ...
L'apprentissage de cette interaction est alors d'apprendre le sens de
certaines actions. Vous apprendrez par exemple que le rôle de la
touche
entrée
est d'indiquer une fin de paragraphe ; que la
déclaration des sections se fait en cliquant sur le texte du titre
puis dans une liste pour sélectionner le niveau de titre etc.
Une dernière caractéristique commune aux langages de description et aux traitements de texte est qu'ils sont extensibles et permettent de s'adapter à des domaines spécifiques. Par exemple, la structure d'un manuel scolaire peut comprendre la notion d'exercice, d'activité, de leçon etc. Être capable de traduire dans la composition de documents chacun de ces éléments structurels est une plus-value qui permet des traitements adaptés, que ce soit dans la présentation ou l'interrogation. Donc une démarche d'analyse préalable à la création d'un document s'avère nécessaire.
Réaliser cette analyse, c'est comprendre qu'un document a des objectifs, qu'il doit parfois respecter des règles liées à ses objectifs. Vous devez avoir réfléchi à ces objectifs, au contenu et à la structure la mieux adaptée. La démarche de composition d'un document suivra, en général, l'ordre suivant :
Dans la pratique, il peut être intéressant de réutiliser une mise en forme pour plusieurs documents. Par exemple, tous les rapports d'une même entreprise respectent la même présentation. Pour cela, on utilise la notion de modèle de document .
Enfin, la plupart des métadonnées comme auteur, date de création, date de dernière modification sont ajoutées automatiquement par l'outil s'il a été correctement paramétré au préalable mais vous pouvez ajouter explicitement des métadonnées.
Les modes WYSIWYG induisent souvent de mauvaises pratiques. En effet, un utilisateur a souvent tendance à se laisser guider par le rendu sur l'écran en oubliant que
Nous vous donnons donc les conseils suivants :