Documents numériques textuels

Nous avons analysé ce qu'est un document textuel. Nous avons mis en évidence les quatre vues de contenu, de structure, de forme et qualifiée. Nous avons discuté des formats de document. Nous allons maintenant étudier comment peuvent être saisis des documents numériques textuels. Nous allons voir deux approches :

Auparavant, nous traitons la question du codage des caractères.

Représentation numérique des caractères

Un document textuel est construit avec des caractères et une séquence de caractères correspond souvent à un texte intelligible par l'homme. Nous présentons donc, dans un premier temps, comment sont représentés en machine les caractères .

Précisons d'abord la notion de caractère en prenant l'exemple de la langue française. Les caractères sont les minuscules, les majuscules, les lettres accentuées, les chiffres, l'espace et les symboles de ponctuation. On peut aussi considérer des caractères comme le "e dans l'o" ou les symboles monétaires...

Mais avec l'internationalisation et la numérisation de textes anciens, il faut être également capable de représenter tous les caractères de toutes les langues, vivantes ou mortes.

Ce travail d'inventaire est long et complexe. Fort heureusement, il existe des groupes internationaux qui ont pour mission d'établir des normes pour la représentation numérique des caractères. C'est le cas du consortium international Unicode fondé il y a plus de 20 ans. Il définit en premier lieu le quoi , c'est-à-dire quels caractères ou symboles il faut coder. À l'heure actuelle, la plupart des caractères et symboles de la très grande majorité des langues sont codés. Mais le consortium introduit régulièrement des nouvelles langues rares ou anciennes ou même des langages comme les Emoji.

Dans ces normes comme Unicode, ce ne sont pas les dessins qui sont répertoriés mais les caractères eux-même. Cette distinction est parfois assez subtile : majuscules et minuscules sont des caractères différents mais un a minuscule en gras ou italique en écriture attachée ou en script est toujours le même caractère. À ces caractères, s'ajoutent des caractères particuliers, dits caractères de contrôle souvent invisibles. C'est par exemple, le caractère qui signifie la fin d'un fichier texte. D'autres proviennent même de l'époque des machines à écrire comme la tabulation, le retour à la ligne ou même le retour chariot qui permettait à la tête d'écriture de revenir en début de ligne.

Le consortium unicode définit en second lieu le comment . Il s'agit d'associer à tout caractère pris en charge par Unicode, un nom et un numéro appelé point de codage . Par exemple, A a pour nom "Latin Capital Letter A" et pour numéro 65, * a pour nom "Asterisk" et pour numéro 42. Ces choix ont une histoire et ont été faits de façon astucieuse pour faciliter certains traitements. Par exemple, pour passer d'une lettre majuscule de notre alphabet à la lettre minuscule correspondante, il suffit d'ajouter 32 à son numéro. Avec Unicode, tout caractère a donc un numéro, il reste à préciser comment ce numéro est représenté comme une suite de 0 et de 1. Il existe différents codages, le plus répandu en place est UTF-8 .

Textes "simples"

Un document textuel peut être réduit à la seule vue séquentielle, c'est-à-dire une simple séquence de caractères. Dans ce cas, le format de représentation privilégié est celui communément appelé texte simple , dont l'extension principale est txt et le logiciel principal pour le manipuler est un éditeur de textes . Pour l'utilisateur, il existe cependant un niveau implicite de structure :

Ce niveau de structure n'est pas explicitement représenté. Par exemple, il n'existe pas de codage de la notion de fin de mot. La notion de mot est le résultat d'un traitement par la machine dépendant des choix des concepteurs des logiciels qui peuvent reposer sur la langue, de la définition des symboles de ponctuation.

Des langages et des logiciels

Au delà de cette structure informelle ou naturelle (les mots, les phrases et les paragraphes), nous avons vu qu'il était important de structurer un document de manière plus explicite et plus précise en déclarant des parties, sections, sous-sections, listes, etc. La définition de cette structure est exclusivement sous la responsabilité humaine. C'est le concepteur du document qui sait quelle organisation, quelle structure associer à son contenu. Il existe deux grandes méthodes pour interagir avec la machine, soit utilisant un langage spécifique qui à l'aide de mots et de symboles permet de décrire la structure comme avec le langage HTML dont nous avons déjà parlé, soit en utilisant les fonctions prédéfinies d'un traitement de texte. Étudions ces deux options un peu plus en détail.

Textes structurés pour décrire des documents textuels

Pour définir un document textuel, on peut décrire les différentes vues sur ce document. On parle alors de composition de document en mode WYSIWYM pour "What You See Is What You Mean", en français ce que vous voyez est ce que vous vous représentez . Pour cela, on va décrire le document par un texte dans un langage de description. Dans ce langage certains caractères ou certaines suites de caractères ont un sens particulier. Les éditeurs de texte servent à écrire directement dans le langage de description, et des logiciels spécifiques sont ensuite utilisés pour calculer une vue de présentation du document à partir de sa description.

Traitement de textes

Quand la définition de la structure se traduit par une suite d'actions dans un logiciel, on parle alors de composition WYSIWYG pour "What You See Is What You Get" en français ce que vous voyez est ce que vous obtenez . Dans ce mode de composition, vos actions définissant la structure, le contenu ou la présentation sont immédiatement interprétées par le logiciel. Vous voyez donc à l'écran une image presque fidèle du document imprimé final. Les logiciels de traitements de textes comme Word ou LibreOffice Writer ou même certains éditeurs de contenu Web fonctionnent selon ce principe.

Le mode WYSIWYG semble très facile d'accès car vous échappez à l'apprentissage contraignant d'un langage de description très formel. Mais vous ne devez pas oublier que l'interaction avec le logiciel repose toujours sur les vues structure, contenu, forme et métadonnées lorsque vous composez un document textuel. En effet, si vous les respectez, vous aurez alors facilement accès aux fonctionnalités de haut niveau des traitements de texte : la génération automatique de table des matières, de bibliographie, d'index ; la réorganisation des sections ; la modification de la présentation dans tout votre document ; ...

L'apprentissage de cette interaction est alors d'apprendre le sens de certaines actions. Vous apprendrez par exemple que le rôle de la touche entrée est d'indiquer une fin de paragraphe ; que la déclaration des sections se fait en cliquant sur le texte du titre puis dans une liste pour sélectionner le niveau de titre etc.

Comment procéder ?

Une dernière caractéristique commune aux langages de description et aux traitements de texte est qu'ils sont extensibles et permettent de s'adapter à des domaines spécifiques. Par exemple, la structure d'un manuel scolaire peut comprendre la notion d'exercice, d'activité, de leçon etc. Être capable de traduire dans la composition de documents chacun de ces éléments structurels est une plus-value qui permet des traitements adaptés, que ce soit dans la présentation ou l'interrogation. Donc une démarche d'analyse préalable à la création d'un document s'avère nécessaire.

Réaliser cette analyse, c'est comprendre qu'un document a des objectifs, qu'il doit parfois respecter des règles liées à ses objectifs. Vous devez avoir réfléchi à ces objectifs, au contenu et à la structure la mieux adaptée. La démarche de composition d'un document suivra, en général, l'ordre suivant :

  1. Saisir le contenu textuel ou importer ce contenu textuel. Votre texte doit respecter les règles de typographie de la langue du document. Votre texte doit être structuré en paragraphes.
  2. Effectuer les déclarations de structure : sections et titres de sections, listes, ... Ces déclarations sont faites à l'aide de styles (par exemple titre de niveau 1). L'emploi du mot style est regrettable car il entraîne des confusions.
  3. Effectuer les choix de présentation basés sur la structure. Par exemple, vous préciserez que le style titre de niveau 1 sera présenté en gras, police Times, 14 pt, avec un retrait à droite de 1cm et un espacement avant de 0.5cm et un espacement après de 0.2 cm.
  4. (3-bis) Cela revient à dire qu'il est préférable de ne jamais utiliser les boutons de mise en forme directe qui sont pourtant en bonne position dans l'interface... Toute les mises en forme doivent être associées aux éléments de structure, et pas à des portions de texte que l'on aurait sélectionnées.

Dans la pratique, il peut être intéressant de réutiliser une mise en forme pour plusieurs documents. Par exemple, tous les rapports d'une même entreprise respectent la même présentation. Pour cela, on utilise la notion de modèle de document .

Enfin, la plupart des métadonnées comme auteur, date de création, date de dernière modification sont ajoutées automatiquement par l'outil s'il a été correctement paramétré au préalable mais vous pouvez ajouter explicitement des métadonnées.

Erreurs communes

Les modes WYSIWYG induisent souvent de mauvaises pratiques. En effet, un utilisateur a souvent tendance à se laisser guider par le rendu sur l'écran en oubliant que

Nous vous donnons donc les conseils suivants :

  1. Respecter les règles de typographie, en particulier de ponctuation
  2. Ne pas aligner/décaler des parties de textes avec des espaces
  3. Ne pas mettre en page en créant des paragraphes vides
  4. Ne pas utiliser les boutons de mises en forme directe