1. Représenter c'est choisir...

1.1. Cours

(Réduire le cours)

Pourquoi représenter l'information sous format numérique ? En premier lieu, c'est un changement de support. Par exemple pour un roman, il faut passer d'un support papier à un support numérique compréhensible par une machine pour qu'elle puisse le stocker et l'afficher. Il faut donc représenter le roman comme une suite de 0 et de 1 et inversement passer de cette suite de 0 et 1 en un texte lisible.

Il faut aussi pouvoir échanger. Plutôt que de se prêter un roman sur support papier, c'est sa représentation numérique qui sera copiée à travers le réseau. Il est donc nécessaire que l'émetteur et le récepteur (en l'occurrence les logiciels utilisés par chacun d'eux) soient d'accord sur la façon de représenter l'ouvrage.

Retrouver le titre et l'auteur du roman est une tâche qui vous semble évidente. Elle sera rendue plus facile et sûre pour une machine si la représentation choisie contient explicitement la désignation du titre et de l'auteur.

De même, considérons la classification du roman dans les catégories policier, historique ou libertin. Cette tâche est difficile pour une machine sauf à spécifier dans la représentation la catégorie définie par un expert humain. Terminons par l'exemple d'une vidéo. En tant qu'humain, vous reconnaîtrez sans problème des personnages connus dans les images. Ici encore, c'est une tâche très difficile pour une machine sans une représentation adéquate et des informations complémentaires. Par conséquent, la représentation numérique d'une information peut être enrichie pour faciliter les traitements relatifs à de telles tâches.

La numérisation ne se limite pas à un changement de support. En effet, elle permet des traitements automatiques sur des grandes quantités de documents.

Par exemple comment faire en sorte que votre smartphone reconnaisse un morceau de musique chantonné ? À l'aide d'un logiciel transformant les sons en un codage astucieux, votre voix est numérisée, puis la représentation numérique qui a été produite est envoyée à un service possédant un très grand nombre de morceaux de musique représentés avec le même codage, après comparaison le morceau le plus proche pourra être envoyé vers votre smartphone.

Nous allons dans ce module, présenter les bases de la représentation numérique de l'information. Ce domaine est vaste. Nous avons fait le choix de nous restreindre à un message principal : la représentation numérique d'une information est un processus conçu par l'homme, reposant sur des choix conceptuels, organisationnels et scientifiques et assurant la possibilité de traitements numériques. Divers critères vont gouverner le choix d'une telle représentation :

la pertinence : modélise-t-elle bien l'information et permet-elle de réaliser les traitements souhaités ?
l'économie : est-elle économe en taille pour permettre un stockage et des échanges rapides ?
l'efficacité : les traitements envisagés pourront-ils se faire rapidement ?
la sûreté ou la confidentialité : permet-elle de cacher l'information ou d'en contrôler les accès ?

Cette liste est non exhaustive. Les concepteurs, informaticiens en relation avec des experts métier, vont effectuer les choix de représentation. C'est un processus créatif complexe car l'espace des solutions possibles est immense, ce qui explique la très grande diversité des représentations numériques.

Un choix de représentation aura un impact important sur les traitements possibles. Ces traitements sont accessibles à travers des logiciels et prendre conscience des choix de représentation contribue à une compréhension plus profonde et une utilisation bien plus efficace et réfléchie de ces logiciels.

Nous allons considérer, dans un premier temps, la représentation numérique des documents textuels. Le cours devrait vous permettre de transposer les notions présentées dans d'autres domaines. En particulier, à la fin du cours, les questions liées à la parole, l'image et la vidéo seront esquissées pour vous guider dans le monde numérique multimédia.

(Réduire le cours)

(Montrer la suite)

Representer c'est choisir

La numérisation ne se limite pas à un changement de support. En effet, elle permet des traitements automatiques sur des grandes quantités de documents.

la pertinence : modélise-t-elle bien l'information et permet-elle de réaliser les traitements souhaités ?
l'économie : est-elle économe en taille pour permettre un stockage et des échanges rapides ?
l'efficacité : les traitements envisagés pourront-ils se faire rapidement ?
la sûreté ou la confidentialité : permet-elle de cacher l'information ou d'en contrôler les accès ?

1.2. Compréhension

Représenter et manipuler

Les traitements possibles dépendent fortement des choix de représentation

Vrai
Faux

Quelles données ?

La représentation numérique d'un livre peut inclure des données qui ne se limitent pas au contenu textuel. Donnez quelques exemples.

De la variété ?

Il n'existe qu'une seule façon de représenter numériquement un livre.

Vrai
Faux

Comment choisir ?

Donnez des exemples de critères qui peuvent gouverner le choix d'une représentation numérique.

Qui choisit ?

Les choix de représentations sont faits par

Les informaticiens
Les experts métier
Les deux

1.3. Activité

Une tâche complexe

Représenter et normaliser est une tâche complexe : l'exemple de HTML. En vous rendant sur les pages wikipedia de HTML et du W3C . Répondez aux questions suivantes :

Quelle est l'origine de HTML ?
Qui développe et publie les spécifications HTML depuis 1995 ?
Quelle est la version la plus récente de HTML et son année de parution ?
Qui participe au développement du standard HTML au W3C ?
Quelles sont les étapes pour arriver à être une recommandation ?
Qui est responsable du standard css pour les feuilles de style ?

4. Documents numériques textuels

4.1. Cours

(Réduire le cours)

Documents numériques textuels

Nous avons analysé ce qu'est un document textuel. Nous avons mis en évidence les quatre vues de contenu, de structure, de forme et qualifiée. Nous avons discuté des formats de document. Nous allons maintenant étudier comment peuvent être saisis des documents numériques textuels. Nous allons voir deux approches :

l'une dans laquelle on décrit les différentes vues sur le document dans un texte structuré,
l'autre qui repose sur une approche plus orientée vers le rendu souhaité.

Auparavant, nous traitons la question du codage des caractères.

Représentation numérique des caractères

Un document textuel est construit avec des caractères et une séquence de caractères correspond souvent à un texte intelligible par l'homme. Nous présentons donc, dans un premier temps, comment sont représentés en machine les caractères .

Précisons d'abord la notion de caractère en prenant l'exemple de la langue française. Les caractères sont les minuscules, les majuscules, les lettres accentuées, les chiffres, l'espace et les symboles de ponctuation. On peut aussi considérer des caractères comme le "e dans l'o" ou les symboles monétaires...

Mais avec l'internationalisation et la numérisation de textes anciens, il faut être également capable de représenter tous les caractères de toutes les langues, vivantes ou mortes.

Ce travail d'inventaire est long et complexe. Fort heureusement, il existe des groupes internationaux qui ont pour mission d'établir des normes pour la représentation numérique des caractères. C'est le cas du consortium international Unicode fondé il y a plus de 20 ans. Il définit en premier lieu le quoi , c'est-à-dire quels caractères ou symboles il faut coder. À l'heure actuelle, la plupart des caractères et symboles de la très grande majorité des langues sont codés. Mais le consortium introduit régulièrement des nouvelles langues rares ou anciennes ou même des langages comme les Emoji.

Dans ces normes comme Unicode, ce ne sont pas les dessins qui sont répertoriés mais les caractères eux-même. Cette distinction est parfois assez subtile : majuscules et minuscules sont des caractères différents mais un a minuscule en gras ou italique en écriture attachée ou en script est toujours le même caractère. À ces caractères, s'ajoutent des caractères particuliers, dits caractères de contrôle souvent invisibles. C'est par exemple, le caractère qui signifie la fin d'un fichier texte. D'autres proviennent même de l'époque des machines à écrire comme la tabulation, le retour à la ligne ou même le retour chariot qui permettait à la tête d'écriture de revenir en début de ligne.

Le consortium unicode définit en second lieu le comment . Il s'agit d'associer à tout caractère pris en charge par Unicode, un nom et un numéro appelé point de codage . Par exemple, A a pour nom "Latin Capital Letter A" et pour numéro 65, * a pour nom "Asterisk" et pour numéro 42. Ces choix ont une histoire et ont été faits de façon astucieuse pour faciliter certains traitements. Par exemple, pour passer d'une lettre majuscule de notre alphabet à la lettre minuscule correspondante, il suffit d'ajouter 32 à son numéro. Avec Unicode, tout caractère a donc un numéro, il reste à préciser comment ce numéro est représenté comme une suite de 0 et de 1. Il existe différents codages, le plus répandu en place est UTF-8 .

Textes "simples"

Un document textuel peut être réduit à la seule vue séquentielle, c'est-à-dire une simple séquence de caractères. Dans ce cas, le format de représentation privilégié est celui communément appelé texte simple , dont l'extension principale est txt et le logiciel principal pour le manipuler est un éditeur de textes . Pour l'utilisateur, il existe cependant un niveau implicite de structure :

un mot est une suite de caractères séparés par des espaces ou des caractères de ponctuation ;
une phrase est une suite de mots dont le premier commence par une lettre capitale et qui se termine par un point ;
un paragraphe est une suite de mots séparés par des fins de paragraphes.

Ce niveau de structure n'est pas explicitement représenté. Par exemple, il n'existe pas de codage de la notion de fin de mot. La notion de mot est le résultat d'un traitement par la machine dépendant des choix des concepteurs des logiciels qui peuvent reposer sur la langue, de la définition des symboles de ponctuation.

Des langages et des logiciels

Au delà de cette structure informelle ou naturelle (les mots, les phrases et les paragraphes), nous avons vu qu'il était important de structurer un document de manière plus explicite et plus précise en déclarant des parties, sections, sous-sections, listes, etc. La définition de cette structure est exclusivement sous la responsabilité humaine. C'est le concepteur du document qui sait quelle organisation, quelle structure associer à son contenu. Il existe deux grandes méthodes pour interagir avec la machine, soit utilisant un langage spécifique qui à l'aide de mots et de symboles permet de décrire la structure comme avec le langage HTML dont nous avons déjà parlé, soit en utilisant les fonctions prédéfinies d'un traitement de texte. Étudions ces deux options un peu plus en détail.

Textes structurés pour décrire des documents textuels

Pour définir un document textuel, on peut décrire les différentes vues sur ce document. On parle alors de composition de document en mode WYSIWYM pour "What You See Is What You Mean", en français ce que vous voyez est ce que vous vous représentez . Pour cela, on va décrire le document par un texte dans un langage de description. Dans ce langage certains caractères ou certaines suites de caractères ont un sens particulier. Les éditeurs de texte servent à écrire directement dans le langage de description, et des logiciels spécifiques sont ensuite utilisés pour calculer une vue de présentation du document à partir de sa description.

Les langages Wiki ont été utilisés principalement pour composer des pages Web dans un langage simplifié. On utilise des conventions comme : une ligne qui commence par * est un titre, ** pour un sous-titre. Une ligne vide sépare les paragraphes. Un programme de calcul peut construire une page Web à partir d'une description textuelle en langage Wiki.
Le langage LateX utilisé pour la composition de documents dans le monde scientifique (articles, rapports, thèses, livres). Dans ce langage, le texte structuré décrit le contenu et la structure avec, par exemple, une section commence par la séquence de caractères \section{titre de section} . La forme est définie par les règles externes de l'édition scientifique. Un programme de calcul prend en entrée le document texte décrivant le document et produit en sortie un document lisible et imprimable au format pdf respectant ces règles d'édition.
Le langage html utilise des caractères particuliers comme < , > et / pour définir des balises. Par exemple, les balises <section> et </section> permettent de définir une section. Le corps du document html contient le contenu et la structure. L'entête du document contient des méta données comme le codage des caractères utilisé par le navigateur pour un affichage correct de la page, mais aussi des mots clés à destination des robots pour une bonne indexation du document. Enfin, la forme est définie dans un fichier texte structuré (une feuille de style) dans le langage css .

Traitement de textes

Quand la définition de la structure se traduit par une suite d'actions dans un logiciel, on parle alors de composition WYSIWYG pour "What You See Is What You Get" en français ce que vous voyez est ce que vous obtenez . Dans ce mode de composition, vos actions définissant la structure, le contenu ou la présentation sont immédiatement interprétées par le logiciel. Vous voyez donc à l'écran une image presque fidèle du document imprimé final. Les logiciels de traitements de textes comme Word ou LibreOffice Writer ou même certains éditeurs de contenu Web fonctionnent selon ce principe.

Le mode WYSIWYG semble très facile d'accès car vous échappez à l'apprentissage contraignant d'un langage de description très formel. Mais vous ne devez pas oublier que l'interaction avec le logiciel repose toujours sur les vues structure, contenu, forme et métadonnées lorsque vous composez un document textuel. En effet, si vous les respectez, vous aurez alors facilement accès aux fonctionnalités de haut niveau des traitements de texte : la génération automatique de table des matières, de bibliographie, d'index ; la réorganisation des sections ; la modification de la présentation dans tout votre document ; ...

L'apprentissage de cette interaction est alors d'apprendre le sens de certaines actions. Vous apprendrez par exemple que le rôle de la touche entrée est d'indiquer une fin de paragraphe ; que la déclaration des sections se fait en cliquant sur le texte du titre puis dans une liste pour sélectionner le niveau de titre etc.

Comment procéder ?

Une dernière caractéristique commune aux langages de description et aux traitements de texte est qu'ils sont extensibles et permettent de s'adapter à des domaines spécifiques. Par exemple, la structure d'un manuel scolaire peut comprendre la notion d'exercice, d'activité, de leçon etc. Être capable de traduire dans la composition de documents chacun de ces éléments structurels est une plus-value qui permet des traitements adaptés, que ce soit dans la présentation ou l'interrogation. Donc une démarche d'analyse préalable à la création d'un document s'avère nécessaire.

Réaliser cette analyse, c'est comprendre qu'un document a des objectifs, qu'il doit parfois respecter des règles liées à ses objectifs. Vous devez avoir réfléchi à ces objectifs, au contenu et à la structure la mieux adaptée. La démarche de composition d'un document suivra, en général, l'ordre suivant :

Saisir le contenu textuel ou importer ce contenu textuel. Votre texte doit respecter les règles de typographie de la langue du document. Votre texte doit être structuré en paragraphes.
Effectuer les déclarations de structure : sections et titres de sections, listes, ... Ces déclarations sont faites à l'aide de styles (par exemple titre de niveau 1). L'emploi du mot style est regrettable car il entraîne des confusions.
Effectuer les choix de présentation basés sur la structure. Par exemple, vous préciserez que le style titre de niveau 1 sera présenté en gras, police Times, 14 pt, avec un retrait à droite de 1cm et un espacement avant de 0.5cm et un espacement après de 0.2 cm.
(3-bis) Cela revient à dire qu'il est préférable de ne jamais utiliser les boutons de mise en forme directe qui sont pourtant en bonne position dans l'interface... Toute les mises en forme doivent être associées aux éléments de structure, et pas à des portions de texte que l'on aurait sélectionnées.

Dans la pratique, il peut être intéressant de réutiliser une mise en forme pour plusieurs documents. Par exemple, tous les rapports d'une même entreprise respectent la même présentation. Pour cela, on utilise la notion de modèle de document .

Enfin, la plupart des métadonnées comme auteur, date de création, date de dernière modification sont ajoutées automatiquement par l'outil s'il a été correctement paramétré au préalable mais vous pouvez ajouter explicitement des métadonnées.

Erreurs communes

Les modes WYSIWYG induisent souvent de mauvaises pratiques. En effet, un utilisateur a souvent tendance à se laisser guider par le rendu sur l'écran en oubliant que

les règles typographiques utilisées par le logiciel vont venir modifier ce rendu. Par exemple, c'est le logiciel qui va calculer la largeur d'une espace.
des modifications ultérieures de contenu vont changer la mise en page. Par exemple, l'ajout d'un paragraphe peut changer toute la mise en page du document complet.

Nous vous donnons donc les conseils suivants :

Respecter les règles de typographie, en particulier de ponctuation
Ne pas aligner/décaler des parties de textes avec des espaces
Ne pas mettre en page en créant des paragraphes vides
Ne pas utiliser les boutons de mises en forme directe

(Réduire le cours)

(Montrer la suite)

Documents numériques textuels

l'une dans laquelle on décrit les différentes vues sur le document dans un texte structuré,
l'autre qui repose sur une approche plus orientée vers le rendu souhaité.

Auparavant, nous traitons la question du codage des caractères.

Représentation numérique des caractères

Mais avec l'internationalisation et la numérisation de textes anciens, il faut être également capable de représenter tous les caractères de toutes les langues, vivantes ou mortes.

Textes "simples"

un mot est une suite de caractères séparés par des espaces ou des caractères de ponctuation ;
une phrase est une suite de mots dont le premier commence par une lettre capitale et qui se termine par un point ;
un paragraphe est une suite de mots séparés par des fins de paragraphes.

Des langages et des logiciels

Textes structurés pour décrire des documents textuels

Les langages Wiki ont été utilisés principalement pour composer des pages Web dans un langage simplifié. On utilise des conventions comme : une ligne qui commence par * est un titre, ** pour un sous-titre. Une ligne vide sépare les paragraphes. Un programme de calcul peut construire une page Web à partir d'une description textuelle en langage Wiki.
Le langage LateX utilisé pour la composition de documents dans le monde scientifique (articles, rapports, thèses, livres). Dans ce langage, le texte structuré décrit le contenu et la structure avec, par exemple, une section commence par la séquence de caractères \section{titre de section} . La forme est définie par les règles externes de l'édition scientifique. Un programme de calcul prend en entrée le document texte décrivant le document et produit en sortie un document lisible et imprimable au format pdf respectant ces règles d'édition.
Le langage html utilise des caractères particuliers comme < , > et / pour définir des balises. Par exemple, les balises <section> et </section> permettent de définir une section. Le corps du document html contient le contenu et la structure. L'entête du document contient des méta données comme le codage des caractères utilisé par le navigateur pour un affichage correct de la page, mais aussi des mots clés à destination des robots pour une bonne indexation du document. Enfin, la forme est définie dans un fichier texte structuré (une feuille de style) dans le langage css .

Traitement de textes

Comment procéder ?

Saisir le contenu textuel ou importer ce contenu textuel. Votre texte doit respecter les règles de typographie de la langue du document. Votre texte doit être structuré en paragraphes.
Effectuer les déclarations de structure : sections et titres de sections, listes, ... Ces déclarations sont faites à l'aide de styles (par exemple titre de niveau 1). L'emploi du mot style est regrettable car il entraîne des confusions.
Effectuer les choix de présentation basés sur la structure. Par exemple, vous préciserez que le style titre de niveau 1 sera présenté en gras, police Times, 14 pt, avec un retrait à droite de 1cm et un espacement avant de 0.5cm et un espacement après de 0.2 cm.
(3-bis) Cela revient à dire qu'il est préférable de ne jamais utiliser les boutons de mise en forme directe qui sont pourtant en bonne position dans l'interface... Toute les mises en forme doivent être associées aux éléments de structure, et pas à des portions de texte que l'on aurait sélectionnées.

Erreurs communes

Les modes WYSIWYG induisent souvent de mauvaises pratiques. En effet, un utilisateur a souvent tendance à se laisser guider par le rendu sur l'écran en oubliant que

les règles typographiques utilisées par le logiciel vont venir modifier ce rendu. Par exemple, c'est le logiciel qui va calculer la largeur d'une espace.
des modifications ultérieures de contenu vont changer la mise en page. Par exemple, l'ajout d'un paragraphe peut changer toute la mise en page du document complet.

Nous vous donnons donc les conseils suivants :

Respecter les règles de typographie, en particulier de ponctuation
Ne pas aligner/décaler des parties de textes avec des espaces
Ne pas mettre en page en créant des paragraphes vides
Ne pas utiliser les boutons de mises en forme directe

4.2. Compréhension

Unicode def

Qu'est-ce que Unicode ?

une manière standardisée de dessiner des caractères d'une langue.
un standard qui attribue à chaque caractère dans de nombreuses langues, un nom et un numéro.

Point de codage

Quel est le point de codage Unicode du point d'exclamation (!) et son nom ?

Caractère informatique, caractère et glyphe

En informatique le caractère est un peu différent du caractère en typographie...

Le caractère informatique est une notion abstraite pour désigner un symbole d'écriture.
Le caractère informatique peut être invisible.
Le caractère typographique ou glyphe est le dessin imprimé ou reproduit à l'écran.
Le caractère informatique est une émoticône qui permet de représenter un sentiment.

Caractères sans glyphe

Donner des exemples de caractères non imprimables

4.3. Activité

Autres codes -- Un code mécanisé

Que permettait de représenter le code Baudot ?
Pourquoi aujourd'hui ce code Baudot n'est plus utilisé pour représenter les caractères?

Autres codes -- un code par le signal

Que permet de représenter le code Morse
Ce code est basé sur des impulsions et des silences. Quels sont-ils ?
Trouver pour quelle raison la lettre E a le plus court codage ?

Unicode actu

Rendez vous sur le site Unicode .

Allez dans le menu Proposed Changes -- Proposed Characters . Vous y verrez des caractères en attente d'intégration dans le standard.
Allez dans le menu The Consortium -- Who we are . Constatez la diversité du consortium et de son organisation.
Regardez les caractères actuels .
Regardez en particulier Basic Latin qui ont été les premiers caractères codés en informatique dans une table 'ASCII`.

Codage des caractères dans les pages Web

Les caractères sont représentés conformément au standard Unicode et au codage UTF-8 pour 80% des pages Web.

Ouvrez la page suivante puis ensuite cette autre page
Que constatez-vous ?
Consultez les codes sources de ces deux pages (utilisez la séquence de touches CTRL-U ou cmd-U sur Mac pour l'obtenir) et voyez la différence. Recopiez la ligne qui déclare cet encodage du jeu de caractères.

Structure implicite

Ouvrir le fichier suivant avec un éditeur de texte. Modifiez la taille de la fenêtre de l'éditeur en l'agrandissant ou la réduisant. Quelles observations vous permettent de vérifier que le paragraphe est bien un élément de structure et que la ligne n'est pas un élément de structure ?

Compter les mots

On considère le texte suivant :

Bonjour l'ami. Soyez curieux bien-sûr ; essayez-donc ! Signé : marc.latour@yahoo.com

Comptez le nombre de mots.
Saisissez le texte dans LibreOffice et, dans le bas de la fenêtre le logiciel de traitement de textes vous indique le nombre de mots du document ou d'une sélection. Qu'observez-vous pour le texte et pour les parties de textes quant au nombre de mots ? Est-ce le résultat auquel vous vous attendiez ?
Effectuez la même opération dans un éditeur de textes et posez vous les mêmes questions. Vous chercherez dans les différents menus comment obtenir les statistiques du texte qui indiquent le nombre de mots.

4.4. Activité avancée

Les paragraphes, structure explicite

Dans un traitement de textes, la notion de paragraphe est explicite. Il existe un caractère informatique signifiant fin de paragraphe et l'utilisateur l'insère explicitement dans un texte en appuyant sur la touche Entrée . L'appui sur la combinaison MAJ-Entrée insère elle une fin de ligne, mais sans pour autant changer de paragraphe. À vous de constater cela dans votre traitement de textes :

Dans un nouveau document saisissez un très long texte. N'utilisez qu'une seule fois la touche entrée pour signifier que ce long texte est composé de deux paragraphes.
Dans les options de mise en forme des paragraphes centrez le premier. Vérifiez que le second n'est pas centré.
Au milieu du second, appuyez sur MAJ-Entrée pour retourner à la ligne. Dans les options de mise en forme des paragraphes alignez le second paragraphe à droite. Vérifiez que la mise en forme s'applique, y compris après le retour à la ligne.

codage des points de codage -- UTF-8 et UTF-16

Le standard Unicode associe à tout caractère pris en charge par Unicode un nom et un numéro appelé son point de codage. Ce point de codage est un nombre entier qu'il faut encore coder en langage machine, c'est-à-dire avec les seuls symboles 0 et 1 qu'on regroupe dans des suites de huit symboles appelés octets. Rendez vous sur la page wikipedia UTF-8 . Lisez le texte en répondant aux questions suivantes :

Combien peut-on coder de caractères avec UTF-8 ?
Est-ce que tous les caractères sont codées sur le même nombre d'octets ?
Le A a pour nom "LatinCapital Letter A" et pour point de codage 65. Sur combien d'octets est-il codé ? Donner son code binaire.
Quels sont les caractères codés sur 1 octet ?
Donnez des caractères usuels en écriture française qui ne sont pas codés sur un seul octet
Si un octet commence par 0, on peut dire que cet octet code un caractère. Si un octet commence par 110, combien faut-il prendre d'octets ? Avec 1110 ? Avec 11110 ?

Exemple de html

HTML Le HTML est un langage très simple à apprendre. Vous pouvez réaliser quelques essais mineurs avec cet exercice. Respectez bien l'imbrication des balises pour que l'ensemble forme bien un bon arbre. Pour aller plus loin, suivez les cours d'option informatique métiers du web ou lisez les nombreux tutoriels sur internet.

Ouvrez le fichier html.html .
Essayez d'ajouter un paragraphe, un titre de niveau 2.
Pour les plus aguerris ajoutez une liste avec les balises <ul><li>élément</li></ul> .

Markdown

Markdown Un autre langage de description de texte est particulièrement utilisé, il s'agit de Markdown . Pour information, le cours que vous suivez a été entièrement rédigé avec cette syntaxe. Nous vous proposons de le découvrir en passant par un site qui permet d'écrire du texte en markdown et qui en propose un rendu en html ou des exports dans différents formats. Ouvrez le fichier markdown.html .

En observant cet exemple, trouvez comment en Markdown` :

mettre des mots en italique ?
mettre des mots en gras ?
définir un titre de premier niveau ?
de deuxième niveau ?
faire une liste à puces ?
mettre tout un paragraphe en exergue comme une citation?
délimiter des paragraphes ?

LaTeX

Enfin, le format de représentation numérique de documents scientifiques, qui permet de générer de textes de très grande qualité typographique est LaTeX. (Voyez par exemple le site arXiv et les formats de soumission d'articles autorisés ). Ici encore, c'est un langage structuré et on peut le comprendre de cette façon. À titre d'exemple, regardez le document suivant avec un éditeur de textes (bloc-note, textEdit, gedit, selon votre ordinateur) ainsi que son rendu en PDF .

Quelles commandes permettent de structurer les parties de document ?

Règles de typographie

Lorsque vous utilisez un logiciel comme LateX , vous spécifiez la structure du document et certains éléments de mise en forme. C'est le programme qui respecte les règles de l'édition scientifique pour générer le document imprimable : taille des espaces, sauts de ligne, césure des mots, sauts de page, placement des figures, ... Cependant, il reste à votre charge de connaître et respecter certaines régles typographiques minimales comme espace après la virgule, espace avant et après le point-virgule (seulement après en anglais). Voici un document sur les bonnes pratiques de typographie .

5. Les images

5.1. Cours

(Réduire le cours)

Une des grandes mutations liée au numérique est que les documents numériques sont désormais des documents multimedia . Nous nous sommes intéressés jusqu'à présent aux documents textuels comme exemple générique pour introduire les problématiques liées à la représentation de l'information. Nous allons dans cette section élargir notre propos en considérant le cas des images . Nous allons retrouver les mêmes principes généraux pour la définition et le choix des différentes représentations des images. Ces différents choix ont également conduit à de nombreux formats pour les images. Ici aussi la notion de norme est essentielle pour les mêmes raisons de compatibilité et d'interopérabilité.

Deux approches principales

Il convient de différentier deux types d'images qui correspondent à des besoins différents et qui donnent lieu à des représentations numériques différentes :

Les images qui représentent une abstraction du réel telles que les dessins ou les cartes. Ces abstractions ont, en général, été créées par l'homme et ont des représentations numériques qui sont des images vectorielles .
Les images qui représentent le plus fidèlement possible le monde réel comme les photographies, les images issues de capteur, les images médicales. Ces images ont des représentations numériques qui sont des images matricielles .

Les images vectorielles

L'idée directrice est de décrire une image abstraite pour pouvoir la reproduire. Prenons l'exemple d'une maison dessinée schématiquement. Il suffit de dessiner un rectangle pour le corps de la maison, un triangle pour son toit, un trapèze pour la cheminée, des rectangles pour les fenêtres en précisant les dimensions et positions respectives de ces figures géométriques. Cela se complique si vous souhaitez ajouter des volutes de fumée qui sortent de la cheminée mais il existe de nombreuses fonctions mathématiques qui permettent de représenter tout type de courbe. Enfin, pour colorier, il suffit de préciser quelle couleur associer à quelle zone de l'image.

Cet exemple a introduit les principes généraux : une image vectorielle est une représentation numérique construite à partir d'objets abstraits géométriques. Ce sont, par exemple, des lignes, des points, des rectangles, des arcs de cercles, des ellipsoides, etc. Les différents objets qui constituent l'image sont décrits dans un langage informatique qui précise, pour chacun d'eux, la forme, la dimension, la couleur, la position, etc. Le langage permet également de décrire comment on combine tous les objets pour produire l'image. La puissance des formalismes utilisés peut conduire à produire des images d'une grande complexité comme des images artistiques.

En règle générale, un utilisateur n'a pas à appréhender le langage de description des images vectorielles. En effet, ces images vectorielles peuvent être créées avec des outils disponibles dans de nombreuses applications comme les tableurs, les traitements de textes, les logiciels de présentation. Mais elles sont aussi créées à partir de logiciels spécialisés : les logiciels de dessin vectoriels . Les images vectorielles sont utilisées pour produire des schémas, des diagrammes, des cartes etc. Elles peuvent évidemment contenir du texte et sont particulièrement adaptées pour représenter des visuels tels que des logos.

Les logiciels qui manipulent et affichent ces images vectorielles comprennent et interprètent les descriptions, c'est-à-dire calculent le résultat visuel à partir de la description. Un premier avantage est qu'une image vectorielle est une description de l'image et est donc de plus petite taille qu'une description point par point. Un second avantage très important des images vectorielles réside alors en leur capacité à les afficher à n'importe quelle échelle sans aucune perte de qualité. L'affichage est recalculé quel que soit le niveau de zoom. Il est également très facile de modifier un élément de l'image indépendamment des autres. Notons que le même type de représentation est utilisé pour représenter des images en 3 dimensions. Pour terminer, les langages de description d'images vectorielles sont également étendus pour intégrer des animations et des interactions. Beaucoup de jeux vidéos, notamment ceux intégrés dans le navigateur web utilisent ces images animées vectorielles.

Les images matricielles

L'idée directrice est ici de représenter l'image point par point : le premier point en haut à gauche a telle couleur et telle luminosité, le second point ..., jusqu'au dernier point en bas à droite. Une image matricielle est donc représentée comme un ensemble de points de couleur, juxtaposés dans un rectangle. Si les points sont suffisamment petits et nombreux, notre oeil ne parvient pas à les distinguer. Mais un très fort grossissement permet de les révéler. Ce principe est utilisé depuis longtemps dans des domaines comme la photographie, les écrans de télévision, l'imprimerie. Dans le monde du numérique, les images matricielles sont particulièrement bien adaptées pour représenter les photos. Les appareils photo numériques ainsi que les scanners utilisent ces représentations.

Dans les images matricielles, les points sont appelés pixels . Ils sont ordonnés en ligne et en colonne dans une grande grille rectangulaire, qu'on appelle matrice d'où le nom d'image matricielle. Nous pouvons donc considérer que chaque pixel est une observation d'une très petite partie d'une image réelle, comme un tout petit échantillon de l'image réelle pris à un endroit précis. Pour ce petit échantillon, on mesure et mémorise la couleur. Ce processus d'échantillonnage est bien connu des physiciens. Nous le retrouvons dans toutes les représentations de signaux physiques, ici l'image, mais également pour les sons, la musique. Par exemple, dans le cas d'un son on mesure une valeur de note (de fréquence sonore) pour chaque petit échantillon de temps.

Les logiciels affichent les images matricielles point par point. Un avantage est que l'affichage d'une image matricielle peut approcher la qualité d'une image réelle si le nombre de pixels est suffisamment grand. Mais ceci se fait au détriment de l'espace pris par l'image qui peut être très grand. Les manipulations d'une image matricielle sont également plus difficiles. Par exemple, il est même parfois nécessaire de dégrader la qualité de l'image pour échanger des images ou même simplement pour afficher une image de plus petite taille. Cette dégradation est réalisée en prenant un plus petit nombre de pixel et chaque nouveau (grand) pixel aura pour couleur la couleur moyenne des (petits) pixels d'origine. La qualité des écrans et des images est mesurée avec les notions de définition et de résolution introduites en activité. Nous discutons la représentation numérique des couleurs dans la section suivante.

La couleur

Nous avons introduit les images matricielles comme une description point par point d'une image où chaque point ou pixel est associé à une couleur mesurée à partir de l'image réelle. Mais comment représenter cette valeur de couleur mesurée ? La représentation s'inspire des peintres qui ont, de tout temps, créé des nuances en mélangeant des couleurs dites primaires.

Le modèle de couleurs le plus répandu est le modèle RVB (pour Rouge Vert Bleu ou RGB en anglais pour Red Green Blue). Chaque pixel est décrit par 3 valeurs représentant respectivement la proportion de rouge, de vert et de bleu. La couleur est la combinaison de ces trois valeurs. Le modèle RVB est directement issu de contraintes technologiques. En effet, les écrans (télévision, ordinateur, tablettes), ainsi que les capteurs des appareils photos numériques ou les scanners utilisent tous ce mode de représentation de la couleur. Dans le modèle RVB , la couleur (0, 0, 0) correspond au noir, alors que lorsque les 3 composantes sont au maximum, cela donne du blanc. La représentation numérique dans le modèle RVB est discutée dans les activités pour en déduire le nombre de couleurs représentables.

Les formats

Même si il n'existe que deux types de représentation vectorielle et matricielle, comme dans le cas des documents, il existe de très nombreux formats d'image.

Évidemment le langage de description des formes géométriques dans les images vectorielles entraîne de nombreux choix. Cependant, la communauté semble aujourd'hui s'accorder de plus en plus sur le standard SVG .

Pour les images matricielles, la variabilité des formats est vraiment très grande. De nombreuses caractéristiques issues des besoins de manipulation sont à considérer mais également les progrès technologiques liés aux dispositifs d'acquisition comme simplement les appareils photos. À titre d'exemples, citons la possibilité comme la manière de stocker les métadonnées comme par exemple la date, l'auteur, la géolocalisation, etc ; les possibilités de gérer des images composées de plusieurs couches superposées et de gérer de la transparence. Un dernier paramètre découle de la volonté d'échanger les images sur internet rapidement et donc de limiter l'espace stockage avec des méthodes de compression qui peuvent être diverses. Tout ceci donne lieu à de nombreux formats matriciels dont les principaux sont BMP , GIF , TIFF , PNG et JPEG .

(Réduire le cours)

(Montrer la suite)

Deux approches principales

Il convient de différentier deux types d'images qui correspondent à des besoins différents et qui donnent lieu à des représentations numériques différentes :

Les images qui représentent une abstraction du réel telles que les dessins ou les cartes. Ces abstractions ont, en général, été créées par l'homme et ont des représentations numériques qui sont des images vectorielles .
Les images qui représentent le plus fidèlement possible le monde réel comme les photographies, les images issues de capteur, les images médicales. Ces images ont des représentations numériques qui sont des images matricielles .

Les images vectorielles

Les images matricielles

La couleur

Les formats

Même si il n'existe que deux types de représentation vectorielle et matricielle, comme dans le cas des documents, il existe de très nombreux formats d'image.

5.2. Compréhension

Quelle représentation ?

Vectorielle ou matricielle Je veux représenter une carte routière. Je dispose des relevés des positions des routes, des bâtiments principaux, des délimitations des surfaces des villes et villages. Quelle représentation vous semble la plus adaptée?

Une image vectorielle
Une image matricielle

Une capture d'écran

Je réalise une capture d'écran. À votre avis l'image générée est plutôt :

une image matricielle.
une image vectorielle

5.3. Activité

Échantillonner les images

Plusieurs appareils photo sont équipés d'une cellule qui permet de capturer les image sur une grille de 4000 par 3000. Dans les notices, il est indiqué alors combien de mégapixels (millions de pixels) ?

La qualité de l'image

Qualité et résolution La qualité d'une image imprimée va dépendre du nombre de pixels, mais aussi de la taille de ces pixels. Vous avez sans doute remarqué que la qualité d'un agrandissement photo peut être parfois dégradé par rapport à un original de taille plus réduite. Des unités mesurent cette finesse des images, appelée encore la résolution. Cherchez sur internet les unités utilisées pour indiquer la résolution des images.

Aide : l'influence anglo-saxonne est bien présente, le pouce (inch) est utilisé.

Échantillonner la musique

Un CD contient une représentation numérique standardisée de la musique. Dans ce cas, on prend une mesure de la valeur du son plusieurs milliers de fois par seconde. Les milliers de fois par seconde se disent kilo hertz (Khz). Quelle est la valeur de l'échantillonnage utilisée dans le format des CD audio ?

Les valeurs de Rouge de Vert ou de Bleu

Pour chaque pixel, échantillon spacial de l'image, une valeur de couleur est mémorisée. La qualité de l'image dépend à la fois du nombre et la taille des pixels, mais également de la précision de cette mesure de couleur. Très souvent, chaque proportion de rouge, vert et bleu est stockée chacune sur un octet. Mais combien de valeurs possibles peut-on représenter avec un octet ?

Les valeurs RVB

Avec 1 octet par couleur primaire :

combien d'octets sont nécessaires pour coder une couleur dans le système RVB (Rouge Vert Bleu)
Combien de couleurs différentes peuvent être codées ?

Pierre Bézier

Qui est Pierre Bézier ?
Qu'a-t-il inventé ?

Courbe de Bézier

Il est possible de définir des courbes avec peu d'informations. Par exemple, une courbe de Bézier cubique est définie par la donnée de 4 points A, B, C et D.

A est le point de départ,
AB donne la direction initiale,
D est le point d'arrivée et
CD donne la direction d'arrivée et le reste ce sont des mathématiques. Notez que B et C donnent des directions et que la courbe ne passe pas par B et C.

Vous pouvez voir des animations de construction de courbe sur la page courbe de Bézier et lire la section Applications de cette page.

5.4. Activité avancée

métadonnées de photos

La plupart des appareils photos numériques ajoutent des métadonnées à chaque prise de vue. Des standards comme EXIF ou IPTC existent pour les représenter. Recherchez des exemples de métadonnées associées aux photos.

manipulations images SVG

Vous pouvez vous initier à la définition d'images vectorielles avec le standard SVG avec cette page . Essayez donc de changer l'épaisseur de la ligne rouge, la position du rectangle bleu, le rayon du cercle jaune. Et si vous êtes forts ajoutez une nouvelle ligne verte horizontale!

Les images CMJN

Un autre modèle de couleur est utilisé dans le monde de l'édition, il s'agit du modèle CMJN . Le principe est similaire au modèle RVB, il s'agit de décrire une couleur par combinaison de plusieurs couleurs primaires. Mais alors que le RVB correspond aux technologies des écrans, le CMJN est adapté au monde de l'impression.

Que signifient les initiales CMJN ?

6. Ouverture, interopérabilité, licences, ... et liberté

6.1. Cours

(Réduire le cours)

À travers cette présentation, vous avez sans doute retenu la distinction entre les vues de contenu, structure, présentation et les métadonnées qui qualifient un document numérique. Dans les autres types de données manipulées par les ordinateurs, comme les images et le son par exemple on retrouve également ces distinctions.

Une autre distinction que vous pouvez également retenir est celle entre logiciel et donnée. Parfois très liés à cause de formats propriétaires, on en arrive de temps à autres à les confondre, mais bien-sûr la donnée doit pouvoir exister ainsi que suivre son cycle de développement et d'utilisation en dehors du logiciel qui l'a créé.

Par les notions de formats de données soit libres et ouverts, soit propriétaires ou fermés, vous pouvez également constater une illustration de la rencontre entre le numérique et le droit. Le droit ne s'applique pas qu'aux formats, mais également aux contenus et aux logiciels. Le domaine du droit du numérique sort du périmètre de ce cours mais il est impératif de se poser la question du droit dès lors que vous souhaitez utiliser une ressource pour la publier.

Enfin, sachez que l'idée de la liberté ou de l'ouverture s'applique aux contenus par le biais des licences creative commons et aux logiciels par le biais des licences GPL et CECILL en précisant comment vous pouvez utiliser ces contenus et ces logiciels. La philosophie du libre dans le numérique est née dans les années 80 à propos des logiciels. Elle s'est étendue depuis et devient un mouvement qui impacte aujourd'hui toute la société numérique.

(Réduire le cours)

(Montrer la suite)

6.2. Activité

Les personnages du libre

Qui est Richard Stallman ? Qui est Lawrence Lessig ?

Creative Commons

Quelles sont les différentes variantes de creative commons ?

Le logiciel libre

Quels sont les 4 principes du logiciel libre (voir le site de l'April ) ?

Annexe : réutiliser ce module

Archive IMS CC utilisable dans les LMS Moodle, Claroline, Blackboard, etc: module3.imscc.zip

Archive EDX : module3_edx.tar.gz

1. Représenter c'est choisir...

1.1. Cours

1.2. Compréhension

Représenter et manipuler

Quelles données ?

De la variété ?

Comment choisir ?

Qui choisit ?

1.3. Activité

Une tâche complexe

2. Analyse d'un document : plusieurs vues complémentaires

2.1. Cours

Introduction

Le contenu, une vue séquentielle

La structure, une vue arborescente

Les métadonnées, une vue qualifiée

La présentation, une vue pas uniquement graphique

Un point d'étape

Introduction

Le contenu, une vue séquentielle

La structure, une vue arborescente

Les métadonnées, une vue qualifiée

La présentation, une vue pas uniquement graphique

Un point d'étape

2.2. Compréhension

Vrai ou Faux : vue séquentielle

Vrai ou Faux : vue structurée

Vrai ou Faux : vue présentation

La vue qualifiée

Éditeur de textes

Le jardin zen

2.3. Activité

Installer LibreOffice

La structure d'un document texte odt

La vue qualifiée d'un document texte odt

Un document peut être réduit à des métadonnées

La structure d'une page web

2.4. Activité avancée

Mise en forme et structure

Réutilisation de styles

Générer une table des matières

Numéroter les paragraphes

3. Documents numériques - formats et normes

3.1. Cours

Pourquoi et comment

Différents formats pour différents usages

Formats et logiciels

Ouvert ou propriétaire

Formats ouverts

Formats fermés

Une minute citoyenne

Pourquoi et comment

Différents formats pour différents usages

Formats et logiciels

Ouvert ou propriétaire

Formats ouverts

Formats fermés

Une minute citoyenne

3.2. Compréhension

Extensions de fichier

Éditeur de textes et fichier doc

Éditeur de textes et HTML

Contenu et présentation

Conversions de formats

Format ouvert et interopérabilité

3.3. Activité

Format .doc

Format PDF

4. Documents numériques textuels

4.1. Cours

Représentation numérique des caractères

Textes "simples"

Des langages et des logiciels

Textes structurés pour décrire des documents textuels

Traitement de textes

Comment procéder ?

Erreurs communes

Représentation numérique des caractères

Textes "simples"

Des langages et des logiciels