Graphes documentaires

Fragment documentaire

Dans les premières sections de ce chapitre, nous utilisons le terme fragment pour désigner indifféremment un ensemble de données mobilisées pour la construction de la restitution du document sans constituer l'exhaustivité des données mobilisées. Notre recherche s'intéresse aux fragments manipulés par les chaînes éditoriales. Dans ce contexte, la notion peut être définie comme un ensemble de données ayant une identité propre dans le gestionnaire d'identifiants du système. Contrairement à une sélection dans un fichier XML que l'on pourrait réaliser avec la technologie XPATH (W3C, 1999[1]), l'identité d'un fragment est indépendante de son contenu. Cette propriété permet de concevoir des systèmes robustes d'adressage des fragments.

Par exemple, une chaîne éditoriale peut isoler les fragments dans des fichiers distincts. Le gestionnaire des identifiants peut ainsi s'appuyer sur le chemin du système de fichiers. Quel que soit le contenu d'un fichier, son identifiant reste inchangé.

Le contrôle et la validité de la structure documentaire d'un fragment impliquent qu'un modèle fournisse une classe de fragments que l'on pourra instancier. Par exemple avec les technologies XML le modèle de chaînes éditoriales pour la rédaction de dictionnaires abordé dans la section précédente peut fournir un schéma XML pour des fragments de types dictionnaire et un autre schéma pour des fragments de types entrée. Une chaîne éditoriale manipule donc un ensemble d'objets fragments étiquetables selon leur classe.

On dira que deux fragments sont liés lorsqu'un fragment A fait référence à un fragment B. Ces liens sont orientés depuis le fragment contenant l'adresse vers le fragment adressé.

Le graphe documentaire

Soit V, l'ensemble des fragments manipulés par la chaîne éditoriale, E, l'ensemble des liens, orientés depuis le fragment référençant vers le fragment référencé, et N, l'ensemble des catégories de liens (soit ici uniquement un lien de référencement). Nous appelons graphe documentaire le graphe noté D = (V ; E, N) ainsi formé.

Figure 8 : graphe documentaire simple

Le graphe documentaire de la figure 8, noté D = (V ; E, N) est composé de l'ensemble des sommets V = {A0, A1, A2, A3, A4, B0, B1, B2, B3}, l'ensemble des étiquettes des arcs N = { référence} et l'ensemble des arcs orientés E = {(A0, A1), (A0, A2), (A2, A3),..., (B1, B3)}

Caractérisation des graphes documentaires

La figure 8 montre bien la déconstruction du document opérée par les chaînes éditoriales. Nous proposons d'enrichir les concepts permettant de caractériser les graphes documentaires avec deux nouvelles définitions.

Sommet racine. Soit un graphe documentaire D = (V ; E, N). Un sommet issu de V est appelé racine lorsque le modèle documentaire associe un algorithme de transformation de document au fragment qu'il représente. Nous noterons l'ensemble des sommets racines Vr. Notons que par définition, Vr ∈ V.

Sous-graphe document. Soit un graphe documentaire D = (V ; E, N) et un sommet racine Vr₁ tel que Vr₁ ∈ Vr, un sous-graphe documentaire est noté D'd = (V'd ; E'd, N) avec

  • V'd : l'ensemble des sommets de V tel que quelque soit le sommet x ∈ V'd, il existe un chemin entre Vr₁ et x.

  • E'd : l'ensemble des arcs de E dont les extrémités appartiennent à l'ensemble V'd.

Un sous-graphe document est donc constitué de l'ensemble des sommets à disposition de l'algorithme de transformation pour lui permettre de générer un document. Attention, la présence d'une information dans un sommet issu de V'd n'implique pas nécessairement sa publication. L'algorithme de publication peut volontairement exclure certaines informations. Par exemple, ce processus est à l'œuvre dans un fragment à profondeur variable. En filtrant le contenu pour une publication ou une autre, le rédacteur fait volontairement le choix d'exclure une information d'une publication.

Graphe documentaire et perception de l'auteur

La notion de graphe documentaire telle que nous la proposons représente la structure de l'agencement des fragments les uns avec les autres. Pour se repérer dans le graphe, les chaînes éditoriales exploitent d'autres stratégies que la typologie des liens. Une solution assez commune, appelée « arbre de gestion », consiste à simuler un arbre de dossiers dans lesquels les fragments sont rangés. Cette solution est par exemple retenue dans les chaînes éditoriales Scenari. Nous parlons ici de simulation car peu de chaînes éditoriales s'appuient réellement le système de fichiers pour stocker les fragments de documents.

Le graphe documentaire donne une vue représentative de l'objet sur lequel travaillent les rédacteurs. En revanche, cette vue, souvent assez lourde et peu lisible comme nous le verrons dans les prochains exemples, est souvent peu perçue. Ce manque de perception est un des fondements de notre recherche.