Représentation des graphes documentaires

Gephi, outil de manipulation de graphe

Gephi (Bastian, Heymann & Jacomy, 2009[1]) est un outil conçu pour manipuler des graphes représentant des pages présentes sur le web et les liens hypertextes les liant entre elles. L'objet de telles visualisations est de faire ressortir les pages les plus populaires (les plus citées par d'autres pages) afin de faire ressortir des tendances du réseau.

Procédé de mise en forme des graphes

Nous avons développé un module complémentaire à Gephi permettant de se connecter à une chaîne éditoriale Scenari afin d'extraire les données nous permettant de reconstituer le graphe documentaire. Ce module extrait pour chaque sommet :

  • les liens vers d'autres sommets,

  • la classe du fragment,

  • le titre du fragment (si défini par le modèle documentaire),

  • les dossiers de premier et second niveau dans lesquels le fragment a été rangé par le rédacteur (par exemple, un fragment rangé dans « /procedures/machine-Outil-A72/ressources/ » aura « procedures » pour dossier de premier niveau et « procedures/machine-Outil-A72 » comme dossier de second niveau).

L'algorithme de spatialisation utilisé est ForceAtlas2 (Jacomy, Venturini, Heymann, Bastian, 2014[2]). Il met en place un principe d'attirance et répulsion des sommets en fonction de leurs connexions. Un ensemble de sommets très fortement connectés les uns avec les autres s'attireront tandis que deux sommets non connectés se repousseront.

Les sommets sont colorés en fonction des dossiers dans lesquels ils sont rangés. La couleur permet donc de comparer la perception de rangement du rédacteur par rapport à la structure réelle du graphe. La taille des sommets varie en fonction du nombre d'arcs. Contrairement aux graphes permettant de visualiser les relations entre pages du web, nous avons préféré faire varier la taille des fragments en fonction des arcs sortants et non entrants. Les représentations des pages web cherchent à mettre en valeur les pages faisant figure de référence au sein d'un ensemble, donc les pages pointées par de nombreuses autres pages. À l'inverse, nos représentations mettent en exergue les fragments mobilisant de nombreux autres pour la construction de leur restitution.

Les visualisations obtenues ont été exportées en image pour une intégration dans la version papier de ce mémoire et en pages HTML interactives pour une manipulation par le lecteur dans la version HTML du mémoire.

Il est à noter que pour l'ensemble des graphes présentés, seuls les liens de transclusion et de référence ont été exportés, sans distinctions entre les deux statuts.

Exploitations

Afin d'accompagner la représentation d'un graphe, nous proposerons systématiquement une fiche d'identité compilant quelques données :

  • le nombre de sommets présents sur le graphe ;

  • le nombre de liens ;

  • le degré moyen (soit le nombre moyen de liens par sommet) ;

  • le degré sortant maximum (soit le nombre de liens sortants du sommet référençant le plus de fragments) ;

  • le degré entrant maximum (soit le nombre de liens entrant du sommet le plus référencé par d'autres fragments) ;

  • le nombre de sommets orphelins (soit le nombre de sommets de degré 0) ;

  • le nombre de sommets racines.

Ces données nous permettent de réaliser plusieurs interprétations. Par exemple, le degré moyen donne une indication sur le type de documents produits. La plupart des graphes mobilisés pour écrire des documents issus d'une tradition de l'imprimé (document linéaire à imprimer) sont rédigés dans des graphes au degré moyen proche de 1. Au contraire, les graphes mobilisés pour produire des bases documentaires en ligne tendent vers des degrés moyens plus élevés (le plus souvent, entre 2 et 4).

Le nombre de fragments orphelins est un indicateur de bonne prise en main de la chaîne éditoriale par les rédacteurs. Il est rare qu'un modèle documentaire permettent de produire un document à partir d'un seul et unique fragment. Dans ces cas, les fragments orphelins sont nécessairement des fragments inutilisés dans le graphe.

Outre les chiffres, la structure du graphe permet également de tirer des conclusions sur les contenus rédigés. On pourra ainsi observer des mutualisations de contenus entre plusieurs sous-graphes document ou la place centrale ou périphérique d'un fragment dans la construction d'un document.

Exemple, ce mémoire

Une consultation interactive est disponible à cette adresse[3]. Elle nécessite un navigateur récent et une machine relativement puissante.

Figure 9 : graphe documentaire - ce mémoire

Fiche d'identité

Nombre de sommets : 574

Nombre de liens : 796

Degré moyen : 1.39

Degré sortant maximum : 26

Degré entrant maximum : 10

Nombre de sommets orphelins : 24

Nombre de fragments racines : 2

À 1.39, le degré moyen est légèrement supérieur à ce qui peut être observé sur ce type de graphe. Cette valeur s'explique d'une part par la structure de la partie violette du graphe, qui correspond au corps du mémoire. Nous avons volontairement inséré des liens entre fragments à chaque fois qu'une partie du mémoire est citée. Dans la version imprimée, ces liens sont transformés en numéros de pages et, dans la version web, par des hyperliens. D'autre part, cette valeur plutôt élevée s'explique également par la structure du glossaire qui s'appuie sur de nombreux liens entre chacune des entrées.

La forme globale du graphe est intéressante quant à la construction de ce mémoire. Dans la partie centrale et systématiquement entourés de références bibliographiques se trouvent les contenus des parties I, II et IV correspondant respectivement aux hypothèses, à l'état de l'art et à l'évaluation. La partie III, soit nos propositions, est construite en prolongement de ce noyau (partie violette en bas de la figure 9) et substitue les références bibliographiques par un ancrage au noyau théorique. Les annexes se positionnent en prolongement de la partie III avec une série de sommets verts encore plus extérieurs (en bas et à droite).