Actualités des membres
Jocelyn Fournier
Anthony Rochand
Julien Carlier
Frederic Bourratiere
Alexandra Marmoux
Frédéric BERNIER
Cathia Birac
Stephanie Riquet
Jean-Eric Laurent
Joan Pincemin
Amélie D'heilly
Europe Option Plus
Hervé Padilla
Olivier Saniez
Smaïl Maakik
Fabrice Gilard
Loïc Douyere

Le Web Sémantique : Introduction

3094 Vues

1. Qu'est ce que le Web Sémantique ?


Si l’on se réfère à la définition donnée par Wikipedia, le Web Sémantique « désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C ».

En pratique, l’usage le plus courant des technologies du Web Sémantique consiste à enrichir de façon invisible pour le lecteur des pages Web, afin qu’elles deviennent compréhensibles pour des machines.

2. Quelle en est l'utilité ?


Les moteurs de recherche, qui sont des logiciels, bénéficient directement du marquage sémantique et comprennent mieux le contenu de vos pages. Il est donc stratégique, dans une optique SEO, de passer un peu de temps à enrichir la structure de vos pages.

Malheureusement pour celui qui aura la charge de cette lourde tache, le monde du Web Sémantique est de prime abord tout aussi complexe que la définition donnée par Wikipédia…

3. Par où commencer ?


Dès que vous commencez vos premiers pas dans le domaine du Web Sémantique, vous êtes confronté à un très grand nombre de termes barbares : RDFa, Microdata, Microformat, DC, FOAF, RDFS, OWL, Schema.org, etc…
Attention cependant à ne pas tout mélanger ! Il y a deux élements principaux qui définissent le marquage sémantique d’une page Web :

- la syntaxe définissant les règles pour marquer un document (RDFa, Microdata, …)


- le vocabulaire permettant de décrire les éléments de la page (GoodRelation, RDFS, Schema.org, …)



Vous allez donc devoir à la fois choisir la syntaxe et le vocabulaire à utiliser.

4. Que choisir ?


Sur le site de Schema.org, vocabulaire commun à Google, Microsoft, Yahoo et Yandex, la préférence va clairement pour le format Microdata. La justification donnée par Google est notamment que le format RDFa et ses dérivés étaient complexes pour les développeurs, qui faisaient beaucoup d’erreur lors de leur implémentation. Cela compliquait donc énormément la tache des moteurs de recherche (d’après Google, le taux d’erreur pour RDFa était 3x plus élevé que les autres formats http://lists.w3.org/Archives/Public/public-vocabs/2011Oct/0113.html).

Pour quelqu’un débutant dans le taggage sémantique d’un document, je recommande donc l’usage du format Microdata, en attendant d’évaluer en pratique le format RDFa Lite 1.1 qui devrait être finalisé dans un avenir très proche, et qui est beaucoup moins complexe à implémenter que le format RDFa d'origine. Cependant, si votre page Web n'est pas écrite en HTML5, attendez-vous à ce qu'elle ne soit plus conforme aux standards du W3C.

Concernant le vocabulaire à choisir, Schema.org s’enrichit très rapidement et on a vu qu'il était supporté par les principaux moteurs de recherche du marché.
Cela permettra donc à vos pages Web de mieux ressortir dans les résultats de recherche, grâce aux « richs snippets » (extraits enrichis).

Google Rich Snippets

5. Et en pratique ?


Voici un exemple simple issu du site Schema.org permettant d’illustrer en pratique le marquage sémantique d’un contenu.

- Sans marquage sémantique :



<div>
<h1>Avatar</h1>
<span>Director: James Cameron (born August 16, 1954)</span>
<span>Science fiction</span>
<a href="../movies/avatar-theatrical-trailer.html">Trailer</a>
</div>

- Avec marquage sémantique Microdata + vocabulaire Schema.org :



<div itemscope itemtype ="http://schema.org/Movie">
<h1 itemprop="name">Avatar</h1>

  <div itemprop="director" itemscope itemtype="http://schema.org/Person">
Director: <span itemprop="name">James Cameron</span>
(born <span itemprop="birthDate">August 16, 1954)</span>
</div>

  <span itemprop="genre">Science fiction</span>

  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>


On voit immédiatement dans la deuxième version que le bloc contient des informations concernant un film (<div itemscope itemtype="http://schema.org/Movie">). Grâce à la présence des itemprop, on sait que le film s’appelle avatar, du genre Science fiction, dont le trailer peut être visualiser à l’adresse "../movies/avatar-theatrical-trailer.html". Le réalisateur est une personne dont les caractéristiques se trouvent dans un second bloc délimité par <div itemprop="director" itemscope itemtype="http://schema.org/Person"> </div>. Son nom est James Cameron, né le 16 août 1954.

Malgré tout, le vocabulaire schema.org n'étant toujours pas finalisé, il faut savoir être réactif lors de ses mises à jour, et ne pas hésiter à poser des questions, notamment auprès des listes de discussions du W3C dédiées.


> Consulter tous les articles de Jocelyn Fournier
Taggué avec : Référencement, SEO

Ils aiment
Jocelyn FournierAnita Joseph
5 commentaires
Posté le 22/02/12 à 19:01 par tooly
Je suis en train de créer un site web, et je me posais justement cette question, comment devenir plus visible. Nous allons en parler avec le webmaster. information très pertinente, Merci !

Photo de Jocelyn Fournier
Posté le 22/02/12 à 15:49 par Jocelyn Fournier
Le 22/02/2012 melkizedech a écrit :

Si je comprends bien, en plus d'essayer d'être explicite et clair en rédigeant, comme il le ferait d'habitude, l'auteur devrait également enrichir plus ou moins manuellement (éventuellement avec l'aide de l'éditeur de texte en ligne) son contenu en taggant un maximum de termes ? Si c'est bien de cela qu'il s'agit alors j'ai une question : Pensez-vous que beaucoup d'auteurs accepteraient de se plier quotidiennement à cet exercice ?

En fait ce n'est pas le travail de l'auteur, mais du webmaster qui doit repasser après l'auteur (ou tout du moins essayer de rendre le processus le plus automatisable possible).
Le New York Times a par exemple très récemment annoncé qu'ils venaient de finir l'implémentation de la variante schema.org du standard IPTC rNews. http://open.blogs.nytimes.com/ [...] -it-means/

Photo de Jocelyn Fournier
Posté le 22/02/12 à 13:17 par Jocelyn Fournier
En fait ce n'est pas le travail de l'auteur, mais du webmaster qui doit repasser après l'auteur (ou tout du moins essayer de rendre le processus le plus automatisable possible).
Le New York Times a par exemple très récemment annoncé qu'ils venaient de finir l'implémentation de la variante schema.org du standard IPTC rNews. http://open.blogs.nytimes.com/ [...] -it-means/

Posté le 22/02/12 à 12:45 par melkizedech
Si je comprends bien, en plus d'essayer d'être explicite et clair en rédigeant, comme il le ferait d'habitude, l'auteur devrait également enrichir plus ou moins manuellement (éventuellement avec l'aide de l'éditeur de texte en ligne) son contenu en taggant un maximum de termes ? Si c'est bien de cela qu'il s'agit alors j'ai une question : Pensez-vous que beaucoup d'auteurs accepteraient de se plier quotidiennement à cet exercice ?

Posté le 21/02/12 à 15:33 par Pavez
bien que complexe, je saisit l'essence, merci PA

Déposez votre commentaire



facebooktwittergoogleplus
Blogueur certifié

Wiktik sur Facebook
facebook
twitter
linkedin
g+