Référencement naturel - Google indexe et arrive à décrypter les documents scannés - 31 octobre 2008

Google indexe et arrive à décrypter les documents scannés

Sylvain Lembert Fondateur Webmarketing & co'm

Si pour un humain, que le document soit original ou scanné, il n’y a pas de soucis d’interprétation… pour un robot, tel celui de Google, c’est beaucoup plus difficile : un document scanné est dans la plupart des cas considéré de la même façon qu’une image. Google vient de faire un pas en avant dans la compréhension et le classement des documents scannés…

Des documents scannés difficilement analysable par les moteurs…
Jusqu’à présent Google incluait rarement des documents PDF dans ses résultats de recherche car leur interprétation étant peu précise, il ne pouvait être sur du contenu présent dans ces documents. Le peu de document PDF présents n’avait pas de snippet (description dans les résultats du moteur), aujourd’hui Google est parvenu à mieux analyser ces documents…

Votre histoire d'amour avec le SEO commence ici

…Désormais analysés par Google
Google est capable désormais d’analyser les documents scannés grâce à sa technologie OCR (Optical Character Recognition) qui permet de convertir des milliers de mots sous forme d’image en format texte. Ces mots une fois mis sous forme de texte peuvent être indexés et classés par le moteur. Google peut donc maintenant classer facilement un document scanné et affiché un snippet adéquate.

Quelques exemples…
Google donne quelques exemples de recherche faisant apparaître des PDF dans les résultats… Ces exemples sont anglais, je vous laisse aller les voir sur le post du blog officiel de google.