Qu'est-ce qu'un moteur de recherche ?

Avant de trouver et d'utiliser le moteur de recherche qui vous correspond, il faut d'abord comprendre comment il fonctionne.
Quelles peuvent être les différences entre différents moteurs de recherche ?
Est-ce qu'un moteur de recherche proposera toujours les meilleurs résultats ?

Il suffit de prendre quelques chiffres pour comprendre qu'internet est constitué d'une quantité considérable de sites et qu'il est même impossible d'estimer le nombre total de pages qui le constitue. D'un autre coté, l'utilisation d'internet prend une place de plus en plus importante dans notre quotidien (pour les études, pour le travail, pour le loisir, pour les démarches administratives,...).
Compte tenu du nombre de sites existants et de notre utilisation, il est bien logique que l'on passe par ces intermédiaires pour trouver les pages les plus pertinentes et le plus rapidement possible parmi l'immensité de contenu disponible. Très logiquement, les moteurs de recherche sont les sites les plus consultés au monde.

Référencement, indexation, classement, contenus sponsorisés sont des termes qui permettent de décrire les moteurs de recherche. Cependant, cela ne permet pas d'expliquer tous les aspects d'un moteur de recherche et il est nécessaire d'approfondir pour comprendre en détail ce qui peut faire la différence d'un service à l'autre.

Quelques chiffres

En septembre 2014, internet dépasse le milliard de sites en ligne. Sachant que chaque site peut contenir entre une dizaine de pages jusqu'à plusieurs milliers de pages (comme Wikipedia) on comprend très vite le besoin d'utiliser un moteur de recherche.
Par ailleurs, on estime qu'il existe près de 3 milliards d'internautes donc autant d'utilisateurs potentiels aux moteurs de recherche.

Si on en croit les chiffres, en 2015, une personne passe en moyenne 4,8 heures/jour sur internet. En France, on passe seulement 4,1 heures/jour mais on risque de voir ce temps augmenter avec l'utilisation de plus en plus importante des smartphones (seulement 1 heure/jour) pendant les déplacements. Ce temps tient également compte du temps de travail et pour une utilisation moyenne mais reste néanmoins très important.
Si on compare le temps passé sur internet et le temps consacré à la cuisine on voit bien que nos comportements ont complètement changés avec nos besoins et notre mode de vie.

Internet n'est pas un objet figé, c'est un objet vivant qui ne cesse de se transformer. 822 240 nouveaux sites Internet sont mis en ligne chaque jour. Son expansion est pourtant bien plus importante puisque 90% des données numériques ont été créées durant ces deux dernières années. Le contenu créé chaque jour est difficilement quantifiable quand tout le monde peut publier un commentaire, publier une page de blog ou contribuer sur wikipedia.
Il ne faut surtout pas oublier que certains sites/pages disparaissent avec le temps (auteur de blog lassé, entreprises qui disparaissent, contenu obsolète, censure, ...).
Aucun site internet n'est éternel, la seule question qui se pose, c'est quand va-t-il disparaître.

Il est évident qu'il est plus rapide de passer par un moteur de recherche que de naviguer sur des milliards de pages web.
Du coup, on comprend facilement pourquoi parmi les 5 sites les plus consultés dans le monde, on retrouve 3 moteurs de recherche.

  • Google
  • Facebook
  • YouTube
  • Yahoo!
  • Baidu

Google, Yahoo! et Baidu sont donc des sites incontournables pour les internautes. Il est surprenant de voir des sites aussi futiles parmi les sites les plus consultés alors qu'on a pas de trace de Wikipédia. Il semble que cela ne soit pas facile de se passer de Facebook / YouTube et doivent être fréquentés par des utilisateurs compulsifs.

Pour prendre l'exemple de l'incontournable Google, on dénombre 4 millions de recherches Google effectuées chaque minute.
Cela représente 25% du trafic Internet aux États-Unis.

Les moteurs de recherche connus

Tout le monde associe le terme moteur de recherche à Google. La plupart des utilisateurs ne connaissent généralement qu'un seul moteur de recherche, c'est souvent celui qui est mis par défaut dans le navigateur internet. Du coup, les gens connaissent soit Google, soit Yahoo ou Bing qui ont la possibilité de faire des partenariats (comme Google et Yahoo avec Firefox) ou s'imposer dans un éco-système fermé (Bing avec Internet explorer chez Microsoft).

Pourtant, il existe un nombre important de moteur de recherche. Pour ne citer que les plus connus:

Évidemment, tous ces moteurs ne se valent pas mais ils ont tous des particularités et méritent au moins de les essayer pour se faire un avis personnel. On ne trouvera pas toujours les mêmes résultats et contrairement aux préjugés Google n'est pas toujours très pertinent. Il est même conseillé d'en utiliser plusieurs pour passer de l'un à l'autre en fonction des situations..

Définition d'un moteur de recherche

On utilise des moteurs de recherche mais comment fonctionnent-ils ?

Ce qui importe à l'utilisateur, c'est d'obtenir des résultats à partir des mots clé utilisés. C'est pourtant une vision très réductrice des moteurs de recherche qui se le limite au résultat attendu par l'utilisateur.

Le moteur de recherche s'appuie sur des robots (appelé crawler) qui vont parcourir internet de site en site et indexer toutes les pages visitées. Un algorithme permet ensuite de classer les sites en fonction du contenu présent sur les pages. En fonction des mots clé utilisés, l'algorithme va mettre en avant certaines pages selon son algorithme et le contenu indexé (on parle de référencement).

L'indexation du web est une tache extrêmement difficile et qui nécessite beaucoup de temps et de ressources. C'est pourquoi les nouveaux moteurs de recherche sont généralement moins efficaces. L'algorithme est un autre élément essentiel et qui ne cesse d'évoluer pour satisfaire nos besoins et nos attentes. Chaque moteur de recherche tente de se démarquer et d'apporter les meilleurs résultats aux utilisateurs.

En plus des moteurs de recherche, il existe également des méta-moteurs. Ils s'appuient sur les résultats d'autres moteurs de recherche pour fournir ses propres résultats, ils sont généralement plus exhaustifs.

De nos jours, les moteurs de recherche deviennent de plus en plus intelligents et proposent des réponses toujours plus précises. On devient également plus exigent et, plutôt que d'obtenir une liste de liens, on souhaite obtenir directement les réponses à nos questions. C'est déjà le cas pour obtenir la météo, la carte d'une ville ou son adresse IP. Cette tendance devrait s'accélérer dans les prochaines années grâce à DuckDuckGo et ses fonctions Instant Answers qui propose des réponses en s'appuyant sur les mots clés utilisés.

Moteur de recherche: Ils sont basés sur des « robots », encore appelés bots, spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes qui relient les pages les unes aux autres, les uns après les autres. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés. wikipédia
Méta-moteur: le métamoteur envoie ses requêtes à plusieurs moteurs de recherche et retourne les résultats de chacun d'eux. Un métamoteur élimine les résultats similaires ; par exemple, si Google et Yahoo! renvoient sur les deux mêmes liens, le métamoteur ne va l'afficher qu'une seule fois dans la liste des résultats. wikipedia

Les différences entre les moteurs de recherche

Une fois que l'on connaît le fonctionnement des moteurs de recherche, on pourra plus facilement comprendre et expliquer les différences qui peuvent exister entre eux.

On peut établir différents critères qui pourront déterminer l'efficacité d'un moteur de recherche:

  • La pertinence des résultats
  • L'ergonomie du site
  • Les outils de recherches
  • La confidentialité et les CGU
  • La neutralité et la censure des résultats
  • La bulle filtrante
  • Les services annexes

L'élément essentiel reste avant tout la pertinence des résultats obtenus.
En fonction des mots clé utilisés, on obtiendra certains résultats, plus ou moins pertinents en adéquation avec la requête effectuée. La pertinence, repose sur le contenu indexé et principalement sur l'algorithme capable de mettre en avant les meilleurs résultats possibles.

Un autre élément important reste l'ergonomie du moteur de recherche.
La présentation et l'organisation des résultats n'est pas un élément accessoire et constitue bien un point important pour le confort et aussi l'efficacité des recherches. Il est tellement plus facile de trouver du contenu multimédia, des actualités, une carte quand ces résultats sont clairement identifiés et organisés par catégorie. L'ergonomie ne diffère généralement pas beaucoup d'un moteur de recherche à l'autre mais se remarque par de nombreux détails. Cet élément évolue doucement avec le temps pour s'adapter aux attentes des utilisateurs .

Les outils de recherche avancée permettant de filtrer les résultats sont souvent méconnus, pourtant ils peuvent s'avérer très utiles.
En règle générale, on utilise quelques filtres rapides qui sont proposés, comme le filtre par date, par langue,... Pourtant, chaque moteur de recherche dispose de sa propre syntaxe (plus ou moins évoluée) pour filtrer les résultats et trouver le contenu le plus pertinent.
Les opérateurs de recherche les plus connus sont les opérateurs booléens ET,OU,SAUF (en anglais AND, OR, NOT), la recherche d'une expression exacte (avec l'utilisation des "guillemets"), n'afficher que certains types de fichier ou n'afficher les résultats que pour un nom de domaine. Certains moteurs de recherche proposent des formulaires pour faciliter l'utilisation des filtres et des opérateurs. Ces outils deviennent indispensables pour être efficace et pour un gain de temps (et éviter de parcourir des centaines de résultats).
C'est le cas lorsque certains mots clés ont plusieurs significations.

exemple:
jaguar est à la fois un animal mais également une marque de voiture, on saisira les mots-clés: jaguar+vitesse-animal

La confidentialité et les conditions générales d'utilisation sont généralement occultés mais cache pourtant bien des choses.
La collecte des données est une réalité à l'heure actuelle et les entreprises n'hésitent pas à revendre ces données et collecter toujours plus d'informations à l'insu des utilisateurs. Les conséquences de cette collecte sont souvent méconnues ou largement sous-estimées car imperceptibles ou différées dans le temps. On considère à tort que tout cela est principalement destiné au ciblage publicitaire mais les utilisations possibles sont très variées et pourraient s'avérer extrêmement préjudiciable pour l'internaute. On peut très facilement utiliser ces données collectées pour le ciblage publicitaire mais aussi au sein des assurances, banques, entreprises de recrutement, etc.

Il existe un aspect relativement difficile à vérifier, la neutralité et la censure des résultats.
Derrière la grande majorité des moteurs de recherche, on retrouve des entreprises qui ont besoin de générer du profit. Rien n’interdit un moteur de recherche de favoriser certains liens au détriment d'autres en échange de publicités ou services payants qui seront plus ou moins bien identifiés dans les résultats.
Les résultats peuvent également être censurés sous la contrainte / en accord avec les autorités d'un pays. On peut même imaginer que certains résultats seront mis en avant pour des raisons idéologiques ou pour freiner la concurrence (cf. Google et wikileaks et Droit à l’oubli : Google invité à plus de transparence)

On retrouve pour une partie des moteurs de recherche, une pratique qui est assez mal connu des internautes la bulle filtrante.
Cette pratique peut être évoquée dans les CGU dans l'objectif de fournir à l'utilisateur de meilleurs services et lui offrir les résultats qu'on pense lui être le plus utiles en oubliant d'évoquer un possible effet de bulle filtrante. Pour simplifier le phénomène de bulle filtrante, c'est une sélection de résultats se basant sur le profil de l'utilisateur. En conséquence, deux individus n'auront donc pas nécessairement les mêmes résultats.
Le gros risque est de renforcer certaines idées/opinions (cf. Google peut-il influencer l'élection présidentielle américaine ?) et de passer à côté de certains sites intéressants parce qu'un algorithme considère que cela ne vous correspond pas.

Certains moteurs de recherche proposent bien plus qu'un simple moteur de recherche et proposent parfois des services annexes.
Google propose de très nombreux services: carte géographique, service de messagerie, traduction automatique, gestion de documents, ... et pour certains, nécessiteront évidemment un compte avec vos informations personnelles. Tous ces services peuvent vous être utiles mais ils sont également préjudiciables dès lors qu'ils faciliteront la collecte de données.

Ces différents critères permettront d'établir une base pour un classement/hiérarchie entre les différents moteurs de recherche.

Les enjeux

Parmi les différents critères listés précédemment, on en identifie certains qui sont sans conséquences pour l'utilisateur alors que les derniers interpellent. Il faut donc faire un compromis entre la qualité des résultats face aux contreparties demandées.

L'élément essentiel dans le choix et l'utilisation d'un moteur de recherche reste avant tout son efficacité.
Il faut choisir l'outil le plus adapté à notre propre utilisation, en fonction de: la langue, le pays, l'ergonomie, le domaine de recherche, etc. La plupart des utilisateurs se contentent d'utiliser un seul et unique moteur de recherche alors que l'on peut très facilement en utiliser plusieurs afin de compléter certains résultats. Il se peut également que l'on utilise mal certains outils de recherche ou que d'autres outils plus performants soient disponibles.

Il faut également prendre conscience qu'un moteur de recherche n'a pas la capacité d'indexer tous les sites présents sur internet.
Internet n'est pas quelque chose de figé mais en perpétuel changement. La création, la modification et la suppression de contenu est omniprésente. Certains sites ne souhaitent pas que leur contenu soit indexé par les moteurs de recherche et vous ne trouverez donc pas ces pages. Il existe encore une partie privée de l'internet comme les sites d'entreprises qui nécessite une identification ou de nombreux services en ligne qui ne sont disponibles que pour les membres enregistrés. Sans oublier le deepweb qui est utilisé que par un nombre limité d'utilisateur mais qui n'est pas indexé par les moteurs de recherche.

Ce n'est pas exclusif aux moteurs de recherche mais la collecte de données personnelles est une pratique courante et presque admise par les utilisateurs. Cette collecte devient une préoccupation puisque on est capable de collecter des informations sur la durée (plusieurs années) et parfois très personnelles. Ces informations personnelles peuvent contenir : vos intérêts, votre situation de famille, vos orientations politiques, votre état de santé, votre sexualité, etc. Elles constituent aujourd'hui une mine d'or pour les sociétés de marketing, les autorités gouvernementales, les hackers et criminels. L'enregistrement de ces données ne coûte presque rien et, sur le court terme, rapporte suffisamment avec la publicité ciblée et d'avantage dans quelques années avec des utilisations supplémentaires dans des domaines comme les banques, assurances, recrutement, police, ...

Un élément important et pourtant méconnu: la présence d'une bulle filtrante. Sous prétexte d'améliorer l'expérience utilisateur on devient de véritable cobaye dépourvu de capacité de réflexion. C'est un peu comme lire un seul et unique journal comme le Figaro. Il est toujours intéressant de voir ce qui se dit ailleurs.
Sur des thématiques "sensibles", il est peut être difficile de confronter les différentes opinions et on peut craindre un renforcement dans certaines croyances. Le contenu concernant les groupes terroristes et les différentes théories du complot semblent être surreprésenté parmi les résultats. Cela semble être déjà le cas sur les réseaux sociaux et déjà dénoncé par certains.

La censure peut également être présente sans pour autant être visible. On sait que la censure est présente en Chine et que les moteurs s'y conforment dès lors que leurs intérêts économiques sont en danger. Difficile de savoir si des mesures similaires sont appliquées dans d'autres pays.
Dans le même temps, la France souhaite mettre en place des outils de contre-propagande pour lutter contre le terrorisme et fait appel à des entreprises comme Google. Tous les gouvernements souhaitent bien évidemment prendre le contrôle des moteurs de recherche comme n'importe quel autre organe de presse.

Sachant que derrière ces moteurs de recherche on retrouve des entreprises, et qu'elles ont besoin de générer des bénéfices, on peut se poser la question sur le service rendu et les contreparties qui vont avec.

Quelques précisions concernant les données personnelles

Il existe différentes techniques pour collecter les données personnelles de l'utilisateur, chacune permettant d'obtenir des éléments plus ou moins intéressants et pertinents sur la personne qui est suivie.

Cookies de suivi

Un cookie est un fichier texte stocké par votre navigateur sur votre ordinateur dans le but de conserver des informations spécifiques. Ce cookie peut très facilement définir et stocker un identifiant unique pour chaque utilisateur. Le moteur de recherche (comme n'importe quel autre site) pourra donc associer à chaque requête cet identifiant unique et savoir qui recherche quoi. C'est encore plus facile si vous utilisez un compte (Google par exemple).

Adresse IP

Pour naviguer sur internet, votre FAI vous fournit une adresse IP. A chaque fois que vous vous connectez sur un site, celui-ci vous reconnaîtra par votre adresse IP. Elle peut donner des informations intéressantes à un moteur de recherche bien que pas toujours très précises.
On peut obtenir grâce à cette adresse IP une géolocalisation de votre point de connexion (votre ville ou une ville voisine). Une adresse IP permet donc de définir un utilisateur ou un groupe d'utilisateur (vous partagerez une adresse IP avec les autres utilisateurs de votre entreprise, logement, réseau public,...). Cette adresse IP fournit par votre FAI peut changer régulièrement mais pas pendant votre utilisation.

HTTP referer

Le HTTP referer est quelque chose qui n'est pas visible pour un utilisateur. Dès lors que vous cliquez sur un lien présent sur la page A, votre navigateur transmet l'adresse de cette page A au site B que vous allez visiter. C'est le cas quand vous lancez une recherche sur Google pour une paire de charentaise et que vous suivez le lien pour consulter le site Amazon. Dans ce cas, Amazon sait que vous venez du site Google et plus précisément de http://google.com/q=charentaise+taille+40.
Avec cet exemple, on arrive même à deviner quel est la recherche (charentaise et la pointure en 40) qui a été effectué avant d'arriver sur Amazon. C'est là qu'intervient la notion de GET request.

GET request

C'est un autre élément qui n'est pas visible pour un utilisateur mais cette méthode est bien connue des développeurs web. Il existe deux méthodes (GET et POST) permettant d'envoyer les informations depuis un formulaire vers le site que l'on consulte. La méthode GET transmet les informations du formulaire en clair grâce à l'URL. Pour une recherche de charentaises, l'URL de la page aura généralement cette forme: http://google.com/q=charentaise&w=pigeon.

  • q=charentaise fait référence au terme recherché
  • w=pigeon peut être une autre info (données d'identification personnelle ?)
A partir de là, on sait ce que vous avez saisi dans le formulaire de recherche.

Fingerprinting

Le fingerprinting est une technique avancée contre laquelle il n'existe que très peu de solutions. Cette technique très efficace devient extrêmement contraignante pour l'utilisateur qui souhaiterait rester anonyme.
Le fingerprinting s'appuie sur un ensemble d'informations communiquées par votre navigateur. Malheureusement, elles sont très nombreuses et permettent d'identifier un utilisateur de manière unique (ou presque) malgré le nombre d'internautes.

Pour exemple, les informations qui peuvent être fournies:

  • User Agent: c'est le nom de code de votre navigateur internet et son numéro de version
  • Langue: c'est la langue utilisée par votre navigateur (ce qui permet à des sites comme wikipedia de vous renvoyer automatiquement vers la page en français)
  • Résolution de l'écran: permet d'adapter le rendu d'un site selon la taille de votre écran
  • OS : système d'exploitation qui est utilisé
  • Fuseau horaire
  • Polices de caractères utilisées

Chaque information peut être utile pour faciliter la navigation d'un internaute mais prises ensemble, ces informations deviennent dangereuses et permettent d'avoir une identification quasi unique pour chaque internaute. Pour plus d'infos, je vous invite à tester votre navigateur et lire le rapport de l'EFF sur ce sujet.

À partir de l'ensemble de ses données collectées on en déduit alors très facilement les différents liens suivis et on peut reconstruire l'historique de navigation de l'utilisateur. Ces données peuvent être utilisées pour afficher de la publicité ciblée mais d'autres utilisations sont possibles qui auront un impact plus important sur notre quotidien dans le futur comme l'attribution d'un crédit bancaire, évolution du tarif des assurances, recrutement dans les entreprises,...

Les données utilisées maintenant pourront être réutilisées demain avec la possibilité de les enrichir et les recouper avec d'autres sources d'informations, leur donnant une très grande valeur. Ces données pourront être utilisées directement par le moteur de recherche ou simplement revendu à d'autres entreprises.

Il existe également des risques de la collecte d’information (diffusion publique / demande des forces de l'ordre) quand bien même le moteur de recherche souhaite protéger votre vie privée:

  • Données qui ont été mal anonymisées
  • Problèmes techniques qui permettent d’accéder à ces données
  • Piratage
  • Demande des autorités
  • Surveillance
  • ...

Quelques anecdotes

Voici quelques anecdotes pour montrer comment peut agir un moteur de recherche et les dérives que cela peut produire.

  • TPB AFK: déréférencement du documentaire The Pirate Bay - Away From Keyboard sous la demande de certaines grandes majors nord-américaines alors que le film est sous licence Creative Commons.
  • SAMARCO: Google ne semble pas avoir entendu parlé de la catastrophe de Samarco (Miniver* VS réalité).
  • Wikileaks: Quand Wikileaks est localisé à Guantanamo Bay :-o
  • Prévision de la grippe: Google détecte les épidémies de grippe plus vite que les réseaux médicaux.

Ressources

* Miniver: dans le roman 1984 de George Orwell, le Miniver est le ministère de la vérité.


2016 nIQnutn CC-BY
Vus : 1017
Publié par nIQnutn : 73