2 moteurs de recherche libres et décentralisés Seeks et Yacy 1/2
La sortie de la version 1.0 de Yacy, m’a donné envie de tester à nouveau les moteurs de recherche libre. Cet article, en deux parties, vous propose mon retour d’expérience, pas encore très concluant.
Yacy
Yacy repose sur un mode de fonctionnement décentralisé. Il n’y a plus un portail de recherche unique, mais potentiellement presque autant que d’utilisateurs. Pourtant chaque instance de Yacy va pouvoir s’appuyer sur les autres pour améliorer ces capacités de recherche dans un mode de fonctionnement pair à pair. Yacy va en effet interroger les autres instances de Yacy pour compléter les résultats d’une recherche.
L’installation de Yacy est celle qui pose sans conteste le moins de soucis. Il faut cependant disposer au préalable d’une machine virtuelle Java pour permettre son fonctionnement. Sous GNU/Linux c’est OpenJDK6 qui est préconisé. Pour rappel, il s’agit d’une version libre du langage de programmation Java.
La configuration pour une utilisation “basique” est également assez simple. Une page permet de choisir entre trois modes de fonctionnement :
- Un mode “recherche communautaire” qui rend votre instance de Yacy publique. Elle va alors participer à l’effort global de recherche et d’indexation. C’est le choix que j’ai fait pour l’installation opérée sur mon poste de travail. Attention dans ce cas il faudra, si votre connexion ADSL est configurée en mode “routeur” ajouté, une redirection de ports vers votre machine afin de recevoir les demandes des autres instances Yacy. Une manœuvre qui demande quelques connaissances.
- Un mode Portail de recherche “restreint”. Dans ce cas seul les sites dont vous avez demandé l’indexation sont disponibles dans le moteur de recherche. Cela peut servir à concevoir des portails de recherche dédiés à une thématique particulière. Il n’y a pas de fonctionnement en mode pair à pair. Votre instance se contente d’indexer le contenu que vous lui indiquez et ne saura pas aller chercher des résultats ailleurs.
- Un mode “Intranet”. Seul les pages de votre réseau local sont indexées.
Vous avez la possibilité de “forcer” l’indexation de certains sites en les soumettant à Yacy qui va alors les parcourir. Il est aussi possible d‘utiliser Yacy comme un “proxy“, en paramétrant votre navigateur web pour pointer sur un proxy configuré à l’adresse localhost (ou 127.0.0.1) et le port 8090 dans mon cas. Toutes les pages que vous visiterez seront alors indexées.
En ce qui concerne les résultats de recherche, je dirais que les résultats sont moins pertinents qu’avec Google. Mais je vais laisser le temps passer et soumettre à l’indexation des sites que je consulte régulièrement pour voir si à la longue je pourrais y trouver mon bonheur. Mais il est probable que Yacy soit en tout cas très bien adapté pour créer des portails de recherche spécialisés.
Il existe une extension pour améliorer l’intégration de Yacy dans Firefox. Mais à l’heure où j’écris cet article un message d’erreur signale que le fichier de l’extension est introuvable sur le serveur. J’ai signalé le problème en attendant de pouvoir tester et surtout vérifier la compatibilité avec mon Firefox 8.
Pour l’instant le souci que je rencontre est l’occupation mémoire de Yacy. Bien que configuré pour se limiter à 600Ko, et malgré les informations données dans le status système, le processus correspondant monte parfois à près de 1,6Go en consommant de plus en plus de CPU pour finir par se bloquer. Il faut alors le tuer et redémarrer l’instance, ce qui rend pour l’instant Yacy inutilisable sur ma machine. Un problème également signalé.
Pour l’instant, tout comme lors de mon premier test, je reste hélas sur ma faim. Pas mal de choses sont fort sympathiques dans l’application avec par endroit de réels efforts pour rendre le logiciel facilement utilisable sans toucher au paramétrage avancé. Je vous tiendrai au courant dans les commentaires des éventuelles solutions apportées à mon problème.
Réagir à cet article
Article original écrit par Philippe Scoffoni le 01/12/2011. | Lien direct vers cet article
Cette création est mise à disposition sous un contrat Creative Commons BY à l'exception des images qui l'illustrent (celles-ci demeurent placées sous leur mention légale d'origine).