Article rédigé par Rémy C., Malika H. et Claudia N. de la promo Cafel 21 à partir de la présentation de leurs camarades de la promo Cafel 20.

Depuis 1995, il y a eu 4 générations de moteurs de recherche. La dernière génération concerne des moteurs personnalisables, moteurs multimédias et de recherches de personnes : Google Custom Search, Truveo, 123people…

Les trois principaux moteurs généralistes sont Google, Exalead et Yahoo.

Pour une recherche sur le Web, en gros, 3 types d’outils sont disponibles:

  • Les métachercheurs (All4One, Cyber411, Dogpile, Inference Find, Metacrawler, Metafind, SavvySearch…)
  • Les moteurs de recherche ( Altavista, Hotbot, Infoseek, Northern Light, Lycos…)
  • Les répertoires ( Lycos’ Top 5%, Infoseek, Excite, Yahoo …)

Plusieurs sites répertorient les outils de recherche ( Ariane6 ; Indicateur ; Les Annuaires (http://www.lesannuaires.com/), les comparent (www.atinternet-institute.com ; (http://barometre.secrets2moteurs.com)
ou en mesurent l’audience ( par exemple, indiquer le nom du moteur dont on souhaite voir l’audience à la fin de l’URL (www.talkreviews.com/nomdumoteur.com )

A. Les métachercheurs

Les méta-moteurs interrogent plusieurs moteurs de recherche simultanément, récupèrent les résultats issus des différents outils, suppriment les doublons et présentent les résultats selon leurs pertinences.

Ce sont d’excellents points de départ pour une recherche car ils fournissent un instantané des résultats fournis par les plus gros moteurs de recherche (une sorte d’écrémage), tout en intégrant les résultats (pour éviter de voir 2 fois le même site).

Les métachercheurs donnent une idée des sites que l’on va obtenir, de leur façon de traiter le sujet et un certain nombre d’éléments importants :

  • Le nombre de résultats par moteur de recherche montre ceux sur lesquels on trouvera le plus grand nombre d’informations.

  • Les termes employés dans les titres et les descriptions des sites potentiellement intéressants.

Il ne faut pas hésiter à effectuer plusieurs recherches avec des termes différents et sur plusieurs métachercheurs. Une fois que l’on a ces points de départ, on peut passer à la recherche sur les moteurs.

Voici quelques exemples de méta-moteurs généralistes:

Et de meta-moteurs spécialisés :

B. Les moteurs de recherche

Grâce aux méta-chercheurs, on a déjà une idée du genre de résultats que vont fournir les moteurs de recherche, en fonction des mots-clefs utilisés.

C’est à ce stade que se fait le gros du travail car, rappelons-le, les moteurs de recherche sont de loin les bases de données les plus importantes et les mieux mises à jour. La recherche devient la plus technique car il faut employer toutes les possibilités de ces moteurs.

Suivez les conseils donnés plus haut et limitez-vous aux plus gros moteurs de recherche. Il sera toujours temps de ratisser le Web plus tard, une fois que l’essentiel du travail sera fait.

  • Affinez votre requête en fonction des résultats obtenus en restreignant le champ de recherche à l’aide de nouveaux mots-clefs ou en utilisant la fonction permettant de faire une nouvelle recherche à l’intérieur des résultats obtenus (possible dans Infoseek par exemple).

  • Exemple de restriction : si vos résultats sont pollués par des sites commerciaux, limitez-les aux domaines non commerciaux (NOT domain:com).

  • Ne vous égarez pas en surfant de site en site au hasard des liens. Jetez un coup d’oeil, posez un signet, notez les termes et les expressions auxquels vous n’aviez pas pensé pour des recherches ultérieures.

  • Passez à d’autres moteurs de recherche.

Pour être complet, il faut parcourir les sites proposant des classements par catégorie, des compilations en tous genres.

Voici quelques moteurs généralistes

Et quelques moteurs spécialisés en

C. Répertoires, compilations, “Best of”…

Lors d’une recherche, il est plus tentant de commencer par Yahoo que par Altavista, alors pourquoi proposer cette méthode en dernier lieu ? Bien que de forme plus attirante que les moteurs de recherche, ces classements de sites ont des limites :

  • N’y sont présents que les sites qui veulent y figurer. Un site dont l’administrateur ne désire pas qu’il figure dans Yahoo n’y sera pas indexé, sauf si quelqu’un d’autre le propose à la place du responsable (éventualité peu probable).

  • N’y sont présents que les sites satisfaisant aux critères de classement : contenu du site, affichage de logos, de bannières, etc. Il y a donc un tri, un choix, voire une censure qui permettent de proposer à l’internaute du site pré-mâché, voire déjà digéré et périmé (dans le pire des cas).

  • Les classements, top of the Web et autres hit parade, ne signifient pas toujours qualité, au contraire des répertoires (comme Yahoo, google…). On y trouve en effet des sites dont le but principal est d’attirer le client, de gagner de l’argent ou d’avoir le plus grand nombre de visiteurs possible.

Alors, quand utiliser ces classements ?

  • Pour voir quels sont les sites les plus visités ou choisis par d’autres sites.

  • Pour servir de point de départ à d’autres recherches.

Voici quelques sites de référence:  Lycos’ Top 5%, Infoseek, Excite, Yahoo …

Il existe maintenant de plus en plus de nouvelles approches liées au développement du Web 2.0 dont voici les principes essentiels:

·    Le web vu comme une plate-forme de services
·    Considérer les internautes comme co-développeurs des applications
·    Le service s’améliore quand le nombre d’utilisateurs augmente
·    La richesse est dans les données
·    Tirer partie de l’intelligence collective
·    Mettre en place des interfaces souples et légères
·    Le logiciel se libère du PC

Les blogs font partie de ces développements. Voici quelques moteurs de recherche:

Il est également possible d’organiser une recherche automatisée, avec un cadre méthodologique clair:

  1. Objectifs des surveillances, sujets concernés
  2. Mise au clair des besoins, terminologie, type d’informations souhaités, etc.
  3. Sélection des sources / sélection des moteurs, métamoteurs et bases de données
  4. Automatisation des surveillances

· Paramétrages divers
· Application d’un filtre de mots-clés
· Equation de recherche pour les moteurs et bases de données

Exploitation et diffusion

Notons aussi l’importance croissante des flux RSS qui permettent d’automatiser la veille sur des champs bien déterminés.

Pour pousser certaines recherches, il peut être nécessaire d’accéder au web dit “invisible”, avec les approches suivantes:

  • Remonter au concept « père », par navigation arborescente, dans des répertoires de bases de données
  • Répertoires généralistes, thématiques
  • Métamoteurs spécialisés
  • Utilisation des mots-clés comme « base de données », “database”, “preprint”, « white paper », « livre blanc »
  • Dans les réservoirs d’informations comme sites d’archives ouvertes, dépôts de thèses

Une recherche documentaire peut aussi être affinée et poursuivie dans ce qui est appelé le web profond. Il peut être défini comme “un ensemble des pages non localisables et/ou non indexables pour les moteurs et méta-moteurs : pages dynamiques (ex : offres d’emploi) ; nécessitant une identification (livres blancs, rapports, articles…) ; orphelines ; appartenant à des sites très volumineux ; interdites aux moteurs (ex : avec « robots.txt » intégré au code source) ; aux caractéristiques techniques incompréhensibles pour les moteurs de recherche”. Il s’agit alors de repérer les “signaux faibles” sur telle ou telle tendance émergente, pour anticiper sur le développement d’innovations dans son champ de recherche.

Cerner le sujet de sa recherche, lancer des requêtes, connaître les opérateurs ne sont pas des éléments suffisants pour mener à bien sa recherche. Maintenant que les informations collectées sont satisfaisantes, une série de questions se posent:

  • Comment identifier mes sources d’information? Il n’y a pas que le web[1]!
  • Comment valider mes sources ?
  • Comment vais-je archiver et synthétiser tous mes documents pendant ma recherche ?

Pour la suite, découvrez :


[1] et nos articles en sont la preuve, s’appuyant en partie sur l’excellent ouvrage… papier dont les références sont les suivantes: MESGUISCH, THOMAS (2010) Net recherche 2010. Le guide pratique pour trouver l’information utile et surveiller le web. Paris : Association des Professionnels de l’Information et de la Documentation (ADBS) 4ème éd.