INTRODUCTION AUX METHODES DE RECHERCHE SUR INTERNET

1. Qu'est-ce qu'Internet ? Qu'est-ce que le Web ?

1.1 Qu'est-ce qu'Internet ?

Réseau de réseaux répartis sur la planète qui utilisent un protocole commun pour communiquer : TCP/IP. Les machines y sont identifiées par des noms tels que www.univ-brest.fr, ou infolettres.univ-brest.fr

Actuellement, des dizaines de millions de sites et d'utilisateurs ?

1.2 L'aspect le plus médiatisé d'Internet, le WEB ou WWW

1.2.1 La connexion à un serveur WWW et la consultation de pages d'information

Logiciel utilisé : navigateur (browser) : Netscape, Internet Explorer, etc...

Connexion à un site à l'aide de son URL (uniform ressource locator).

Exemples :

le serveur de l'UBO :

http://www.univ-brest.fr

les serveurs du département interdisciplinaire d'informatique :

http://geai.univ-brest.fr

http://infolettres.univ-brest.fr

Toutes les zones affichées en bleu souligné sont des pointeurs vers d'autres documents, localisés physiquement sur les machines du Centre de Ressources Informatiques ou sur d'autres machines françaises ou étrangères.

2 Outils de recherche sur le Web

2.1 Les types d'outils de recherche

- Outils de recherche par index ou moteurs de recherche proprement dits

- Méta moteurs de recherche

- Annuaires

2.2 Principes de fonctionnement de ces outils

2.2.1 Les annuaires

Les annuaires sont des bases de données renseignées par des acteurs humains : les documentalistes. Les auteurs de sites Web proposent leur site au référencement. C'est ensuite un documentaliste qui apprécie l'intérêt du site, et le cas échéant, rédige un descriptif, classe le site dans une catégorie donnée, etc.

Exemples d'annuaires :

Parmi ces outils, on peut citer :

Yahoo www.yahoo.com www.yahoo.fr

Nomade www.nomade.fr

Looksmart www.looksmart.com, www.looksmart.fr

Open Directory Project www.dmoz.org

 

2.2.2 Les moteurs de recherche

Les moteurs de recherche obéissent à une conception totalement différente. Les bases de données y sont gérées par des logiciels automatiques et sont alimentées par des robots logiciels. Ces derniers ont pout mission d'explorer en permanence le Web à la recherche de nouvelles pages, ou pour actualiser les informations recueillies sur les pages déjà référencées.

 

Exemples de moteurs de recherche :

- All The Web www.alltheweb.com

- Altavista www.altavista.com, www.altavista.fr

- Excite www.excite.com

- Francité www.francite.com

- Google www.google.com, www.google.fr

- Hotbot www.hotbot.fr, www.hotbot.lycos.com

- Lycos www-english.lycos.com, www.lycos.fr

- Northern Light www.northernlight.com

- Voilà www.voila.fr.

2.2.3 Les méta-moteurs

Un méta-moteur fonctionne de la manière suivante : il traduit la requête faite par l'utilisateur et la transmet en parallèle à plusieurs moteurs de recherche. Il reçoit les premières réponses de chaque moteur (de 10 à 50), les compile en éliminant les doublons (en principe....) et fournit les résultats. La recherche est ainsi plus exhaustive qu'avec un moteur traditionnel, mais on ne peut guère spécifier de requête élaborée, la traduction dans la syntaxe de chaque moteur étant trop approximative. Parmi ceux-ci, on peut citer :

Metacrawler: www.go2net.com/search.html

Interroge en parallèle 13 moteurs de recherche, reçoit de 10 à 30 réponses par moteur et compile les réponses en éliminant les références doubles.

Profusion : www.profusion.com

Interroge en parallèle 9 moteurs de recherche, reçoit les réponses par moteur et compile les réponses en éliminant les références doubles.

Askjeeves: www.askjeeves.com

Interroge en parallèle 8 moteurs de recherche et affiche les réponsest.

Dogpile: www.dogpile.com

Interroge en parallèle 17 moteurs de recherche, reçoit les réponses et les compile en éliminant les références doubles.

Highway61 : www.highway61.com

Interroge en parallèle 6 moteurs de recherche, reçoit les réponses et les compile en éliminant les références doubles.

2.2.4 Comparaison des différents types de solutions

Dans le cas des annuaires, l'intervention humaine permet une structuration thématique de l'information, et une meilleure qualité de l'information mise à disposition. En revanche, le nombre de sites référencés est limité. Les moteurs de recherche permettent de référencer un nombre de sites beaucoup plus important, avec une indexation du contenu des pages en "texte intégral". En revanche, le fonctionnement du robot d'indexation est peu intelligent.

Dans les deux cas, les délais de prise en compte d'une demande d'indexation, ou de mise à jour des informations lorsque le site référencé a été modifié, sont très longs : jusqu'à plusieurs mois pour de gros moteurs tels que Google. Il n'est donc pas étonnant qu'un clic sur un lien indiqué par un moteur de recherche aboutisse à une "Erreur 404 : page non trouvée".

D'autre part, chaque moteur a sa stratégie propre pour évaluer "l'intérêt" d'un site. Autrement dit, aucun de ces moteurs ne recense la totalité des documents disponibles sur le Web et il est souvent utile d'en interroger plusieurs pour trouver le document qui nous intéresse.

Signalons enfin qu'une grande partie de l'information disponible sur le Web (99%, selon certains auteurs), échappe aux moteurs de recherche. C'est notamment le cas de l'information contenue dans des bases de données et accessible via des pages Web "dynamiques".

 

2.3. La recherche par index

C'est en soi tout un problème... Il y a des millions de serveurs répartis à travers le monde, et des centaines de millions de pages accessibles. Comment trouver ce qui nous intéresse ?

La plupart des moteurs comportent (au moins) deux modes de recherche : recherche simple et recherche avancée (advanced search, powersearch, etc). Ce dernier mode donne accès à un langage de requête évolué disposant d'opérateurs logiques (AND, OR, NOT, NEAR), de mots-clés spécifiant un niveau de recherche (title, url, etc). La syntaxe à utiliser varie malheureusement selon le moteur considéré.

De par leur conception même, ces moteurs possèdent un certain nombre de limitations :

- le facteur "temps" : vu le nombre de documents à explorer, le robot met plusieurs mois à visiter l'ensemble des sites qu'il référence. Les références à des sites très évolutifs (ceux des quotidiens par exemple) seront donc presque toujours incomplètes ;

- l'automaticité du fonctionnement, et notamment de l'indexation, n'est pas un gage de discernement ni d'intelligence ;

- ces moteurs ne référencent pas les documents accessibles à l'aide d'une requête dans une base de données (exemple : le service d'archives du Monde).

2.3.1 La syntaxe utilisée par Altavista

Nous souhaitons trouver les documents traitant des Mémoires d'Outre-Tombe de Chateaubriand, plus particulièrement des livres concernant l'Amérique.

Sur Altavista, la recherche simple de Chateaubriand ramène près de 10000 documents (en se limitant au Web Français, et plus de 16000 sur tout le Web). Tout y passe : la ville, le château de Combourg, les recettes de cuisine,...

En revanche, à l'aide du mode Advanced Search, on pourra cibler la recherche :

Les documents dont le titre contient le mot "mémoires" :

Chateaubriand AND title:mémoires

Les documents précédents, sauf ceux émanant de sites commerciaux (il ne reste plus que quelques sites sélectionnés):

Chateaubriand and title:mémoires and not domain:com

On pourra également essayer un critère tel que  :

chateaubriand AND "memoires d'outre-tombe" AND (NOT domain:com) AND amerique

Les critères les plus sélectifs devraient nous permettre de trouver des sites tels que :

www.nt.ac-strasbourg.fr/servacad/pedago/lettres/Chateaub/

gallica.bnf.fr/Fonds-textes/T0101834.htm

On pourra comparer ces résultats avec ceux obtenus par Hotbot :

Chateaubriand AND Amérique

en activant le menu contextuel Boolean Phrase.

Selon O. Andrieu, Altavista fait de subtiles différences entre mots entièrement en minuscules, et mots écrits avec une ou plusieurs majuscules, en début de mot ou pas. Ainsi,

- si l'on tape chateaubriand, le moteur cherchera le mot avec une combinaison quelconque de majuscules et de minuscules : chateaubriand, CHATEAUBRIAND, Chateaubriand, chAteaUbriand, etc.

- si l'on tape Chateaubriand, le moteur ne cherchera que les occurrences du mots écrites avec cette combinaison de majuscules et minuscules.

En effet, on constate que le mot chateaubriand ramène 11694 documents alors que le mot Chateaubriand n'en ramène que 9702..

Le moteur traite de façon analogue les caractères accentués :

- si on tape mémoires, le moteur cherchera mémoires, Mémoires, MÉMOIRES, mais pas MEMOIRES

- si l'on tape memoires, le moteur cherchera le mot avec toutes les combinaisons d'accents, y compris mèmoires, mêmoires, etc

De même, le critère chateaubriand AND memoires ramène 843 documents, alors que chateaubriand AND mémoires en ramène 770.

La recherche est faite sur des mots entiers. Le résultat sera différent si notre critère de recherche est memoire au lieu de memoires. Et, si l'on n'est pas sûr du nombre, il existe une possibilité de "joker". S'agit-il du voyage en Amérique ou aux Amériques ? On peut réunir les deux par :

chateaubriand AND amerique*

 

Peu de moteurs permettent de filtrer le niveau auquel on recherche l'expression dans le document. L'un des meilleurs de ce point de vue est Altavista, qui permet les niveaux suivants :

Niveau de recherche

- texte text:

- titre title:

- adresse: url:

- site : host:

- domaine: domain:

- lien : link :

- image image:

- objet: applet:

- date : sélectionner le menu correspondant

Par exemple, un critère de la forme ... AND url:www.univ*.fr ou ... AND host:www.univ*.fr limitera la recherche aux sites des universités françaises (mais tous les sites des universités n'ont pas un nom de ce type) et un critère de la forme ... AND domain:edu ne nous fournira que des sites d'établissements d'enseignement américains.

2.3.2 La syntaxe utilisée par Google

Google est sans doute le moteur qui recense le plus grand nombre de pages. Mais, même en mode "advanced search", la syntaxe utilisée laisse peu d'initiative à l'internaute :

- Par défaut, les différents mots clés indiqués sont reliés par un AND

- Il ignore les mots "vides" (prépositions, articles, etc) sauf s'ils sont précédés par un "+"

- On peut indiquer une expression contenant plusieurs mots, en la plaçant entre guillemets

- Il ne tient pas compte des caractères accentués, des signes diacritiques, etc. Autrement dit, a=à, e=é=è=ê=E, etc

- Il ne dispose pas de jokers tels que * ou ?

- Il possède deux opérateurs : "link:" et "site:" permettant de filtrer les réponses.

2.3.3 Exercices

1) Reprendre les recherches précédentes en essayant de traduire les critères de recherche dans la syntaxe de Google.

 

2) Un autre exemple : les lettres de la Marquise de Sévigné

Comme dans l'exemple précédent, le seul mot sevigne n'est pas suffisamment sélectif. Ainsi, sur Altavista :

sevigne ramène 7273 documents

- sevigne, avec le choix language French, en ramène encore 3665

(madame OR marquise) AND sevigne en ramène 1856

- ("madame de sevigne") OR "marquise de sevigne") AND lettres en ramène 254

("madame de sevigne") OR "marquise de sevigne") NEAR lettres en ramène 99.

Nous pouvons alors tenter notre chance et obtenir des sites tels que :

www.ot-vitre.fr/sevignales/jury.htm

www.ambafrance.org/IMMERSION/sevigne/famille.html

3. Savoir s'organiser

3.1 Savoir "décoder" une adresse : les domaines

Localiser physiquement une machine à partir de son nom :

.fr France

.uk, .de, .be, .ie ... : Europe

.ca, .au Canada, Australie

.com, .edu, .gov, .int, .mil, .net, .org répartition par thème ou type d'activité. Les serveurs sont généralement aux Etats-Unis. Pour nos activités, les plus intéressants sont généralement les domaines .edu et .org. Le domaine .com (commercial) donne rarement accès à des informations à la fois intéressantes et gratuites.

Il faut également savoir qu'une adresse telle que :

infolettres.univ-brest.fr/~carpenti/

c'est-à-dire une adresse comportant une tilde, pointe vers les "pages personnelles" d'un utilisateur dont le nom de connexion est carpenti. Autrement dit, le contenu de ces pages est géré par cette personne, et non par une organisation. De tels sites ont souvent une durée de vie assez brève...

3.2 Organiser ses bookmarks

Une fois que l'on a identifié un site intéressant, on peut conserver un signet pointant vers ce site (bookmarks dans Netscape, favoris dans Internet Explorer). Assez rapidement, on se retrouve devant un grand nombre de tels signets, qu'il faut savoir organiser à l'aide des menus et de la fenêtre correspondants. Il est possible de renommer les signets, de les organiser hiérarchiquement, etc

4. Travail à réaliser

Choisissez un thème de recherche.

Utilisez différents moteurs pour rechercher des sites Web pertinents, en ciblant votre recherche et en comparant les résultats fournis par ces différents moteurs.

Rédigez ensuite une (ou plusieurs) fiche de compte-rendu. Un modèle de fiche est fourni dans W:\DEA\fiche-recherche.doc.

Enfin, adressez-moi vos fiches par mail (adresse carpenti@letsamba.univ-brest.fr) comme documents attachés.

5. Quelques "points de départ" pour les langues et la littérature

Quelques adresses butinées au cours de mes navigations sur Internet. Certaines représentent des sites intéressants (ARTFL, Frantext, Eurodictautom), d'autres sont beaucoup plus anecdotiques.

 

http://www.editions-hermes.fr/

EDITIONS HERMES

http://www.Lavoisier.fr/

Bienvenue chez LAVOISIER

http://www.bnf.fr

http://gallica.bnf.fr

Bibliothèque Nationale

http://www.inrialpes.fr/iradoc/calliope.html

CALLIOPE (blibliothèque électronique)

http://eserver.org/

Accessible Online Publishing

http://etext.lib.virginia.edu/

http://etext.lib.virginia.edu/french.html

http://etext.lib.virginia.edu/uvaonline.html

Electronic Text Center -- University of Virginia

http://humanities.uchicago.edu/ARTFL/

ARTFL Project

http://humanities.uchicago.edu/forms_unrest/FR-ENG.html

ARTFL Project: French-English Dictionary Form

http://www.inalf.fr

INALF

FRANTEXT

http://palissy.humana.univ-nantes.fr/CETE/CETE.html

Centre d'Edition de Textes Electroniques - Nantes

http://promo.net/pg/

PROJECT GUTENBERG INDEX

http://cedric.cnam.fr/ABU/

Association des Bibliophiles Universels

http://www.epas.utoronto.ca/~wulfric/academie/

Dictionnaire de l'Académie française

http://www.loria.fr/Projet/Silfide/

Silfide

http://www.perseus.tufts.edu/

Perseus Project

http://sgwww.epfl.ch/berger/index_french.html

World Art Treasures

http://www.linguist.jussieu.fr/

UFR Linguistique - Jussieu

http://www.swarthmore.edu/Humanities/clicnet/

ClicNet

http://www.sil.org/humanities/

Lexikon of humanities

http://poesie.webnet.fr/

Poésie française

http://eurodic.ip.lu/

ECHO - EURODICAUTOM

http://www-linguistics.stanford.edu/

Stanford Linguistics

http://www.chass.utoronto.ca

Centre for Computing in the Humanities Publications

http://www.msh-paris.fr/

 

http://clwww.essex.ac.uk/

CL/MT Group Bibliographic Search

http://www.princeton.edu/~mccarty/bibliography/

CETH/CCH Bibliography of Humanities Computing

 

6. D'autres aspects d'internet

6.1 Les Forums de discussion : les News

Ils peuvent également être consultés à l'aide de Netscape. Mais il existe aussi des logiciels spécialisés.

Si votre logiciel est Netscape, accédez aux news à l'aide du menu Directory-Go to Newsgroups. Sélectionnez quelques Newsgroups, par exemple :

soc.culture.french

soc.history

sci.lang.translation

sci.classics

fr.soc.divers

fr.doc.divers

Consultez ensuite quelques messages disponibles dans ces groupes.

6.2 Serveurs FTP

De nombreux aspects n'ont pas été abordés. Par exemple, un service fréquemment utilisé est le transfert de fichiers, notamment la connexion à des serveurs ftp anonymes qui donnent accès à de nombreux logiciels gratuits du domaine public. Par exemple, essayez l'URL :

ftp://ftp.jussieu.fr/pub

et descendez dans le répertoire etext (textes électroniques).

6.3 Telnet

Telnet, ou rlogin sont deux commandes des systèmes Unix qui permettent de travailler sur les machines distantes et sont fréquemment utilisées par les informaticiens. Telnet possède des équivalents sur les micro-ordinateurs. Sous certaines versions de Netscape, l'indication d'une url sous la forme (par exemple) telnet://ada.univ-brest.fr provoque le chargement du logiciel Telnet.

Certains serveurs d'informations permettent une connexion Telnet sans mot de passe, ou avec un mot de passe "public".

5.3.1 Le catalogue du Centre de Ressources

Par exemple, la bibliothèque universitaire de Brest dispose d'un accès via Telnet. Cet accès est décrit dans la page Web du serveur de l'UBO consacrée à la BU.

Les coordonnées de cet accès sont données par :

host : ada.univ-brest.fr (c-a-d : 193.52.20.193)

login : ubopubd1

password : brest

 

 

Compte-rendu de recherche

 

Nom :

 

Thème de recherche :

 

Critères de recherche :

 

 

Moteurs de recherche utilisés :

 

 

Résultats :

Nombre de sites trouvés pour chaque moteur :

 

 

url retenues :