12/06/2000
Sergey Brin, Google : "Nous
avons 6 000 serveurs Linux pour l'indexation et
la recherche."
Google
est aujourd'hui l'un des moteurs de recherche les plus prisés
des internautes dans le monde entier. La société,
dont le nom est hérité du googol, un nombre
formé par un 1 suivi de 100 zéros, entretient
en effet l'ambition d'être le plus exhaustif des moteurs
avec près de 1,3 milliards de documents indexés
sur le Web. Aujourd'hui, Google représente un effectif
de 170 personnes dont 90 ingénieurs en
R&D qui travaillent sur l'amélioration de ses
technologies déjà éprouvées.
Pour preuve, le moteur enregistre près de 55 millions
de recherche par jour, dont 25 millions sur le site
principal Google.com. De passage à Paris, son président-fondateur
Sergey Brin nous explique les choix stratégiques
de son entreprise.
JDNet
Solutions : Quel sont les principaux points forts de Google
par rapport à d'autres moteurs ?
Sergey Brin : Tout d'abord, nous avons un
score très haut concernant la pertinence des résultats.
Google est le moteur de recherche qui présente les
réponses correspondant le mieux aux termes de la
recherche.
De plus, nous avons l'un des plus importants nombre de pages
indexées au monde, soit plus de 1,3 milliards
de documents. En fait, il s'agit plutôt de 700 millions
de pages indexées dans notre base, et 700 millions de
liens vers d'autres documents dont nous renvoyons quand
même les résultats.
A
la première connexion, le moteur reconnaît
que je suis français. Comment procédez-vous
?
Il existe deux façons pour
y parvenir. D'une part, nous nous basons sur le navigateur
de l'utilisateur qui est souvent dans sa langue d'origine.
Ensuite, il est tout à fait possible de détecter
les adresses IP françaises. Et même si le résultat
n'atteint pas 100 %, il reste assez efficace. Dans
ce domaine, qui concerne aussi Yahoo pour les problèmes
qu'ils ont rencontré récemment, il faut connaître
tous les ISP français. Or, c'est tout à fait
possible, y compris pour la publicité.
Quelles
sont vos technologies consacrées à l'indexation
des pages web ? Que pensez-vous des moteurs basés
sur l'analyse des concepts ?
Nous possédons trois datacenters
avec des milliers d'ordinateurs, dont un grand nombre est
utilisé pour indexer Internet suivant notre propre
technologie. Très rapide, celle-ci se base sur des
annuaires inversés qui, comme dans une encyclopédie,
associent à chaque mot une information. Lors de l'analyse,
il s'agit de trouver le mot par exemple dans les titres
et les zones de caractères, en regardant quels sont
les liens qui pointent vers la page considérée.
Concernant votre seconde question, nous avons aussi réfléchi
à des technologies de concepts dans le cadre de nos
recherches. Mais nous avons constaté qu'en ayant
recours à celles-ci, nous réduisions la pertinence
des résultats. Il faut donc faire très attention
à cette technologie, même si elle peut être
adaptée dans certains cas.
Quels
sont vos choix concernant vos modes de rémunération
?
Nous avons deux formes de revenus
différentes. Tout d'abord, il s'agit de la publicité
sur Google.com au format texte et non graphique. La raison
de cela est que le texte se charge plus vite que les images,
et donc que nos pages s'affichent plus vite.
Ensuite, nous avons revendu la licence du moteur à
près de 100 clients dans une vingtaine de pays,
dont Yahoo qui a signé l'été dernier
et Caraweb, mais aussi Virgin en Grande-Bretagne et Verio
en Italie.
Personnalisez-vous
l'affichage de la publicité en fonction de la requête
? Comment ?
Les publicités sont toujours
affichées en fonction des termes de la recherche.
Pour cela, nous employons notre propre technologie. La première
méthode consiste à demander à l'annonceur
de spécifier les termes selon lesquels il souhaite
voir afficher sa publicité.
L'autre moyen revient à spécifier une catégorie,
et tous les mots de cette catégorie sont concernés.
Par habitude, les annonceurs préfèrent spécifier
les mots exacts, mais parfois ils veulent acheter plus d'impressions.
Google
est-il aussi adapté aux intranets ?
Nous fournissons un service en mode
ASP pour que le produit soit utilisé sur les extranets,
mais pas sur les intranets. Nous avons une douzaine de clients
qui utilisent ce service, dont Cisco, Freesbee.fr, Netcraft.com
et Caloga.com.
Et
sur le plan technologique, pouvez-vous indexer les bases
de données et les pages dynamiques ?
Nous indexons certaines bases de données
comme celle d'Amazon car elle est en HTML. Mais pour beaucoup
d'autres, ce n'est pas possible car il faut remplir un formulaire.
Chez nous, ce n'est possible que si la base de données
est exportée en HTML comme c'est souvent le cas pour
les bases produits. Concernant les pages dynamiques, les
langages ASP (Active server pages) et autres sont problématiques,
en particulier pour les pages qui ont des données
enregistrées dans des cookies. Dans ce cas, nous
ne pouvons pas indexer, mais dans le futur nous y parviendrons
sûrement.
Quelle
est votre plate-forme technique et quels sont vos choix
en matière d'architecture logicielle ?
Nous possédons environ 6 000 serveurs.
Ce sont des PC équipés de Linux, plus exactement
la distribution RedHat dans sa configuration minimale. Pour
tout ce qui a trait à la recherche, nous développons
nos logiciels et nous utilisons notre propre base de données
très compacte et très rapide. Le format de
données est très réduit car modélisé
spécifiquement pour nous.
Quelle
est la fréquence de mise à jour des liens
? Vérifiez-vous leur cohérence de façon
manuelle ?
Nous effectuons un rappel complet
chaque mois. Pour d'autres pages comme les portails d'actualités
ou les nouveaux sites, nous intervenons une fois par semaine,
voire une fois par jour. Nous avons aussi une équipe
complète de 5-6 personnes qui pratiquent des tests
aveugles au hasard, donc forcément objectifs.
Concernant le contrôle des abus comme les occurrences
suspectes dans les pages, notre algorithme de "search
ranking" permet de s'en débarrasser.
Vous
permettez très peu l'usage des opérateurs
(booléens, proximité...) Pourquoi ?
Nous essayons de rendre la recherche
facile pour les internautes et nous pensons qu'il est difficile
de faire appel à beaucoup d'opérateurs. De
plus, 1 % les utilisent souvent et le reste très
rarement voire pas du tout. En plus, pour de nombreuses
recherches, il n'y a souvent pas de raisons de les utiliser.
La
recherche en langage naturel fait-elle partie de vos prochaines
évolutions ?
Oui, cela sera bientôt possible.
Mais en fait, aujourd'hui cela marche déjà
assez bien en anglais. Il est possible saisir une question
et le moteur effectue la recherche sur les mots qui composent
la question. En ce moment, nous travaillons sur des améliorations.
Quelles
sont les autres évolutions prévues ?
Probablement du côté
des technologies mobiles. Nous allons fournir la recherche
pour les téléphones Wap qui auront accès
à tous les documents sur le Web. Il ne s'agit pas
seulement de HTML, mais aussi de montrer les résultats
en WML. Cela fait partie de nos projets à court terme.
Originaire de Moscou, Sergey Brin fonde Google
avec Larry Page (l'actuel CEO) en 1998 au sortir de leurs
études communes. Tous deux sont en effet titulaires
d'un Bachelor of Science, le premier à l'université
de du Maryland et le second à celle du Michigan.
A titre personnel, il continue ses études et s'apprête
bientôt à passer un doctorat en informatique
à l'université de Stanford. Ses sujets d'étude
ont pour objet les moteurs de recherche, l'extraction d'informations
depuis des sources non structurées, et le datamining
de textes et données scientifiques volumineux. Parallèlement,
Sergey Brin est également titulaire du National Science
Foundation et est auteur de plus d'une douzaine d'articles
publiés dans les principales revues universitaires
américaines.
|