Journal du Net > Solutions >  Sergey Brin, Google : "Nous avons 6 000 serveurs Linux pour l'indexation et la recherche."
Article
 
12/06/2000

Sergey Brin, Google : "Nous avons 6 000 serveurs Linux pour l'indexation et la recherche."

  Envoyer Imprimer  

Google est aujourd'hui l'un des moteurs de recherche les plus prisés des internautes dans le monde entier. La société, dont le nom est hérité du googol, un nombre formé par un 1 suivi de 100 zéros, entretient en effet l'ambition d'être le plus exhaustif des moteurs avec près de 1,3 milliards de documents indexés sur le Web. Aujourd'hui, Google représente un effectif de 170 personnes dont 90 ingénieurs en R&D qui travaillent sur l'amélioration de ses technologies déjà éprouvées. Pour preuve, le moteur enregistre près de 55 millions de recherche par jour, dont 25 millions sur le site principal Google.com. De passage à Paris, son président-fondateur Sergey Brin nous explique les choix stratégiques de son entreprise.

JDNet Solutions : Quel sont les principaux points forts de Google par rapport à d'autres moteurs ?
Sergey Brin : Tout d'abord, nous avons un score très haut concernant la pertinence des résultats. Google est le moteur de recherche qui présente les réponses correspondant le mieux aux termes de la recherche.
De plus, nous avons l'un des plus importants nombre de pages indexées au monde, soit plus de 1,3 milliards de documents. En fait, il s'agit plutôt de 700 millions de pages indexées dans notre base, et 700 millions de liens vers d'autres documents dont nous renvoyons quand même les résultats.

A la première connexion, le moteur reconnaît que je suis français. Comment procédez-vous ?
Il existe deux façons pour y parvenir. D'une part, nous nous basons sur le navigateur de l'utilisateur qui est souvent dans sa langue d'origine. Ensuite, il est tout à fait possible de détecter les adresses IP françaises. Et même si le résultat n'atteint pas 100 %, il reste assez efficace. Dans ce domaine, qui concerne aussi Yahoo pour les problèmes qu'ils ont rencontré récemment, il faut connaître tous les ISP français. Or, c'est tout à fait possible, y compris pour la publicité.

Quelles sont vos technologies consacrées à l'indexation des pages web ? Que pensez-vous des moteurs basés sur l'analyse des concepts ?
Nous possédons trois datacenters avec des milliers d'ordinateurs, dont un grand nombre est utilisé pour indexer Internet suivant notre propre technologie. Très rapide, celle-ci se base sur des annuaires inversés qui, comme dans une encyclopédie, associent à chaque mot une information. Lors de l'analyse, il s'agit de trouver le mot par exemple dans les titres et les zones de caractères, en regardant quels sont les liens qui pointent vers la page considérée.
Concernant votre seconde question, nous avons aussi réfléchi à des technologies de concepts dans le cadre de nos recherches. Mais nous avons constaté qu'en ayant recours à celles-ci, nous réduisions la pertinence des résultats. Il faut donc faire très attention à cette technologie, même si elle peut être adaptée dans certains cas.

Quels sont vos choix concernant vos modes de rémunération ?
Nous avons deux formes de revenus différentes. Tout d'abord, il s'agit de la publicité sur Google.com au format texte et non graphique. La raison de cela est que le texte se charge plus vite que les images, et donc que nos pages s'affichent plus vite.
Ensuite, nous avons revendu la licence du moteur à près de 100 clients dans une vingtaine de pays, dont Yahoo qui a signé l'été dernier et Caraweb, mais aussi Virgin en Grande-Bretagne et Verio en Italie.

Personnalisez-vous l'affichage de la publicité en fonction de la requête ? Comment ?
Les publicités sont toujours affichées en fonction des termes de la recherche. Pour cela, nous employons notre propre technologie. La première méthode consiste à demander à l'annonceur de spécifier les termes selon lesquels il souhaite voir afficher sa publicité.
L'autre moyen revient à spécifier une catégorie, et tous les mots de cette catégorie sont concernés. Par habitude, les annonceurs préfèrent spécifier les mots exacts, mais parfois ils veulent acheter plus d'impressions.

Google est-il aussi adapté aux intranets ?
Nous fournissons un service en mode ASP pour que le produit soit utilisé sur les extranets, mais pas sur les intranets. Nous avons une douzaine de clients qui utilisent ce service, dont Cisco, Freesbee.fr, Netcraft.com et Caloga.com.

Et sur le plan technologique, pouvez-vous indexer les bases de données et les pages dynamiques ?
Nous indexons certaines bases de données comme celle d'Amazon car elle est en HTML. Mais pour beaucoup d'autres, ce n'est pas possible car il faut remplir un formulaire. Chez nous, ce n'est possible que si la base de données est exportée en HTML comme c'est souvent le cas pour les bases produits. Concernant les pages dynamiques, les langages ASP (Active server pages) et autres sont problématiques, en particulier pour les pages qui ont des données enregistrées dans des cookies. Dans ce cas, nous ne pouvons pas indexer, mais dans le futur nous y parviendrons sûrement.

Quelle est votre plate-forme technique et quels sont vos choix en matière d'architecture logicielle ?
Nous possédons environ 6 000 serveurs. Ce sont des PC équipés de Linux, plus exactement la distribution RedHat dans sa configuration minimale. Pour tout ce qui a trait à la recherche, nous développons nos logiciels et nous utilisons notre propre base de données très compacte et très rapide. Le format de données est très réduit car modélisé spécifiquement pour nous.

Quelle est la fréquence de mise à jour des liens ? Vérifiez-vous leur cohérence de façon manuelle ?
Nous effectuons un rappel complet chaque mois. Pour d'autres pages comme les portails d'actualités ou les nouveaux sites, nous intervenons une fois par semaine, voire une fois par jour. Nous avons aussi une équipe complète de 5-6 personnes qui pratiquent des tests aveugles au hasard, donc forcément objectifs.
Concernant le contrôle des abus comme les occurrences suspectes dans les pages, notre algorithme de "search ranking" permet de s'en débarrasser.

Vous permettez très peu l'usage des opérateurs (booléens, proximité...) Pourquoi ?
Nous essayons de rendre la recherche facile pour les internautes et nous pensons qu'il est difficile de faire appel à beaucoup d'opérateurs. De plus, 1 % les utilisent souvent et le reste très rarement voire pas du tout. En plus, pour de nombreuses recherches, il n'y a souvent pas de raisons de les utiliser.

La recherche en langage naturel fait-elle partie de vos prochaines évolutions ?
Oui, cela sera bientôt possible. Mais en fait, aujourd'hui cela marche déjà assez bien en anglais. Il est possible saisir une question et le moteur effectue la recherche sur les mots qui composent la question. En ce moment, nous travaillons sur des améliorations.

Quelles sont les autres évolutions prévues ?
Probablement du côté des technologies mobiles. Nous allons fournir la recherche pour les téléphones Wap qui auront accès à tous les documents sur le Web. Il ne s'agit pas seulement de HTML, mais aussi de montrer les résultats en WML. Cela fait partie de nos projets à court terme.


Originaire de Moscou, Sergey Brin fonde Google avec Larry Page (l'actuel CEO) en 1998 au sortir de leurs études communes. Tous deux sont en effet titulaires d'un Bachelor of Science, le premier à l'université de du Maryland et le second à celle du Michigan. A titre personnel, il continue ses études et s'apprête bientôt à passer un doctorat en informatique à l'université de Stanford. Ses sujets d'étude ont pour objet les moteurs de recherche, l'extraction d'informations depuis des sources non structurées, et le datamining de textes et données scientifiques volumineux. Parallèlement, Sergey Brin est également titulaire du National Science Foundation et est auteur de plus d'une douzaine d'articles publiés dans les principales revues universitaires américaines.


JDN Solutions Envoyer Imprimer Haut de page

Sondage

Recourir à un service cloud comme unique solution de stockage de fichiers, vous y croyez ?

Tous les sondages