cairn

DU MAUVAIS USAGE DE FAUX INDICATEURSYves Gingras

Belin | « Revue d’histoire moderne et contemporaine »

2008/5 n° 55-4bis | pages 67 à 79 ISSN 0048-8003ISBN 9782701147864

Article disponible en ligne à l'adresse :--------------------------------------------------------------------------------------------------------------------http://www.cairn.info/revue-d-histoire-moderne-et-contemporaine-2008-5-page-67.htm--------------------------------------------------------------------------------------------------------------------

!Pour citer cet article :--------------------------------------------------------------------------------------------------------------------Yves Gingras, « Du mauvais usage de faux indicateurs », Revue d’histoire moderne etcontemporaine 2008/5 (n° 55-4bis), p. 67-79.--------------------------------------------------------------------------------------------------------------------

Distribution électronique Cairn.info pour Belin.

© Belin. Tous droits réservés pour tous pays.

La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites desconditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votreétablissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manièreque ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur enFrance. Il est précisé que son stockage dans une base de données est également interdit.

Powered by TCPDF (www.tcpdf.org)

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum

ent téléchargé depuis ww

w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

http://www.cairn.info/revue-d-histoire-moderne-et-contemporaine-2008-5-page-67.htm

http://www.tcpdf.org

La bibliométrie en débat

Du mauvais usage de faux indicateurs

Yves GINGRAS

Depuis quelques années, le monde académique européen semble atteintd’une véritable fièvre d’évaluation de la recherche et des universités. En Franceen particulier, la Loi sur l’autonomie des universités et la réforme de l’organi-sation de la recherche ont créé un climat particulier qui a exacerbé la sensibi-lité aux questions d’évaluation, peu discutées jusque-là dans le mondeacadémique. Or, l’absence de balises et de réflexions méthodologiques sérieusesdonne lieu à ce qu’il faut bien appeler des utilisations anarchiques, pour ne pasdire sauvages, de la bibliométrie, méthode de recherche qui consiste à utiliserles publications scientifiques comme indicateur de la production scientifique.Ajoutées aux habituels (et donc mieux connus) investissements en rechercheet développement (R&D) qui sont des mesures d’input (intrants) de larecherche, les publications servent de mesure d’output, et les citations qu’ellesreçoivent constituent un indice de leur visibilité internationale et, indirecte-ment, de leur « qualité » et de leur « impact » scientifique. On ne compte plus leslettres publiées dans les revues Nature et Science ou sur les blogs par des scien-tifiques qui s’improvisent « évaluateurs » – de leurs compétiteurs surtout…Ainsi, les scientifiques se lancent leur « h index » au visage pendant que les uni-versités font de même avec leur « position » au classement dit de Shanghai. EnFrance, même le Sénat a cru devoir se mêler de la question pour y voir plusclair, et la ministre de l’Enseignement supérieur et de la Recherche, ValériePécresse, a confirmé que « la réalisation d’un classement européen des univer-sités est une priorité pour la Présidence française de l’Union européenne enmatière d’enseignement supérieur »1.

Comme le montre très bien le rapport du sénateur Joël Bourdin, les diffé-rents classements ont d’importantes limites et manifestent la fâcheuse tendance

1. Communiqué de Valérie Pécresse, 2 juillet 2008, www.enseignementsup-recherche.gouv.fr. Voiraussi le Rapport d’information fait au nom de la délégation du Sénat pour la Planification sur le défi desclassements dans l’enseignement supérieur. Annexe au procès-verbal de la séance du 2 juillet 2008. Connusous le nom de « Rapport Bourdin » car signé par le sénateur Joël Bourdin. Copie accessible sur le site :http://www.senat.fr/rap/r07-442/r07-4421.pdf

REVUE D’HISTOIRE MODERNE & CONTEMPORAINE

55-4 bis, supplément 2008.

4786_007_112 24/11/08 16:12 Page 67

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

à valoriser systématiquement les universités de certains pays : « Le classementde Shanghai est très favorable aux universités américaines… le classementanglais, quant à lui, favorise mieux les performances des établissements duRoyaume-Uni… et le classement de Leiden donne de belles places aux univer-sités néerlandaises…»2. Et l’auteur aurait pu ajouter que le classement de l’É-cole des Mines favorise les grandes écoles françaises3…

Cependant, la plupart des critiques se résument à faire ressortir les « limites »des classements sans jamais poser clairement la question préalable de leurs fon-dements épistémologiques : les indicateurs choisis ont-ils bien la significationqu’on leur attribue? Si ce n’est pas le cas, alors nul besoin de simplement tenterde parer à leurs « limites » ; il faut plutôt les remplacer par d’autres, plus adéquats.Car utiliser des classements fondés sur de mauvaises mesures, pourrait avoir deseffets pervers en stimulant des politiques fondées sur des problèmes mal identi-fiés.Ainsi, il est pour le moins curieux d’apprendre que 61% des dirigeants d’éta-blissements d’enseignement supérieur français disent vouloir améliorer leur rangdans le classement de Shanghai alors qu’ils ne savent probablement pas exacte-ment ce qu’il mesure vraiment !4 Et on peut s’inquiéter d’entendre ValériePécresse déclarer que « les résultats [pour la France] du classement de Shanghai[…] plaident pour une politique de regroupement de nos forces»5, sans s’assurerque ce classement soit bien valide. Or, comme on le verra plus loin, ce dernier nepossède en fait aucune des propriétés que doit posséder un bon indicateur et ilserait hasardeux de s’en servir comme guide.

La manie des classements a récemment aussi atteint les revues savantes etl’European Science Foundation (ESF) a publié un classement des revues pardiscipline, attribuant des cotes A, B, et C selon que les revues sont internatio-nales, nationales ou locales6. Or, certains critiquent avec raison un tel classe-ment, mais ils confondent parfois ce type de classement avec de la« bibliométrie », alors qu’il est en fait fondé sur un panel d’experts choisis on nesait trop comment, et qui jugent eux-mêmes de la qualité relative des revues, cequi est donc subjectif et difficile à contrôler. Les rédacteurs des revues en his-toire et sociologie des sciences se sont d’ailleurs concertés pour dénoncer cesclassements superficiels et unidimensionnels et plus ou moins occultes quant àleur méthode7. Cela indique toutefois la confusion qui existe entre évaluationet bibliométrie, confusion qu’il faut lever.

L’intérêt de bien comprendre les propriétés des indicateurs bibliométriquestient au fait qu’il est impossible d’échapper aux évaluations, et qu’il est donc

68 REVUE D’HISTOIRE MODERNE & CONTEMPORAINE

2. Rapport Bourdin, p. 53.3.Voir www.ensmp.fr/PR/defclassementEMP.pdf4. Rapport Bourdin, p. 98.5. Les cahiers de la compétitivité. Spécial Enseignement supérieur, p. II ; encart dans Le Monde du

21 mai 2008.6. Voir http://www.esf.org/research-areas/humanities/research-infrastructures-including-erih/erih-

governance-and-panels/erih-expert-panels.html.7.Voir www.sauvonsluniversite.com/spip.php?article591.

4786_007_112 24/11/08 16:12 Page 68

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

plus efficace de critiquer d’abord rigoureusement les indicateurs malconstruits, et dont l’utilisation peut engendrer des effets pervers, pour ensuitemontrer qu’il est possible de construire des indicateurs utiles et dont laconstruction est contrôlée.

Il vaut donc la peine de rappeler brièvement les origines de la bibliométrieavant de présenter les propriétés élémentaires que doivent posséder de bonsindicateurs (de quoi que ce soit). On pourra alors montrer que les deux indi-cateurs de la « qualité de la recherche » les plus utilisés actuellement par les déci-deurs (le classement de Shanghai) et par les chercheurs eux-mêmes (l’index h)n’ont en fait aucune des propriétés nécessaires pour assurer qu’ils indiquentbien ce qu’ils sont censés indiquer.

BREF HISTORIQUE DE LA BIBLIOMÉTRIE

Les usages « sauvages » de la bibliométrie qui se multiplient dans la com-munauté scientifique depuis quelques années ont engendré, avec raison, touteune série de critiques.Toutefois, certaines tendent à « jeter le bébé avec l’eaudu bain », en confondant les usages simplistes de cet outil avec l’outil lui-même qui, pourtant, peut être très utile lorsqu’il est utilisé selon les règles del’art.

À ses débuts, la scientométrie, qui porte sur la mesure de l’activité scienti-fique ou la bibliométrie si on se limite aux publications (les deux termes sontdevenus pratiquement interchangeables), relevait d’une petite communautéassez méconnue composée de bibliothécaires, sociologues, historiens ou statis-ticiens, qui étudiaient les transformations du système de la recherche à traversles propriétés des publications scientifiques et des références qu’elles contien-nent (les « citations »). Ils faisaient, et font encore, connaître leurs travaux essen-tiellement par le biais d’une revue, Scientometrics, fondée en 1978. Une trentained’années plus tard, les choses ont bien changé et cette « science de la science » estmaintenant devenue un enjeu politique important lié à l’évaluation institution-nelle de la recherche et des chercheurs. Depuis le début des années 1990, unerevue savante Research Evaluation présente des travaux d’évaluation de larecherche fondés sur la bibliométrie. Une caractéristique importante de ces tra-vaux est qu’ils se font essentiellement à une échelle agrégée (grand laboratoire,université, pays) et évitent l’usage de la bibliométrie à des fins d’évaluation desindividus. Au fil des décennies, les propriétés agrégées des publications et descitations ont ainsi été établies et sont utiles pour comprendre les transformationsde la science et pour remettre en question de nombreux lieux communs aux-quels les scientifiques eux-mêmes peuvent souvent adhérer8.

DU MAUVAIS USAGE DE FAUX INDICATEURS 69

8.Voir par exemple Vincent LARIVIÈRE, Éric ARCHAMBAULT et Yves GINGRAS, « Long-term variationsin the aging of scientific literature : from exponential growth to steady-state science (1900-2004) », Journalof the American Society for Information Science and Technology, 59-2, 2008, p. 288-296.

4786_007_112 24/11/08 16:12 Page 69

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

Pendant longtemps, seule la compagnie Thomson Reuters (qui a absorbéla compagnie ISI, fondée par Eugene Garfield et qui fut à l’origine de la biblio-métrie au début des années 1960)9 proposait des bases de données bibliogra-phiques (les bases SCI, SSCI et AHCI, pour les sciences, les sciences socialeset les arts et humanités respectivement ; elles sont regroupées dans le « Web ofScience », cumulant aujourd’hui environ 9 000 revues et accessible dans lesbibliothèques universitaires qui souscrivent aux services de Thomson). Ce longmonopole explique que la plupart des travaux de scientométrie reposent surces trois bases de données. Depuis 2002, une nouvelle banque de données(SCOPUS) mise en marché par la compagnie Elsevier, couvre davantage derevues (environ 16 000 toutes disciplines confondues) et fait directement com-pétition à Thomson. L’avantage de ces deux sources au plan de l’évaluation estqu’elles sont contrôlées et que l’on connaît la liste des revues qui y sont recen-sées. Le désavantage, bien sûr, est qu’elles ne sont pas gratuites…

Google Scholar, et même Internet au complet, qui sont accessibles gratuite-ment, servent de plus en plus comme banques de données pour l’analyse biblio-métrique (et, par extension, «webométrique»). Le problème avec ces deux sourcesest qu’elles sont non contrôlées et non reproductibles car leur contenu varieconstamment et l’on n’a aucune idée des critères d’inclusion des documents (enfait, il n’y en a pas…), contrairement aux bases du Web of Science et de SCOPUSdont la liste des revues recensées est connue, même si elle augmente dans le tempspour tenir compte des nouvelles revues. L’accès gratuit et non contrôlé à GoogleScholar et Internet, contrairement à l’accès payant à SCOPUS et du Web ofScience, a bien sûr contribué à ce climat d’anarchie évaluative, tout chercheur pou-vant tenter de «mesurer» sa «visibilité» ou sa «qualité» en concoctant un indica-teur spontané, fondé sur le nombre de «hit» sur le web ou dans Google Scholar.Par conséquent, il y a récemment eu multiplication des usages « spontanés» del’évaluation et création de soi-disant indicateurs de l’impact de la recherche quicontribuent à créer un certain chaos dans le monde académique dont les membresne savent pas toujours comment juger la qualité de ces «mesures». Ces indicescontribuent à la création de palmarès qui fonctionnent comme des «boîtes noires»non analysées, utilisées comme des «faits» solides dont devraient tenir compte les«décideurs» dans leur politique de la recherche.

QUELQUES PROPRIÉTÉS ESSENTIELLES D’UN BON INDICATEUR

En fait, l’existence et la persistance de ces indicateurs et palmarès semblentl’effet d’une loi sociale qui veut que, comme on dit en anglais, « any numberbeats no number » : mieux vaut n’importe quel chiffre que pas de chiffre du


9. Eugene GARFIELD, « Citation indexes for science : a new dimension in documentation throughassociation of ideas », Science, 122, (3159), July 1955, p. 108-11. Pour un bref historique, voir PaulWOUTERS, « Aux origines de la scientométrie. La naissance du Science Citation Index », Actes de la rechercheen sciences sociales, 164, septembre 2006, p. 11-22.

4786_007_112 24/11/08 16:12 Page 70

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

tout ! Prenons deux exemples de ces indices : le premier fascine les décideurspolitiques et les présidents d’université, car il propose un classement mondialdes universités (le classement dit « de Shanghai »), réponse miracle à la questionde la qualité relative des institutions dans un contexte de « compétition mon-diale ». Le second circule plutôt parmi les scientifiques eux-mêmes et « évalue »les chercheurs individuels (le « h index »). Enfin, notons que dans les deux cas,on utilise un seul nombre pour classer et « évaluer » la « qualité » de la recherchedes individus et des organismes, et ce, malgré le caractère multidimensionnelde la recherche.

Mais pour mieux évaluer, à notre tour, la valeur de ces indicateurs, rappe-lons quelques propriétés de base d’un indicateur bien construit.Tout d’abord,un « indicateur » est une variable mesurable qui vise à appréhender un concept(ce peut être celui « d’inflation », de « productivité » ou de « qualité de larecherche »). L’indicateur n’est pas le concept lui-même, mais une façon appro-chée de mesurer dans le temps les changements du concept visé. Il doit doncêtre fortement corrélé aux caractéristiques présumées du concept lui-même.

Adéquation à l’objet

Une première propriété d’un bon indicateur est son adéquation à l’objet.La mesure est-elle appropriée à l’objet évalué ? Les résultats que produit l’in-dicateur sont-ils du bon ordre de grandeur étant donné ce que l’on en sait parailleurs ? Ainsi, le niveau d’investissement en R&D est une bonne premièremesure de l’intensité de la recherche dans un pays. Mais supposons que l’onveuille mesurer l’impact scientifique d’un auteur. On peut bien sûr faire unsondage. On peut aussi penser que les citations pourraient servir d’indicateurd’un tel impact. Mais il ne suffit pas de le décréter de façon tautologique ; ilfaut d’abord tester ce lien en trouvant une relation entre une mesure indépen-dante et la mesure donnée par les citations. Or, les travaux de sociologie dessciences et de bibliométrie depuis les années 1970 ont maintes fois montréqu’une telle corrélation existe entre le niveau de citation et la renommée mesu-rée par des prix obtenus ou des nominations académiques10. En fait, le mythedes grands savants peu cités est bel et bien un mythe. Einstein, par exemple,est très vite fortement cité dans les 4 ans suivant ses publications de 1905. Lebut n’est pas alors de savoir si Einstein a 100 ou 104 citations, mais de voir sison niveau de citation est effectivement de loin supérieur à la moyenne, ce quiest d’ailleurs le cas11. Notons cependant que cet indice des citations a été sur-tout validé dans des domaines des sciences de la nature et donc on ne peut le


10. Jonathan R. COLE et Stephen COLE, Social Stratification in Science, Chicago, Chicago UniversityPress, 1973.

11. Sur le cas Einstein, voir Y. GINGRAS, « The collective construction of scientific memory : theEinstein-Poincaré connection and its discontents, 1905-2005 », History of Science, 46 (151), March 2008,p. 75-114.

4786_007_112 25/11/08 13:02 Page 71

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

transférer sans précautions dans les secteurs des sciences sociales et encoremoins dans les lettres et les sciences humaines, car ces dernières disciplinesutilisent davantage le livre que l’article comme mode de diffusion de leursrésultats12. En somme, s’assurer que l’indicateur est bien adéquat à l’objetexige d’effectuer des tests et d’analyser les modes de production des savoirsen vigueur dans les différentes disciplines.

Homogénéité de la mesure

Une seconde propriété importante qu’un bon indicateur doit posséder estd’être homogène dans sa composition. Dans le domaine de la recherche parexemple, un indicateur homogène (à l’échelle d’un pays par exemple) de l’in-tensité de l’activité de recherche est fourni par le nombre d’articles publiés dansles principales revues scientifiques. Il s’agit là d’une mesure d’output (extrants)qui peut aussi être comparée à une mesure d’input (intrants), la valeur desinvestissements en recherche (mesurée en euro). Ces indicateurs permettent decomparer les pays et même les institutions entre elles. Ils peuvent aussi servir àconstruire une cartographie descriptive des activités selon deux mesures diffé-rentes : les intrants et les extrants. On peut aussi construire le rapport de cesdeux mesures et obtenir un indice composite de productivité (input/output). Parcontre, si l’on prend cet indicateur comme une mesure de « qualité » de larecherche (et non de son efficience) ou qu’on le combine avec un indicateur deréputation fondé sur un panel d’experts, alors on obtient un indicateur assezhétérogène et qui pourra varier de façon imprévue, sans pour autant avoir unesignification claire.

Respect de l’inertie propre de l’objet

Une dernière propriété importante d’un indicateur est qu’il doit varier enconformité avec l’inertie propre de l’objet mesuré, certaines choses variant plusou moins rapidement, selon leurs caractéristiques intrinsèques. Prenonsl’exemple du thermomètre et supposons qu’au lieu de la bonne vieille colonnede mercure ou d’alcool, on utilise un instrument électronique à écran numé-rique et que l’on observe dans une pièce sans courant d’air qu’il indique20 degrés, puis une minute plus tard 12 et encore une minute plus tard, 30. Ilest certain que le bon sens forcera l’observateur à conclure que l’instrument estdéfectueux, car on sait très bien (et la thermodynamique le confirme) que latempérature de la pièce ne peut varier aussi rapidement en trois minutes ! Or,


12. Sur cette question voir V. LARIVIÈRE, É. ARCHAMBAULT,Y. GINGRAS, É. VIGNOLA-GAGNÉ, « Theplace of serials in referencing practices : comparing natural sciences and engineering with social sciencesand humanities », Journal of the American Society for Information Science and Technology, 57-8, June 2006,p. 997-1004 ; É. ARCHAMBAULT, É. VIGNOLA-GAGNÉ, G. CÔTÉ,V. LARIVIÈRE,Y. GINGRAS, «Benchmarkingscientific output in the social sciences and humanities : the limits of existing databases », Scientometrics, 68-3, 2006, p. 329-342.

4786_007_112 25/11/08 13:07 2

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

il est bien connu que les grandes institutions académiques sont de lourdspaquebots qui ne changent pas de cap très rapidement (et c’est très bien ainsi,car cela leur permet d’éviter de « répondre » à des demandes éphémères, voirefrivoles)13. En conséquence, un palmarès annuel qui montrerait qu’une insti-tution est passée en une seule année du 1er au 6e rang ou du 8e au 2e rang sug-gérerait fortement que l’indicateur utilisé est défectueux ou trop imprécis, etnon pas que la qualité de l’institution a chuté ! De plus, étant donné la variancenaturelle des données d’une année à l’autre, il est clair que la plupart des chan-gements annuels de rang observés dans les palmarès sont en fait aléatoires etn’ont aucune signification réelle. Aux États-Unis, par exemple, le NationalResearch Council produit un classement de tous les programmes de doctorat desuniversités américaines dans toutes les disciplines. Il le fait une fois tous les dixans. Pourquoi cette faible fréquence ? Parce que, en plus des coûts élevés d’unetelle opération, la probabilité qu’un programme académique soit excellent en2008 et médiocre en 2009 est pratiquement nulle. Cette fréquence respectedonc le fait que l’institution universitaire est passablement inertielle. Cela sug-gère aussi qu’évaluer de grands groupes tous les 4 ans n’a pas vraiment de sens(et constitue un gaspillage de ressources) et qu’une fréquence de 6-8 ans seraitplus réaliste pour observer de véritables changements.

À la lumière de ces trois critères de validité, qui suffisent pour détecter lesmauvais indicateurs, jetons maintenant un coup d’œil plus attentif sur le pal-marès de Shanghai et sur l’indice h («h index »). Le choix de s’arrêter à ces deuxindices s’impose, car ils offrent deux exemples de classements construits à deséchelles différentes : celui de Shanghai évalue des institutions tandis que l’in-dice h évalue des individus. On le devine déjà : ces deux mesures ne constituentnullement des indicateurs valables et ils devraient être abandonnés au plus vitepar ceux qui se targuent de prendre des décisions à la lumière d’indicateurs« objectifs » et « internationaux »…

LE PALMARÈS DE SHANGHAI

Ce classement des supposées «meilleures » universités mondiales est actuel-lement très en vogue et semble attendu chaque année avec impatience par denombreux dirigeants d’universités. Il est composé de la somme de six mesuresdont quatre ont un poids de 20 % chacun ; 1) membres du corps universitaireayant reçu un Nobel ou une médaille Fields (pour les mathématiques) ;2) nombre de chercheurs de l’institution parmi la liste des « plus cités » deThomson Reuters ; 3) nombre d’articles de l’institution publiés dans les revuesNature et Science ;4) nombre total d’articles recensés dans le Web of Science de


13. À cet égard, il est absurde d’affirmer que « la formation doit rester connectée avec un marché dutravail extrêmement volatil » car la formation prend des années, ce qui est évidemment incompatible avecla « volatilité » du marché ! D’où l’importance d’une formation de base qui transcende cette « volatilité »…Voir Les cahiers de la compétitivité, p. 1, cité en note 2.

4786_007_112 24/11/08 16:12 Page 73

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

la compagnie Thomson Reuters. Deux autres mesures ont un poids de 10 %chacun : 5) nombre d’anciens étudiants ayant reçu un Nobel ou une médailleFields ; 6) ajustement des résultats précédents selon la taille de l’institution. Ilest tout à fait évident que l’indice final de ce palmarès se fonde sur la sommede plusieurs mesures hétérogènes, car le nombre de publications dans Scienceet Nature n’est pas commensurable au nombre de prix Nobel. Chose plus sur-prenante, il a été montré que les données sur lesquelles il est fondé sont diffici-lement reproductibles14. On pourrait aussi mettre en cause le choix d’unindicateur comme le nombre d’articles dans Science et Nature quand on sait queces deux revues ont un très fort biais américain : 72 % des articles parus dansScience en 2004 ont au moins une adresse américaine, et cette proportion estde 67 % dans la revue britannique Nature. Surtout, au regard du critère del’inertie, il y a lieu de se poser de sérieuses questions sur la validité d’un indicequi fait varier la position d’une université de plus de 100 rangs dans le palma-rès par le seul fait d’attribuer à l’université de Berlin ou à l’université Humboldtle Prix Nobel d’Einstein obtenu en 1922 ! Sans parler du fait que l’on peut sedemander si la qualité d’une université en 2006 peut être influencée de la sortepar des travaux effectués plus de 80 ans auparavant15.

On a noté plus haut que certains voient dans ce classement la preuve qu’ilfaut construire de gros regroupements pour être plus « compétitifs ». Or, c’estoublier que le California Institute of Technologie (Caltech) se classe au 6e rangdans le classement de Shanghai alors qu’il est une institution de très petite taille(environ 300 professeurs et un peu plus de 2000 étudiants). Et l’université dePrinceton, elle aussi de taille relativement réduite avec environ 5 000 étudiants,qui se classe en 8e position. Vu sous cet angle, cela ne conforte sûrement pasl’idée des grands regroupements et pourrait plutôt inciter à conclure que « smallis beautiful »…

En fait, seule une psychosociologie des dirigeants universitaires et autresfonctionnaires ministériels haut placés pourrait expliquer un tel engouementpour un classement qui n’a, en réalité, aucune valeur scientifique. Il est aussiprobable que l’importance soudaine accordée à ce classement, soit un effet desdiscours sur l’internationalisation du « marché universitaire » et de la recherchede clientèles étrangères lucratives qui viendraient ainsi combler les revenusinsuffisants provenant des gouvernements. De nombreux dirigeants universi-taires qui envoient des délégations en Chine semblent y voir, en effet, un « mar-ché » potentiellement lucratif qu’il ne faudrait pas laisser aux seules universitésaméricaines. Enfin, il sert aussi de façon stratégique les acteurs qui veulentréformer le système universitaire et se servent de ces classements de façon


14. Razvan V. FLORIAN, « Irreproducibility of the results of the Shanghai academic ranking of worlduniversities », Scientometrics, 72-3, July 2007, p. 25-32.

15. Sur la controverse tragi-comique entre ces deux universités et les responsables du classement deShanghai voir Science, 24 August 2007, p. 1026.

4786_007_112 24/11/08 16:12 Page 74

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

opportuniste pour justifier leurs politiques. En fait, il est même probable que,dans l’éventualité où les universités françaises se seraient très bien classées, ilaurait été plus difficile de justifier les réformes actuelles et les décideurs auraientalors jeté un regard plus critique sur un tel classement qui, à l’inverse, aurait étébien reçu par ceux qui s’opposent aux réformes.

LE « H INDEX » DES CHERCHEURS

Analysons maintenant un autre indicateur à la mode, qui circule plutôtparmi les chercheurs que dans les bureaux de présidents d’universités. L’indiceh a été construit par le physicien Jorge E. Hirsch, de l’université de Californieà San Diego16. L’indice h d’un chercheur est défini comme étant égal aunombre d’articles n qu’il a publié et qui ont reçu au moins n citations (pour unepériode donnée). Par exemple, un auteur qui a publié 20 articles parmi lesquels10 ont au moins 10 citations chacun aura un indice h de 10. Cet indicateur de« qualité » de la recherche d’un individu est donc un composite de la production(nombre d’articles écrits) et de la « visibilité » (nombre de citations reçues) etnon pas, comme le dit son auteur une mesure homogène d’output, c’est-à-dired’extrant. Un tel mélange devrait déjà nous faire douter de la fiabilité d’un telindice. Mais, comme s’il contribuait à satisfaire le narcissisme des scientifiques,son usage s’est généralisé parmi eux en moins de deux ans, et est même incor-poré dans certaines banques de données ! Selon son concepteur, cet indicefavoriserait « une évaluation plus démocratique de la recherche »17… Or, cetindex n’a que peu d’utilité au niveau individuel et son usage au plan de la prisede décision est inutile, car en fait il est très fortement corrélé au nombre totald’articles et est ainsi redondant18, en plus de pouvoir générer des effets pervers.Un exemple simple suffit à le démontrer.

Comparons deux cas de figure : un jeune chercheur a publié seulement troisarticles, mais ceux-ci ont été cités 60 fois chacun (pour une période de tempsdonnée) ; un second chercheur, du même âge, est plus prolifique et possède à sonactif 10 articles, cités 11 fois chacun. Ce second chercheur a donc un indice h de10, alors que le premier a un indice h de 3 seulement. Peut-on en conclure que lesecond est trois fois «meilleur» que le premier? Bien sûr que non…

En somme, la bibliométrie appliquée au niveau individuel peut être dan-gereuse ; aussi, les experts en bibliométrie en évitent-ils les aléas en limitantgénéralement son usage à l’analyse du comportement d’agrégats (université,région, pays). Ces résultats peuvent avoir une valeur statistique, tandis que les


16. Jorge E. HIRSCH, « An index to quantify an individual’s scientific research output », Proceedings ofthe Nationl Academy of Sciences, 102 (46), 2005, p. 16569-16572. Malgré son titre, l’indice ne mesure pasvraiment « l’output » mais un mélange d’output et de « visibilité ».

17.Voir http://pubs.acs.org/cen/science/86/8621sci1.html.18. Thed N. VAN LEEUWEN, « Testing the validity of the Hirsch-index for research assessment pur-

poses », Research Evaluation, 17, June 2008, p. 157-160.

4786_007_112 24/11/08 16:12 Page 75

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

données individuelles varient considérablement et ce d’autant plus que les loisde distribution des publications et des citations ne sont pas des lois normales,mais plutôt log-normales ou encore des lois de puissance de type Pareto, cequi fait que la variance est très souvent plus élevée que la moyenne. AlfredJ. Lotka a montré dès 1926 que la production scientifique suivait une courbede type Pareto, c’est-à-dire qu’une minorité de chercheurs sont très produc-tifs alors que la majorité des chercheurs produit peu19.

Il vaut la peine de rappeler, contre ceux qui croient que ce ne sont que les diri-geants des institutions qui veulent imposer ce genre d’indicateurs que, dans le casde l’indice h, sa propagation rapide dans certaines disciplines scientifiques s’estfaite à la base. Ce sont en effet les scientifiques eux-mêmes qui succombent sou-vent aux usages anarchiques de la bibliométrie individuelle et qui, siégeant parfoissur différents comités et conseils d’administration d’organes décisionnels de larecherche, suggèrent d’en généraliser l’usage. Cela confirme que dans le champscientifique, « l’ennemi» est souvent moins le «bureaucrate» que le collègue…

QUELQUES EXEMPLES DE BONNES PRATIQUES

Cela étant dit, il est possible de construire des indicateurs agrégés de larecherche qui donnent une bonne idée de la position relative des universités etdes pays dans un système de recherche, national ou mondial. Le plus ancien estsans doute la proportion du PIB d’un pays consacré à la recherche et au déve-loppement (R&D), publié depuis longtemps par l’OCDE et qui permet une cer-taine mesure comparée des niveaux d’activités de R&D des pays. De même, lenombre total d’articles publiés dans les principales revues scientifiques recen-sées dans les bases de données du Web of Science ou de SCOPUS donne aussiun classement utile. En fait, malgré les différences de couverture bibliogra-phique, ces deux bases de données produisent essentiellement le même classe-ment, au moins pour les 25 pays les plus importants20. De plus, il existe unecorrélation très forte entre le nombre d’articles produit par pays et son niveaude dépenses en R&D. En termes de nombre total de publications produites en2005 par les huit pays les plus productifs21, par exemple, la France se classe au6e rang. On peut faire un pas de plus et calculer un indice de la visibilité de sesarticles, mesurée par le nombre de citations reçues par ces articles sur unepériode de deux ans suivant leur publication (on pourrait le faire pour 3 ou 5ans


19.Alfred. J. LOTKA, «The frequency distribution of scientific productivity », Journal of the WashingtonAcademy of Science, 36, 1926, p. 317-323.

20. E. ARCHAMBAULT, D. CAMPBELL,Y. GINGRAS,V. LARIVIÈRE, «WOS vs. Scopus : on the reliabilityof scientometrics », à paraître dans le Book of Abstracts of the 10th International Conference on Science andTechnology Indicators, 2008.

21. On pourrait prendre l’ensemble des pays ce qui changerait bien sûr l’ordre donné ici à titred’exemple, car plusieurs petits pays produisent beaucoup moins d’articles (la Suisse par exemple), maisse classent très haut en termes de citations.

4786_007_112 25/11/08 13:05 Page 76

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

au besoin) en normalisant pour tenir compte des différents taux de citations parchamp de recherche. Selon cette mesure, qui notons-le est homogène et distinctedu nombre de publications, la France monte alors au 5e rang, toujours pour l’an-née 2005. La différence s’explique aisément : pour le nombre de publications, laChine passe avant la France, mais pas (encore) pour ce qui concerne les cita-tions reçues par ses articles. De même, le Canada se classe au 8e rang pour laproduction, mais passe au 4e rang en termes de citations.

Étant donné la diversité des champs de recherche, le mieux est encore deconstruire ces indices par grands domaines, car toutes les universités et tousles pays ne sont pas également actifs, ni visibles, dans tous les secteurs. Ainsi,dans le secteur de la biologie, la France est en 4e position en termes de cita-tions relatives et, en mathématiques, sa position oscille, entre 2000 et 2005,entre la 2e et la 3e position, ce qui confirme la forte tradition des mathéma-tiques en France22. On pourrait ainsi continuer à décliner les différentschamps, mais le but était simplement ici de suggérer que construire des indicessimples et homogènes permet de les interpréter plus facilement et de voir s’ilschangent de façon continue ou abrupte23.Ainsi, la fluctuation autour d’un seulrang d’une année à l’autre est en fait due à la variance naturelle des donnéeset ne doit pas donner lieu à une surenchère d’interprétation. Par contre, undéclin régulier sur plusieurs années consécutives (disons 5 ans) d’un indica-teur (soit en termes de nombre d’articles ou de citations relatives) devrait don-ner lieu à un travail d’interprétation plus sérieux. Ainsi, la forte montée de laChine en termes de production globale – elle passe de la 8e position en 2000à la 4e en 2005 – signifie bien une stratégie de production accrue dans lesrevues internationales, mais elle ne s’est pas encore traduite par une remontéeimportante en termes de citations.

La National Science Foundation publie d’ailleurs le Science andEngineering Indicators depuis 1972, lequel comprend des données bibliomé-triques comparatives très utiles. De même, l’Institut de la statistique duQuébec, en collaboration avec l’Observatoire des sciences et des technologies(OST) de l’UQAM, publie de façon régulière des données bibliométriquescomparées sur le Québec, le Canada et quelques autres pays24. En Francemême, l’Observatoire des sciences et des techniques (OST), créé en 1990,fait lui aussi paraître tous les deux ans un volume intitulé Indicateurs des


22. Ces données ont été compilées par l’OST-UQAM.23. Notons tout de même, qu’une analyse par grands champs de recherche entre 2000 et 2005,

montre que sur l’indice des citations relatives, la France reste toujours en très bonne position parmi les 8pays qui produisent le plus grand nombre d’articles, car elle oscille entre les positions 5 et 6 en physique,sciences biomédicales, médecine clinique et sciences de la Terre et de l’espace. Elle occupe la seconde outroisième position en sciences de l’ingénieur et en mathématiques, toujours en termes de citations relativessur deux ans. Rien dans tout cela ne suggère une crise de la recherche française que ceux qui ont les yeuxrivés sur le palmarès de Shanghai semblent détecter…

24.Voir par exemple, Institut de la statistique du Québec, Compendium d’indicateurs de l’activité scien-tifique et technologique au Québec, édition 2008, Québec, chapitre III. Version disponible sur Internet :www.stat.gouv.qc.ca.

4786_007_112 25/11/08 13:05 Page 77

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

sciences et des technologies qui inclue des données bibliométriques25. Cesexemples montrent qu’il est possible d’éviter les effets les plus simplistes desclassements en organisant adéquatement les données. Bien sûr, il est proba-blement impossible d’éviter complètement l’effet de classement, car quel-qu’un quelque part peut toujours jouer au jeu de l’évaluation sauvage. Maisquand les institutions auront appris à se servir d’indicateurs bien construitset à les interpréter dans leurs limites de validité, les dangers de dérapageseront moins grands en termes de prise de décision. Car la production et lapublication de tableaux bibliométriques comparatifs par domaine derecherche, et même par institution, compilées sur quelques années pour ren-forcer la valeur statistique des données, peuvent permettre d’analyser serei-nement les tendances mondiales ou nationales de la recherche et de prendredes décisions éclairées en fonction des priorités locales ou nationales.

* * *

Que faire donc pour contrer cette anarchie bibliométrique qui gagne duterrain ?

Il faut d’abord s’appliquer à convaincre les institutions de cesser d’utiliser desindices fondés sur des mesures douteuses et construits par des chercheurs quis’improvisent bibliométriciens le temps de créer un indicateur sur le coin d’unetable, indicateur qui a l’avantage de favoriser ses collègues et de défavoriser sescompétiteurs (cela s’est vu…). Surtout, il est nécessaire d’éduquer et deconvaincre les scientifiques eux-mêmes des dangers des mauvais usages de labibliométrie. Au lieu de laisser des amateurs se convertir en évaluateurs de larecherche sous prétexte qu’ils sont des acteurs de la recherche, mieux vaut lais-ser l’évaluation de la recherche aux personnes qui y consacrent assez de tempspour pouvoir distinguer les pseudo-métriques des indicateurs robustes. On dimi-nuera probablement ainsi les chances de dérapage et les effets pervers généréspar des mesures et des classements de la recherche qui peuvent à court terme ser-vir des intérêts stratégiques, mais qui à long terme ne pourront qu’impulser desréformes qui aboutiront à rien, ou pis encore, seront la source de nouveaux pro-blèmes, ayant été conçues à partir des mesures qui ne correspondaient pas à laréalité. Et quant aux évaluations des chercheurs individuels, les comités de pairscomposés d’experts sont encore les mieux placés pour juger de la quantité et dela qualité du travail accompli. Rien n’interdit bien sûr de consulter des indicesbien construits, mais le plus souvent ils ne font que confirmer ce que des cher-cheurs bien au fait des activités de leurs collègues savaient déjà.Au niveau agrégé,par contre, les indicateurs bibliométriques donnent des informations qu’aucunacteur – au regard toujours fixé à son pare-brise quand ce n’est pas à son rétro-viseur – n’est en mesure de vraiment connaître.


25. Ghislaine FILLIATRE, Indicateurs des sciences et des technologies, Paris, Economica, 2006.

4786_007_112 25/11/08 13:05 Page 78

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

En somme, en s’assurant de confier le travail à de véritables experts en éva-luation quantitative de la recherche, qui savent construire et surtout interprétercorrectement les données à l’intérieur de leur domaine de validité, il est possiblede faire des évaluations qui peuvent être vraiment utiles comme aide à la prisede décision. Bien sûr, tout comme on peut toujours débattre de la significationprécise de la variation du taux de chômage ou de l’inflation, on pourra divergersur les conclusions à tirer de tels indicateurs bibliométriques. Cependant, onaura au moins construit des indicateurs pertinents et guéri ainsi la fièvre éva-luative en éradiquant le redoutable virus qui l’a causée : l’improvisation.

Yves GINGRAS

Université du Québec à MontréalCase postale 8888, succursale Centre-ville

Montréal (Québec) H3C 3P8Canada

[email protected]


4786_007_112 25/11/08 13:11 Page 79

Doc

umen

t tél

écha

rgé

depu

is w

ww

.cai

rn.in

fo -

-

- 17

7.20

5.23

5.24

8 -

07/0

5/20

16 1

8h14

. © B

elin

Docum


w.cairn.info - - - 177.205.235.248 - 07/05/2016 18h14. ©

Belin

cairn

Documents