L’évaluation d’impact est devenue une compétence qui sépare les consultants recherchés des autres sur le marché du développement en Afrique francophone. Bailleurs et gouvernements ne se contentent plus de savoir si les activités ont été réalisées : ils veulent savoir ce qui a réellement changé grâce au projet, et ce qui se serait passé sans lui. Cet article vous donne les repères méthodologiques, le vocabulaire exact et les étapes concrètes pour conduire ou piloter une évaluation d’impact crédible, et en faire un argument commercial sur vos prochaines missions.
1. Évaluation d’impact : une question, pas une activité
Une évaluation d’impact ne mesure pas l’exécution d’un projet (le nombre de forages construits, de personnes formées) : cela, c’est le suivi. Elle répond à une question plus exigeante : quel changement le projet a-t-il causé, et lui seul ? L’impact est d’ailleurs l’un des six critères d’évaluation du développement définis par le Réseau d’évaluation du CAD de l’OCDE — aux côtés de la pertinence, la cohérence, l’efficacité, l’efficience et la viabilité — un référentiel affiné en 2019 et devenu la norme internationale des bailleurs.
- Suivi : les intrants et les produits ont-ils été livrés comme prévu ?
- Évaluation de résultats : les objectifs intermédiaires sont-ils atteints ?
- Évaluation d’impact : les effets observés sont-ils attribuables à l’intervention plutôt qu’à d’autres facteurs ?
Conseil pratique : quand un terme de référence parle d’« évaluation d’impact », vérifiez toujours s’il s’agit d’une vraie estimation causale (avec groupe de comparaison) ou d’une évaluation finale classique. Les deux exigent des compétences et des budgets très différents, et confondre les deux dans votre offre technique vous décrédibilise immédiatement.
2. Le contrefactuel, cœur du raisonnement
Tout repose sur une idée simple à énoncer et difficile à mesurer : le contrefactuel. Il s’agit d’estimer la situation qui aurait prévalu en l’absence de l’intervention. Comme on ne peut jamais observer un même bénéficiaire à la fois traité et non traité, on construit cette situation hypothétique à partir d’un groupe de comparaison crédible.
L’impact est alors la différence entre ce qu’on observe chez les bénéficiaires et ce qu’on aurait observé sans le projet. Toute la rigueur méthodologique vise un seul objectif : rendre le groupe de comparaison aussi semblable que possible au groupe traité, pour que la différence mesurée reflète l’effet du projet et non un écart préexistant.
Astuce : si une proposition promet de mesurer l’impact sans aucun groupe de comparaison ni mesure de référence, c’est un signal d’alerte. Sans contrefactuel, on décrit une évolution, on ne démontre pas une causalité.
3. Les méthodes expérimentales : l’assignation aléatoire
Dans une évaluation expérimentale — l’essai randomisé contrôlé (ECR, ou RCT en anglais) — on répartit aléatoirement les unités (villages, ménages, écoles) entre un groupe qui bénéficie de l’intervention et un groupe témoin. Le tirage au sort garantit qu’en moyenne, les deux groupes sont identiques avant l’intervention, y compris sur les caractéristiques invisibles (motivation, dynamisme local). C’est ce qui confère à la méthode sa robustesse.
L’assignation aléatoire reste cependant une option exigeante : elle doit être planifiée avant le démarrage, suppose une mesure de référence (baseline) et un effectif suffisant. Pour calibrer cet effectif sans surdimensionner le budget, appuyez-vous sur une démarche rigoureuse de calcul de la taille de votre échantillon dès la conception.
Conseil pratique : un ECR n’est pertinent que lorsque le déploiement progressif d’un programme rend le tirage au sort éthiquement acceptable — par exemple choisir au hasard l’ordre dans lequel des localités également éligibles recevront une intervention qui ne peut, de toute façon, démarrer partout en même temps.
4. Les méthodes quasi-expérimentales : reconstruire la comparaison
Sur le terrain, randomiser est souvent impossible : ce ne serait ni éthique ni logistiquement faisable de tirer au sort qui reçoit un service essentiel. Les méthodes quasi-expérimentales reconstruisent alors un contrefactuel sans tirage au sort. Elles sont au cœur des évaluations soutenues par l’unité Development Impact Evaluation (DIME) de la Banque mondiale et par des organisations comme la 3ie.
Différence de différences (DiD)
On compare l’évolution d’un indicateur chez les bénéficiaires et chez un groupe non bénéficiaire, avant et après l’intervention. En soustrayant la variation « naturelle » observée chez les non-bénéficiaires, on isole l’effet propre du projet. La méthode suppose que, sans intervention, les deux groupes auraient suivi des tendances parallèles.
Appariement par score de propension (PSM)
On sélectionne, pour chaque bénéficiaire, un non-bénéficiaire présentant la même probabilité de participer au programme, estimée à partir de caractéristiques observables (âge, sexe, niveau d’éducation, taille du ménage…). On compare ensuite des paires réellement comparables. Le PSM se combine fréquemment avec la différence de différences pour neutraliser à la fois les écarts observables et les tendances de fond.
Régression sur discontinuité et variables instrumentales
La régression sur discontinuité (RDD) exploite un seuil d’éligibilité (un score, un revenu plancher) pour comparer les unités juste au-dessus et juste en dessous de ce seuil. Les variables instrumentales, plus techniques, mobilisent un facteur externe qui influence la participation sans agir directement sur le résultat. Ces approches sont puissantes mais reposent sur des hypothèses fortes qu’il faut savoir justifier.
- À retenir : les méthodes quasi-expérimentales exigent généralement des échantillons plus grands et reposent sur davantage d’hypothèses que les méthodes expérimentales pour produire des estimations valides.
5. Choisir la bonne méthode : une décision de cadrage
Il n’existe pas de méthode supérieure dans l’absolu ; il existe la méthode adaptée à une question, un calendrier et des données. Votre valeur de consultant se joue précisément à cette étape de cadrage.
- Faisabilité éthique : peut-on, sans nuire, ne pas servir certains bénéficiaires éligibles ? Si non, écartez l’ECR au profit du quasi-expérimental.
- Moment de la commande : une évaluation pensée avant le projet ouvre toutes les options ; commandée après coup, elle se rabat sur l’appariement ou la discontinuité, à condition de disposer de données rétrospectives.
- Données disponibles : existe-t-il une mesure de référence ? Des bases administratives exploitables ? La réponse oriente plus le choix que la préférence théorique.
- Budget et calendrier : une collecte primaire en deux vagues coûte cher ; mobiliser des données secondaires peut rendre une évaluation finançable.
Conseil pratique : formalisez ce raisonnement dans une théorie du changement explicite avant de choisir une méthode. Un cadre logique solide rend visibles les chaînes de causalité que l’évaluation devra tester, et protège votre offre des incohérences que les comités de lecture des bailleurs détectent immédiatement.
6. Les étapes d’une évaluation d’impact
Au-delà de la méthode, une évaluation d’impact se conduit comme un projet à part entière, généralement en six temps.
- Cadrage : préciser la question d’évaluation, la théorie du changement et les indicateurs de résultat.
- Choix du design : méthode, groupe de comparaison, taille d’échantillon.
- Mesure de référence (baseline) : collecter les données avant l’intervention sur les deux groupes.
- Collecte de suivi et finale (endline) : reproduire la mesure après l’intervention, avec les mêmes instruments.
- Analyse : estimer l’effet, tester la robustesse, documenter les limites.
- Restitution : traduire les résultats en recommandations actionnables pour la décision.
Pour la collecte, des outils mobiles fonctionnant hors ligne ont transformé le travail de terrain : maîtriser un outil comme KoboToolbox est aujourd’hui un prérequis. En amont de l’analyse, ne sous-estimez jamais le temps de préparation : sans données propres, les méthodes les plus élégantes produisent des résultats trompeurs. Nos repères sur les outils essentiels du suivi-évaluation et sur le nettoyage des données couvrent cette étape souvent bâclée.
7. Quatre pièges fréquents en contexte africain
- Évaluer trop tard : sans baseline, le contrefactuel devient fragile. Posez la question du design dès la conception du projet, pas à mi-parcours.
- Confondre corrélation et causalité : une amélioration observée chez les bénéficiaires peut tenir à une bonne pluviométrie, à un autre programme ou à une dynamique régionale. Le groupe de comparaison existe précisément pour écarter ces explications concurrentes.
- Effets non intentionnels : une intervention peut produire des conséquences imprévues. Au Burkina Faso, le financement basé sur les résultats déployé à partir de 2014 dans 15 districts avec l’appui de la Banque mondiale — où un vérificateur comptait chaque mois les soins fournis sur 23 indicateurs et une grille trimestrielle évaluait la qualité sur 113 éléments — a fait l’objet d’analyses approfondies sur ses effets attendus et inattendus avant d’être suspendu en 2018. Une bonne évaluation cherche aussi ces effets-là.
- Oublier le qualitatif : les méthodes quantitatives mesurent l’ampleur de l’effet ; elles n’expliquent pas le « pourquoi ». Des méthodes mixtes, croisant chiffres et entretiens, rendent vos conclusions à la fois robustes et utiles à la décision.
Faites de l’évaluation d’impact votre avantage concurrentiel
La demande d’évaluations rigoureuses, fondées sur des données probantes, ne cesse de croître chez les bailleurs actifs en Afrique francophone. Le consultant qui sait cadrer la bonne question, choisir une méthode défendable et en exposer honnêtement les limites se distingue durablement. Pour transformer cette expertise en missions, explorez les offres de consultance en suivi-évaluation publiées sur la plateforme et tenez votre profil à jour.