Data Science

Aujourd’hui, il n’est pas évident de s’y retrouver sur le sujet de l’algorithmie. Mais d’ailleurs, qu’est-ce que c’est exactement un algorithme ? A quoi ça sert ? Et dans quel cadre faut-il l’utiliser ?

Tout d’abord une définition, et je trouve celle du Larousse correcte : « Un Algorithme est un ensemble de règles opératoires dont l'application permet de résoudre un problème énoncé au moyen d'un nombre fini d'opérations. Un algorithme peut être traduit, grâce à un langage de programmation, en un programme exécutable par un ordinateur ».
Si on essaye de répondre aux 2 autres questions, je dirai que la mise en place d’un algorithme permet de se simplifier la vie (gain de temps, règle de gestion, automatisation, prévisions, …).

Son utilisation est au final la partie la plus délicate à appréhender. Elle se traduit en 3 étapes :

A quel besoin métier répond-il ? La difficulté est de bien définir la problématique et d’identifier le périmètre d’intervention. C’est une étape qu’il ne faut pas négliger car c’est bien celle-ci qui va diriger les étapes suivantes. Il est donc nécessaire d’avoir un bon échange entre le métier, la technique et les producteurs experts en Data Science. La traduction du besoin est un élément essentiel afin que les équipes se comprennent, délivrent un bon algorithme et exploitent opérationnellement celui-ci. Très souvent, une négligence sur cette étape engendre beaucoup de temps et d’énergie passés pour au final une non-utilisation de l’algorithme et beaucoup de frustration.

Viens ensuite, la réalisation de l’algorithme. Plusieurs méthodes s’offrent à nous. Cela dépend du besoin, de la complexité, et des outils à dispositions. Pour des besoins simples et cadrés, il n’est pas nécessaire d’utiliser des solutions de Data Sciences à tout prix. Un bon requêteur peut parfois faire l’affaire. Pour une optimisation des programmes créés, bien évidemment, même le simple programme peut se faire via les outils existants. Quand on arrive à des besoins plus complexes, nous voyons une tendance des experts à n’utiliser que des techniques de Machine Learning et/ou les dernières méthodes à la « mode » (Random Forest, Réseaux de neurones, Régression pénalisée, …). Nous sommes les 1ers à les utiliser, mais attention, ces méthodes et techniques ne répondent pas toujours de manière simple au besoin exprimé et parfois il est difficile de maîtriser et d’expliquer le résultat obtenu. A la question, que vous nous préconisez-vous ? Nous allons répondre, au-delà du pré requis de réponse au besoin, qu’il faut mixer les techniques et méthodes. Utiliser des méthodes traditionnelles et des nouvelles méthodes. Une bonne vieille régression logistique continue de faire le job et est aujourd’hui complétement maîtrisé par les Data Scientists, elle a aussi le gros avantage de présenter une équation facilement compréhensible par les équipes.

L’exploitation de l’algorithme est devenue une étape indispensable à la création de performance. Cela ne veut pas dire qu’il ne faut plus essayer de nouveaux modèles dans le cadre de projet R&D, mais il est nécessaire d’exploiter certains algorithmes pour prouver l’utilité et la création de valeur. Dans cette partie, nous pouvons de nouveau distinguer 3 phases : Une phase de test afin de valider que l’algorithme fonctionne et apporte de la valeur. Une phase d’implémentation dans le ou les SI afin d’apporter cette couche d’intelligence à travers les outils de l’entreprise. Et une phase de mesure pour confirmer les tendances du test, calculer la création de valeur et valider la pérennité de l’algorithme.

Ces 3 phases sont indispensables pour obtenir le fruit des investissements liés aux algorithmes. Comme d’habitude, nous continuons de privilégier le pragmatisme et la communication au sein de ce type de projet. L’ennemi de l’algorithme est le temps de mise en place. Très souvent parce que les étapes n’ont pas été bien réalisées, on se retrouve avec des retards de livraison, des questionnements et des remises en cause qui suivent…
Pour terminer, le besoin identifié chez nos clients & prospects vient surtout sur les étapes 1 et 3 en accompagnement conseil, et sur l’étape 2 quand il existe un manque de ressource.
Bref, pour éviter d’être déçus, soyez méthodiques ou faites vous accompagner dans les premières étapes de ce type de projet.
Le développement de l’Intelligence Artificielle ouvre de nouvelles perspectives aux acteurs du marketing. Et ceux-ci ne s’y trompent pas car près de 70% des marques envisagent d’utiliser l’IA pour personnaliser les offres et l’expérience clients. Toutefois la question se pose légitimement de savoir jusqu’où nous devons faire confiance aux modèles pour prendre des décisions à notre place. Nous allons essayer de vous donner quelques clés sur le sujet.

Apprentissage supervisé et non supervisé

Un premier point important à prendre en compte lorsque l’on traite de sujets d’Intelligence Artificielle est de savoir si le modèle que l’on va mettre en place va reposer sur un apprentissage supervisé ou non. En effet, le « mythe de l’IA », comme on pourrait l’appeler, repose sur le principe que la machine va analyser de manière totalement autonome les données qu’on lui met à disposition pour trouver des solutions à un problème que potentiellement on ne lui aurait pas poser ! De manière plus pragmatique, les modèles d’apprentissage non supervisé permettent essentiellement aujourd’hui de définir des groupes d’individus homogènes ayant des caractéristiques communes. Ce système va alors souvent permettre de créer des systèmes de recommandation pertinents (Netflix fait ça très bien par exemple pour vous recommander les films et séries les plus susceptibles de vous intéresser en se basant sur les films et séries vus par des individus qui vous ressemblent).
Dans la majorité des cas, ce sont donc plutôt les modèles supervisés qui vont être utilisés. Dans ce cadre, un Data Scientist va devoir guider la machine. En particulier, il va devoir définir les résultats attendus sur un volume important de données d’apprentissage afin que l’algorithme apprenne et puisse reproduire les mécaniques de décision qu’il aura apprises sur un nouveau jeu de données. Dans ce cas, l’humain joue donc un rôle important dans l’apprentissage du modèle et dans son exploitation future.

L’IA doit servir la stratégie et non pas la remplacer

En conséquence, on comprend bien que l’IA est bien souvent guidée par nos choix d’apprentissage et les données qu’on va lui mettre à disposition. On peut même aller plus loin en considérant que la stratégie marketing doit guider les actions des Data Scientists afin de concevoir les modèles les plus utiles aux experts marketing dans l’atteinte de leurs objectifs.
Plus généralement, il est même intéressant d’envisager l’apport de la Data Science (au sens large) à la stratégie marketing. En effet, bien souvent, on va pouvoir nettement augmenter la performance des dispositifs en mettant en place un process analytique pertinent reposant sur différents allers-retours entre stratégie et analyse. Aujourd’hui, la data doit accompagner la stratégie, et la stratégie doit guider la recherche de la performance. A titre d’exemple, on peut imaginer le process suivant :
1. Construction d’une segmentation adaptée
2. Identification des priorités stratégiques grâce à la matrice de passage
3. Définition des priorités opérationnelles par segment
4. Construction des modèles prédictifs adaptés à chaque cible (segment) et chaque problématique (attrition, recommandation, cross-sell…)
5. Test & Learn et mesure de la performance
6. Adaptation des modèles et des dispositifs
Bref, un équilibre fin à trouver entre les inputs de la stratégie à la Data Science et de la Data Science à la stratégie ! Et où les modèles IA supervisés ou non permettront de gagner en performance tout en ouvrant la voie à de nouveaux champs de recherche.

Ce sont des sujets qui vous intéressent ? Nous sommes là pour en parler avec vous. Notre pragmatisme et notre discours vulgarisé seront les clés de la réussite de votre prochain projet d’IA.
Chaque jour ou presque le sujet de l’avenir de notre planète est au centre des débats. En particulier, la notion d’empreinte carbone est un indicateur récurrent dans la mesure de l’impact écologique de nos activités humaines.

Lorsque vous envoyez des emails commerciaux à vos clients, les serveurs mails de votre entreprise stockent l’email avant de l’envoyer. Comme tout serveur, ils consomment de l’électricité et plus ils sont chargés, plus ils chauffent et plus ils nécessitent d’électricité pour refroidir.
On estime actuellement qu’un email simple a une empreinte carbone de 4g de CO2. Une entreprise envoyant régulièrement des newsletters à ses clients va donc vite voir son empreinte carbone augmenter. A titre d’exemple, si vous envoyez 1 million d’emails, 2 fois par semaine, l’empreinte carbone de votre animation clients sera de 416 tonnes sur une année. Soit plus de 200 allers-retours Paris-New York pour un passager !

Vous l’aurez compris, l’animation clients a donc un impact fort sur l’empreinte carbone de votre entreprise. Pour la réduire, il est donc fondamental d’optimiser ces ciblages marketing.

Comment peut-on réduire son empreinte carbone grâce à la Data Science ?
Pour ce faire, nous vous recommandons 2 outils analytiques simples :
- La segmentation clients :
Il existe de nombreux types de segmentations (segmentation transactionnelle, segmentation relationnelle, segmentation 360°…), mais toutes ont le même point commun : elles permettent de créer des groupes de clients homogènes sur lesquels nous allons pouvoir mettre en place un plan d’animation différencié.
Bien souvent, lors de la mise en place d’une segmentation, nous recommandons de faire le bilan du plan d’animation de l’année précédente pour bien comprendre les spécificités de chaque segment. En particulier, cette analyse va permettre de déterminer la pression commerciale optimale à appliquer à chaque segment.
Ce premier outil, si vous ne l’avez pas encore mis en place, va donc vous permettre en passant d’une logique d’envois de masse à une logique d’envois segmentés de baisser le nombre moyen d’emails envoyés. De la même façon, si vous avez déjà une segmentation existante, gardez en tête que celle-ci a une durée de vie et qu’elle peut être challengée ou modifiée via d’autres axes discriminants.

- Le scoring :
En termes de scoring, nous travaillons de plus en plus sur 2 niveaux de ciblage : le score de repoussoir et le score d’appétence.
Le premier, le score de repoussoir, va permettre d’isoler les clients qui ont une forte probabilité de ne pas ouvrir vos prochaines newsletters. Pourquoi les cibler, si on pressent dès aujourd’hui que l’email n’aura pas d’impact ? Ce premier type de score va donc réduire considérablement les volumétries d’envois. A ce jour, les scores de repoussoir que l’on a construit pour nos clients ont permis de réduire la volumétrie d’envois de l’ordre de 20 à 30% des volumes initiaux.
En parallèle, sur les potentiels ouvreurs, tous les messages n’ont pas le même niveau d’intérêt. Il est donc préférable, à ce niveau, de construire les scores d’appétence adéquats permettant de cibler les clients réellement intéressés par le message envoyé. Cela va vous permettre de combiner une diminution des volumes d’envois avec une hausse des performances commerciales (souvent de l’ordre de 15 à 25%). En conclusion : faire plus avec moins… d’empreinte carbone !

Bien évidemment, nous sommes conscients que ces sujets analytiques, et la Data Science en général, peuvent être perçus comme investissement important. Chez KYP, nous avons pris l’habitude de nous engager sur ces sujets d’accompagner nos clients dans la mesure du ROI et de la création de valeur.

Comme vous avez pu le lire, il peut être assez simple de réduire votre empreinte carbone tout en développant le potentiel commercial de votre base de données. Nous nous tenons à votre disposition pour tout échange sur ce sujet d’actualité et sur la mise en place d’actions analytiques concrètes ! Contribuez à réduire votre empreinte carbone tout en étant en phase avec vos valeurs et/ou celle de votre entreprise.
Chaque année la construction d’objectifs challengeant tout en restant atteignables et leur suivi sont un défi pour les managers. Notamment pour les entreprises avec une multitude de points de ventes, souvent regroupés de façon intuitive.

La Data Science peut vous aider !

Step 1 : Identifier les pools de points de ventes qui partageront les mêmes objectifs

Les méthodes de clustering vont d’abord vous permettre d’associer les points de ventes les plus semblables selon des axes de consommation (CA, recrutement, trafic, valeur des clients rattachés…) et de caractéristiques magasins (surface, nombre d'employés, emplacement, services spécifiques, zones de chalandises…).

Step 2 : Chiffrer ces objectifs

Les méthodes de prévision vont ensuite vous permettre d’estimer les objectifs par typologie de magasins et par mois en fonction des saisonnalités de consommation et les phénomènes exogènes identifiés. Ces objectifs peuvent prendre plusieurs formes : CA, Trafic, recrutement, collecte email,...

Step 3 : Suivre le taux de réussite

A l’aide de tableaux de bord synthétiques mensuels et sur mesure par point de vente, les managers pourront suivre au plus près la part de réalisation de ces objectifs dans le temps, identifier les plus performants et partager les best practices, détecter rapidement les magasins sous performants et les accompagner.

Vous avez un besoin similaire ? N’hésitez pas à nous solliciter !
L’identification d’un client à une adresse est depuis de nombreuses années une clé d’unicité et de contact. Au fil des années, nous avons même cherché à aller plus loin dans l’identification d’un individu en prenant en compte les statuts de prospects et de suspects.

A chacun son combat avec son niveau de maturité, ses priorités et ses moyens !

Il est évident que les problématiques ne sont pas les mêmes entre un Retailer qui gère un programme relationnel omnicanal depuis plus de 20 ans et un annonceur qui vient de démarrer un CRM. Néanmoins, il existe à chaque niveau des actions qui vont contribuer à améliorer la connaissance client, et surtout la relation client (le pouvoir de communiquer juste avec son client : l’impact relationnel, voire émotionnel). Dans chacun des cas, il est nécessaire de créer un « Socle Analytique » qui sera la base de tout projet d’analyse, de mesure et de performance.

Le Socle Analytique comprend un ensemble d’analyses plus ou moins simples permettant de mesurer le capital client d’une BDD en focusant sur les volumétries, la qualité, la diversité, la disponibilité et la volatilité des données. Ça ne vous rappelle rien ? Ah oui, ça y est, ça ressemble aux fameux 4 « V » du Big Data ! En effet, nous sommes bien sur ces théories, mais à un niveau moindre ! Car, on peut faire beaucoup de choses sans entrer dans un projet d’envergure multi-source complexe. Connaître les basiques de sa BDD n’a jamais demandé un effort colossal auprès des Directions SI, Marketing, Etudes… Comme à notre habitude, nous préconisons de valider un premier périmètre qui est facile à maîtriser, et de l’agrandir de manière itérative. Mais au final, qu’est-ce que les basiques ? Les basiques doivent répondre à des questions simples telles que : Combien ai-je de clients en BDD ? Combien sont actifs ? Sont-ils contactables ? Quel est le poids de mes meilleurs clients ? etc. L’idée est aussi de voir comment cela évolue dans le temps.

Une fois cet exercice fait, ce constat, il est opportun de travailler ou de continuer les efforts sur la qualité de la donnée d’identification. On retrouve ainsi l’adresse postale, l’email et le téléphone (fixe et mobile). Il faut ainsi compter sur des spécialistes du marché, expert en DQM (Data Quality Management). Leur expertise permet de restructurer la donnée et ensuite d’identifier des doublons, de capter les déménagés, de trouver les nouvelles adresses… Ce travail est primordial pour maximiser l’unicité des clients dans une BDD. Ce travail permet aussi d’identifier la notion de foyer. Nous n’arriverons pas à un résultat 100% fiable (cela se mesure grâce au taux de matching), mais toute action créera de la valeur. A noter tout même que ce travail de DQM, quand il n’existe pas à l’origine, peut-être réalisé avant le socle analytique. Le but est d’avoir une information sur sa BDD le plus fiable possible.

Mais au final, quel est l’intérêt d’avoir la notion de foyer ? Et bien tout d’abord, c’est le fait d’avoir le choix de parler un individu ou à un ensemble d’individus, de créer de la cohérence dans les messages (éviter d’envoyer 2 fois le même mail, et qui plus est avec une offre différente), et de personnaliser l’offre pour une ou plusieurs personnes, donc au final, de mieux identifier les besoins du foyer. N’est-ce pas là l’objectif principal de toute enseigne ou marque ? Nous disons oui ! Car par la meilleure compréhension de habitudes de consommation mais aussi grâce à la meilleure compréhension de l’habitat, de l’environnement dans lequel vivent les individus, on arrivera à améliorer la relation clients/marque. Cela génère une multitude d’actions prescriptrices plutôt que réactives grâce à l’analytique ou si on utilise un mot plus précis, la Data Science. Bien évidemment, en rappel, tout cela doit-être fait avec le consentement des clients, sans intrusion, et dans le respect de la vie privée. Ce qui complexifie parfois le plan d’animation, car il doit s’adapter à la multiplication des groupes / sous-groupes avec des contenus différents. Pour finir, comme le ROI reste notre fer de lance, il est fondamental de préparer avec attention vos cibles et votre mécanique de mesure afin de pouvoir démontrer la performance, et donc par conséquent la création de valeur.

Quoiqu’il arrive, l’enjeu des enseignes pour toujours mieux communiquer, en qualité avec ces clients tourne autour de 3 briques : l’Identification, la Qualification et la Personnalisation.
Calendrier
Lun Mar Mer Jeu Ven Sam Dim
28 29 30 31 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Jan 2021