fbpx

Au cœur de l’esprit et de la méthodologie d’un Data Scientist

Lorsque vous entendez parler de Data Science, Big Data, Analytics, Artificial Intelligence, Machine Learning, ou Deep Learning, vous pouvez finir par vous sentir un peu confus sur ce que ces termes signifient. Et cela n’aide pas à réduire la confusion lorsque chaque fournisseur de technologie rebaptise ses produits en AI.

Alors, que signifient vraiment ces termes ? Quels sont les chevauchements et les différences ? Et surtout, qu’est-ce que cela peut faire pour votre entreprise ? La réponse la plus simple est que ces termes font référence à certaines des nombreuses méthodes analytiques dont disposent les spécialistes des données.

L’intelligence artificielle est simplement un terme générique pour cette collection de méthodes analytiques. Pour résoudre des problèmes pratiques de prise de décision, le spécialiste des données utilise généralement des combinaisons de ces méthodes.

Dans ce blog, nous donnons un aperçu de haut niveau des méthodes d’analyse les plus importantes, nous les mettons en relation les unes avec les autres et montrons que les solutions efficaces ne sont pas élaborées avec un seul outil.

Pour en savoir plus sur les méthodologies analytiques d’Infor Dynamic Science Labs, regardez ce webinaire à la demande.

L’utilisation de méthodes analytiques n’est pas nouvelle. Pendant la Seconde Guerre mondiale, la Grande-Bretagne a engagé un millier de personnes dans le contrôle opérationnel : “une méthode scientifique pour fournir aux départements exécutifs une base quantitative pour les décisions concernant les opérations sous leur contrôle.

” Depuis lors, et certainement depuis l’avènement de l’ordinateur, l’ensemble des méthodes analytiques a énormément augmenté. Dans un environnement aussi rapide, les différentes communautés de recherche inventent leurs propres noms, ce qui explique en partie le chaos terminologique actuel.

Les spécialistes des données commencent un projet en discutant avec les utilisateurs de l’entreprise pour comprendre la question à l’étude. Ils explorent ensuite les données disponibles pour le projet, ce qui génère généralement des questions de suivi à discuter avec les utilisateurs métier.

Après quelques itérations, il en résulte une question d’affaires bien définie avec des données identifiables à l’appui. Les outils de Business Intelligence soutiennent ce processus itératif : les données peuvent être disponibles ou mises à disposition dans un entrepôt de données, et ses outils d’analyse tels que graphiques, rapports et tableaux de bord fournissent le support visuel pour les discussions commerciales.

Un outil fondamental d’analyse des données est la statistique, et tout le monde l’applique intuitivement au quotidien. Lorsque vous faites une observation, qu’il s’agisse du niveau de trafic que vous rencontrez sur le chemin du travail ou de la charge totale lorsque vous ramassez votre café et votre pâtisserie, vous remarquerez automatiquement si ce que vous observez est hors de l’ordinaire. Les statistiques fournissent la base mathématique pour déterminer comment les données se comportent et quand elles sont exceptionnelles. Des données exceptionnelles peuvent indiquer des erreurs de saisie de données ou d’intégration logicielle, mais aussi des menaces ou des opportunités. Une solution solide en science des données doit détecter les données exceptionnelles et les traiter de façon appropriée.

Il existe de nombreuses approches différentes pour aider les humains à prendre des décisions. Par exemple, lorsque vous demandez à votre logiciel de navigation de trouver le meilleur itinéraire vers votre destination, vous lui demandez de résoudre un problème d’optimisation mathématique : étant donné le réseau routier, trouvez le chemin le plus rapide (ou le plus court) dans le réseau. Il ne s’agit pas d’une simple recherche dans une base de données : le logiciel exécute un algorithme qui évalue les itinéraires possibles et trouve ainsi l’itinéraire optimal par rapport à l’objectif spécifié (itinéraire le plus rapide ou le plus court).

Comme la vitesse possible par segment de route est un élément important pour trouver l’itinéraire le plus rapide, les informations GPS des téléphones intelligents sont utilisées pour estimer la vitesse actuelle par segment. Les méthodes statistiques identifient les données inhabituelles : une voiture en panne sur le bord d’une route à circulation fluide est une exception et doit être ignorée lors du calcul de la vitesse actuelle sur le segment routier.

Une fois que le logiciel de navigation a trouvé la route optimale, il calcule l’ETA, qui est généralement assez fiable, à l’exception des perturbations imprévues comme un nouvel accident.

Mais tous les processus ne peuvent pas être planifiés de manière aussi fiable. Pensez à un lieu d’entreposage à l’hôpital, où les infirmières prennent le matériel nécessaire pour traiter un patient. Une rupture de stock d’un article peut mettre la santé d’un patient en danger, mais la tenue d’énormes quantités de stocks est très coûteuse. L’hôpital veut équilibrer ce compromis et veut comprendre comment il peut réduire les niveaux de stocks sans mettre en danger la santé des patients.

Dans cet environnement, la demande quotidienne de chaque élément varie considérablement, et les scientifiques utilisent des statistiques pour comprendre cette variabilité. Ensuite, ils utilisent l’optimisation mathématique pour calculer le niveau de stock qui minimise les coûts d’inventaire, tout en garantissant un risque minimum de rupture de stock. En règle générale, ils utilisent également la simulation pour évaluer le comportement des stocks et des ruptures de stock dans différents scénarios de réapprovisionnement. Enfin, les outils de Business Intelligence permettent de visualiser les résultats aux utilisateurs finaux.

De nombreux processus logistiques et financiers ont été conçus par des humains et sont donc bien compris. Pour de tels processus, le spécialiste des données peut définir et résoudre un modèle mathématique pour optimiser les objectifs définis.

Autre exemple, une usine a besoin d’un calendrier de production qui respecte la capacité des ressources et optimise le respect des délais de livraison des commandes des clients. Typiquement, il existe des millions d’options théoriques (horaires de production, itinéraires vers une destination), et des algorithmes mathématiques d’optimisation évaluent ces options de manière structurée, pour trouver une solution optimale ou quasi optimale.

La boîte à outils du scientifique des données contient de nombreux algorithmes de ce type, dont certains ont été inspirés par la nature. Par exemple, les algorithmes évolutifs créent un ensemble (population) de solutions raisonnables, les combinent (reproduction) pour créer de nouvelles solutions (progéniture), puis éliminent les pires solutions (survie du plus apte). Après avoir répété ce processus à plusieurs reprises, la population évolue et contient de meilleures solutions.

Les méthodes d’optimisation et de simulation permettent d’effectuer des analyses de simulation en changeant virtuellement le monde, c’est-à-dire en changeant les données d’entrée et en ré-exécutant les algorithmes : l’usine peut pratiquement ajouter ou supprimer une machine et évaluer l’impact sur le calendrier de production résultant ; l’hôpital peut évaluer le coût et le risque patient, si les réserves se remplissent chaque semaine plutôt que quotidiennement et les autorités routières peuvent fermer un tronçon routier et étudier les conséquences sur le flux du trafic. Parce que ces méthodes s’appuient sur des modèles qui décrivent l’activité, elles permettent d’analyser des scénarios imaginaires pour lesquels aucune donnée historique n’est disponible.

Supposons, par exemple, que vous ayez enregistré un grand nombre d’opportunités de vente historiques, avec de nombreux attributs tels que le client, l’équipe de vente, les dates de création de l’opportunité, les dates de rencontre avec le client, les produits offerts, le prix et le résultat (gain/perte). Parce que nous ne comprenons pas vraiment le processus par lequel les clients décident d’acheter ou non, nous ne pouvons pas formuler cela comme un problème d’optimisation mathématique. Cependant, l’apprentissage machine peut trouver des modèles dans les données historiques des opportunités et prédire si une nouvelle opportunité sera gagnée ou perdue.

Le Data Scientist commence par des méthodes statistiques pour détecter et supprimer les données historiques étranges. Ce processus de nettoyage est d’une importance critique, car des données erronées ruinent les modèles et réduisent considérablement la facilité d’utilisation de l’apprentissage machine. L’étape suivante consiste à préparer les données à l’aide de l’ingénierie des caractéristiques.

Pour en revenir à l’exemple des opportunités de vente, le Data Scientist se rend compte que les dates de création et de clôture sont peu susceptibles d’être significatives pour la prise de décision future, tandis que l’âge (le temps entre la date de création et la clôture) est très pertinent. Ce processus d’ingénierie des caractéristiques est important pour obtenir des solutions de haute qualité. Lorsqu’un fournisseur vous montre combien il est facile de “glisser-déposer” un ensemble de données dans un outil d’apprentissage machine, il oublie généralement de mentionner qu’un Data Scientist a passé d’innombrables heures sur l’ingénierie des fonctionnalités pour préparer les données.

Il existe de nombreux algorithmes d’apprentissage machine différents, dont l’un des plus simples est l’arbre décisionnel. Après la préparation de l’ensemble de données, la formation d’un tel arbre est un processus automatique : un algorithme identifie le meilleur ensemble de règles de décision pour capturer suffisamment de modèles dans les données, et rester suffisamment générique pour être applicable aux données futures. Pour prédire l’issue d’une nouvelle opportunité de vente, l’algorithme suit les règles de l’arbre de décision préalablement formé. Il se retrouve dans un nœud (un segment d’opportunités historiques similaires), et si 80% de ces opportunités historiques ont été gagnées, alors il prédit une probabilité de 80% de gagner la nouvelle opportunité.

Les arbres de décision sont faciles à comprendre et à visualiser. Les utilisateurs professionnels pourraient interpréter l’arbre décisionnel et, par conséquent, comprendre pourquoi une certaine prédiction a été faite. Cependant, les arbres de décision sont souvent trop simples pour obtenir des prédictions précises. Des algorithmes d’apprentissage machine plus avancés peuvent capturer plus de modèles dans les données et, par conséquent, fournir des décisions plus précises.

Les arbres de décision sont faciles à comprendre et à visualiser. Les utilisateurs professionnels pourraient interpréter l’arbre décisionnel et, par conséquent, comprendre pourquoi une certaine prédiction a été faite. Cependant, les arbres de décision sont souvent trop simples pour obtenir des prédictions précises. Des algorithmes d’apprentissage machine plus avancés peuvent capturer plus de modèles dans les données et, par conséquent, fournir des décisions plus précises.

L’état actuel de l’apprentissage machine (boîte noire) s’appelle Deep Learning, une technique qui imite le cerveau humain, en formant un réseau neuronal artificiel pour produire les résultats souhaités à partir d’entrées données. Dans notre exemple, au cours du processus de formation, nous alimentons les attributs des opportunités de vente historiques aux neurones des intrants du réseau et ajustons ensuite les neurones artificiels pour que le réseau neural produise le bon résultat (gain ou perte). Une nouvelle opportunité de vente peut maintenant être transmise au réseau neuronal entraîné pour obtenir une prédiction de gain ou de perte. Ces prévisions peuvent être beaucoup plus précises qu’avec un arbre décisionnel ou une forêt, mais le processus n’est pas transparent.

Deep Learning fournit actuellement des résultats passionnants, en particulier pour la reconnaissance d’images et de la parole. Bien que les Data Scientists apprennent encore à optimiser les réseaux neuronaux pour des problèmes métier spécifiques, Deep Learning est le plus récent outil d’une boîte à outils déjà remplie de nombreuses autres méthodes analytiques.

En résumé, les Data Scientists utilisent une riche collection de méthodes analytiques, y compris la Business Intelligence, les statistiques, la simulation, l’optimisation mathématique et l’apprentissage machine. Chaque méthode excelle dans une tâche spécifique, mais aucune d’entre elles ne résout à elle seule des problèmes commerciaux complets. Pour élaborer des solutions décisionnelles concrètes, le spécialiste des données travaille avec les utilisateurs de l’entreprise pour étudier le problème et les données disponibles, puis il choisit et met en œuvre la combinaison de méthodes qui correspond le mieux aux besoins et au budget. Chez Infor Dynamic Science Labs, c’est notre routine quotidienne.