Services

Vous pouvez me contacter pour tout type de demande en lien avec l’analyse de données, en particulier :

Analyse et valorisation des résultats

Le choix d’un modèle statistique dépend toujours du type des données et de leur qualité. Je peux vous accompagner pour calibrer vos analyses en fonction de vos besoins et diffuser les résultats au format qui vous convient avec les méthodes de visualisation de données adaptées.

Programmation statistique

Je peux vous aider à automatiser des analyses, rendre votre code lisible et reproductible, ou encore migrer de SAS ou Stata vers un langage open-source, R ou Python.

Expertise R

Si vous avez besoin d’aide dans votre utilisation de R, je devrais pouvoir vous aider! J’utilise régulièrement ce langage et je partage déjà ce qui me semble intéressant dans mon blog. Je participe également à des échanges avec les utilisateurs de R de Toulouse.

Le blog

Quelques notes sur la programmation statistique

Vous avez dû voir passer cette information : une mise à jour majeure de dplyr (version 1.0.0) est sortie il y a quelques mois! L’occasion de faire une nouvelle petite note sur un élément très important de cette nouvelle version : across(), un nouveau verbe pour réaliser des opérations sur plusieurs colonnes. On va le présenter rapidement et regarder ensuite ses performances en termes de vitesse d’exécution par rapport aux anciennes méthodes.

CONTINUER LA LECTURE

Packrat est un système de gestion de packages et de leurs versions permettant de tracer l’installation et l’utilisation de ceux-ci dans un projet R. Cet article vise à vous montrer comment l’utiliser et en quoi il peut vous être utile. Le plan de l’article est le suivant : - Packrat, ça sert à quoi? - Démarrer son projet avec packrat - Utiliser packrat avec un outil de gestion de versions

CONTINUER LA LECTURE

On regroupe ici quelques astuces pour optimiser le temps d’exécution d’un code R. On en propose pour l’instant quatre, mais le post pourra être actualisé par la suite. L’idée est de regrouper des situations auxquelles chacun pourrait être confronté. Les points explorés dans cette note sont les suivants : Pour base R : la question de l’application d’une fonction apply aux colonnes d’un data.frame. Pour dplyr : la création d’une variable directement à l’intérieur de summarise().

CONTINUER LA LECTURE

Comme on a pu le voir par exemple dans le précédent post, l’aggrégation est souvent utilisée en analyse de données. Il est donc intéressant de comparer les performances des différentes options que propose R de ce point de vue. Des benchmarks comparant data.table, dplyr et la librairie pandas de python sur différentes tailles de tables ont déjà été faits, vous pouvez les trouver sur cette page github. On propose ici quelques tests comparatifs complémentaires sur un cas d’un calcul simple à partir d’un groupement d’une base fictive de nbrow lignes appartenant à nbgpe groupes.

CONTINUER LA LECTURE

La richesse de R, alimentée par une communauté de développeurs très active, rend le choix d’une méthode adaptée à une problématique donnée difficile, et c’est tant mieux. Vous trouverez ici une modeste participation au débat qui oppose les deux packages d’analyse des données les plus en vue dans la communauté R : data.table et dplyr. L’article se présente en deux parties : Un rappel sur les syntaxes de dplyr et data.

CONTINUER LA LECTURE

Contact

Vous pouvez me contacter directement depuis le site :




Ou m’envoyer un e-mail :

Missions réalisées

Vous pouvez également consulter mes autres expériences professionnelles.

 
 
 
 
 
January 2020 – Present
Biarritz

Formateur Développeur·se Data IA pour Simplon Biarritz et Microsoft

Simplon

Co-formateur pour la promotion 2019 - 2020 de Biarritz en R, Python, méthodes de régression, classifications, clusterings, machine learning…
 
 
 
 
 
July 2019 – Present
Paris

Recodage du modèle de microsimulation Ines de SAS vers R

Drees, Ministère des Solidarités et de la Santé

Recodage d’Ines en R en lien avec les équipes gestionnaires du modèle.
 
 
 
 
 
April 2019 – May 2019
Bordeaux

Analyse des profils de consommation énergétique des ménages

Yumaneed

Analyse des profils de consommation énergétique des résidents d’un bâtiment à énergie positive à partir de données de capteurs relevant leurs données de consommation électrique toutes les 10 minutes.
 
 
 
 
 
April 2019 – May 2019
Bordeaux

Analyse de la dangerosité d’un nouveau système de signalisation des voitures

Yumaneed

Étude de l’impact d’un nouveau système de signalisation des voitures lors d’une marche arrière sur le danger ressenti par les usagers de la route (piétons, cycliste et conducteurs).
 
 
 
 
 
September 2018 – March 2019
Paris

Analyse des possibilités de recodage du modèle Ines de SAS vers un langage open-source

Drees, Ministère des Solidarités et de la Santé

Comparaison des options envisageables (en particulier les différents packages de R et Python) pour le recodage du modèle de microsimulation Ines en termes de vitesse d’exécution, lisibilité du code et facilité de prise en main. Estimation de l’investissement représenté par le recodage et proposition d’une méthode de mise en oeuvre.