Le package {ProduceR} : faciliter et fiabiliser la production statistique
Vincent Reduron
1, @
1 : Direction de la recherche, des études, de l'évaluation et des statistiques
(DREES)
Ministère de la santé
| Type : | : | Poster |
| Commentaire | : | Le package {ProduceR} propose un ensemble de 5 fonctions conçues pour répondre aux besoins courants pour la production statistique, terme désignant la production de données statistiques fiables et exploitables à partir d'informations brutes. Elles ont été élaborées à partir de l'expérience concrète de travail de son auteur, qui travaille depuis 20 ans dans des services statistiques. La philosophie sous-jacente est la suivante. La production statistique implique généralement de manipuler des données complexes, notamment quand les informations brutes sont des données administratives (Lefebvre, Soulier et Tortosa, 2024), mais aussi quand ce sont des données d'enquête. Ces informations se trouvent presque systématiquement dans un ensemble de tables, car la représentation tabulaire est le modèle canonique pour la statistique (Dondon et Lamarche, 2023). Une production de qualité implique de comprendre la structure de ces tables et leur contenu, mais aussi de maîtriser les relations entre elles. Or, dans un quotidien de travail, on hésite à réaliser des vérifications si elles sont longues à programmer ; une exploration manuelle remplace souvent une vérification exhaustive. Pourtant, il est important de contrôler les données à différentes étapes de la production : par exemple, la jointure entre deux tables doit s'accompagner au préalable de la vérification de leurs clefs uniques, puis du contrôle de l'absence de doublons ou de valeurs manquantes non souhaités. Ainsi, les cinq fonctions de {ProduceR} ont été développées pour être concises et abordables, pour que le producteur n'hésite pas à beaucoup vérifier. Elles sont volontairement peu nombreuses et ciblées sur les principaux besoins rencontrés en vie réelle (analyse des doublons et des valeurs manquantes, étude synthétique des variables, comparaison de tables). |
| Thématiques | : | Posters |
| Mots-Clés | : | Statistique ; Data ; Package |
| PDF version | : | PDF version |

PDF version