Modelling unobserved heterogeneity in distribution - Finite mixtures of the Johnson family of distributions [ Working Paper 14-17 - 31/08/2017]

Informations
Classification

La présente étude propose un nouveau modèle pour rendre compte de l’hétérogénéité non observée dans la modélisation empirique. Le modèle élargit le modèle de classes latentes bien connu en utilisant la famille de distributions Johnson. Vu la grande diversité de formes de distribution pouvant être adoptées par la famille Johnson, la méthode n’impose pas les hypothèses a priori habituelles concernant le type de densités qui sont mélangées.

PDF & Download

Publication (en - 441 Kb)

Auteurs

Peter Willemé (A)

A : Auteur, C : Contributeur

Type de publication

Working Papers

Le Working Paper présente une étude ou analyse menée d’initiative par le BFP.

Grâce à la disponibilité croissante de microdonnées dans de nombreux domaines de la recherche appliquée, les modèles de mélange fini (finite mixture models ou FMM) deviennent un outil de plus en plus populaire pour modéliser l’hétérogénéité non observée entre sujets. Les FMM, également appelés modèles de classe latente (latent class models ou LCM) partent de l’hypothèse que les observations d’un échantillon proviennent d’un nombre (inconnu) de sous-groupes ou classes hétérogènes et permettent d’estimer les paramètres par sous-groupe. Ils ont été utilisés dans le domaine économique pour analyser notamment l’utilisation et les dépenses de soins de santé, l’offre de travail, la productivité et la segmentation de marché. Les modèles sont également abondamment utilisés dans d’autres domaines de la recherche appliquée comme la biologie, la psychologie, la biostatistique, etc. L’hétérogénéité non observée modélisée à l’aide des FMM porte habituellement sur la moyenne de la distribution, même si la variance a également été modélisée (parfois de manière implicite, comme dans le cas de la distribution gamma). La pratique actuelle en recherche économique appliquée revient à choisir une forme de distribution (normale, log-normale, gamma, Poisson, etc.) pour les composants, généralement sur la base de considérations a priori relatives à l’étendue et à la forme de la distribution de population.

Un inconvénient de cette approche est qu’elle impose de deux manières au moins des restrictions a priori quant à la nature de l’hétérogénéité non observée. Tout d’abord, le choix de la distribution est généralement assez arbitraire ; elle n’est habituellement pas confrontée à une alternative plus générale (moins restrictive). Deuxièmement, alors que le nombre « réel » de classes latentes est en principe inconnu, on suppose systématiquement que les composants suivent la même distribution. En d’autres termes, on suppose que les composants mixtes ne diffèrent entre eux qu’en ce qui concerne les paramètres de la distribution choisie, mais pas en ce qui concerne la distribution elles-même.

Cette étude aborde ces problèmes en assouplissant certaines de ces hypothèses implicites. Elle se base sur une forme flexible pour les distributions de composants. Plusieurs formes flexibles ont été proposées et étudiées par le passé, dont les familles Pearson et Johnson. Ces familles ont ceci en commun qu’elles peuvent adopter des formes très diverses en fonction de la valeur de leurs quatre paramètres. En réalité, la plupart des distributions utilisées couramment sont des cas spéciaux de ces deux familles. L’étude décrit un algorithme pouvant être utilisé pour estimer les paramètres d’un mélange de distributions Johnson et donne une preuve de principe que la méthode fonctionne et constitue une possible amélioration par rapport à la pratique courante pour les modèles de classe latente.

La méthode a été testée sur des données générées à partir de différentes distributions choisies pour couvrir un large éventail de combinaisons d’asymétrie et d’aplatissement. Les premiers résultats sont encourageants. La méthode converge pratiquement aussi vite que les méthodes standard qui mélangent des distributions normales ou gamma. Plus important encore, lorsque les données sont générées à partir de distributions mixtes qui diffèrent sensiblement des hypothèses standard (distributions de composants identiques et valeurs ‘régulières’ d’asymétrie et d’aplatissement), le mélange de distributions Johnson donne généralement de meilleurs résultats (qualité de l’ajustement) que les modèles standard.

La méthode n’a pas encore été testée pour un mélange de modèles de régression. C’est naturellement l’étape qu’il faudra franchir pour en faire un instrument de recherche pratique.

Documents associés

None

Données à consulter

None

Thématiques

Etudes structurelles > Productivité et croissance de long terme

Marché du travail

Protection Sociale, Démographie et Prospective > Evolutions financières de la protection sociale

JEL

Méthodes mathématiques et quantitatives > Méthodes économétriques et statistiques: généralités > Généralités [C10]

Méthodes mathématiques et quantitatives > Méthodes économétriques et statistiques: généralités > Estimations [C13]

Méthodes mathématiques et quantitatives > Méthodes économétriques et statistiques: points particuliers > Specific Distributions; Specific Statistics [C46]

Méthodes mathématiques et quantitatives > Modélisation économétrique > Construction de modèles et estimation [C51]

Méthodes mathématiques et quantitatives > Modélisation économétrique > Evaluation et test de modèles [C52]

Mots clés

None