Etude du classement par forêts aléatoires d'échantillons perturbés à forte structure d'interaction

Brostaux, Yves

Download

Doctoral thesis (Dissertations and theses)

Etude du classement par forêts aléatoires d'échantillons perturbés à forte structure d'interaction

Brostaux, Yves

2005

Permalink
https://hdl.handle.net/2268/23636

Files (1)Send to Details Statistics Bibliography Similar publications

Files

Full Text

PhD_YBT_05.pdf

Author postprint (1.22 MB)

Download

All documents in ORBi are protected by a user license.

Send to

RIS BibTex APA Chicago Permalink X Linkedin

Details

Keywords :

random forest; CART; binary data

Abstract :

[fr] Parmi les méthodes de classement, les forêts d'arbres de décision (Random Forests, BREIMAN, 2001) offrent une souplesse indéniable tant en ce qui concerne la nature des variables descriptives et de la cible du classement que sur la forme du concept à modéliser. Leur diffusion en agronomie se heurte à un manque de connaissance concernant leur aptitude à apprendre des modèles fortement marqués par les interactions, en utilisant des échantillons de taille modeste et caractérisés par un bruit de fond aléatoire et des attributs diversement pertinents. La présente recherche a pour but de combler ce vide au moyen d'une exploration systématique de l'effet de ces différents facteurs ainsi que des paramètres des forêts, réalisée par simulation, en prenant comme base de comparaison des arbres de décision issus de la méthode CART (BREIMAN et al., 1984). Les résultats montrent que les forêts aléatoires les plus efficaces sont basées sur une sélection des attributs partiellement déterministe et une taille de forêt égale à au moins 100 voire 500 arbres. Ces forêts présentent globalement un avantage significatif en terme d'erreur de prédiction et ce dès les effectifs d'apprentissage faibles (50 individus). Cet avantage se réduit avec le niveau de perturbation général de l'échantillon (bruit et variables parasites) mais augmente avec la taille de celui-ci, les forêts aléatoires n'étant pas affectées par la limitation asymptotique de l'apprentissage affichée par la méthode CART.
[en] Amongst classification methods, forests of decision trees (Random Forests, BREIMAN, 2001) are highly versatile concerning descriptive attributes' or target variable's nature and shape of the concept to estimate. Their diffusion in agronomical sciences is slowed by a lack of information about their ability to learn models with high interaction structures using learning samples with few examples and affected by random noise and irrelevant attributes. This research aim to fill this gap by a systematic exploration of those factors' effects and of the parameters of the Random Forests method, which is done by computer simulations, taking as a reference the classification trees generated by Breiman's CART method (1984). Results show that generating random forests with a partially deterministic attributes selection and a forest size of at least 100 or 500 trees give the best prediction accuracy. Those random forests show a significant increase in prediction accuracy on CART trees, even for low learning sample size (50 examples). This advantage reduce with the global perturbation level (noise and irrelevant attributes) but increase with the learning sample size, as random forests aren't affected by the asymptotic limitation of the learning curve showed by CART method.

Disciplines :

Mathematics
Agriculture & agronomy
Computer science

Author, co-author :

Brostaux, Yves ; Université de Liège - ULiège > Gembloux Agro-Bio Tech > Gembloux Agro-Bio Tech

Language :

French

Title :

Etude du classement par forêts aléatoires d'échantillons perturbés à forte structure d'interaction

Defense date :

04 July 2005

Number of pages :

168

Institution :

ULiège. GxABT - Liège Université. Gembloux Agro-Bio Tech

Degree :

Doctorat en sciences agronomiques

Promotor :

Claustriaux, Jean-Jacques ; Université de Liège - ULiège > Département GxABT > Modélisation et développement

Additional URL :

http://www.fsagx.ac.be/si/personnel/PhD_Ybt_05.pdf

Available on ORBi :

since 24 September 2009

Statistics

Number of views

467 (17 by ULiège)

Number of downloads

4575 (40 by ULiège)

More statistics