Reference : Etude du classement par forêts aléatoires d'échantillons perturbés à forte structure ...
Dissertations and theses : Doctoral thesis
Life sciences : Agriculture & agronomy
Physical, chemical, mathematical & earth Sciences : Mathematics
Engineering, computing & technology : Computer science
http://hdl.handle.net/2268/23636
Etude du classement par forêts aléatoires d'échantillons perturbés à forte structure d'interaction
French
Brostaux, Yves mailto [Université de Liège - ULg > Gembloux Agro-Bio Tech > Gembloux Agro-Bio Tech >]
4-Jul-2005
Faculté Universitaire des Sciences agronomiques de Gembloux
Doctorat en sciences agronomiques
168
Claustriaux, Jean-Jacques mailto
[en] random forest ; CART ; binary data
[fr] Parmi les méthodes de classement, les forêts d'arbres de décision (Random Forests, BREIMAN, 2001) offrent une souplesse indéniable tant en ce qui concerne la nature des variables descriptives et de la cible du classement que sur la forme du concept à modéliser. Leur diffusion en agronomie se heurte à un manque de connaissance concernant leur aptitude à apprendre des modèles fortement marqués par les interactions, en utilisant des échantillons de taille modeste et caractérisés par un bruit de fond aléatoire et des attributs diversement pertinents. La présente recherche a pour but de combler ce vide au moyen d'une exploration systématique de l'effet de ces différents facteurs ainsi que des paramètres des forêts, réalisée par simulation, en prenant comme base de comparaison des arbres de décision issus de la méthode CART (BREIMAN et al., 1984). Les résultats montrent que les forêts aléatoires les plus efficaces sont basées sur une sélection des attributs partiellement déterministe et une taille de forêt égale à au moins 100 voire 500 arbres. Ces forêts présentent globalement un avantage significatif en terme d'erreur de prédiction et ce dès les effectifs d'apprentissage faibles (50 individus). Cet avantage se réduit avec le niveau de perturbation général de l'échantillon (bruit et variables parasites) mais augmente avec la taille de celui-ci, les forêts aléatoires n'étant pas affectées par la limitation asymptotique de l'apprentissage affichée par la méthode CART.
[en] Amongst classification methods, forests of decision trees (Random Forests, BREIMAN, 2001) are highly versatile concerning descriptive attributes' or target variable's nature and shape of the concept to estimate. Their diffusion in agronomical sciences is slowed by a lack of information about their ability to learn models with high interaction structures using learning samples with few examples and affected by random noise and irrelevant attributes. This research aim to fill this gap by a systematic exploration of those factors' effects and of the parameters of the Random Forests method, which is done by computer simulations, taking as a reference the classification trees generated by Breiman's CART method (1984). Results show that generating random forests with a partially deterministic attributes selection and a forest size of at least 100 or 500 trees give the best prediction accuracy. Those random forests show a significant increase in prediction accuracy on CART trees, even for low learning sample size (50 examples). This advantage reduce with the global perturbation level (noise and irrelevant attributes) but increase with the learning sample size, as random forests aren't affected by the asymptotic limitation of the learning curve showed by CART method.
http://hdl.handle.net/2268/23636
http://www.fsagx.ac.be/si/personnel/PhD_Ybt_05.pdf

File(s) associated to this reference

Fulltext file(s):

FileCommentaryVersionSizeAccess
Open access
PhD_YBT_05.pdfNo commentaryAuthor postprint1.19 MBView/Open

Bookmark and Share SFX Query

All documents in ORBi are protected by a user license.