Exemple de distance ultramétrique

Cela implique que “x + y” ≤ “x” {displaystyle | x + y | leq | x |}. C`est, chaque triple de points dans l`espace forme un triangle isocèle, de sorte que l`espace entier est un ensemble isocèle. Cependant, un conflit prononcé dans les données de distance, qui représente une fusion de nombreux caractères, est moins probable en raison de l`erreur ou de l`homoplaste à moins que les données soient fortement biaisées, et est donc plus susceptible d`être le résultat de la réticulation. Ces distances sont ensuite rapprochées pour produire un arbre (un phylogramme, avec des longueurs de branches informatives). Un arbre ultrametrique est également caractérisé par l`État à trois points (P. Pour les données de caractères phylogénétiques, les valeurs brutes de distance peuvent être calculées en comptant simplement le nombre de différences par paires dans les États de caractères (distance d`Hamming). Avec la vitesse croissante des analyses basées sur des caractères, certains des avantages des méthodes de distance diminueront probablement. Notamment, les méthodes de distance permettent l`utilisation de données qui peuvent ne pas être facilement converties en données de caractères, telles que les analyses d`hybridation ADN-ADN. Pour les données de séquences de nucléotides et d`acides aminés, les mêmes modèles stochastiques de changement de nucléotide utilisés dans l`analyse de vraisemblance maximale peuvent être utilisés pour «corriger» les distances, rendant l`analyse «semi-paramétrique.

Sur n`importe quel phylogramme, les longueurs des branches seront sous-estimées parce que certains changements ne peuvent pas être découverts du tout en raison du non-échantillonnage de certaines espèces en raison de la conception expérimentale ou de l`extinction (un phénomène appelé effet de densité de noeud). La distance est souvent définie comme la fraction des décalages à des positions alignées, les écarts étant ignorés ou comptés comme des correspondances erronées. La méthode Fitch-Margoliash utilise une méthode pondérée des moindres carrés pour le clustering en fonction de la distance génétique. Les méthodes UPGMA (méthode de groupe à paires non pondérées avec moyenne arithmétique) et WPGMA (méthode de groupe à paires pondérées avec moyenne arithmétique) produisent des arbres enracinés et requièrent une hypothèse à taux constant, c`est-à-dire qu`elles supposent un arbre ultramétrical dans lequel les distances de la racine à chaque extrémité de branche sont égales. Pour contrer les complications potentielles mentionnées ci-dessus, et pour trouver le meilleur arbre pour les données, l`analyse de la distance peut également incorporer un protocole de recherche d`arborescence qui cherche à satisfaire un critère d`optimalité explicite. Choisissez toujours la paire la plus proche de la matrice de distance et fusionnez ces deux objets en un seul. Notez que, par la deuxième instruction, une boule peut avoir plusieurs points centraux qui ont la distance non-zéro. Plus concrètement, les méthodes de distance sont évitées parce que la relation entre les caractères individuels et l`arbre est perdue dans le processus de réduction des caractères à des distances.

L`avantage de UPGMA est qu`il est rapide et peut gérer de nombreuses séquences. Pour certaines méthodes d`estimation du réseau (notamment le voisinage net), l`abstraction des informations sur les caractères individuels dans les données de distance est un avantage. Cependant, même si les distances par paires des données génétiques sont “corrigées” à l`aide de modèles stochastiques d`évolution comme indiqué ci-dessus, elles peuvent être plus facilement additionner à un arbre différent de celui produit à partir de l`analyse des mêmes données et du même modèle en utilisant la probabilité maximale. Le choix d`un groupe d`exogroupe approprié nécessite la sélection d`une séquence qui est modérément reliée aux séquences d`intérêt; trop étroit une relation défait le but de l`exogroupe et trop lointain ajoute le bruit à l`analyse. L`intuition derrière ces effets apparemment étranges est que, en raison de l`inégalité forte triangle, les distances dans ultrametrics ne s`additionnent pas. Ils ont également certains avantages sur les méthodes qui utilisent des caractères directement. Plusieurs algorithmes simples existent pour construire un arbre directement à partir de paires de distances, y compris UPGMA et jointure voisine (NJ), mais ceux-ci ne produira pas nécessairement le meilleur arbre pour les données.