Si vous souhaitez éviter un accident mortel de la circulation, que devez-vous faire ? Roulez moins vite ? Eviter de boire de l'alcool ? Roberts et Winters ont trouvé cette corrélation entre les accidents de la circulation et les acacias.

Alors, que se passe-t-il ? Est-ce que quelqu'un plante des acacias aux carrefours et bloque la vue ? Les feuilles des acacias tombent-elles de façon inattendue, provoquant des accidents ? On ne s'attendrait pas à ce qu'une feuille qui tombe provoque un accident, mais c'est peut-être cet imprévu qui est à l'origine du problème. Le braconnage ciblé rendra-t-il les routes plus sûres ? La corrélation est réelle, et c'est bien ce qu'elle est : une corrélation.
Ce n'est pas parce qu'un résultat est corrélé à un autre qu'on peut établir un lien de causalité. Dans mon cas, j'ai sous-entendu que les acacias étaient responsables des accidents de la route. L'inverse pourrait-il se produire ? Les accidents mortels sont-ils responsables des acacias ? Peut-être que les gens plantent des acacias en mémoire de leurs morts. Il y a souvent une raison plus profonde à ce lien.
Article de Roberts et Winters, Diversité linguistique et accidents de la circulation : leçons tirées des études statistiques sur les traits culturels s'adresse aux personnes recherchant des corrélations dans les données linguistiques et culturelles, mais leurs avertissements s'appliquent à toute personne travaillant avec des données complexes, en particulier si vous ne définissez pas de question de recherche lorsque vous démarrez votre étude.
L'une des caractéristiques qu'ils mettent en évidence est l'accident historique. Ils établissent une corrélation entre les acacias et les langues tonales. L'une est-elle la cause de l'autre ? Les langues tonales sont majoritairement présentes en Afrique, et elles ont tendance à se regrouper en raison de leurs racines historiques communes. Les acacias se trouvent (principalement) en Afrique. Cette corrélation n'est pas clairement expliquée, mais simplement par le fait que deux éléments sont communs en Afrique. Si l'on considère la sécurité routière comparée en Afrique, on comprend mieux pourquoi il existe une corrélation entre les acacias et les accidents de la route.
Un autre aspect de l'établissement de liens entre des ensembles de données est que les corrélations peuvent être aléatoires. On peut quantifier la probabilité qu'un résultat soit dû au hasard, mais cela ne nous renseigne guère sur sa signification. Si un résultat a seulement 1 % de probabilité d'être dû au hasard, mais que vous avez effectué 100 tests, vous devez vous attendre à un résultat aberrant. Plus on examine d'éléments, plus on risque de trouver des résultats aberrants. L'article original contient une citation pertinente de Nassim Nicholas Taleb : « C'est la tragédie du big data : plus il y a de variables, plus il y a de corrélations significatives. La fausseté croît également plus vite que l'information ; elle est non linéaire (convexe) par rapport aux données. »
C'est ainsi que Roberts et Winters ont pu établir une chaîne de corrélations erronées. C'est un article précieux à consulter la prochaine fois que vous serez confronté à un article produisant des résultats étranges. Vous pouvez également lire leur article de blog sur le papier.

Références
Roberts S. & Winters J. (2013). Diversité linguistique et accidents de la circulation : enseignements tirés des études statistiques des traits culturels.,
PloS un,DOI: 10.1371 / journal.pone.0070902
Images
Le nombre moyen annuel de tués sur les routes pour 100,000 XNUMX habitants dans un pays en fonction de la présence d'Acacia nilotica. Image de Seán Roberts et James Winters. [cc]par[/cc]
Corrélation. Image de Randall Munroe/xkcd. [cc]par-nc[/cc]
