Comment éviter les erreurs lors du calcul du GMV d'un marché international?

Lorsque vous travaillez avec un marché, vous devez calculer le volume brut de marchandise (GMV). Cela semble simple au début: il vous suffit de rassembler les prix de toutes les annonces actives dans une colonne, puis de cliquer sur SUMM. Toutefois, si votre marché opère dans différents pays, les choses peuvent ne pas être aussi simples.

Pourquoi est-il difficile de calculer le GMV?

Je travaille chez Lalafo, un marché peer-to-peer alimenté par l'IA. La plate-forme compte 3 millions d'utilisateurs actifs de 4 pays chaque mois. À la fin de 2016, nous devions calculer la valeur monétaire totale de toutes les annonces placées sur Lalafo pour cette année.

Tout d'abord, nous avons résumé tous les prix suggérés par les utilisateurs, à l'exclusion de toutes les annonces non placées et bloquées. Cela a abouti à un GMV supérieur au PIB d'un pays que nous avons utilisé pour l'évaluation!

Nous avons nettoyé les données et converti la devise en temps réel. Cela rendait le total plus petit, mais il était toujours déraisonnablement grand.

Le moyen le plus courant de supprimer les anomalies dans un jeu de données en désordre consiste à utiliser une plage interquartile (plage de données comprise entre le 25ème et le 75ème centile). Cette approche n'a pas non plus résolu le problème, le volume des prix d'utilisation étant devenu très bas après la mise en œuvre de la plage interquartile.

Faites attention aux centiles

Une session de brainstorming rapide nous a donné l’idée que le problème était en centile: la différence entre zéro et le premier était trop spectaculaire.

Un centile (ou centile) est une mesure utilisée dans les statistiques indiquant la valeur en dessous de laquelle un pourcentage donné d'observations dans un groupe d'observations tombe. Par exemple, le 20ème centile est la valeur (ou le score) en dessous de laquelle 20% des observations peuvent être trouvées. Les centiles peuvent être linéaires ou non linéaires, selon qu’il existe des erreurs dans l’ensemble de données. (Wikipédia)

Nous avons décidé de revoir le comportement de tous les centiles compris entre 1 et 100. Nous avons constaté que toutes les données entre les centiles 1 à 99 étaient linéaires, alors qu'entre 99 et 100, nous avons constaté une forte augmentation indiquant que l'erreur se produisait dans cette section. Nous avons supprimé toutes les données entre le 99e et le 100e centiles qui ont résolu le problème.

L'importance de la catégorie de produit

Le marché Lalafo contient différentes catégories de produits. Les catégories les plus «chères» sont l'immobilier et les véhicules. Pour obtenir un GMV plus précis, nous avons décidé de comptabiliser les catégories de produits tout en calculant les centiles. Par exemple, les véhicules et les centiles de l'immobilier sont des dizaines de fois plus grands que ceux des vêtements.

En conséquence nous:
- déterminé la valeur en centile pour chaque catégorie.
- Utilisé les centiles que dans les cas de GMV non linéaire.
Cela nous a donné un GMV précis.

Une autre chose importante - la monnaie

Les utilisateurs oublient souvent de définir la devise lors du placement de leurs annonces. Il en résulte que l'iPhone 7S sera vendu pour seulement 20 dollars, soit des réchauds coûtant plus que le PIB total de la Colombie!

Pour ajuster la devise tout en conservant les résultats de la modification du jeu de données pour le 99e centile, nous avons décidé de procéder comme suit:

- fixez un prix commun pour chaque catégorie égal à la médiane (centile 50) de la catégorie.
- examinez l'ensemble de données et ajustez la devise si la valeur est trop basse ou trop élevée.

Calcul du GMV. Conseil général:

- les méthodes communes (médiane, intervalle interquartile) ne fonctionnent que sous un GMV linéaire. S'ils ne fonctionnent pas, revérifiez les valeurs de tous les centiles.

- calculer les centiles séparément pour chaque catégorie.

- filtrer vos données avant de calculer.

- vérifier les valeurs de la devise.