Comment grandir en tant que scientifique de données

Quelles sont les compétences nécessaires pour passer de développeur junior à développeur senior?

par Ben Rogojan

Photo par Austin Distel sur Unsplash

Le rôle d'un informaticien varie toujours d'une entreprise à l'autre et même d'une équipe à l'autre. Il est donc beaucoup plus difficile pour les entreprises de créer un plan de croissance normalisé pour leurs experts en données.

Sans plan de croissance clair, ces assistants informatiques talentueux risquent de rester bloqués. Ils peuvent fournir de bonnes informations, mais ils ne pourront jamais vraiment se développer et fournir le véritable retour sur investissement qu’ils ont à offrir à une entreprise ou, plus important encore, à eux-mêmes.

Gardant cela à l'esprit, notre équipe a rencontré des responsables de Seattle travaillant dans les plus grandes entreprises du secteur des technologies pour savoir ce qu'ils souhaitaient et ce qu'ils attendaient de leurs scientifiques expérimentés. Nous voulions partager les informations que nous avons apprises pour aider les scientifiques de données à se développer, ainsi que pour aider les gestionnaires qui tentent de contester la croissance de leurs nouveaux scientifiques de données.

Sur la base de nos discussions, nous avons constaté qu’il n’était pas question de programmation ou de conception d’algorithmes (c’était une base pour un scientifique de données junior). Lorsque nous avons demandé à ces gestionnaires ce qu’ils souhaitaient voir de la part de leurs scientifiques les plus expérimentés, ils nous ont dit qu’ils recherchaient des personnes motivées, capables de communiquer de manière concise, capables de penser par elles-mêmes, possédant une solide compréhension de l’activité et capable de gérer jusqu'à.

Pour que les informaticiens grandissent, ils doivent être mis au défi au-delà des aspects techniques de leur travail. Les scientifiques de données ont la possibilité d'influencer les décisions de l'entreprise. Ils ont beaucoup de responsabilités sur leurs épaules. Cela signifie qu'ils doivent s'approprier le travail qu'ils font. Ils ont besoin de remettre en question leurs sources de données, d’être concis, de connaître leurs activités et de guider leurs dirigeants.

Ne remettez pas simplement en question vos découvertes, remettez en question vos données

Les scientifiques expérimentés n’auront plus confiance en leurs données après les avoir reçues. Ils vont le pousser et le pousser pour des choses comme le biais, les données manquantes, les données en double, etc.

Les données sont liées à avoir des bizarreries. Pour ceux qui passent des heures et des heures en données, vous savez ce que je dis. Lors du défilement ou de la représentation graphique des données, vous voyez ces motifs étranges qui vous obligent à vous arrêter et à dire «Je me demande pourquoi x ressemble à z». Les scientifiques de données plus jeunes seront souvent trop concentrés sur l’achèvement du projet. Ils n’ont pas appris comment s’arrêter et vraiment analyser ces schémas étranges. Ces modèles peuvent être causés par des systèmes qui génèrent par défaut des sorties de données spécifiques telles que -1 ou 1, ou même des données biaisées causées par l’achat de robots qui pourraient fausser ce que les clients achètent réellement sur un site de commerce électronique, et mille autres causes plausibles de confusion. Les données.

Ces modèles ne sont pas nécessairement des données incorrectes ou incorrectes. Même lorsque les données sont exactes, il y aura toujours des problèmes opérationnels. Lors de la conception de rapports, d'algorithmes et de métriques, ceux-ci doivent être pris en compte. Un scientifique expérimenté ne cherchera pas seulement ces données bizarres, il les attendra.

Le terme source de vérité est souvent utilisé par les équipes de données. Il fait référence à la source de données d'origine que plusieurs équipes ont jugée correcte. J'étais très naïf quand j'ai débuté en tant que data scientist. Lors de l'un de mes premiers projets, j'ai été informé d'une source de données que notre équipe avait qualifiée de source de vérité. Pendant des mois, j'ai travaillé sur notre «Source de vérité» pour développer des analyses et des applications permettant à plus de 200 gestionnaires et directeurs d'avoir accès à ces données. Bien sûr, il n’a pas fallu longtemps pour qu’il y ait des problèmes de cohérence avec d’autres métriques. C'est alors que j'ai réalisé que je travaillais sur une source de données à partir de plusieurs ETL à partir de la source de la vérité.

S'adressant aux responsables techniques de Seattle, il s'agit d'un problème courant. Les jeunes analystes, scientifiques et développeurs de données font trop confiance à leurs sources de données. En règle générale, les employés les plus jeunes et les moins expérimentés seront très désireux d’accomplir leur travail. Cela conduira par inadvertance à une moindre compréhension de la nature réelle des données. Au lieu de demander pourquoi, ils passent plus de temps à assurer les «fonctions» du produit. Ainsi, ils ne remarquent pas les problèmes de données.

Pour évoluer en tant que spécialiste des données, vous devez simplement vous assurer qu'un produit ou un algorithme «répond aux exigences» et en prendre possession. Vous devez prendre la responsabilité de comprendre les données et leurs bizarreries. De cette façon, vous pouvez pleinement communiquer à votre responsable ou directeur toutes les hypothèses que vous avez formulées. Un scientifique de données ne peut pas vraiment grandir s’il attribue les mauvais résultats aux données.

Pouvoir exprimer de manière concise la valeur de vos découvertes

Pour grandir en tant que scientifique de données, vous devez aller au-delà du programmeur / statisticien. Vous devez apprendre à être un communicateur et obtenir la capacité de définir de manière concise la valeur de vos conclusions et d'indiquer également ce que votre directeur doit faire avec les informations.

Il peut être tentant de fournir aux directeurs et aux gestionnaires tous les graphiques, toutes les données et toutes les informations techniques rassemblées au cours de nos recherches pour prouver que nous travaillons réellement. En particulier dans le domaine de la science des données, où il faut parfois quelques mois pour faire avancer un seul problème (pour de bonnes raisons). Cependant, au bout du compte, les administrateurs ne veulent pas d’un excès d’informations.

Tous les points importants d'un réalisateur sont les points importants, et ils veulent savoir ce qu'ils devraient faire en fonction de ces points. Parler de la ROC et de la raison pour laquelle vous avez utilisé un algorithme par rapport à un autre ne sera pas très utile pour un manager ou un directeur avec 8 autres équipes à gérer. La plupart du temps, nous constatons que les gestionnaires ne veulent que 2 à 3 points brefs. Parfois même un simple «oui» ou «non» vaut mieux que «peut-être, dans ces conditions… bla bla… possibilité que l'on ait ces risques, la possibilité que deux a ces risques…»

Un scientifique expérimenté en matière de données sait comment aider son responsable en fournissant des informations détaillées, avec des actions distillées. Si le responsable veut en savoir plus, il le demandera (et un bon informaticien aura une réponse). En fin de compte, les gestionnaires ne veulent pas s’enliser avec des informations supplémentaires qui ne les aideront pas à prendre de bonnes décisions.

Connaissez votre entreprise

Chaque fois qu'un informaticien commence un nouvel emploi, il est compréhensible qu'il ne comprenne pas tout du nouveau jour ouvrable. Il y a beaucoup à apprendre, à part les sources de données, les bases de code et d'autres systèmes spécifiques à l'entreprise. Ils ont besoin de connaître le fonctionnement quotidien des données avec lesquelles ils vont travailler. Ils doivent également comprendre les problèmes auxquels l'entreprise est confrontée. Cependant, un scientifique expérimenté dans le domaine des données devrait être capable de comprendre rapidement une entreprise.

Ne vous concentrez pas trop sur le perfectionnement de vos compétences techniques pour ne pas apprendre le métier. Apprenez à travailler avec différentes équipes, à vous impliquer dans des projets et à vous laisser guider avec diligence. Les scientifiques de données peuvent être projetés projet après projet sur de nombreux types de sujets différents et ils doivent être en mesure de s'adapter rapidement.

Les développeurs Jr. seront souvent beaucoup plus concentrés sur le perfectionnement de leurs compétences techniques que sur leur compréhension des affaires. Semblable à de nombreux autres métiers où le travail de grognement (dans ce cas, le codage, le nettoyage de données, etc.) est effectué à des niveaux inférieurs. Cela ne leur laisse pas le temps d'acquérir une compréhension approfondie de la manière dont ils peuvent aider l'entreprise.

Cependant, il s’agit d’une étape importante dans les premières années d’un scientifique qui veille à acquérir un large éventail de compétences techniques. Les scientifiques de données plus expérimentés doivent se concentrer davantage sur le pourquoi de leurs projets. Si un responsable ne met pas au défi les membres de son équipe de science des données plus expérimentés de se développer et d’apprendre le métier, c’est en partie leur faute pour le manque de croissance. Chaque année ou tous les quelques mois, les responsables doivent aider les scientifiques des données les plus expérimentés à s’assurer de leur croissance. Sinon, une entreprise perd du maximum de retour sur investissement.

Gérer

La gestion est difficile dans n'importe quelle discipline. Dans les disciplines techniques, cela peut parfois s'avérer difficile en fonction de l'expérience technique de chaque manager. Les gestionnaires axés sur les affaires n’ont peut-être pas l'expérience de la direction d'équipes techniques. Il est donc essentiel pour les scientifiques expérimentés en matière de données d’avoir les compétences nécessaires pour gérer.

Un informaticien doué pour la gestion comprend les gens. La gestion exige des scientifiques de données (ou de quiconque dans une entreprise) de prendre le temps de comprendre les besoins des patrons. Non seulement l'entreprise a besoin. Que veut le patron de vous et d’eux-mêmes? Une fois que vous comprenez cela, vous comprenez ce qui les motive. Cela permettra à un scientifique des données d’anticiper les besoins de son supérieur hiérarchique avant d’être interrogé. Cela contribuera à développer la confiance ainsi que les investissements supplémentaires de vos gestionnaires et administrateurs. Ce monde ne concerne pas uniquement votre croissance. Les gestionnaires veulent aussi grandir! En tant qu'expérimenté (n'importe qui), vous savez qu'aider les autres à grandir et à atteindre leurs objectifs signifie également que vous gagnez.

Résumé

Les scientifiques de données doivent faire plus que simplement créer des algorithmes et gérer de grands ensembles de données. La valeur des scientifiques expérimentés en matière de données ne découle pas seulement de leurs compétences techniques, mais également de leurs compétences techniques. Les informations et les algorithmes créés par les scientifiques vont pousser les décisions de la haute direction. Ainsi, tout ce qu’ils fournissent doit être compréhensible pour les directeurs et les vice-présidents qui gèrent des millions, des milliards de dollars de personnes, de ressources, d’équipements, de projets… et de tout le reste de la société. Cela signifie que, pour que les informaticiens acquièrent de la valeur pour une entreprise, ils doivent apprendre ce que celle-ci trouvera utile.