Comment réduire le battage médiatique de l'IA pour devenir un ingénieur en apprentissage automatique

Je suis sûr que vous avez entendu parler d’incroyables applications en intelligence artificielle, allant des programmes qui peuvent battre les meilleurs joueurs de Go au monde aux voitures autonomes.

Le problème est que la plupart des gens sont pris dans le battage médiatique de l'IA, mêlant discussions techniques et discussions philosophiques.

Si vous souhaitez réduire le battage médiatique de l'IA et travailler avec des modèles de données mis en œuvre de manière pratique, entraînez-vous en vue d'un poste d'ingénieur en données ou d'ingénieur en apprentissage machine.

Ne cherchez pas d’applications d’intelligence artificielle intéressantes dans les articles d’IA. Recherchez-les dans des tutoriels d'ingénierie de données ou d'apprentissage automatique.

Une capture d'écran Twitter qui résume peut-être le mieux

Ce sont les étapes que j'ai prises pour construire cet amusant petit racloir que j'ai construit pour analyser la diversité des genres dans différents bootcamps de codage. C’est la voie que j’ai choisie pour faire des recherches sur le nouveau camp d’entraînement en ligne AI / ML de Springboard, assorti d’une garantie d’emploi.

Voici un guide pas à pas pour accéder à l’espace d’apprentissage automatique avec un ensemble critique de ressources attachées à chacune d’elles.

1. Commencez à mettre à jour vos pratiques de développement logiciel et Python

Vous voudrez commencer par adopter Python, le langage de choix de la plupart des ingénieurs en apprentissage machine.

Le langage de script pratique est l'outil de choix de la plupart des ingénieurs de données et des scientifiques de données. La plupart des outils de données ont été construits en Python ou ont construit un accès API pour un accès facile à Python.

Heureusement, la syntaxe de Python est relativement facile à comprendre. La langue a des tonnes de documentation et de ressources de formation. Il prend également en charge toutes sortes de paradigmes de programmation, de la programmation fonctionnelle à la programmation orientée objet.

La seule chose qui pourrait être un peu difficile à comprendre est la tabulation et l'espacement requis pour organiser et activer votre code. En Python, les espaces blancs importent vraiment.

En tant qu’ingénieur en apprentissage machine, vous travaillerez en équipe pour concevoir des applications complexes, souvent critiques. Le moment est donc propice pour actualiser également les meilleures pratiques en matière de génie logiciel.

Apprenez à utiliser des outils de collaboration tels que Github. Prenez l’habitude d’écrire des tests unitaires approfondis pour votre code à l’aide de frameworks de test tels que nez. Testez vos API à l'aide d'outils tels que Postman. Utilisez des systèmes de CI tels que Jenkins pour vous assurer que votre code ne soit pas endommagé. Développez de bonnes compétences en matière de révision de code pour mieux travailler avec vos futurs collègues techniques.

Une chose à lire: Quel est le meilleur IDE Python pour la science des données? Effectuez une lecture rapide afin de comprendre le jeu d'outils dans lequel vous souhaitez travailler pour implémenter Python sur des jeux de données.

Jupyter Notebook, j’utilise moi-même, car il est livré préinstallé avec la plupart des bibliothèques de données informatiques importantes que vous utiliserez. Il est livré avec une interface interactive simple et propre qui vous permet d’éditer votre code à la volée.

Jupyter Notebook est également livré avec des extensions vous permettant de partager facilement vos résultats avec le monde entier. Les fichiers générés sont également très faciles à utiliser avec Github.

Une chose à faire: Pandas Cookbook vous permet d'intégrer des exemples concrets du cadre Pandas, l'une des bibliothèques de manipulation de données les plus puissantes. Vous pouvez rapidement travailler sur un exemple montrant comment utiliser un jeu de données.

2. Explorer les cadres et la théorie de l'apprentissage automatique

Une fois que vous avez joué avec Python et que vous vous y êtes exercé, il est temps de commencer à examiner la théorie de l’apprentissage automatique.

Vous apprendrez quels algorithmes utiliser. Avoir une connaissance de base de la théorie qui sous-tend l'apprentissage automatique vous permettra de mettre en œuvre des modèles facilement.

Une chose à lire: Un tour d'horizon des dix meilleurs algorithmes d'apprentissage automatique Les débutants vous aideront à démarrer avec les bases. Vous apprendrez qu’il n’ya pas de «repas gratuit». Aucun algorithme ne vous donnera le résultat optimal pour chaque réglage. Vous devrez donc plonger dans chaque algorithme.

Une chose à faire: jouez avec le cours interactif Free Machine Learning in Python - développez vos compétences en Python et commencez à implémenter des algorithmes.

3. Commencez à travailler avec des jeux de données et à expérimenter

Vous avez les outils et la théorie à votre actif. Vous devriez penser à faire de petits mini-projets qui peuvent vous aider à raffiner vos compétences.

Une chose à lire: jetez un coup d'œil à 19 ensembles de données publiques gratuits pour votre premier projet de science des données et commencez à chercher des endroits où trouver différents jeux de données sur le Web.

Une chose à faire: les jeux de données Kaggle vous permettront de travailler avec de nombreux jeux de données disponibles au public. Ce qui est bien dans cette collection, c’est que vous pouvez voir à quel point certains jeux de données sont populaires. Vous pouvez également voir quels autres projets ont été construits avec le même jeu de données.

4. Mettez à niveau vos compétences en matière de données avec Hadoop ou Spark

Maintenant que vous vous entraînez sur de plus petits jeux de données, vous voudrez apprendre à travailler avec Hadoop ou Spark. Les ingénieurs de données travaillent avec des données en continu et en temps réel au niveau de la production, au téraoctet et parfois en pétaoctets. Développez vos compétences en vous familiarisant avec un cadre de données volumineuses.

Une chose à lire: Ce court article Comment Hadoop et Spark s’empilent-ils? vous aideront à comprendre à la fois Hadoop et Spark et comment ils se comparent et s’opposent.

Une chose à faire: si vous souhaitez commencer immédiatement à travailler avec une infrastructure Big Data, les blocs-notes Spark Jupyter hébergés sur Databricks proposent une introduction au framework, ainsi que des exemples de code au niveau de la production.

5. Travailler avec un cadre d'apprentissage en profondeur tel que TensorFlow

Vous avez fini d’explorer les algorithmes d’apprentissage automatique et de travailler avec les différents outils Big Data existants.

Il est maintenant temps de prendre le genre de puissant apprentissage par renforcement qui a fait l’objet de nouvelles avancées. Apprenez le framework TensorFlow et vous serez à la pointe du travail d’apprentissage automatique.

Une chose à lire: Lire Qu'est-ce que TensorFlow? et comprendre ce qui se passe sous le capot en ce qui concerne ce puissant cadre d’apprentissage en profondeur.

Une chose à faire: TensorFlow et Deep Learning sans doctorat est un cours interactif construit par Google qui combine la théorie insérée dans des diapositives avec des travaux pratiques avec code.

6. Commencez à travailler avec de grands ensembles de données au niveau de la production

Maintenant que vous avez utilisé des frameworks d’apprentissage approfondi, vous pouvez commencer à travailler sur de grands ensembles de données au niveau de la production.

En tant qu’ingénieur en apprentissage machine, vous prendrez des décisions complexes en matière de gestion de grandes quantités de données et de déploiement de vos systèmes.

Cela inclurait la collecte de données à partir d’API et de Web scraping, de bases de données SQL + NoSQL et, lorsque vous les utiliseriez, l’utilisation de structures de pipeline telles que Luigi ou Airflow.

Lorsque vous déployez vos applications, vous pouvez utiliser des systèmes basés sur des conteneurs tels que Docker pour son évolutivité et sa fiabilité, ainsi que des outils tels que Flask pour créer des API pour votre application.

Une chose à lire: 7 façons de gérer des fichiers de données volumineux pour l’apprentissage automatique est un bon exercice théorique sur la façon de gérer des ensembles de données volumineux. Elle peut également servir de liste de contrôle des tactiques à utiliser.

Une chose à faire: les ensembles de données volumineuses disponibles publiquement sont une liste d’endroits où vous pouvez obtenir de très grands ensembles de données, prêts à mettre en pratique vos nouvelles compétences en ingénierie de données.

7. Pratiquer, pratiquer, pratiquer, construire vers un portefeuille puis un travail

Enfin, vous êtes parvenu à un point où vous pouvez créer des modèles d’apprentissage machine opérationnels. La prochaine étape pour faire avancer votre carrière en apprentissage automatique consiste à trouver un emploi dans une entreprise qui détient ces grands ensembles de données afin que vous puissiez appliquer vos compétences au quotidien à un problème d’apprentissage automatique de pointe.

Une chose à lire: les 41 questions essentielles d'entrevue d'apprentissage automatique (avec les réponses) vous aideront à mettre en pratique les connaissances dont vous avez besoin pour réussir une entrevue d'apprentissage automatique.

Une chose à faire: sortir et trouver des rencontres dédiées à l’apprentissage automatique ou à l’ingénierie de données sur Meetup - c’est un excellent moyen de rencontrer des pairs du secteur et des responsables potentiels de l’embauche.

Espérons que ce tutoriel a aidé à réduire le battage médiatique autour de l'IA en quelque chose de pratique et adapté que vous pouvez utiliser. Si vous sentez que vous avez besoin d'un peu plus, la société avec laquelle je travaille, Springboard, propose un programme d'initiation à la carrière dédié à l'IA et à l'apprentissage automatique avec une garantie d'emploi et un mentorat 1: 1 donné par des experts en apprentissage automatique.