MLOps - sats 80.000 gnid. fra Otus, træning 5 måneder, dato 30. november 2023.
Miscellanea / / November 30, 2023
Du vil mestre alle de nødvendige maskinlæringsfærdigheder til streaming af data og distribuerede miljøer. Programmet indeholder den nødvendige viden fra områderne Data Science og Data Engineering, som giver dig mulighed for at behandle big data og skrive distribuerede algoritmer i Spark.
Du vil øve hvert modul ved at udføre hjemmearbejde. I slutningen af uddannelsen vil du have et afsluttende projekt, der giver dig mulighed for at opsummere al den viden, du har tilegnet dig, og tilføje til din portefølje. Det kan udføres som en del af arbejdsopgaver på dit datasæt eller være et læringsprojekt baseret på data leveret af OTUS.
Hvem er dette kursus for?
For Machine Learning-specialister eller softwareingeniører, der ønsker at lære at arbejde med big data. Typisk findes sådanne opgaver i store it-virksomheder med et digitalt produkt i stor skala.
For dataforskere, der ønsker at styrke deres færdigheder med ingeniørfærdigheder. Takket være kurset bliver du i stand til at behandle data og selvstændigt vise resultaterne af ML-løsninger i produktionen.
For at lære skal du have grundlæggende datavidenskabelige færdigheder. Vi foreslår, at du ser på Map of Data Science-kurserne på OTUS for at finde ud af det nødvendige uddannelsesniveau.
Du vil lære:
- Brug standard ML pipeline værktøjer i et distribueret miljø;
- Udvikle dine egne blokke til ML pipelines;
- Tilpas ML-algoritmer til distribuerede miljøer og big data-værktøjer;
- Brug Spark, SparkML, Spark Streaming;
- Udvikle algoritmer til forberedelse af streaming af data til maskinlæring;
- Sikre kvalitetskontrol på alle stadier af flytning af ML-løsninger til industriel drift.
Efterspørgsel efter specialister
De færdigheder, du vil mestre, er så anvendte og lovende som muligt. Der kommer flere og flere digitale produkter på markedet, hvis udvikling kræver arbejde med big data og stream processing. Allerede nu kan specialister med en sådan pulje af færdigheder og noget erhvervserfaring kvalificere sig til en løn på 270 tusind. rubler En anden tendens - automatisering af trænings- og valideringsprocesser, tværtimod, devaluerer på en eller anden måde arbejdet fra en klassisk dataforsker. Alt bevæger sig mod det punkt, hvor selv en ikke-specialist kan forudsige en pasform. Derfor er de, der har mindst overfladiske ingeniørfærdigheder, allerede på en præmie.
Kursusfunktioner
Masser af øvelse i at arbejde med data
Bred vifte af færdigheder fra distribueret ML og stream databehandling til produktionsoutput
Nuværende værktøjer og teknologier: Scala, Spark, Python, Docker
Live kommunikation med eksperter via webinarer og Slack chat
4
RuteEngageret i udviklingen af et Data Science-team, der leverer funktionalitet baseret på maskinlæring til virksomhedens produkter og tjenester. Som dataforsker deltog han i udviklingen af Kaspersky MLAD og MDR AI Analyst. I...
Engageret i udviklingen af et Data Science-team, der leverer funktionalitet baseret på maskinlæring til virksomhedens produkter og tjenester. Som dataforsker deltog han i udviklingen af Kaspersky MLAD og MDR AI Analyst. Som C++-udvikler deltog han i skabelsen af MaxPatrol SIEM. Han har undervist i computer i mange år. naturvidenskabelige discipliner på MSTU GA. Forfatter til en række rapporter om ML, C++, DS projektledelse og udvikling hold. Medlem af PC-konferencen C++ Rusland. Programleder
8
kurser20+ års erfaring med tilpassede udviklingsprojekter inden for IT. Snesevis af vellykkede projekter, inklusive dem under statslige kontrakter. Erfaring med udvikling og implementering af ERP-systemer, open source-løsninger, support til højbelastningsapplikationer. Underviser på kurser i...
20+ års erfaring med tilpassede udviklingsprojekter inden for IT. Snesevis af vellykkede projekter, inklusive dem under statslige kontrakter. Erfaring med udvikling og implementering af ERP-systemer, open source-løsninger, support til højbelastningsapplikationer. Underviser i kurser på Linux, Kuber, MLOps, DataOps, SolutionArchitect, IaC, SRE, samt mentor for HighLoad-kurset
1
godtSpecialist i at arbejde med big data og machine learning. I 8 år arbejdede han hos Odnoklassniki.ru. Ledede OK Data Lab-teamet (et laboratorium for forskere inden for big data og maskin...
Specialist i at arbejde med big data og machine learning. I 8 år arbejdede han hos Odnoklassniki.ru. Ledede OK Data Lab teamet (et laboratorium for forskere inden for big data og machine learning). Big data-analyse i Odnoklassniki er blevet en unik chance for at kombinere teoretisk træning og videnskabeligt grundlag med udvikling af rigtige efterspurgte produkter. Siden 2019 har han arbejdet i Sberbank som administrerende direktør. Fungerer som leder af klyngen for udvikling af en platform for anbefalingssystemer i massepersonaliseringsdivisionen. Han dimitterede fra St. Petersburg State University i 2004, hvor han forsvarede sin ph.d. i formelle logiske metoder i 2007. Jeg arbejdede med outsourcing i næsten 9 år uden at miste kontakten til universitetet og det videnskabelige miljø.
Grundlæggende introduktion til kursusstart
-Emne 1. Gradient afstamning og lineære modeller
-Emne 2.Oversigt over grundlæggende maskinlæringsmetoder og målinger
-Emne 3. Udvikling af tilgange til at arbejde med data
-Emne 4.Grundlæggende om programmering i Scala
Teknologisk grundlag for distribueret databehandling
-Emne 5. Distribuerede filsystemer
-Emne 6. Ressourceforvaltere i distribuerede systemer
-Emne 7. Udvikling af massivt parallelle og distribuerede computerrammer
-Emne 8. Apache Spark 1 Basics
-Emne 9. Apache Spark 2 Basics
Distribueret ML Basics
-Emne 10. Overførsel af ML-algoritmer til et distribueret miljø
-Emne 11.ML i Apache Spark
-Emne 12. Udvikling af dine egne blokke til SparkML
-Emne 13.Optimering af hyperparametre og AutoML
Stream behandling
-Emne 14. Stream databehandling
-Emne 15. Tredjepartsbiblioteker til brug med Spark
-Tema 16.Spark Streaming
-Emne 17. Struktureret og kontinuerlig streaming i Spark
-Emne 18.Alternative streaming-rammer
Målsætning og resultatanalyse
-Emne 19. Fastlæggelse af ML-projektets mål og foranalyse
-Emne 20. Langsigtede ML-mål ved hjælp af eksemplet med opgaven med at reducere churn
-Emne 21.A/B-test
-Emne 22. Yderligere emner
Output ML resultater til produktion
-Emne 23. Tilgange til at bringe ML-løsninger i produktion
-Emne 24.Versionering, reproducerbarhed og overvågning
-Emne 25.Online servering af modeller
-Emne 26. Mønstre til asynkron streaming ML og ETL
-Emne 27. Hvis du har brug for Python
ML i Python i produktion
-Emne 28. Produktionskode i Python. Kode for organisering og emballering
-Emne 29.REST-arkitektur: Flask API
-Emne 30.Docker: Struktur, applikation, implementering
-Emne 31.Kubernetes, containerorkestrering
-Theme 32.MLOPS værktøjer til Kubernetes: KubeFlow, Seldon Core. Funktioner af driften af heterogene systemer i industrien.
-Tema 33.Amazon Sagemaker
-Emne 34.AWS ML Service
Avancerede emner
-Emne 35. Neurale netværk
-Emne 36. Distribueret læring og inferens af neurale netværk
-Emne 37.Gradient boosting på træer
-Emne 38. Forstærkende læring
Projekt arbejde
-Emne 39. Valg af emne og tilrettelæggelse af projektarbejdet
-Emne 40. Høring om projekter og lektier
-Emne 41.Beskyttelse af designarbejde