Kursus "Data Analyst" - kursus 96.000 rub. fra Yandex Workshop, træning 7 måneder, dato 7. december 2023.
Miscellanea / / December 02, 2023
En dataanalytiker uddrager mening fra tal og værdier: han ser tendenser, forudsiger begivenheder og hjælper en virksomhed med at forstå kunder, optimere processer og vokse.
Markedet har brug for specialister, der kan bruge data nyttigt. En undersøgelse foretaget af personalevirksomheden Ancor for september 2022 viste, at 45 % af russiske virksomheder leder efter analytikere til at slutte sig til deres team.
Færdigheder du vil lære på kurset
Jobtitel
Analytiker, dataanalytiker, dataanalytiker
Udviklingsmuligheder: Produktanalytiker, Marketinganalytiker, BI-analytiker, Data Science Specialist
Her er de teknologier og værktøjer, du vil bruge:
Python
Jupyter notesbog
SQL
PostgreSQL
Tableau
A/B test
Begynd at tjene penge ved at analysere
Du starter fra en juniorstilling, og kommer derefter kun videre. Du vil klatre op på karrierestigen og vokse i værdi. Og en dag vil der ikke være nogen pris for dig.
Gennemfør Data Analytics kursusprogram
Vi opdaterer den regelmæssigt for at sikre, at den opfylder industriens og arbejdsgivernes behov.
Du lærer med andre ord kun det, der helt sikkert vil være nyttigt i dit arbejde.
Gratis del - 1 uge
Gratis introduktion: Grundlæggende om Python og dataanalyse
Lær de grundlæggende begreber inden for dataanalyse og forstå, hvad dataanalytikere og dataforskere gør.
• Moscow Catnamycs. Viser data på skærmen. CSV-filer. Arbejde med borde. Varmekort. Multiplicer en kolonne med et heltal.
• Fejl i koden. Syntaksfejl. Navngivningsfejl. Fejl ved division med nul. Fejl ved import af et modul.
• Variabler og datatyper. Variabler. Datatyper. Aritmetiske operationer med tal og strenge.
• Hvordan man laver hypoteser. Hypoteser. HADI cykler. Analytisk tænkning. Aflæsning af grafer.
• Hvad data scientists gør. Analytiker opgaver. Afklaring af opgaver. Nedbrydning. Projektets faser.
• Kontrol af konverteringer. Konvertering. Dataudforskning. Dannelse af konklusioner.
• Tilbagebetaling af annoncekampagner. Søjlediagram. Forskel på elementer. Indeksering i kolonner.
• Machine learning og Data Science. Uddannelse i maskinlæring. Find unikke værdier i kolonner. Logisk indeksering. Gruppering af værdier i en tabel. Forudsigelsesfejl.
• Afsluttende projekt. Brugersegmentering.
PythonPandasErrorsSeaborn HypothesesConversionVariablesDatatyperHeatmaps
1 sprint 3 uger
Grundlæggende Python
Dyk dybere ned i Python-programmeringssproget og Pandas-biblioteket.
• Variabler og datatyper. Python sprog. Variabler. Viser data på skærmen. Visning af objekter på skærmen. Fejlhåndtering, prøv...undtagen operatør. Datatyper. Datatypekonverteringer.
• Linjer. Indekser i rækker. Linjeskæringer. Operationer på strenge. Strenge metoder. Formateringsstrenge, format() metode, f-strenge.
• Lister. Indekser i lister. Liste skiver. Tilføjelse af elementer til en liste. Fjerner listeelementer. Tilføjelse og multiplikation af lister. • Sortering af lister. Søg efter elementer på en liste. Opdele en streng i en liste af strenge, sammenkæde en liste af strenge i en streng.
• Til sløjfe. Cykler. Optælling af elementer. Iteration over elementindekser. Behandling af listeelementer ved hjælp af loops: find summen og produktet af elementer.
• Indlejrede lister. Gennemgang af indlejrede lister med tælleværdier. Tilføjelse af elementer til indlejrede lister. Sortering af indlejrede lister.
• Betinget operatør. Mens sløjfe. Boolsk datatype. booleske værdier. Logiske udtryk. Sammensatte logiske udtryk. Betinget erklæring hvis...elif...else. Forgrening. Filtrering af lister ved hjælp af en betinget operator. Mens sløjfe.
• Funktioner. Tildeling af funktioner. Parametre og argumenter. Parametre med standardværdier. Positionelle og navngivne argumenter. Returnerer et resultat fra en funktion.
• Ordbøger. Nøgler og værdier. Søger efter en værdi efter nøgle. Tilføjelse af elementer til ordbogen. Liste over ordbøger. Smukt output af ordbøger.
• Pandas bibliotek. Læser csv-filer. Dataramme. Dataramme konstruktør. Udskrivning af første og sidste række i en dataramme. Indeksering i datarammer. Indeksering på seriekolonner.
• Dataforbehandling. GIGO-princippet. Omdøbning af datarammekolonner. Håndtering af manglende værdier. Håndtering af eksplicitte og implicitte dubletter.
• Dataanalyse og præsentation af resultater. Gruppering af data. Sortering af data. Grundlæggende om beskrivende statistik.
• Jupyter Notesbog - en notesbog i en celle. Jupyter Notebook interface. Jupyter Notebook genveje.
Sløjfer PythonPandas StringsLister FunktionerOrdbøgerDatarammeVariablerDatatyperBetinget erklæring
Projekt
Sammenlign Yandex Music-brugerdata efter by og ugedag.
2 sprint 2 uger
Dataforbehandling
Lær at rense data fra outliers, udeladelser og dubletter, samt konverter forskellige dataformater.
• Arbejde med afleveringer. Konvertering. Cookies. Kategoriske og kvantitative variable. Håndtering af huller i kategoriske variable. Håndtering af huller i kvantitative variable. Håndtering af huller i kvantitative variable efter kategori.
• Ændring af datatyper. Læsning af Excel-filer. Konverter serier til numerisk type. Talmodul, abs() metode. Arbejder med dato og tid. Fejlhåndtering, prøv...undtagen operatør. Merge dataframes, merge() metode. Pivottabeller.
• Søg efter dubletter. Søg efter dubletter, der skelnes mellem store og små bogstaver.
• Datakategorisering. Dekomponering af tabeller. Kategorisering efter numeriske områder. Kategoriser baseret på flere værdier pr. række.
• Systematisk og kritisk tænkning i arbejdet som analytiker. Systemtænkning. Årsager til datafejl. Kritisk tænkning.
PythonPandasGap-håndteringDatabehandlingDuplicate processingDatakategorisering
Projekt
Analyser data om bankkunder og bestem andelen af kreditværdige.
3 sprint 2 uger
Udforskende dataanalyse
Lær det grundlæggende om sandsynlighed og statistik. Brug dem til at udforske de grundlæggende egenskaber ved data, lede efter mønstre, fordelinger og anomalier. Lær Matplotlib-biblioteket at kende. Tegn diagrammer og øv dig i at analysere grafer.
• Første grafer og konklusioner. Brug af pivottabeller. Søjlediagram. Fordelinger. Rækkevidde diagram.
• Undersøgelse af dataslices. query() metoden. Arbejder med dato og tid. Plot grafer ved hjælp af plot()-metoden. Occams barbermaskine.
• Arbejde med flere datakilder. Dataudsnit baseret på eksterne objekter. Tilføjelse af nye kolonner til en dataramme. Tilføjelse af data fra andre datarammer. Omdøbning af kolonner. Kombination af tabeller ved hjælp af merge() og join() metoderne.
• Datarelationer. Scatterplot. Korrelation af variable. Scatterplot matrix.
• Validering af resultater. Konsolidering af grupper. Opdeling af data i grupper.
PythonPandasMatplotlibHistogrammerData SlicesDataanalyseSpredningsplotScatterplotDatavisualiseringBeskrivende statistik
Projekt
Udforsk arkivet med annoncer for salg af fast ejendom i St. Petersborg og Leningrad-regionen.
4 sprint 3 uger
Statistisk dataanalyse
Lær at analysere sammenhænge i data ved hjælp af statistiske metoder. Lær, hvad statistisk signifikans og hypoteser er.
• Kombinatorik. Kombinationer. Multiplikationsregel. Omarrangeringer. Antal permutationer. Placeringer. Antal placeringer. Kombinationer. Antal kombinationer.
• Sandsynlighedsteori. Eksperiment. Sandsynlighedsrum. Begivenheder. Sandsynlighed. Krydsende og gensidigt udelukkende begivenheder. Euler-Venn diagram. Lov om store tal.
• Beskrivende statistik. Kategoriske og kvantitative variable. Mode og median. Gennemsnits værdi. Spredning. Standardafvigelse. Kvartiler og percentiler. Rækkevidde diagram. Søjlediagram. Frekvenstæthed. Søjlediagram.
• Tilfældige variable. Diskret tilfældig variabel. Sandsynlighedsfordeling for en diskret stokastisk variabel. Kumulativ funktion (fordelingsfunktion) af en diskret stokastisk variabel. Matematisk forventning om en diskret stokastisk variabel. Spredning af en diskret stokastisk variabel.
• Distributioner. Bernoullis eksperiment. Binomialt eksperiment. Binomial fordeling. Kontinuerlig ensartet fordeling. Normal fordeling. Standard normalfordeling. CDF og PPF til normal fordeling. Poisonfordeling. Approksimation af en fordeling med en anden.
• Test af hypoteser. Almen befolkning. Prøve. Prøveudtagning. Central grænsesætning. Ensidige og tosidede hypoteser. P-værdi. Test af ensidige og tosidede hypoteser for en prøve. Test af hypotesen om ligheden af midlerne for to generelle populationer. Test af hypotesen om lighed af midler for afhængige prøver.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributionerHypotesetestning Sandsynlighedsteori
Projekt
Test hypoteser om leje af scootere for at hjælpe din virksomhed med at vokse.
Ekstra Sprint
Sandsynlighedsteori
Husk eller genkend de grundlæggende begreber i sandsynlighedsteori: uafhængige, modsatte, uforenelige begivenheder osv. Ved hjælp af simple eksempler og sjove problemer vil du øve dig i at arbejde med tal og opbygge logikken i løsninger.
Dette er en valgfri sprint. Det betyder, at hver elev selv vælger en af mulighederne:
• Mestre en ekstra sprint på 10 korte lektioner, friske op på teori og løse problemer.
• Åbn kun blokken med interviewopgaver, genkald praksis uden teori.
• Spring kurset helt over eller vend tilbage til det, når der er tid og behov.
PythonBegivenhederSandsynlighedBayes' TeoremTilfældige variablerSandsynlighedsteoriStatistisk dataanalyse
5 sprint 1 uge
Afsluttende projekt på første modul
Lær, hvordan du udfører foreløbig dataforskning og formulerer og tester hypoteser.
ScipyNumpyPythonPandasMatplotlibDataanalyseHypotesetestDatabehandling
Projekt
Find mønstre i spilsalgsdata.
6 sprint 2 uger
Grundlæggende SQL
Lær det grundlæggende i struktureret forespørgselssprog SQL og relationel algebra til at arbejde med databaser. Bliv bekendt med funktionerne ved at arbejde i PostgreSQL, et populært databasestyringssystem (DBMS). Lær at skrive forespørgsler af varierende kompleksitetsniveauer og oversætte forretningsproblemer til SQL. Du kommer til at arbejde med en database over en netbutik, der har specialiseret sig i film og musik.
• Introduktion til databaser. Databasestyringssystemer (DBMS). SQL sprog. SQL-forespørgsler. Formatering af SQL-forespørgsler.
• Dataudsnit i SQL. Datatyper i PostgreSQL. Datatypekonvertering. WHERE-klausul. Logiske operatører. Data skiver. Operatører IN, LIKE, MELLEM. Arbejder med dato og tid. Håndtering af manglende værdier. Betinget CASE-konstruktion.
• Aggregeringsfunktioner. Gruppering og sortering af data. Matematiske operationer. Aggregationsfunktioner. Gruppering af data. Sortering af data. Filtrering efter aggregerede data, HAVING-operatør.
• Relationer mellem tabeller. Typer af bordsammenføjninger. ER diagrammer. Omdøbning af felter og tabeller. Aliaser. Sammenlægning af tabeller. Sammenføjningstyper: INDRE SAMMENSÆTNING, LEFT JOIN, HØJRE JOIN, FULD YDRE JOIN. Alternative typer fagforeninger UNION og UNION ALLE.
• Underforespørgsler og almindelige tabeludtryk. Underforespørgsler. Underforespørgsler i FROM. Underforespørgsler i WHERE. En kombination af joinforbindelser og underforespørgsler. Almindelige tabeludtryk (CTE). Variation af anmodninger.
SQLDBMSPostgreSQLSunderforespørgslerDatabaserSQL-forespørgslerFiltrering af dataSortering af dataGruppere dataSammenslutning af tabellerFælles tabeludtryk
Projekt
Du vil skrive en række forespørgsler af varierende kompleksitet til en database, der gemmer data om ventureinvestorer, startups og investeringer i dem.
7 sprint 3 uger
Analyse af forretningsindikatorer
Lær, hvilke metrics der er i erhvervslivet. Lær at bruge værktøjer til dataanalyse i erhvervslivet: kohorteanalyse, salgstragt og enhedsøkonomi.
• Metrikker og tragte. Konvertering. Tragter. Marketingtragt. Indtryk. Klik. CTR. Produkttragt.
• Kohorteanalyse. Brugerprofil. fastholdelsesrate. Churn rate. Analysehorisont. Visualisering af kohorteanalyse. Retentionsanalyse af tilfældige kohorter. Konvertering i kohorteanalyse. Beregning af metrics i Python.
• Enhedsøkonomi. Metrics LTV, CAC, ROI. ARPU, ARPPU. Beregning af metrics i Python. Avanceret visualisering af metrics. Sharey parameter. Glidende gennemsnit.
• Tilpassede målinger. Brugeraktivitetsvurdering. Bruger session. Anomali undersøgelse.
Metrikker TragteKonverteringEnhedsøkonomiKohorteanalyseProduktmålingerMarkedsføringsmålinger
Projekt
Baseret på dataene, forstå brugeradfærd, samt analysere kundernes rentabilitet og annoncerings-ROI for at komme med anbefalinger til marketingafdelingen.
8 sprint 2 uger
Avanceret SQL
Du vil tage et ekstra kursus i at arbejde med databaser og blive endnu tættere på forretningen. Ved hjælp af SQL-sproget vil du analysere beregningen af de vigtigste forretningsmetrikker, som du stiftede bekendtskab med i "Business Indicators Analysis"-sprintet. Overvej at arbejde med et komplekst værktøj som vinduesfunktioner. Lær at ændre indholdet af databaser lokalt uden en simulator ved hjælp af specielle klientprogrammer og biblioteker til Python.
• Beregning af forretningsindikatorer. Dataskema. Konvertering. LTV. ARPU. ARPPU. ROI. Beregning ved hjælp af SQL.
• Aggregerende vinduesfunktioner. OVER udtryk. PARTITION BY window parameter.
• Vinduesrangeringsfunktioner. Rangeringsfunktioner. Vindue BESTIL EFTER operatør. ROW_NUMBER(). RANG(). DENSE_RANK(). NTILE(). Vinduesoperatører sammen med rangeringsfunktioner.
• Window offset-funktioner. Kumulative værdier. Offset funktioner. AT FØRE(). LAG(). Vinduesfunktioner og aliaser.
• Kohorteanalyse. Retentionsrate, Churn Rate. LTV.
• Installation og konfiguration af databasen og databaseklienten. Database klient. Installation af PostgreSQL. Installerer DBeaver. DBeaver interface. Database oprettelse. Implementering af en databasedump. Uploader forespørgselsresultater. Præsentation af forespørgselsresultater.
SQLDBMSMetricsPostgreSQLDabaserSQL-forespørgslerVinduefunktionerKohorteanalyse
Projekt
Brug Python og SQL til at oprette forbindelse til en database, beregne og visualisere nøglemålinger i et programmerings Q&A-servicesystem.
9 sprint 2 uger
Beslutningstagning i erhvervslivet
Du vil lære, hvad A/B-test er og forstå, i hvilke tilfælde det bruges. Lær at designe A/B-test og evaluer dens resultater.
• Grundlæggende om hypotesetestning i erhvervslivet. Førende målinger. Grundlag for eksperimenter. Generering af hypoteser. Prioritering af metrics. Valg af metode til at udføre et eksperiment. Kvalitative metoder til test af hypoteser. Kvantitative metoder til test af hypoteser. Fordele og ulemper ved A/B-tests.
• Prioritering af hypoteser. RICE ramme. Reach parameter. Påvirkningsparameter. Tillidsparameter. Indsatsparameter.
• Forberedelse til at udføre en A/B-test. A/A test. Type I og II fejl. Kraften til statistisk test. Betydningen af statistisk test. Flere sammenligninger, metoder til at reducere sandsynligheden for fejl. Beregning af stikprøvestørrelse og varighed af en A/B-test. Grafisk analyse af metrik.
• Analyse af A/B-testresultater. Test af hypotesen om lighed af aktier. Shapiro-Wilk test for at teste data normalitet. Ikke-parametriske statistiske test. Mann-Whitney test. Stabilitet af kumulative målinger. Analyse af outliers og bursts.
• Adfærdsalgoritmer. Fakta, følelser, vurderinger. Forklar dit synspunkt.
A/B-test Prioritering af hypoteser Forberedelse til A/B-test Analyse af A/B-testresultater Analyse af A/B-testresultater
Projekt
Analyser resultaterne af A/B-test i en stor netbutik.
10 sprint 1 uge
Afsluttende projekt på andet modul
Lær at teste statistiske hypoteser ved hjælp af A/B-test og udarbejde konklusioner og anbefalinger i analytisk rapportformat.
SalgstragtA/B-testDatabehandlingForskningsdataanalyse
Projekt
Udforsk salgstragten og analyser resultaterne af A/B-test i mobilapplikationen.
11 sprint 2 uger
Sådan fortæller du en historie med data
Du lærer, hvordan du korrekt præsenterer resultaterne af din forskning ved hjælp af grafer, de vigtigste tal og deres korrekte fortolkning. Lær Seaborn- og Plotly-bibliotekerne at kende.
• Til hvem, hvordan, hvad og hvorfor skal man fortælle. Præsentation af forskningsresultatet. Fortællerens målgruppe. Hvad og hvorfor skal man fortælle en dataanalytiker.
• Seaborn Library. Seaborn-biblioteket som en udvidelse af Matplotlib-biblioteket. jointplot() metode. Farveintervaller. Diagramstile. Visualisering af distributioner.
• Plotbibliotek. Interaktive grafer. Linje graf. Søjlediagram. Lagkagediagram. Tragtdiagram.
• Datavisualisering i geoanalytik. Geoanalyse. Bibliotek Folium. Kortvisning. Indstilling af markører med specificerede koordinater. Oprettelse af punktklynger. Brugerdefinerede ikoner til markører. Horoplet.
• Udarbejdelse af en præsentation. Konklusioner baseret på undersøgelsen. Sæsonbestemt og eksterne faktorer. Absolutte og relative værdier. Simpsons paradoks. Principper for opbygning af præsentationer. Rapporter i Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsDatavisualisering
Projekt
Forbered en markedsundersøgelse baseret på åbne data om offentlige cateringvirksomheder i Moskva, visualiser de opnåede data.
12 sprint 2 uger
Byg dashboards i Tableau
I denne sprint kommer du til at arbejde med Tableau BI-systemet. Lær at oprette forbindelse til data og ændre dem, bygge forskellige typer grafer, sammensætte dashboards og præsentationer.
• Grundlæggende om at arbejde med Tableau. BI systemer. Tableau. Oprettelse af et dokument. Gemmer dokumentet. Offentliggørelse af dokumentet.
• Arbejde med datakilder. Data kilder. Datasammenlægning. Relationsmetode. Deltag metode. Blandingsmetode. Unionsmetode. Ændring af tabelformatet.
• Datatyper. Grundlæggende datatyper. Målinger. Foranstaltninger. Arbejder med dato og tid. Sæt. Grupper. Muligheder. Ændring af formatet af variabler. Variable Målnavne, Målværdier, Antal.
• Tabeller og beregninger. Grænseflade til arkredigering. Pivottabeller. Beregnede felter. LOD udtryk.
• Filtre og sortering. Sorteringsforanstaltninger. Sortering af dimensioner. Indlejrede sorter. Sortering ved hjælp af en parameter. Filtre.
• Visualiseringer. Visualiseringskontroller. Varmekort. Lagkagediagrammer. Søjlediagrammer. Histogrammer. Rækkevidde diagrammer. Punktdiagram. Linjegrafer. Kombinerede grafer. Områdediagrammer.
• Særlige visualiseringer og værktøjstip. Kort. Karakter kort. Boblediagram. Træ kort. Cirkelvisninger diagrammer. Punktdiagrammer. Gantt-diagrammer. Mål navne og mål værdier i visualiseringer. Reverse engineering. Værktøjstip. Værktøjstip med visualiseringer. Tærskelværdier på grafer. Analytiske værktøjer i Custom.
• Præsentationer. Ekstra muligheder. Undersøgelse af typiske parametre. Oprettelse af en præsentation.
• Dashboards. Indlæsning og klargøring af data. Udarbejdelse af visualiseringer. Dashboard montage. Handlinger. Dashboard demonstration. Udgivelse af et dashboard.
TableauDashboardsBI-værktøjerBI-værktøjerDatavisualisering
Projekt
Undersøg historien om TED-konferencer og opret et dashboard i Tableau baseret på de opnåede data.
Ekstra Sprint
Grundlæggende maskinlæring
Bliv bekendt med det grundlæggende i maskinlæring og lær om hovedopgaverne ved maskinlæring i erhvervslivet.
PythonPandasSklearnMachine learningMachine learning opgaverMachine learning algoritmer
Ekstra Sprint
Øv Python
Du vil tage flere laboratorietimer med yderligere opgaver i programmeringssproget Python. Du vil også lære, hvordan du udtrækker data fra webressourcer.
Du vil:
• i strukturen af HTML-sider og driften af GET-anmodninger,
• lære at skrive simple regulære udtryk,
• lære API og JSON at kende,
• lave flere anmodninger til websteder og indsamle data.
JSONPythonREST APIWeb skrabning
13 sprint 3 uger
Afgangsprojekt
I det sidste projekt skal du bekræfte, at du har mestret et nyt erhverv. Tydeliggør kundens opgave og gennemgå alle stadier af dataanalyse. Nu er der ingen lektioner eller lektier - alt er som på et rigtigt job.
Slutspurten omfatter projektarbejde, A/B-test og SQL-opgaver samt en ekstra opgave. Projektet indeholder en problemformulering, det forventede resultat, et datasæt og deres beskrivelse.
Opgaven vedrører et af fem forretningsområder:
• banker,
• detailhandel,
• spil,
• mobilapplikationer,
• e-handel.
Der vil ikke være nogen sædvanlig beskrivelse af trin i projektet. Du vil selv arbejde igennem dem.
SQ LPython PandasTableau Dashboards Postgre SQL-dekomponering A/B-test