Bliv maskiningeniøringeniør | Trin 4: Øv, Øv, Øv

Den bedste metode til hurtigt at samle vigtige maskinlæringsevner er at øve dig på at bygge dine færdigheder med små let forståelige datasæt. Denne teknik hjælper dig med at opbygge dine processer ved hjælp af interessante data fra den virkelige verden, der er små nok til at du kan se på i excel eller WEKA. I denne artikel lærer du en database af høj kvalitet med masser af datasæt og nogle tip, der hjælper dig med at fokusere din tid på det, der betyder noget for dig!

Hvorfor øve med datasæt?

Efter online tutorials vil du holde dig fanget i en afhængig tankegang, der vil begrænse din vækst, fordi du ikke lærer, hvordan man løser noget problem. Din læring om, hvordan du anvender en bestemt løsning på en bestemt type problem. Det er ækvivalenten med overfitting, som vi alle ved, fører til dårlige resultater i den virkelige verden. Hvis du er interesseret i at blive maskinlæringsingeniør, skal du sørge for, at du kan generalisere til reelle data. Udfordre dig selv hver dag og angreb problemer ved hjælp af en defineret proces. At øve dine færdigheder ved hjælp af datasæt er den bedste måde at gøre dette på.

Hvor får jeg datasæt?

Heldigvis for alle er der et fantastisk lager af maskinlæringsproblemer, som du kan få adgang til gratis.

UCI Machine Learning Repository

Center for maskinindlæring og intelligente systemer ved University of California, Irvine, byggede UCI-maskinindlæringslageret. I 30 år har det været stedet at gå til maskinlæringsforskere og maskinlæringsstuderende, der har brug for datasæt for at øve. Du kan downloade alle de tilgængelige datasæt på deres webside. De viser også alle detaljerne om det, inklusive alle publikationer, der har brugt det, hvilket er virkelig nyttigt, når du vil lære forskere angrebet problemet. Datasættene kan også downloades på et par forskellige måder (CSV / TXT).

Der er kun to ulemper ved UCI-datasættene.

  1. Den anden ulempe er, at de er små, så du ikke får meget erfaring i store projekter, men det skal ikke have nogen betydning, fordi I er nye til dette! Begynd i det små!
  2. Den mest markante ulempe er, at disse datasæt renses og forbehandles. Rengøring og forbehandling er essentielle dele af maskinlæringsprocessen, som du står overfor i din karriere. Ikke at bruge tid på at øve denne færdighed vil skade dig senere på vejen.

Øve på en målrettet måde

Hvordan går du rundt på at øve målrettet, når der er så mange datasæt? En håbende maskinlæringsingeniør ville gøre bedst for at finde ud af, hvad deres mål er, og vælge et datasæt, der bedst ville få dem til det mål. Jeg har udviklet nogle spørgsmål, som du kan stille dig selv for at hjælpe med at indsnævre antallet af datasæt.

  • Hvilket problem ønsker du at løse?
  • Regression, klassificering, regression, klynge?
  • Hvilket størrelse datasæt er det? Snesevis af datapunkter eller millioner
  • Hvor mange funktioner har datasættet?
  • Hvilken type funktioner?
  • Hvilket domæne er dette datasæt fra?

Find ud af, hvilken type datasæt du vil fokusere på for at matche dine bredere mål. Når du først har dette, skal du være i stand til at filtrere gennem det enorme antal datasæt, der er tilgængelige på platformen.

Eksempel Problemer

Bare rolig, hvis du ikke er sikker på, hvad du prøver på at lære. Det er meget bedre at ikke sidde fast ved at finde den perfekte studieplan. Jeg har lavet en liste over nogle datasæt, som du måske synes interessant. Der er et par typer af problemer her, så giv dem alle et skud.

Regression: http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Clustering: https://archive.ics.uci.edu/ml/datasets/Bag+of+Words

Klassificering: http://archive.ics.uci.edu/ml/datasets/Wine

Sundhedsklassificering: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

Men..

Jeg tror ikke, jeg har evnerne til dette, eller jeg har lyst til, at noget forhindrer mig i at komme i gang!
Det er OK at fra tid til anden tvivle på dig selv, men du kan ikke lade det forhindre dig i dine mål om at blive maskinlæringsingeniør. Tid til at justere dit tankesæt.

Jeg ved ikke hvordan jeg programmerer!
Det er fint, fordi min artikel "Bliver en maskinlæringsingeniør | Trin 3: Vælg et værktøj går over et værktøj, som ikke behøver nogen programmeringsevner til at bruge, og som giver dig mulighed for at implementere mange maskinlæringsalgoritmer.

Hvor skulle jeg endda starte med at løse problemerne?
En proces, der giver dig mulighed for at se på ethvert problem er super vigtig, og jeg mener, at det at lære denne proces er bedre end at lære om, hvordan tilbageforplantning fungerer. Tjek min artikel, hvor jeg går i detaljer om at vælge en proces Link til at vælge en proces

Jeg tror ikke, jeg kunne gøre dette alene?
At lære maskinlæring af dig selv er ikke den bedste måde at lære. At blive medlem af en gruppe ligesindede individer vil gøre vidundere over for din evne til at lære. Tjek denne artikel for at finde ud af mere.

Tag væk

Hvis du ser alvorligt på selvstudium, kan du overveje at lave en beskeden liste med datasæt, du vil undersøge nærmere. Følg den målrettede praksisplan for at opbygge et værdifuldt fundament for dykning i mere komplekse og spændende maskinlæringsproblemer.

Tak for at have læst :) Hvis du nød det, skal du trykke på klapknappen nedenfor og følge mig! Det ville betyde meget for mig og tilskynde mig til at skrive flere historier som denne

Lad os også oprette forbindelse på Twitter, LinkedIn eller e-mail