25 november 2016 • april 28, 2019 at 3:04 pm Qdraw

De 6 must-know’s voordat je start met Machine Learning

Het is mogelijk om met Artificial Intelligence de toekomst te voorspellen. Machine Learning is een vorm van Artificial Intelligence waarbij de machine zichzelf patronen aanleert. Bij het implementeren van Machine learning worden er een aantal basis patronen geprogrammeerd. Op basis van nieuwe inputdata leert de computer (d.m.v. Machine Learning) de huidige data (bestaande patronen) te trainen en uit te breiden.
Dit model kunnen we succesvol inzetten om de uitkomsten van nieuwe data te voorspellen. Met dank aan deze voorspellingen kan een organisatie sneller succesvol zijn en de concurrenten een stap voor blijven. In dit proces is het belangrijk om de juiste vragen te stellen en te weten wanneer je succes hebt. In dit artikel ga ik het hebben over de zes must knows om Artificial Intelligence succesvol in te zetten.

Stappen in het Machine Learning proces

Om een beter beeld te geven hoe het proces verloopt, is er een model ontwikkeld: het ‘Machine Learning Iteration Model’. Je begint elk proces altijd met de input van raw data. Deze data moet vervolgens verwerkt worden tot trainingdata. Trainingdata is de data die geschikt is om te voeden aan het Machine Learning algoritme. De Machine Learning algoritme maakt van deze gegevens een model. De eerste versies van zo’n model worden ook wel candidate models genoemd. Het model berekend op basis van de trainingdata de voorspelling. De app maakt vervolgens verbinding met het model om op basis van nieuwe data voorspellingen te doen.

Tekst gaat verder na de afbeelding



Machine Learning iteration model | foto 1

De 6 must knows

  1. Stel de juiste vraag om te voorspellen.

    Het proces van Machine Learning valt of staat bij een goede onderzoeksvraag. Zo’n vraag moet daarom voldoen aan de volgende vier punten:

    • Maak de scope helder: wat gaan we nu voorspellen en wat niet;
    • Maak duidelijk wat het doel van de voorspelling is;
    • Maak inzichtelijk in welke context/situatie de vraag relevant is.

      Er moet een mogelijkheid zijn om te meten of de machine defect is. Dit klink logisch maar dat is het over het algemeen niet.
    • Maak meetbaar wanneer het een succes is.
      En welke manier van Machine Learning hiervoor gebruikt kan worden.
      (In het artikel “Voorspellen of een gebruiker lid blijft” vertel ik iets meer over de verschillende vormen van Machine Learning).
  2. Verwerk de raw data (volledig) tot trainingdata.

    Aan de hand van de trainingdata kan het Machine Learning algoritme voorspellingen doen. Elke stap die hierna komt heeft een toenemende afhankelijkheid van de vorige stap. Als je een belangrijk data-element bent vergeten toe te voegen in de eerste stap, kom je in de volgende stappen in de problemen. Hierdoor zal je opnieuw moeten beginnen;

  3. Verwacht dat je stappen terug moet doen.

    Machine Learning is een itererend proces waarbij je steeds tot nieuwe inzichten komt en steeds meer leert over de data. Hierdoor moet je uitzoeken of die nieuwe inzichten/leerpunten ook toepasbaar zijn op eerder gemaakte stappen;

  4. Check tijdens het proces of je nog data mist.

    In een Machine Learning proces kom je er in veel gevallen achter dat er data mist. Er zijn drie manieren om dit op te lossen:

    • Door data van een andere bron erbij te zoeken, en deze twee databronnen te combineren;
    • Door eerst te bewijzen door middel van zelf gegeneerde nep data dat de data daadwerkelijk antwoord geeft op de vraag. Pas daarna met echte data aan de gang te gaan;
    • Door de data die nodig is om een voorspelling te doen alsnog te verzamelen en daarna opnieuw een model te maken met Machine Learning.
  5. Zorg ervoor dat de data is gestructureerd.

    Wanneer je meer data hebt vergroot je de kans dat het voor de machine makkelijker wordt om patronen te vinden. Het is hierbij wel belangrijk dat de data compleet is en niet vervuild. Machine Learning kan namelijk niet helpen bij het opschonen van vervuilde data.

  6. Ga niet verder met een slechte oplossing.

    Evalueer de data en kijk of je eventuele fouten kunt oplossen. Hierdoor kan je een betere voorspelling maken. Mocht dit niet lukken, beëindig dan de voorspelling en begin opnieuw met een nieuwe voorspelling. Zoals het Duitse automerk zou zeggen “Das beste oder nichts”.

Deze 6 must knows geven je een handvat om Machine Learning in te zetten in echte projecten. Het doel is om altijd beter te kunnen voorspellen dan om zomaar een willekeurige gok te doen. Dit heeft als voordeel dat je een stapje voor bent op de concurrent en wie wil dat nu niet.



Binary Bridge at Georgia tech (Door: Chris McClanahan) | foto 2

Deze blog is geschreven door Dion van Velde en verscheen op Colours.nl en mijn eigen blog Qdraw

Dit bericht is geschreven door: Dion

Tags: , , , ,

Gecategoriseerd in:

16 november 2016 • april 28, 2019 at 3:04 pm Qdraw

Voorspellen of een gebruiker lid blijft

De toekomst voorspellen wie wil dat nu niet? We zijn een stap dichter bij deze droom gekomen door gebruik te maken met Artifical Intelligence. In dit artikel geef ik een sneak preview op basis van een demo case en stukje theorie. We hebben Machine Learning toegepast om een succesvolle predictive analyse te maken op basis van anonieme gebruikersdata.

Supervised Machine Learning vs Unsupervised Machine Learning.

Alles begint bij een vraag die je straks aan de computer gaat stellen. De computer gaat antwoord geven op deze vraag door naar de data te kijken, deze data wordt ook wel trainingsdata genoemd. Is de uitkomst van de vraag al in de data of moet het Machine Learning-algoritme de uitkomsten buiten de data zoeken. Bij Supervised Machine Learning ligt de uitkomst in de ingevoerde training data en bij Unsupervised ligt het antwoord buiten de invoerde training data. In de onderstaande alinea geef ik een aantal voorbeelden.

Verschillende Machine Learning categorieën

Regressie

Hoeveel auto’s ga ik volgende maand verkopen? De uitkomst van deze voorspelling ligt al in de data besloten. Daarom wordt er bij Supervised Machine Learning ook 75% van de data gebruikt en de laatste 25% ter controle ingezet. De uitkomst van deze Machine Learning categorie is een getal.

Categoriseren

Is het creditcard fraude? Hier zijn twee antwoorden op mogelijk, namelijk ja of nee. In dit geval zijn er twee antwoorden mogelijk maar bij categoriseren kan het ook zijn dat het type auto wordt voorspeld, zolang het type maar in de trainingsdata zit. Categoriseren is een vorm van Supervised Machine Learning.

Clustering

Welke doelgroep segmenten zijn er. Nu kun je checken of de doelgroep van je product net zo is als dat je zelf denkt. Het verschil tussen Clustering en Categoriseren is dat bij Clustering de uitkomst buiten de trainingsdata ligt.

Het begint allemaal met het stellen van de juiste vraag

In de vraag zit het antwoord in besloten is een bekend gezegde. Zo ben je voor predictive analysing meerdere onderwerpen nodig. In het voorbeeld van de creditcard fraude is het belangrijk om te weten welke data je nodig bent. Zo is het handig om te starten met wat jij verwacht dat de meest waarschijnlijke oorzaken zijn van creditcardfraude. Het kennen en toepassen van de juiste Machine Learning-categorie.

Van ruwe data naar trainingsdata.

Een ruwe diamantsteen omzetten naar een mooi gepolijste diamant. Op basis van de ruwe handelingsdata hebben we een script ontwikkeld die filtert uit de ruwe data hoeveel keer een bepaalde handeling wordt uitgevoerd. Dit itererende proces is in de praktijk het meeste werk. Het verhaal gaat verder na de afbeelding


Trainingsdata script node.js | foto 3

Machine Learning algoritme keuze

De keuze van het Machine Learning algoritme wordt in eerste instantie bepaald door in welke categorie de vraag valt. Valt de vraag binnen regressie of categoriseren? Binnen deze categorieën zijn er ook nog verschillende algoritmes en bij supervised Machine Learning is het dankzij de controle waardes het succes meetbaar. In onze case waarbij we kunnen voorspellen hoeveel procent van de gebruikers gaat afhaken kunnen dit met 90% zekerheid stellen.


Microsoft Azure Machine Learning Training Experiment | foto 2

Model

Voordat je voorspellingen kunt doen moet je eerst een model trainen. Een model is computergegeneerde regelset die kan worden toegepast op nieuwe data. Wanneer je nieuwe data aan het model gaat voeden gaat het model voorspellingen doen. Zo hebben wij een model of een gebruiker gaat afhaken of niet. Dit model voeden wij een aantal analysepunten en zo kunnen wij de kans berekenen of de gebruiker lid blijft of niet.


Microsoft Azure Machine Learning Predictive Experiment, AzureML | foto 1

Beter dan willekeurig is een enorme winst. Als je al 1% beter bent dan compleet willekeurig dan is het de moeite waard om in te zetten. Dit zorgt ervoor dat je op dit moment net iets beter bent dan de concurrent. Wie wil nu niet beter zijn dan de concurrent een manier is om beter gebruik te maken van de bestaande data!


Machine Learning iteration model | foto 4

Deze blog is geschreven door Dion van Velde en verscheen op Colours.nl en mijn eigen blog Qdraw

Dit bericht is geschreven door: Dion

Tags: , , , ,

Gecategoriseerd in: