26 september 2017 • oktober 29, 2017 at 4:46 pm Qdraw

Train een tensorflow gezicht object detectie model

Met Artificial Intelligence wordt het mogelijk om beelden slim te analysen en dit slim toe te passen. Dit artikel is een follow-up van Objectherkenning met de Computer Vision library Tensorflow.
In het vorige deel zet ik een getraind model in om 80 objecten, te vinden en te identificeren en de locatie in het beeld te bepalen. Ik ga nu nog een stap verder want ik ga een eigen model trainen dat gezichten kan vinden in een afbeelding. In deze tutorial wordt technisch stap voor stap uitgelicht hoe het proces verloopt. In de stap ‘Gebruik van het frozen model’ staat toegelicht hoe het mogelijk is om het model snel te testen.

There is a english version of How to train a Tensorflow face object detection model available at Medium.com



Train een tensorflow gezicht object detectie model MS COCO Tensorflow Nürburgring example (own picture); Car, motorcycle, box, common objects in context

Setup van de slim en object_detection module

De eerste stap is het clonen van de Tensorflow models. In deze repository staan Machine Leaning-modelen die getraind zijn met Tensorflow. Voor deze tutorial gebruiken we alleen de slim module en object_detection.

$ nano .profile
export PYTHONPATH=$PYTHONPATH:/home/dion/tensorflow_models/research:/home/dion/tensorflow_models/research/slim

Vervolgens zorg je ervoor dat de protobuf libraries zijn gecompiled

$ protoc object_detection/protos/*.proto --python_out=.

Clone de tutorial repository en install dependencies

In een losse repository heb ik alle inhoud verzameld van deze tutorial. Met de onderstaande opdracht kopieer je de map vanuit Github.

$ git clone https://github.com/qdraw/tensorflow-face-object-detector-tutorial.git

Mocht je snel even het model willen proberen er is een protobuf en de checkpoint files staan in deze repository.

Het volgende deel van de uitleg voeren we uit vanuit de onderstaande map:

$ cd tensorflow-face-object-detector-tutorial/

De benodigdheden het trainen moeten nog worden geïnstalleerd. Denk eraan dat OpenCV ook geïnstalleerd staat met Python bindings

$ pip install -r requirements.txt

Downloaden van de training en validatie data

De Chinese Universiteit van Hongkong (CUHK) heeft een grote dataset van foto’s met mensen met daarbij exact aangegeven waar het gezicht zich bevindt in de afbeelding. In het onderstaande voorbeeld is staat in het kladblok de coördinaten van de afbeelding geselecteerd. Op de achtergrond heb ik labelImg geopend en is dezelfde foto te zien met annotaties.



Train een tensorflow gezicht object detectie model MS COCO Tensorflow Nürburgring example (own picture); WIDER, example

Met het script 001_down_data.py wordt WIDERFace en ssd_mobilenet_v1_coco_11_06_2017 gedownload. WIDERFace is de dataset die ik hiervoor gebruik. Daarnaast maak ik ook nog gebruik van ‘pre-trained’ model om de trainingstijd te versnellen. Wanneer je zelf gaat trainen zorg er dan voor dat er voldoende schijfruimte beschikbaar is. Er komt al minimaal 6GB in de map data/ te staan.

$ python 001_down_data.py

WIDERFace omzetten naar Pascal XML

Er komt eerst nog een conversieslag. De dataset die de universiteit beschikbaar heeft gesteld is in een ander formaat dan bruikbaar is in een labelImg en Tensorflow. Met een script gaan we deze data omzetten. De afbeeldingen die gedownload zijn staan in de map WIDER_train, eerst maakt 002_data-to-pascal-xml.py een los xml-bestand in dezelfde map met de annotatie data gestructureerd opgeslagen. Nadat alle afbeeldingen met een goede tag voorzien zijn van een los xml bestand wordt de inhoud gekopieerd naar een losse map (tf_wider_train). Met het onderstaande script wordt de WIDERFace data omgezet in Pascal XML en worden er losse mappen aangemaakt. Op mijn computer duurt dit 5 minuten aangezien er 9263 afbeeldingen worden verwerkt.

$ python 002_data-to-pascal-xml.py



Train een tensorflow gezicht object detectie model WIDER example using labelImg (credits: http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/); WIDER, example

Pascal XML naar Tensorflow CSV index

Wanneer de data is omgezet naar Pascal XML wordt er een index gemaakt. Met het trainen en valideren van de dataset gebruiken we deze bestanden als input om TFRecords van te maken. Het is echter ook mogelijk om met een tool als labelImg handmatig afbeeldingen te labelen en deze stap te gebruiken om hier een index van te maken.



Train een tensorflow gezicht object detectie model WIDER example using labelImg (credits: http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/); Excel, finder

$ python 003_xml-to-csv.py

Maak een TFRecord file

Een TFRecords file is een groot binair bestand dat uit gelezen kan worden om het Machine Learning model te trainen. Het bestand wordt in de volgende stap sequentieel uitgelezen door Tensorflow. De training en validatie data wordt omgezet d.m.v. onderstaande commando opdrachten omgezet in binaire blobs

Trainingsdata naar TFRecord (847.6 MB)

$ python 004_generate_tfrecord.py --images_path=data/tf_wider_train/images --csv_input=data/tf_wider_train/train.csv --output_path=data/train.record

Validatiedata naar TFRecord (213.1MB)

$ python 004_generate_tfrecord.py --images_path=data/tf_wider_val/images --csv_input=data/tf_wider_val/val.csv --output_path=data/val.record

Prepareren van het config bestand

In de repository staat ssd_mobilenet_v1_face.config, dit is een configuratiebestand dat gebruikt wordt om een Artificial Neural Network te trainen. Dit bestand is gebaseerd op een huisdieren detector.
Het aantal num_classes blijft in dit geval één omdat er alleen gezichten zullen worden herkend.
De variabel fine_tune_checkpoint wordt gebruikt om het pad naar een eerder model aan te geven om learnings te halen. Deze locatie pas je aan in dit bestand. Het finetune checkpoint bestand wordt gebruikt om transfer learning toe te passen. Transfer learning is een methode in Machine Learning dat gefocust is om kennis wat opgedaan van één context toe te passen op een andere context.
In de class train_input_reader wordt een link gelegd met de TFRecord bestanden voor het trainen van het model. In het config-bestand moet je deze aanpassen naar de juiste locatie.
De variabel label_map_path bevat een index id’s en namen. Bij dit bestand wordt nul als placeholder gebruikt en beginnen we dus met nummeren vanaf één.


item {
    id: 1
    name: "face"
}

Voor het valideren zijn er twee variabelen belangrijk. De variabel num_examples binnen de class eval_config wordt gebruikt om het aantal voorbeelden in te stellen.
In de class eval_input_reader staat de locatie van de validatie data beschreven. Op deze locatie staat ook een pad.
Verder is het nog mogelijk om learning rate, batch size en nog meer instellingen te veranderen. Voor nu heb ik de standaard instellingen aangehouden.

Let’s train 😉

Nu gaat het echte werk beginnen. De computer gaat learnings halen uit de dataset en hier een Neural Network van maken. Aangezien ik het model train op een CPU gaat dit een aantal dagen kosten om een goed resultaat te krijgen. Met krachtige Nvidia grafische kaart is het mogelijk om dit te verkorten naar enkele uren.

$ python ~/tensorflow_models/object_detection/train.py --logtostderr --pipeline_config_path=ssd_mobilenet_v1_face.config --train_dir=model_output

Omzetten van checkpoint naar protobuf

Om het model te kunnen gebruiken in Objectherkenning met de Computer Vision library Tensorflow. Het onderstaande commando staat een locatie naar de models repository en naar het laatste checkpoint. In de map model komt frozen_inference_graph.pb te staan.

$ python ~/tensorflow_models/object_detection/export_inference_graph.py \
--input_type image_tensor \
--pipeline_config_path ssd_mobilenet_v1_face.config \
--trained_checkpoint_prefix model_output/model.ckpt-12262 \
--output_directory model/

TL;DR;

In de map model/frozen_inference_graph.pb op de github repository staat een frozen model van het Artificial Neural Network. De Chinese Universiteit van Hongkong heeft WIDERFace beschikbaar gesteld. In deze tutorial wordt deze dataset gebruikt om een gezichtsherkenings Machine Learning model te trainen.

Evaluatie

Naast de data die gebruikt wordt voor het trainen is er ook een evaluatie-dataset. Op basis van deze evaluatie-dataset is het mogelijk om de nauwkeurigheid uit te rekenen. Voor mijn model heb ik de nauwkeurigheid (Mean Average Precision) uitgerekend. Ik kwam op een score van 83.80% bij 14337 stappen (epochs). Voor dit proces heeft Tensorflow een los script en wordt het mogelijk om in Tensorboard te zien wat de score is. Er wordt aangeraden om naast het trainen ook een evaluatieproces te draaien. Je kunt dan het proces monitoren met Tensorboard.

$ python ~/tensorflow_models/object_detection/eval.py --logtostderr --pipeline_config_path=ssd_mobilenet_v1_face.config --checkpoint_dir=model_output --eval_dir=eval

$ tensorboard --logdir=eval --port=6010

Conclusie en het gebruik van het frozen model

Het is gelukt om een gezichtsherkenning model te trainen. Het frozen model model/frozen_inference_graph.pb kan ingezet worden in bijvoorbeeld Objectherkenning met de Computer Vision library Tensorflow.
Mocht de wereld van Computer Vision je interesse hebben gewekt, maar weet je nog niet hoe je dit kunt toepassen en heb je de nodige vragen? Stuur mij dan een mailtje dan kunnen we een kopje koffie drinken.



Train een tensorflow gezicht object detectie model Uit de dataset WIDERFace en de film Marching Band (2009) met XML en LabelImg interface zichtbaar ; faces, tensorflow

Deze blogpost verscheen op Qdraw. Er is een Engelse vertaling beschikbaar op: Towards Data Science – Medium

Dit bericht is geschreven door: Dion van Velde

Tags: , , ,

Gecategoriseerd in:

25 juli 2017 • september 26, 2017 at 2:41 pm Qdraw

Objectherkenning met de Computer Vision library Tensorflow

Met computer vision wordt het mogelijk om foto’s en video’s op intelligente wijze te analyseren om onze steden slimmer en veiliger te maken, nieuwe soorten robots te ondersteunen die productie optimaliseren. In dit artikel ligt een onderdeel van Computer Vision uit, namelijk Object Detection

Tensorflow object detection api

Een belangrijke functionaliteit van Tensorflow is het ‘image recognition’. Tensorflow is een open source library dat door Google in 2015 voor het grote publiek beschikbaar is gemaakt. Het wordt gebruikt om deep learningmodels te bouwen, ontwerpen en te trainen.

Met Tensorflow is het mogelijk met de object detection API  wat het toegankelijk maakt voor onderzoekers en softwareontwikkelaars om objecten te identificeren in een 2d beeld. Het doel van Google van de object detection API  is om een evenwicht te hebben tussen simplicity en performance. Er zijn een aantal voorgetrainde modellen welke door wetenschappers worden gebruikt om algoritmes te trainen.

En nu gaan we het gewoon zelf gebruiken!

Tensorflow is een library die beschikbaar is vanuit Python. Al het zware werk wordt buiten Python gedaan. Python is een programmeertaal die veel wordt gebruikt voor Machine Learning en data-analyse.

In deze tutorial ga ik ervan uit dat je een Ubuntu (Virtuele) machine tot je beschikking hebt. Buiten scope is het inrichten van Nvidia grafische kaarten en met CUDA. Ik heb deze code werkend op Ubuntu 16.04 en Mac OS Siera.

De tekst gaat verder na de onderstaande afbeelding


Objectherkenning met de Computer Vision library Tensorflow Uitzicht met Object Detection; object detection, uitzicht

PIP

Een Python package manager is PIP. Voor het gemak maak ik gebruik van Python 2.7, de code werkt ook met Python 3.6. Voor deze tutorial gebruiken we deze en met het onderstaande commando installeer je deze op je systeem: Het dollarteken geeft aan dat een bash-commando is die als normale gebruiker moet worden uitgevoerd. Dit dollarteken hoeft niet mee te worden gekopieerd.

Ubuntu – $ sudo apt-get install python-pip git -y

Mac OS – $ brew install python

Ik clone de github responsories naar mijn home folder.

$ cd

Tensorflow models

Clone the Tensorflow models van de officiële repository. In deze repository staan Machine Leaning-modelen die getraind zijn met Tensorflow. Voor deze tutorial gebruiken we alleen de slim module en object_detection.

Met dit commando kopieer je de inhoud van de repository. De model map is 167,4 MB groot.

$ git clone https://github.com/tensorflow/models.git

Het het pwd commando wordt het absolute path van de huidige map getoond.

$ pwd

/home/dion

Voeg onderaan toe waar ‘/home/dion’ de naam van je gebruiker is. Dit is om alle bestanden die in de map staan in python in het path laden.

$ nano .profile

export PYTHONPATH=$PYTHONPATH:/home/dion/models/research:/home/dion/models/research/slim

Laad de inhoud van .profile of herstart alle terminal vensters om de inhoud van het bestand te laden.

$ source .profile

Protobuf

Google heeft een manier ontwikkeld om frozen models op te slaan. Een frozen model is Neural Network dat is opgeslagen en in het geheugen kan worden ingeladen.

Dit protocol moet eerst worden geïnstalleerd.

Ubuntu – $ sudo apt-get install protobuf-compiler -y

Mac OS – $ brew install protobuf

De Protobuf libraries moeten eerst worden gecompiled. Dit moet je doen vanuit de model-map:

$ cd models/research/

$ protoc object_detection/protos/*.proto --python_out=.

En ik ga terug naar mijn home folder:
$ cd

OpenCV

Met het onderstaande commando laad ik een bash script van een externe website waarbij OpenCV automatisch wordt gecompileerd en geïnstalleerd in /usr/local. Dit script installeert OpenCV 3.2 en werkt met Ubuntu 16.04.

$ curl -L https://raw.githubusercontent.com/qdraw/tensorflow-object-detection-tutorial/master/install.opencv.ubuntu.sh | bash

Op mijn Macbook maak ik gebruik van OpenCV 3.3.0 en Python 2.7.13. Ik heb hier OpenCV 3.2 en 3.3 proberen te installeren alleen dit werkt niet in combinatie met Python 3.6 terwijl dit op Linux wel werkt.

$ brew install homebrew/science/opencv

De tekst gaat verder na de onderstaande afbeelding


Objectherkenning met de Computer Vision library Tensorflow Compiling OpenCV @Ubuntu 16.04; OpenCV, Ubuntu

Tensorflow-object-detection-tutorial repository

In deze repository heb ik alle inhoud verzameld. Er zijn twee voorbeelden, het eerste voorbeeld wordt een afbeelding geanalyseerd en het tweede voorbeeld laat een livebeeld zien van de webcam. Met de onderstaande opdracht kopieer je de map van Github.

$ git clone https://github.com/qdraw/tensorflow-object-detection-tutorial.git

Het volgende deel van de uitleg voeren we uit vanuit de onderstaande map:
$ cd tensorflow-object-detection-tutorial/

De benodigdheden van de demo moeten nog worden geïnstalleerd.

$ pip install -r requirements.txt

Het analyseren van een afbeelding

Voor deze demonstratie analyseren we een foto die gemaakt is bij Colours op het kantoor in Den Bosch. We zoeken naar alle objecten in deze foto. Het algoritme kan een aantal auto’s al vinden.

$ python image_object_detection.py

Druk ‘ctrl + C’  binnen het terminalvenster om het programma af te sluiten

De tekst gaat verder na de onderstaande afbeelding


Objectherkenning met de Computer Vision library Tensorflow Herkennen van een Appel en Banaan; appel, banaan, object detection

Het analyseren van het beeld van je webcam

Met OpenCV wordt het mogelijk om webcambeelden in Python in te laden. In dit script draaien meerdere processen tegelijk waardoor het afsluiten lastig is.

$ python webcam_object_detection.py

De snelste en makkelijkste manier om af te sluiten is in een ander terminalvenster het proces te killen.

Ubuntu – $ pkill python

Mac OS – $ pkill Python

Het analyseren van het beeld van je webcam.

 

Mocht de wereld van Computer Vision je interesse hebben gewekt, maar weet je nog niet hoe je dit kunt toepassen en heb je de nodige vragen? Stuur mij dan een mailtje dan kunnen we een kopje koffie drinken.

25 september 2017: De tensorflow/models git repository heeft de paden veranderd, deze heb ik in deze tutorial gewijzigd.

Dit bericht is geschreven door: Dion

Tags: , , ,

Gecategoriseerd in: