Ontwikkelen van data science applicaties

De hoeveelheid data die wordt gegenereerd in de technische en wetenschappelijke sector groei gestaag. Het ontwikkelen van applicaties om die data om te werken tot nuttige informatie is de kerncompetentie van VORtech.

VORtech levert een reeks van diensten voor het ontwikkelen van data science applicaties in de technische sector. Welke van deze diensten we daadwerkelijk inzetten hangt af van het project en van uw eigen wensen. Hieronder schetsen we hoe we u kunnen helpen in iedere fase van een data science project.

Onze rol in de verschillende projectfasen

Hieronder vindt u een overzicht van de verschillende fasen in een data science project en de rol die VORtech daarbij kan spelen. Het kan voorkomen dat we maar een deel van deze activiteiten uitvoeren, afhankelijk van de specifieke behoefte van de klant.

Projectdefinitie

In deze fase definieert u samen met onze adviseurs het doel van het project. Wat wilt u bereiken? Bedrijven die een goed overzicht hebben over hun processen kunnen vaak snel een goed project definiëren. Maar veel bedrijven hebben geen formele beschrijving van hun processen en dan is het definiëren van een goed data science project veel lastiger. Daarnaast spelen er vaak ook niet-technische aspecten: hoe zit het met het eigendom van de data en van de resultaten, is er draagvlak voor de toepassing, zijn er ethische kwesties?

In de projectdefinitiefase wordt ook nadrukkelijk gekeken naar de business case: wat gaat het kosten en wat gaat het opleveren. Bij bedrijven die net beginnen met data science zit daar vaak nog veel onzekerheid in: het is lastig in te schatten hoe makkelijk het zal zijn om de benodigde data te verzamelen, te ontsluiten en op te schonen. Daarnaast is het niet altijd goed te voorspellen wat de resultaten zullen zijn. Daarom wordt er vaak een verkenningsfase ingelast.

Verkenning

In de verkenningsfase wordt de benodigde data verzameld en wordt gekeken wat de kwaliteit is. Er worden wat beperkte analyses gedaan om een indruk te krijgen van de resultaten die het project zou kunnen opleveren. Op basis hiervan kan de business case beter onderbouwd worden, of kunnen de doelen scherper gesteld worden. In ieder geval wordt hier een goed moment ingebouwd voor een go/no-go beslissing.

Data engineering en voorbewerking

Als er een eenmalige analyse gedaan wordt, dan is het verkrijgen van de data meestal niet heel lastig. U geeft ons een bestand met data of u geeft ons toegang tot een database waaruit we zelf de data kunnen ophalen. Het opschonen van de data is vaak wel veel werk: data waarop nog nooit een analyse is uitgevoerd bevat vaak fouten. U kunt denken aan invoerfouten, incompleetheid, inconsistentie of data van kapotte sensors. De meeste data wordt niet opgeslagen voor de beoogde data science toepassing en zal dus ook niet direct te gebruiken zijn. In praktijk zijn we een groot deel van de projecttijd kwijt aan het wegfilteren van ongerechtigheden.

Daarbij is het wenselijk dat we kunnen samenwerken met uw medewerkers: zij weten immers hoe de data is opgeslagen en wat de betekenis ervan is. Als het om heel grote hoeveelheden data gaat dan zijn vaak wel speciale voorzieningen nodig. VORtech heeft experts die weten hoe ze met grote datasets om moeten gaan.

Uiteindelijk is het doel van data science toepassingen vaak niet om enkel rapporten te genereren, maar draaien ze operationeel: ze kunnen op ieder willekeurig moment aangeroepen worden door gebruikers of ze draaien mee in een geautomatiseerd business proces. In dat geval moet er een voorziening ingericht worden waarmee de data science toepassing op ieder moment de meest recente data kan ophalen. Met hun goede achtergrond in software engineering, is dit voor VORtechers geen probleem.

Algoritme ontwikkeling en analyse

Dit is het meest kennis-intensieve deel van het project. Onze data-scientists gaan aan de slag om een geschikt model op te stellen of een geschikte analyse te doen om de juiste voorspelling of het juiste inzicht uit de data te halen. Daarbij wordt ook gekeken naar de betrouwbaarheid van de uitkomsten. Dit laatste wordt nogal eens overgeslagen, wat tot verkeerde conclusies kan leiden.

Voor het data science werk maken we gebruik van open source tools. Hoewel er veel commerciële tools op de markt zijn, is het vaak onnodig om daar veel geld aan uit te geven.

Testen

Zodra er resultaten zijn, dan wordt het tijd om deze met de gebruikers samen door te nemen. Vaak levert dit gesprek met de gebruikers nuttige nieuwe inzichten op die verwerkt kunnen worden door verdere aanpassingen aan de analyses of algoritmes. Het is niet ongebruikelijk dat er meerdere iteraties nodig zijn voordat het product volledig aansluit op de behoeften.

Kennisoverdracht

VORtech hecht er aan dat haar klanten in principe zelf verder kunnen met de resultaten van ons werk. We verdienen aan onze dienstverlening, niet aan onze producten. Dat betekent dat we gedurende het project, maar zeker ook aan het eind aandacht besteden aan een goede overdracht. Vaak wordt er nog een support-contract afgesloten waarbij gedurende een bepaalde periode nog laagdrempelig kleine vragen bij ons neergelegd kunnen worden. Maar nodig is dat niet: u bent als klant vrij om helemaal zelf verder te gaan of zelfs een andere dienstverlener in te huren. Dat neemt niet weg dat we er uiteraard naar streven om u dermate tevreden te maken dat u graag nog eens bij ons terug komt.