Skip to Content

Wat is Data Drift? Model Drift Demystified

In de wereld van enterprise AI is datadrift een grote en enigszins onvermijdelijke zorg geworden. Het begrijpen en beheren van datadrift is essentieel voor het behoud van de relevantie en betrouwbaarheid van AI-workflows en -projecten om ervoor te zorgen dat ze waardevolle inzichten bieden in het licht van snel evoluerende real-world data. Het op de juiste manier beheren van datadrift helpt dynamische AI-modellen te behouden die zich gemakkelijk aanpassen aan uw steeds veranderende bedrijfsomgeving en die ondernemingen in staat stellen om de concurrentie voor te blijven. 

Dit artikel onderzoekt wat data-drift is, waarom het belangrijk is, het verschil tussen data-drift en conceptdrift, het belang van dynamische modellen en hoe het hebben van een AI-ready infrastructuur voor dataopslag helpt om data-drift te voorkomen. 

Wat is data Drift?

Data-drift verwijst naar het fenomeen waarbij de statistische eigenschappen van de inputgegevens die worden gebruikt om een machine learning-model te trainen in de loop van de tijd veranderen. Eenvoudig gezegd geven de data waarop het model aanvankelijk werd getraind - de inputdata - niet langer nauwkeurig de nieuwe data weer waarmee het model wordt geconfronteerd. Deze verandering kan geleidelijk of abrupt zijn en kan het gevolg zijn van verschillende factoren, zoals verschuivingen in het gedrag van klanten, veranderingen in de omgevingsomstandigheden of wijzigingen in methoden voor het verzamelen van gegevens.

Voorbeelden van data Drift in praktijkscenario's

Finance

In de algoritmische handel kan een model dat is opgeleid op basis van historische marktgegevens te maken krijgen met een datadrift naarmate de marktomstandigheden evolueren. Plotselinge economische gebeurtenissen of beleidswijzigingen kunnen leiden tot verschuivingen in aandelenprijzen en handelspatronen, wat van invloed is op de voorspellende nauwkeurigheid van het model.

Gezondheidszorg

Een voorspellend model dat is opgeleid op basis van patiëntgegevens om ziekterisico's te identificeren, kan te maken krijgen met datadrift als er in de loop van de tijd veranderingen zijn in bevolkingsdemografie, levensstijlpatronen of gezondheidszorgpraktijken. Deze verschuivingen kunnen van invloed zijn op het vermogen van het model om nauwkeurige voorspellingen te doen, wat uiteindelijk van invloed kan zijn op de behandeling en de behandelingsresultaten. 

E-commerce

Een e-commerce-aanbevelingssysteem dat afhankelijk is van gebruikersgedrag kan te maken krijgen met datadrift als er veranderingen zijn in de voorkeuren van de consument, de aankoopgewoonten of de beschikbaarheid van het product. Nieuwe trends of verschuivingen in klantvoorkeuren kunnen de effectiviteit van het aanbevelingsmodel beïnvloeden en uiteindelijk de klantervaring beïnvloeden. 

Klimaatmonitoring

Modellen die weerpatronen of klimaatveranderingen voorspellen, kunnen te maken krijgen met data-drift door veranderingen in de omgevingsomstandigheden. Factoren zoals ontbossing, verstedelijking of wereldwijde klimaatverandering kunnen leiden tot verschuivingen in datapatronen die van invloed zijn op de prognosenauwkeurigheid van het model.

Cybersecurity

Een inbraakdetectiesysteem kan te maken krijgen met datadrift als er veranderingen zijn in de tactieken en technieken die door cyberaanvallers worden gebruikt. Naarmate de bedreigingslandschappen evolueren, moet het model zich aanpassen aan nieuwe patronen van kwaadwillig gedrag om de effectiviteit ervan te behouden.

Waarom is data Drift belangrijk? 

Simpel gezegd maakt datadrift het moeilijker voor AI-modellen om te presteren. Het komt neer op het idee van "afval in, afval uit". Wanneer AI-modellen oude data gebruiken, produceren ze oude beslissingen. In een wereld waarin dagelijks 2,5 triljoen bytes aan data worden gecreëerd, kunnen organisaties het zich niet veroorloven om aan verouderde data te werken. 

Foutieve, op AI-modellen gebaseerde beslissingen kunnen leiden tot kostbare fouten in real-world applicaties. Een verkoopvoorspellingsmodel kan bijvoorbeeld de vraag verkeerd beoordelen als het niet overweegt de voorkeuren van de klant te wijzigen. Zoals eerder vermeld, kunnen verouderde of verouderde modellen als gevolg van datadrift ook leiden tot financiële verliezen, verminderde klanttevredenheid en gemiste kansen.

Concept Drift en het belang van dynamische modellen

AI-modelbouw is gericht op het vinden van de functie F die invoergegevens x in kaart brengt aan een uitvoer y (de voorspelling, beslissing of actie) via de modus, y=F(x). Maar modellen kunnen niet statisch blijven in een zeer dynamische wereld binnen een evoluerende bedrijfsomgeving. 

Waar datadrift betrekking heeft op de invoer van bedrijfsgegevens x verandering, houdt conceptdrift in dat de output y (het gewenste bedrijfsresultaat dat wordt gemodelleerd) verandert. In beide gevallen moet model F dynamisch veranderen naarmate er afwijkingen optreden in de inputs en/of resultaten. 

Conceptdrift kan de prestaties van machine learning-modellen aanzienlijk beïnvloeden door het veroorzaken van:

Modeldegradatie

Naarmate de onderliggende datadistributie evolueert, kan het model na verloop van tijd minder nauwkeurig worden. De initiële patronen en relaties die tijdens de training worden geleerd, houden mogelijk niet langer vast, wat leidt tot een daling van de voorspellende prestaties.

Verminderde generalisatie

Modellen die conceptdrift ervaren, kunnen moeite hebben om goed te generaliseren naar nieuwe, ongeziene data. De kennis die tijdens de training wordt opgedaan, kan minder van toepassing worden omdat het model inputfuncties tegenkomt die verschillen van de functies die tijdens de trainingsfase worden gezien.

Verhoogde valse positieven/negatieven

Conceptdrift kan leiden tot verkeerde classificaties, wat resulteert in hogere percentages van valse positieven of valse negatieven. Dit is met name problematisch in toepassingen zoals de gezondheidszorg of de financiële sector, waar nauwkeurige voorspellingen cruciaal zijn.

Aanpassingsuitdagingen

Modellen moeten zich aanpassen aan veranderende datapatronen om de effectiviteit te behouden. Het niet snel aanpassen aan conceptdrift kan leiden tot verouderde modellen die onnauwkeurige voorspellingen bieden, wat mogelijk leidt tot slechte besluitvorming.

Zwaar gebruik van resources

Het aanpakken van conceptdrift kan extra rekenmiddelen en hertrainingsinspanningen vereisen. Regelmatige modelupdates en herijking kunnen nodig zijn om de veranderende datapatronen bij te houden, waardoor de algemene resourcevereisten toenemen.

Risico op veroudering van het model

Als conceptdrift niet adequaat wordt beheerd, kunnen modellen achterhaald raken en hun effectiviteit verliezen. Dit is met name zorgwekkend in toepassingen waar tijdige en nauwkeurige voorspellingen cruciaal zijn, zoals fraudedetectie of autonome systemen.

Impact op besluitvorming

In scenario's waarin machine learning-modellen cruciale beslissingen informeren, kan conceptdrift leiden tot onbetrouwbare voorspellingen, wat mogelijk leidt tot suboptimale keuzes en resultaten.

Om te voorkomen dat AI-modellen worden beïnvloed door een van beide soorten drift, moeten de modellen zelf dynamisch zijn. 

Stelt u zich eens voor dat u een machine learning-model bouwt om voorraadprijzen of klantgedrag te voorspellen. U traint het op basis van bepaalde data en het werkt goed. Vervolgens verschuift de omgeving waarin uw model werkt. De voorkeuren van klanten veranderen, de marktdynamiek evolueert en plotseling is uw model misschien niet zo scherp als voorheen.

Hier beginnen de uitdagingen. Statische modellen, modellen die zich niet aanpassen aan veranderingen in hun omgeving, worstelen in dynamische omgevingen. Het is alsof u een kaart probeert te gebruiken die nooit wordt bijgewerkt - niet erg nuttig wanneer het landschap voortdurend verandert.

De gevolgen? Uitvoer van verkoopmodellen betekent voorspellingen die niet langer nauwkeurig zijn, wat kan leiden tot alle bovengenoemde problemen. Als u vertrouwt op deze voorspellingen voor de besluitvorming, kunt u merken dat u keuzes maakt op basis van verouderde informatie. Stelt u zich een weersvoorspelling voor die het veranderende klimaat nooit als niet erg betrouwbaar beschouwt.

Foutieve outputs kunnen ook problemen veroorzaken. Als uw model de verschuivende patronen in de data verkeerd interpreteert, is het alsof u een GPS hebt die u vertelt om linksaf in een meer om te slaan omdat het niet weet dat de weg is veranderd. Het is niet alleen onhandig, het kan ook echte gevolgen hebben.

Het belangrijkste hier is dat modellen net zo dynamisch moeten zijn als de wereld waarin ze actief zijn. Regelmatige updates, constante monitoring en misschien een vleugje machine learning-magie kunnen helpen om ze synchroon te houden met het steeds veranderende datalandschap. In een dynamische wereld moeten uw modellen ook dynamisch zijn.

Data- en concept Drift detecteren

Het detecteren van data- en conceptdrift is als het geven van een bril aan uw AI-modellen om veranderingen in hun omgeving te zien. 

Waarom is tijdige detectie zo cruciaal? 

Stelt u zich eens voor dat u een schip door steeds veranderende zeeën leidt. Als u geen verschuiving in de huidige of een verandering in de weerpatronen opmerkt, kunt u van koers gaan. Hetzelfde geldt voor machine learning-modellen die door evoluerende data navigeren.

Het detecteren van drift in zowel input- als outputdata is als het hebben van een radar voor veranderingen. Het gaat niet alleen om het terugkijken op het pad dat u hebt afgelegd, maar ook om het in de gaten houden van de horizon voor wat er komt.

Dus, hoe doet u dit? Voor de afwijking van inputdata kunnen statistische methoden zoals Kolmogorov-Smirnov-tests of meer geavanceerde methoden zoals de Page-Hinkley-test vergelijkbaar zijn met weersvoorspellingen. Ze helpen u te herkennen wanneer de patronen in uw invoergegevens beginnen te verschuiven, waardoor u een bericht krijgt.

Als het gaat om outputdata, kan het monitoren van veranderingen in de nauwkeurigheid van voorspellingen of foutpercentages een duidelijk teken zijn. Als uw model het gisteren afdwong, maar plotseling begint te knoeien, is het een waarschuwingssignaal.

En vergeet de rol van machine learning-algoritmen niet. Ze zijn niet alleen bedoeld om voorspellingen te doen, ze kunnen ook bewakers zijn tegen drift. Samenvoegingsmethoden, die meerdere modellen combineren, kunnen fungeren als een raad van wijze ouderen, die elk hun perspectief op de dataverschuivingen innemen.

Online leren is een andere superheld in dit verhaal. Het is alsof je een model hebt dat niet alleen van het verleden leert, maar zich ook direct aanpast, terwijl je scherp blijft in de veranderende datalandschappen.

Er zijn ook tools die speciaal zijn ontworpen voor driftdetectie. Zie ze als onze machine learning sidekicks, uitgerust met algoritmen om het alarm te laten klinken wanneer er iets verandert in de dataatmosfeer.

Kortom, het detecteren van drift gaat niet alleen over terugkijken en zeggen: "Oh, dingen veranderd". Het gaat om het uitrusten van modellen met de sensoren en tools om te anticiperen op die veranderingen om ervoor te zorgen dat ze op koers blijven in de steeds veranderende zeeën van data. 

Hoe u modellen kunt aanpassen aan Drift

Zie datadrift als een ingewikkelde dans waar uw modellen zich voortdurend aan moeten aanpassen. Wanneer de data drijft of het concept in een nieuw ritme walst, moeten uw AI-modellen meer doen dan alleen bijhouden; ze moeten hun bewegingen aanpassen om synchroon te blijven.

Strategieën voor het aanpassen aan datadrift zijn als een dansinstructeur of choreograaf voor uw modellen. Een strategische stap is hertraining, dat is als het terugsturen van uw modellen naar de dansles met nieuwe data, zodat ze de nieuwste stappen kunnen leren. Regelmatige updates houden ze scherp en afgestemd op de verschuivende beats.

Dan is er online leren, dat gaat over het in realtime aanpassen van uw bewegingen. Modellen die gebruik maken van online leren kunnen zich direct aanpassen, zodat ze wendbaar blijven in het licht van veranderende datadynamiek.

Maar u moet ook nadenken over balans. Zie het als het besturen van een schip. U wilt het wiel niet elke seconde schudden, maar u wilt ook niet direct in een ijsberg varen omdat u weigert zich aan te passen. Het is een delicate dans.

Een balans tussen stabiliteit en flexibiliteit betekent het maken van doordachte aanpassingen. Embleem methoden, waarbij meerdere modellen de krachten bundelen, kunnen zijn alsof ze een dansgroep hebben - elk lid biedt zijn unieke stijl, maar samen creëren ze een harmonieus optreden.

Kortom, het aanpassen van modellen aan drift gaat niet alleen over reactief zijn; het gaat over het zijn van proactieve dansers in de steeds evoluerende balzaal van data. Het gaat erom het ritme te vinden, de stappen aan te passen en ervoor te zorgen dat modellen soepel blijven, gracieus door de veranderende beats van de datawereld glijden.

Waarom Pure Storage u een voordeel geeft voor data Drift 

Datadrift dwingt alle teams die betrokken zijn bij data, maar met name ontwikkelaars en analisten, om zeer op hun tenen te blijven staan. Het probleem is dat datadrift vaak gepaard gaat met zeer kostbare dataverplaatsing. Het verplaatsen van data is tijdrovend, gebruikt veel resources en vereist veel ruimte. Deze processen mislukken of breken vaak en kunnen van invloed zijn op het vermogen van een bedrijf om zijn data te rapporteren of te analyseren, wat meestal financiële gevolgen heeft. 

Houd er rekening mee dat de datawarehouse-omgeving meestal de grootste omgeving van een bedrijf is. Het hebben van een test/dev-omgeving die overeenkomt met de productie is zowel logistiek als financieel een uitdaging voor de meeste bedrijven. Zelfs als u testomgevingen hebt die overeenkomen met de productie, maken logistieke uitdagingen het vaak onmogelijk om ze synchroon te houden met de huidige data. Vaak worden ze slechts één of twee keer per jaar vernieuwd, waarbij data-ondergangen naar lagere omgevingen worden verplaatst als dat nodig is. Dit zorgt voor een data-drift, wat doorgaans leidt tot een constante verplaatsing van data van en naar een testomgeving om rapportageproblemen te achterhalen. 

Pure Storage verplaatst data snel, efficiënt en kosteloos, omdat datakopieën gratis zijn. Pure Storage ® FLASHBLADE ® kan analytics-query's versnellen, terwijl FlashArray ™ copy data management binnenbrengt. Wanneer u uw data naar Pure Storage verplaatst, doen processen die uren duurden om data te verplaatsen het nu in milliseconden. Dit is een enorm voordeel als het gaat om het beheer van datadrift. 

Meer informatie over FLASHBLADE en FlashArray .

10/2023
Driving AI Analytics and Future Business Expansion
NavInfo (Europe) uses Kubernetes on the AIRI architecture to make the AI platform transparent and easy to use. The company’s large models and data sets put high demands on data storage because tasks can run on many different servers and may be moved between them.
Klant-casestudy’s
2 pagina's
NEEM CONTACT MET ONS OP
Vragen, opmerkingen?

Hebt u een vraag of opmerking over Pure-producten of certificeringen?  Wij zijn er om te helpen.

Een demo inplannen

Plan een livedemo in en zie zelf hoe Pure kan helpen om jouw data in krachtige resultaten om te zetten. 

Bel ons: 31 (0) 20-201-49-65

Media: pr@purestorage.com

 

Pure Storage

Herikerbergweg 292

1101 CT . Amsterdam Zuidoost

The Netherlands

info@purestorage.com

Sluiten
Uw browser wordt niet langer ondersteund!

Oudere browsers vormen vaak een veiligheidsrisico. Om de best mogelijke ervaring te bieden bij het gebruik van onze site, dient u te updaten naar een van deze nieuwste browsers.