De drill down benchmark


Het meten van Data Mining performance van database systemen

Peter Boncz
Data Distilleries
<boncz@ddi.nl>


In grote databestanden, die organisaties nu bijvoorbeeld voor administratieve doeleinden bijhouden, bestaan verborgen correlaties en patronen die vaak de sleutel zijn naar strategische kennis over het functioneren van de organisatie en haar klanten. Data Mining is het proces van het automatisch zoeken, vinden en interpreteren van die verborgen patronen. Algoritmisch gezien, komt Data Mining neer op een zoektocht door de ruimte van alle mogelijke modellen en hypothesen die interessante vragen over de gegevens van een organisatie beantwoordt c.q. voorspelt. Deze zoekruimte is vaak groot en groeit exponentieel met de hoeveelheid attributen (karakteristieken) die worden bijgehouden per object in het gegevensbestand. Een muis-klik in een Data Mining tool kan daarom een zoektocht door de modellenruimte veroorzaken die duizenden hypothesen test.

Aangezien het testen van iedere afzonderlijke hypothese in het DBMS correspondeert met 1 afzonderlijke query, veroorzaakt een Data Mining tool met gemak een DBMS belasting die uit duizenden queries bestaat! Zulke queries zijn typisch gesproken OLAP-achtige aggregaat-queries die ieder een table scan nodig hebben. Al met al kunnen we gerust stellen dat Data Mining query-technisch gezien *de* zwaarste Data Warehousing applicatie is die er nu bestaat. De performance van een DBMS op dit soort (collecties van) queries is daarom van groot belang voor de vraag of Data Mining op gegevens in dat DBMS überhaupt een haalbare kaart is.

De 'DD Benchmark' (oftewel Drill Down Benchmark) is ontworpen door Data Distilleries B.V. om deze performance te testen; gebaseerd op de ervaring die Data Distilleries heeft opgebouwd in haar werk op Data Mining projecten van de grootste Nederlandse bedrijven. De queries in de benchmark zijn als het ware 'afgetapt' aan de onderkant van onze Data Surveyor tool, waar het queries wegzendt naar het DBMS. We vergelijken de performance van een welbekend commercieel relationeel DBMS product met het door Data Distilleries gelicencieerde nieuwe Monet systeem, en bespreken de technische achtergrond van deze resultaten. Verder gaan we in op de specifieke technieken die Data Mining nodig heeft voor goede performance, met een overzicht hoe Data Distilleries die denkt in te passen in commerciële DBMS systemen middels object-relationele technologie.


Volgende >
<Terug naaar de inhoudsopgave

6 april 1998