Peter Boncz
Data Distilleries
<boncz@ddi.nl>
Aangezien het testen van iedere afzonderlijke hypothese in het DBMS correspondeert met 1 afzonderlijke query, veroorzaakt een Data Mining tool met gemak een DBMS belasting die uit duizenden queries bestaat! Zulke queries zijn typisch gesproken OLAP-achtige aggregaat-queries die ieder een table scan nodig hebben. Al met al kunnen we gerust stellen dat Data Mining query-technisch gezien *de* zwaarste Data Warehousing applicatie is die er nu bestaat. De performance van een DBMS op dit soort (collecties van) queries is daarom van groot belang voor de vraag of Data Mining op gegevens in dat DBMS überhaupt een haalbare kaart is.
De 'DD Benchmark' (oftewel Drill Down Benchmark) is ontworpen door Data Distilleries B.V. om deze performance te testen; gebaseerd op de ervaring die Data Distilleries heeft opgebouwd in haar werk op Data Mining projecten van de grootste Nederlandse bedrijven. De queries in de benchmark zijn als het ware 'afgetapt' aan de onderkant van onze Data Surveyor tool, waar het queries wegzendt naar het DBMS. We vergelijken de performance van een welbekend commercieel relationeel DBMS product met het door Data Distilleries gelicencieerde nieuwe Monet systeem, en bespreken de technische achtergrond van deze resultaten. Verder gaan we in op de specifieke technieken die Data Mining nodig heeft voor goede performance, met een overzicht hoe Data Distilleries die denkt in te passen in commerciële DBMS systemen middels object-relationele technologie.
6 april 1998