The Textual Data Warehouse
Dat een tekst gebaseerd datawarehouse vele voordelen biedt, staat buiten kijf. Maar hoe worden tekstgebaseerde datawarehouses eigenlijk gecreëerd?
In deze eendaagse workshop bespreken we wat er allemaal komt kijken bij het bouwen van een tekstgebaseerd datawarehouse en hoe we eventuele obstakels te lijf kunnen gaan. Natuurlijk gaan we in op onderwerpen als datumstandaardisatie en de omzetting van tekst naar cijfers. Maar ook de grote issues komen aan bod – denk aan terminologiekwesties en de logische onderverdeling van bestanden.
Een greep uit het programma:
- veelvoorkomende issues bij het bouwen van een tekstgebaseerd datawarehouse;
- terminologie en logische onderverdeling van tekst;
- invoer van spreadsheets;
- OCR;
- definiëren van scheidingstekens;
- combineren van tekstuele data met klassieke gestructureerde data.
Jarenlang hebben bedrijven beslissingen genomen op basis van gegevens die werden aangetroffen in transactiegebaseerde systemen. Transactiegeoriënteerde gegevens passen goed bij gewone databasemanagementsystemen: deze systemen structureren gegevens immers op een repetitieve manier. Daarbij heeft elke datavindplaats dezelfde structuur als elke andere vindplaats in een tabel. Maar er is nog een andere belangrijke bron van gegevens in het bedrijf: de informatie die wordt aangetroffen in de vorm van tekst. Een gemiddeld bedrijf bezit tekst in alle soorten en maten: e-mails, spreadsheets, contracten, garanties, medische informatie, noem maar op. Maar omdat tekst niet repetitief is, past het niet goed bij gewone databasemanagementsystemen.
Tegenwoordig kennen we tekstuele ETL en hebben we de mogelijkheid databases en datawarehouses te bouwen die tekstuele informatie bevatten. Als tekstuele gegevens zodanig getransformeerd kunnen worden dat de tekst in een standaard-DBMS past, dan ontstaan er legio mogelijkheden op het gebied van analyse en besluitvorming.
In deze eendaagse workshop gaan we op zoek naar de ingrediënten die nodig zijn voor het creëren van het tekstuele, ongestructureerde datawarehouse. ’s Ochtends is er een lezing en ’s middags een interactieve workshop waarin de databases voor het datawarehouse worden opgebouwd uit tekst. Alle voorbeelden zijn in het Engels.
Bestemd voor ú
Deze dag is bedoeld voor mensen die geïnteresseerd zijn in de manier waarop tekst kan worden ingezet bij het produceren van een analytische database. Data-architecten, projectmanagers, technici en mensen uit het bedrijfsleven zijn allen van harte welkom.
Reserveer daarom in uw agenda: 19 mei 2010!
Klik hier om de pdf van de folder te downloaden.
Productinformatie
Ook interessant