Βάσεις, Αποθήκες και Εξόρυξη Δεδομένων με τον SQL Server

Κεφάλαιο 8. Ομαδοποίηση δεδομένων

8.1 Θεωρητικό υπόβαθρο των αλγορίθμων ομαδοποίησης του SQL Server
8.2 Δημιουργία ενός μοντέλου ομαδοποίησης δεδομένων
8.3 Αξιολόγηση Μοντέλου Clustering
8.3.1 Αξιολογόντας το μοντέλο με την χρήση του Lift chart
8.3.2 Αξιολόγηση ενός μοντέλου με την χρήση του Drill through
8.4 Ασκήσεις στην ομαδοποίηση δεδομένων
8.5 Λύσεις ασκήσεων στην ομαδοποίηση δεδομένων
8.6. Βιβλιογραφία/Αναφορές

Κεφάλαιο 8. Ομαδοποίηση δεδομένων

Σύνοψη
Σ’ αυτό το κεφάλαιο θα μελετήσουμε την τεχνική της ομαδοποίησης (clustering). Το Clustering αποτελεί μια τεχνική ομαδοποίησης των δεδομένων μιαςβάσης σε υποσύνολα (clusters), με τέτοιο τρόπο ώστε τα δεδομένα που βρίσκονται στο ίδιο cluster να έχουν όσο το δυνατό περισσότερα κοινά στοιχεία μεταξύ τους. Αυτή η ομαδοποίηση διευκολύνει την πρόβλεψη των χαρακτηριστικών που μας ενδιαφέρουν.

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.1. Θεωρητικό υπόβαθρο των αλγορίθμων ομαδοποίησης του SQL Server

Η πράξη της ομαδοποίησης ή, αλλιώς, συσταδοποίησης εντοπίζει ομάδες αντικειμένων στα δεδομένα βάσει των κοινών χαρακτηριστικών τους και της απόστασης μεταξύ τους. Οι ομάδες των αντικειμένων διαμορφώνονται με βάση ένα μέτρο απόστασης, έτσι ώστε τα αντικείμενα της ίδιας ομάδας να είναι όσο το δυνατόν πλησιέστερα μεταξύ τους, ενώ τα αντικείμενα διαφορετικών ομάδων να είναι όσο το δυνατόν πιο απομακρυσμένα. Καθώς δεν υπάρχει καθολικός ορισμός για την αποδεκτή ομάδα, η επιλογή εξαρτάται κάθε φορά από το συγκεκριμένο πρόβλημα και τα δεδομένα που καλούμαστε να εξορύξουμε. Το περιβάλλον του SQL Server διαθέτει δύο ευρέως γνωστούς αλγόριθμους ομαδοποίησης, τον k-means και τον Expectation-Maximization Clustering, τα βασικά χαρακτηριστικά των οποίων παρουσιάζονται παρακάτω.

Ο αλγόριθμος k-means

O k-means ανήκει στην κατηγορία των αλγορίθμων διαιρετικής (partition-based) ομαδοποίησης, οι οποίοι διαιρούν τον χώρο σε k περιοχές, με τα αντικείμενα καθεμιάς από τις περιοχές να αντιστοιχούν σε μία ομάδα (Rajaraman, Leskovec, & Ullman, 2015· Roiger, & Geatz, 2003· Tan, Steinback, & Kumar, 2006). O k-means αναπαριστά κάθε ομάδα C, με το κέντρο της κάθε ομάδας να ορίζεται από την παρακάτω εξίσωση:

όπου mi είναι η μέση τιμή μιας ομάδας Ci, m είναι ο αριθμός των αντικειμένων που ανήκουν στην ομάδα και dij είναι η απόσταση ενός αντικειμένου j από το κέντρο της ομάδας Ci. Ο k-meansείναι ένας επαναληπτικός αλγόριθμος, όπου σε κάθε επανάληψη τα αντικείμενα ενός συνόλου δεδομένων μετακινούνται μεταξύ των διαφόρων ομάδων, με στόχο να ελαχιστοποιηθεί η παρακάτω αντικειμενική συνάρτηση, που εκφράζει τη μέση τετραγωνική απόσταση (Sum of Squared Error ή, αλλιώς, μέσο τετραγωνικό σφάλμα) των αντικειμένων από τα πλησιέστερα κέντρα των ομάδων:

όπου είναι ένα αντικείμενο, Ci είναι μια ομάδα iκαι mi είναι η μέση τιμή του Ci. Η ελαχιστοποίηση της παραπάνω αντικειμενικής συνάρτησης πετυχαίνει τον εντοπισμό ομάδων που παρουσιάζουν μεγάλο βαθμό ομοιότητας μεταξύ των αντικειμένων της ίδιας ομάδας, ενώ ταυτόχρονα τα αντικείμενα μιας ομάδας διαφέρουν σημαντικά από τα αντικείμενα που ανήκουν σε διαφορετικές ομάδες. Τα βήματα του αλγορίθμου είναι, συνοπτικά, τα εξής:

Διάλεξε k τυχαία αντικείμενα ως κέντρα των ομάδων.
Ανάθεσε κάθε αντικείμενο στην ομάδα με το πλησιέστερο κέντρο.
Υπολόγισε το νέο κέντρο για καθεμία από τις k ομάδες.
Αν όλα τα κέντρα συμπίπτουν με τα προηγούμενα κέντρα των ομάδων (δηλαδή δεν υπήρξε μεταβολή), τότε τερμάτισε διότι ο αλγόριθμος έχει συγκλίνει. Διαφορετικά, επανάλαβε το βήμα 2.

Όπως είπαμε και προηγουμένως, το κριτήριο σύγκλισης μπορεί να βασιστεί στην ελαχιστοποίηση του μέσου τετραγωνικού σφάλματος SSE. Εναλλακτικά, ο αλγόριθμος μπορεί να τερματίζει, είτε όταν δεν υπάρχει κανένα αντικείμενο που να ανατίθεται σε διαφορετική ομάδα ή μετά από ένα συγκεκριμένο πλήθος επαναλήψεων που εγγυάται τον τερματισμό του αλγορίθμου, ακόμη και όταν αυτός δεν συγκλίνει. Τονίζεται ότι στο περιβάλλον του SQL Server υπάρχει σχετική παράμετρο (stopping_tolerance), η οποία καθορίζει τον ελάχιστο αριθμό των αντικειμένων που θα πρέπει να μετακινούνται μεταξύ των ομάδων σε κάθε επανάληψη για να μην τερματίσει ο αλγόριθμος.

Ο αλγόριθμος Expectation-Maximization Clustering

Ο αλγόριθμος Expectation-Maximization (EM) Clustering βασίζεται σε ένα μοντέλο πιθανοτήτων που συνδυάζει διαφορετικές Gaussian κατανομές (Gaussian Mixture Model), όπου κάθε κατανομή αντιπροσωπεύει μί α ομάδα (Rajaraman, Leskovec, & Ullman, 2015· Roiger, & Geatz, 2003· Tan, Steinback, & Kumar, 2006). Ο αλγόριθμος EM υπολογίζει επαναληπτικά την πιθανότητα που έχει ένα αντικείμενο του συνόλου δεδομένων να παράγεται από την i-οστή Gaussian κατανομή. Δηλαδή, υπολογίζει την πιθανότητα που έχει ένα αντικείμενο να ανήκει ένα αντικείμενο στη ομάδα i. Αυτό σημαίνει ότι ένα αντικείμενο μπορεί να ανατίθεται σε περισσότερες ομάδες με διαφορετική πιθανότητα κάθε φορά. Συγκεκριμένα, για κάθε αντικείμενο προσδιορίζεται η δεσμευμένη πιθανότητα prob( | θι ) να έχει συγκεκριμένες τιμές στα χαρακτηριστικά του , με την προϋπόθεση ότι ανήκει σε μια ομάδα i, όπου θι είναι το σύνολο το παραμέτρων της υπό εξέταση ομάδας. Μια γενική περιγραφή των βημάτων του αλγορίθμου EM φαίνεται παρακάτω:

1. Επέλεξε τυχαίες αρχικές τιμές για το σύνολο Θ των παραμέτρων που προσδιορίζουν την κάθε κατανομή/ομάδα (π.χ. μέση τιμή, τυπική απόκλιση, κτλ.)

2. Όσο αλλάζουν οι τιμές των παραμέτρων του συνόλου Θ ή όσο δεν έχουμε φτάσει σε ένα ανώτατο αριθμό επαναλήψεων επανάλαβε:

α. (Expectation-Step) Για κάθε αντικείμενο υπολόγισε την πιθανότητα να ανήκει σε μια
κατανομή/ομάδα.

β. (Maximization-Step) Βάσει των τιμών των πιθανοτήτων του βήματος 2α υπολόγισε τις νέες τιμές
των παραμέτρων Θ.

Σ’ αυτό το σημείο τονίζεται ότι ο αλγόριθμος k-meansείναι μια ειδική περίπτωση του αλγορίθμου EM. Συγκεκριμένα, το expectation step του αλγορίθμου ΕΜ αντιστοιχεί στο βήμα της ανάθεσης κάθε αντικειμένου σε μια ομάδα (βήμα 2 του k-means). Επιπροσθέτως, το maximization step του αλγορίθμου ΕΜ αντιστοιχεί στον υπολογισμό των νέων κέντρων των ομάδων (βήμα 3 του k-means). Στο περιβάλλον του SQL Server, ο αλγόριθμος ΕΜ είναι o προεπιλεγμένoς αλγόριθμος, επειδή, σε σύγκριση με το k-means, προσφέρει πολλαπλά πλεονεκτήματα, τα οποία περιγράφονται συνοπτικά παρακάτω:

Απαιτεί το πολύ μία σάρωση της βάσης δεδομένων.
Τρέχει ακόμη και σε περιπτώσεις πολύ περιορισμένης μνήμης RAM.
Αποδίδει ταχύτερα έναντι άλλων μεθόδων δειγματοληψίας.

Τέλος, στο περιβάλλον του SQL Server οι αλγόριθμοι k-means και ΕΜ διατίθενται σε δύο εναλλακτικές μορφές: Scalable και non-scalable. Στην πρώτη μορφή, σαρώνονται οι πρώτες 50.000 εγγραφές της βάσης δεδομένων. Αν η δειγματοληψία των δεδομένων εκπαίδευσης είναι επαρκής και το μοντέλο προσαρμοστεί επιτυχώς στα δεδομένα, τότε δεν χρειάζεται να γίνει προσπέλαση άλλων δεδομένων. Διαφορετικά, σαρώνονται ακόμη 50.000 εγγραφές από την βάση δεδομένων. Στη δεύτερη μορφή, σαρώνονται όλες οι εγγραφές της βάσης δεδομένων, κάτι που, βέβαια, έχει αυξημένες απαιτήσεις κάθε φορά σε χρόνο, μνήμη RAM και υπολογιστική ισχύ.

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.2. Δημιουργία ενός μοντέλου ομαδοποίησης δεδομένων

Ας υποθέσουμε ότι ένα Video Club θέλει να προβλέψει την οικογενειακή κατάσταση των πελατών του, χρησιμοποιώντας την τεχνική της ομαδοποίησης αυτών και έχοντας ως βάση τα ενδιαφέροντά τους (Hobbies), την τεχνολογία (Technology) και κάποια άλλα στοιχεία των πελατών. Παρακάτω παρουσιάζονται τα αναλυτικά βήματα για την δημιουργία ενός μοντέλου βάσει της ομαδοποίησης δεδομένων.

Αναλυτικά βήματα

Βρισκόμαστε στο MovieClick Project της καρτέλας Solution Explorer, όπως φαίνεται στην Εικόνα 8.1. Κάνουμε δεξί κλικ στο Mining Structure και επιλέγουμε New Mining Structure.

Εικόνα 8.1

Επιλέγουμε From existing relational data or data warehouse, όπως φαίνεται στην Εικόνα 8, καθώς θα χρησιμοποιήσουμε τη βάση που έχουμε εισάγει στον SQL Server. Επιλέγουμε Next>, ώστε να προχωρήσουμε στο επόμενο βήμα.

Εικόνα 8.2

Στο παράθυρο που εμφανίζεται επιλέγουμε τον αλγόριθμο Microsoft Clustering και, στη συνέχεια, Next>, ώστε να προχωρήσουμε στο επόμενο βήμα. Στη συνέχεια, επιλέγουμε το MovieClick στο πεδίο με τα διαθέσιμα Data Source Views. Τέλος, επιλέγουμε Next>, ώστε να προχωρήσουμε στο επόμενο βήμα.

Στο παράδειγμα μας, όπως προαναφέραμε, θέλουμε να προβλέψουμε την οικογενειακή κατάσταση των πελατών μας σε σχέση με τα ενδιαφέροντά τους και την τεχνολογία. Σ’ αυτό το στάδιο επιλέγουμε ποιος πίνακας θα οριστεί ως Case και ποιοι πίνακες θα είναι οι Nested. Case είναι ο πίνακας που περιέχει τα δεδομένα που θέλουμε να προβλέψουμε, ενώ Nested είναι οι πίνακες τα δεδομένα των οποίων είναι παράμετροι στον Case. Στη συγκεκριμένη περίπτωση, όπως φαίνεται στην Εικόνα 8.3, επιλέγουμε τον πίνακα Customers ως Case και τους πίνακες Hobbies και Technology ως Nested, καθώς, όπως αναφέραμε, θέλουμε να προβλέψουμε την οικογενειακή κατάσταση των πελατών σε σχέση με τα ενδιαφέροντά τους και την τεχνολογία. Κατόπιν, επιλέγουμε Next>, ώστε να προχωρήσουμε στο επόμενο βήμα.

Εικόνα 8.3

Σ’ αυτό το στάδιο επιλέγουμε ποια δεδομένα των πινάκων που επιλέξαμε στο προηγούμενο βήμα θα είναι είσοδος στο μοντέλο και ποια δεδομένα θέλουμε να προβλέψουμε. Συγκεκριμένα, όπως φαίνεται στην Εικόνα 8.4, κάνουμε τις εξής επιλογές:

Για κάθε πίνακα επιλέγουμε ένα κλειδί Key. Στη συγκεκριμένη περίπτωση επιλέγουμε τα CustomerID, Hobby και Technology.
Ορίζουμε ως Input τις στήλες των πινάκων που μας ενδιαφέρουν. Στη συγκεκριμένη περίπτωση επιλέγουμε τα Age, Education Level, Gender, Num Children, Technology και Hobby.
Ορίζουμε ως Predictable τη στήλη που μας ενδιαφέρει να προβλέψουμε (αυτή, εξάλλου, θα είναι η έξοδος του μοντέλου). Στη συγκεκριμένη περίπτωση, επιλέγουμε το Marital Status.

Εικόνα 8.4

Δεν θα πατήσουμε τώρα Next>, καθώς θέλουμε απλώς να λάβουμε υπόψη μας το αποτέλεσμα που δίνει η επιλογή Suggest.

Πράγματι, στο παραπάνω παράθυρο κάνουμε κλικ στο Suggest. Τότε, όπως φαίνεται στην Εικόνα 8.5, εμφανίζεται μια σχέση της predictable τιμής με τα άλλα στοιχεία των πινάκων. Επιλέγουμε Cancel, καθώς, αν επιλέξουμε ΟΚ, τότε όλες οι στήλες που φαίνεται να συσχετίζονται θα συμπεριληφθούν στο Mining Structure. Τώρα, καθώς επανήλθαμε στο παράθυρο της Εικόνας 8.4 επιλέγουμε Next>, ώστε να προχωρήσουμε στο επόμενο βήμα.

Εικόνα 8.5

Εμφανίζεται μια σύνοψη-επιβεβαίωση του περιεχομένου του Mining Structure, όπως φαίνεται στην Εικόνα 8.6. Επιλέγουμε Detect, για να επιλεχθεί ο κατάλληλος τύπος δεδομένων από το σύστημα και να γίνει ο σαφής διαχωρισμός διακριτών και συνεχών τιμών, που γίνεται ύστερα από δειγματοληψία και ανάλυση δεδομένων. Κατόπιν, επιλέγουμε Next>, ώστε να προχωρήσουμε στο επόμενο βήμα.

Εικόνα 8.6

Στον νέο πίνακα, όπως φαίνεται στην Εικόνα 8.7, ορίζουμε το ποσοστό των δεδομένων που το μοντέλο θα διατηρήσει για την επαλήθευσή του. Στη συγκεκριμένη περίπτωση, προσδιορίζουμε το test set σε 0%, διότι θέλουμε να μετρήσουμε με ακρίβεια σε ολόκληρο το train set (αισιόδοξη πρόβλεψη).

Εικόνα 8.7

Στη συνέχεια, όπως φαίνεται στην Εικόνα 8.8, ορίζουμε όνομα για το Mining structure name και το Mining model. Στη συγκεκριμένη περίπτωση, συμπληρώνουμε CustMaritalStatus στο πεδίο Mining structure name και CustMaritalStatus_Clustering στο πεδίο Mining model name. Κατόπιν, επιλέγουμε Allow drill through, προκειμένου να μπορούμε να δούμε τα δεδομένα των πινάκων μας. Τέλος, πατάμε Finish, ώστε να ολοκληρωθεί η διαδικασία.

Εικόνα 8.8

Εμφανίζεται το παράθυρο του Data Mining Designer, όπως φαίνεται στην Εικόνα 8.9. Επιλέγοντας την καρτέλα Mining Structure, βλέπουμε το Mining Structure που δημιουργήσαμε.

Εικόνα 8.9

Στη συνέχεια, όπως φαίνεται στην Εικόνα 8.10, επιλέγουμε την καρτέλα Mining Models, ώστε να καθορίσουμε τις παραμέτρους για το μοντέλο που θα μελετήσουμε. Βλέπουμε ότι κάθε δεδομένο έχει οριστεί ως Input, Key, Predict ή PredictOnly. H διαφορά ανάμεσα σε Predict και PredictOnly είναι ότι τα πρώτα δεδομένα μπορούμε να τα χρησιμοποιήσουμε και ως είσοδο αλλά και ως έξοδο του αλγορίθμου. Αντίθετα, τα PredictOnly μπορούμε να τα χρησιμοποιήσουμε μόνο ως έξοδο. Στη συγκεκριμένη περίπτωση θέλουμε να προβλέψουμε το Marital Status των πελατών ανάλογα με την ηλικία, τη μόρφωση, το φύλο, τον αριθμό των παιδιών, τα hobbies και την τεχνολογία. Επομένως, ορίζουμε τα χαρακτηριστικά ως εξής:

Age: Input
CustomerID: Key
Education Level: Input
Gender: Input
Hobies: Input
Marital Status: PredictOnly
Num Children: Input
Technology: Input

Εικόνα 8.10

Στη συνέχεια, θα μελετήσουμε τις παραμέτρους με τις οποίες κατασκευάζεται το μοντέλο και τις προεπιλεγμένες τιμές που παίρνουν. Στον πίνακα της Εικόνας 8.10 κάνουμε δεξί κλικ στον αλγόριθμο Microsoft_Clustering και επιλέγουμε Set Algorithm Parameters. Εμφανίζεται ένα νέο παράθυρο με 9 παραμέτρους, όπως βλέπουμε πλέον στην Εικόνα 8.11.

Εικόνα 8.11

Ακολουθεί η αναλυτική περιγραφή της κάθε παραμέτρου του αλγορίθμου Clustering:

CLUSTER_COUNT: Αυτή η παράμετρος καθορίζει κατά προσέγγιση τον αριθμό των clusters που θέλουμε να κατασκευαστούν από τον αλγόριθμο. Αν ο αριθμός των clusters δεν έχει προσδιοριστεί από τον χρήστη, τότε ο αλγόριθμος επιλέγει τον αριθμό των clusters ευρηστικά, χωρίς να υπάρχει κάποια εγγύηση ότι η ομαδοποίηση είναι βέλτιστη. Ο εξ ορισμού αριθμός των cluster που δημιουργούνται αυτόματα από τον αλγόριθμο είναι 10.

CLUSTER_SEED: Αυτή η παράμετρος καθορίζει τον αριθμό των αρχικών σπόρων για την τυχαία δημιουργία των clusters που θα δημιουργηθούν στο πρώτο στάδιο κατασκευής του μοντέλου. Στη συγκεκριμένη περίπτωση διατηρείται η προεπιλεγμένη τιμή.

CLUSTERING_METHOD: Αυτή η παράμετρος καθορίζει τον αλγόριθμο που θα χρησιμοποιηθεί για clustering. Υπάρχουν 2 διαθέσιμοι αλγόριθμοι:

Ο αλγόριθμος Expectation Maximization (ΕΜ) είναι πιθανοκρατικός και προσδιορίζει την πιθανότητα ενός case να ανήκει σε ένα cluster.
Ο αλγόριθμος k-means θεωρεί ότι υπάρχουν Κ αρχικοί μέσοι στους οποίους ανήκουν τα στιγμιότυπα/εγγραφές του πίνακα case. Κάθε στιγμιότυπο ανήκει στον μέσο εκείνο από τον οποίο απέχει την μικρότερη απόσταση. Κατά την εκτέλεση του αλγορίθμου, μεταβάλλονται τα κέντρα αλλά και τα clusters στα οποία ανήκει κάθε εγγραφή του πίνακα case. Στη συγκεκριμένη περίπτωση διατηρείται η προεπιλεγμένη τιμή 1.

MAXIMUM_INPUT_ATTRIBUTES: Αυτή η παράμετρος καθορίζει τον μέγιστο αριθμό των χαρακτηριστικών εισόδου πριν ο αλγόριθμος αρχίσει να επιλέγει χαρακτηριστικά. Η τιμή 0 δηλώνει ότι δεν υπάρχει μέγιστος αριθμός χαρακτηριστικών. Στην συγκεκριμένη περίπτωση αφήνουμε την προεπιλεγμένη τιμή.

MAXIMUM_STATES: Αυτή η παράμετρος καθορίζει τον μέγιστο αριθμό των καταστάσεων ενός χαρακτηριστικού. Αν ο αριθμός των καταστάσεων ενός χαρακτηριστικού είναι μεγαλύτερος από την μέγιστο αριθμό των καταστάσεων που έχει οριστεί, ο αλγόριθμος χρησιμοποιεί εκείνες τις καταστάσεις των χαρακτηριστικών που είναι πιο δημοφιλείς και θεωρεί τις υπόλοιπες ως missing. Στη συγκεκριμένη περίπτωση διατηρείται η προεπιλεγμένη τιμή.

MINIMUM_SUPPORT: Αυτή η παράμετρος προσδιορίζει το ελάχιστο πλήθος των περιπτώσεων που θα περιέχει κάθε cluster. Η προεπιλεγμένη τιμή για αυτήν την παράμετρο είναι 1.

MODELLING_CARDINALITY: Αυτή η παράμετρος καθορίζει τα υποψήφια μοντέλα που θα δημιουργηθούν από τον αλγόριθμο που θα κάνει το clustering. Ο αλγόριθμος δημιουργεί ένα σύνολο υποψήφιων μοντέλων με τυχαίες αρχικοποιήσεις και, στη συνέχεια, επιλέγει το καλύτερο εξ αυτών μοντέλο. Με άλλα λόγια, αυτή η παράμετρος καθορίζει το σύνολο των υποψήφιων μοντέλων που θα δημιουργηθούν. Η προεπιλεγμένη τιμή είναι 10.

SAMPLE_SIZE: Αυτή η παράμετρος καθορίζει τον αριθμό των στιγμιότυπων που χρησιμοποιεί ο αλγόριθμος σε κάθε πέρασμα εάν η παράμετρος CLUSTERING_METHOD έχει οριστεί σε μία από τις μεθόδους Scalable. Δίνοντας την τιμή 0, ο αλγόριθμος θα ομαδοποιήσει το σύνολο των δεδομένων σε ένα μόνο πέρασμα γεγονός που μπορεί να λύσει προβλήματα μνήμης και επίδοσης. Στην συγκεκριμένη περίπτωση διατηρείται η προεπιλεγμένη τιμή.

STOPPING_TOLERANCE: Αυτή η παράμετρος καθορίζει τον αριθμό των περιπτώσεων που μετακινούνται μεταξύ των clusters σε κάθε πέρασμα του αλγορίθμου. Ο αλγόριθμος εφαρμόζεται επαναληπτικά στα δεδομένα και σχηματίζει τα cluster με την μορφή που εμείς τα βλέπουμε, ύστερα από ένα σύνολο επαναλήψεων. Επειδή σε κάθε επανάληψη προστίθενται διαρκώς και νέες περιπτώσεις, η τιμή της παραμέτρου μπορεί να θεωρηθεί ως ποσοστό και όχι ένας συγκεκριμένος αριθμός. Η προεπιλεγμένη τιμή της παραμέτρου είναι 10

Επιλέγουμε την καρτέλα Mining Model Viewer, για να προβάλουμε το μοντέλο. Επιλέγουμε Run, ώστε να αποθηκευτεί και να «τρέξει» το μοντέλο μας.

Εικόνα 8.12

Ακολούθως, εμφανίζεται ένα παράθυρο που παρουσιάζει τις ενέργειες που έγιναν για τη δημιουργία του μοντέλου και πληροφορεί αν αυτές ολοκληρώθηκαν με επιτυχία. Επιλέγουμε Close, ώστε να ολοκληρωθεί η διαδικασία και να προβάλουμε το μοντέλο.

Επιλέγοντας την καρτέλα Cluster Diagram στον Mining Model Viewer εμφανίζονται τα Clusters που έχουν δημιουργηθεί. Παρατηρούμε, όπως φαίνεται στην Εικόνα 8.13, ότι όσο πιο ανοιχτό είναι το χρώμα ενός cluster τόσο πιο μικρός είναι ο αριθμός των περιπτώσεων που ομαδοποιούνται σ’ αυτό το cluster, δηλαδή τόσο πιο μικρό είναι το πλήθος των περιπτώσεων που το αποτελούν.

Αν αφήσουμε τον κέρσορα του ποντικιού πάνω σε ένα cluster, παρατηρούμε ότι εμφανίζονται κάποια στατιστικά στοιχεία. Αυτά τα στατιστικά στοιχεία για κάθε cluster σχετίζονται με την παράμετρο που θέτουμε στο πεδίο Shading Variable. Για παράδειγμα, επιλέγοντας Shading Variable = Marital Status και State = Divorced, όπως φαίνεται στην Εικόνα 8.13, βλέπουμε ότι το Cluster 8 εμπεριέχει το 5% των διαζευγμένων (divorced).
Παρατηρούμε ότι όσο πιο κοντά είναι τα clusters μεταξύ τους και όσο παχύτερη είναι η γραμμή που τα συνδέει, τόσο μεγαλύτερες είναι οι μεταξύ τους ομοιότητες. Επομένως, παρατηρώντας αυτό το διάγραμμα, μπορούμε να καταλάβουμε αφενός πόσο μεγάλη είναι η σχέση μεταξύ των clusters και αφετέρου ποια clusters έχουν τις περισσότερες ομοιότητες. Παρατηρούμε, ακόμη, ότι ο αριθμός των clusters που σχημάτισε ο αλγόριθμος είναι 10, κάτι που συνέβη επειδή η τιμή της παραμέτρου CLUSTER_COUNT είχε αφεθεί στην προεπιλεγμένη τιμή 10.
Παρατηρούμε, τέλος, ότι στα αριστερά του γραφήματος υπάρχει μια μπάρα, η μετακίνηση της οποίας παρουσιάζει τον βαθμό συσχέτισης μεταξύ των clusters. Η κλίμακα διαβάθμισης γίνεται από το χαμηλότερο προς το υψηλότερο επίπεδο της μπάρας με το το χαμηλότερο να δηλώνει τη μεγαλύτερη συσχέτιση μεταξύ των clusters και το υψηλότερο τη μικρότερη.

Εικόνα 8.13

Στη συνέχεια, όπως φαίνεται στην Εικόνα 8.14, κάνουμε δεξί κλικ σε ένα συγκεκριμένο cluster. το cluster 4. Επιλέγουμε Drill Through και Model and Structure Colums, προκειμένου να δούμε αναλυτικά τις εγγραφές που εντάσσονται σ’ αυτό το cluster.

Εικόνα 8.14

Στην Εικόνα 8.15 εμφανίζονται αναλυτικά όλες οι περιπτώσεις που ομαδοποιούνται στο συγκεκριμένο cluster. Τα στοιχεία που εμφανίζονται σ’ αυτό το παράθυρο είναι πάρα πολύ σημαντικά, καθώς μπορούμε να δούμε την ομοιογένεια των περιπτώσεων που περιέχονται σε κάθε cluster.

Εικόνα 8.15

Στη συνέχεια, επιλέγουμε την καρτέλα Cluster Profiles, όπως φαίνεται στην Εικόνα 8.16, ώστε να εμφανιστούν συγκεντρωτικά οι τιμές όλων των χαρακτηριστικών που επιλέχθηκαν κατά την κατασκευή του μοντέλου, για κάθε cluster ξεχωριστά. Παρατηρούμε τη σύνοψη των βασικών τάσεων των χαρακτηριστικών των clusters, η οποία είναι απλή, κατανοητή και κατατοπιστική. Για παράδειγμα, για το Cluster 3 και το χαρακτηριστικό Επίπεδο μόρφωσης (Education Level), το οποίο παίρνει διακριτές τιμές, βλέπουμε ότι με μπλε χρώμα υπερέχουν αυτοί που είναι κάτοχοι πτυχίου πανεπιστημίου (Bachelor’s degree). Επίσης, για το χαρακτηριστικό ηλικία (age), το οποίο παίρνει συνεχείς τιμές, βλέπουμε ότι ο μέσος όρος ηλικίας των πελατών που εντάσσονται στο cluster 3 είναι κάτω των 33 ετών. Όπως παρατηρούμε, η -με τον ίδιο τρόπο- τοποθέτηση των χαρακτηριστικών ανά cluster επιτρέπει την ταυτόχρονη οπτική σύγκριση των τιμών τους μεταξύ των διαφορετικών ομάδων.

Εικόνα 8.16

Στη συνέχεια, όπως φαίνεται στην Εικόνα 8.17, επιλέγουμε την καρτέλα Cluster Characteristics, ώστε να δούμε ακόμα πιο αναλυτικά τα χαρακτηριστικά και τις τιμές για κάθε συγκεκριμένο cluster που μας ενδιαφέρει. Για παράδειγμα, όπως φαίνεται στην ίδια Εικόνα, για το cluster 3 εμφανίζεται ένας πίνακας που περιγράφει τα χαρακτηριστικά των εγγραφών που εντάσσονται σ’ αυτό, προβάλλοντας ταυτόχρονα τις τιμές αυτών των χαρακτηριστικών με φθίνουσα πιθανότητα εμφάνισης. Στο συγκεκριμένο cluster, όπως βλέπουμε, ανήκουν πελάτες που είναι ηλικιακά μεταξύ 20-28 ετών, νοικιάζουν DVD ταινίες, είναι άγαμοι άνδρες κτλ.

Εικόνα 8.17

Στη συνέχεια, όπως φαίνεται στην Εικόνα 8.18, επιλέγουμε την καρτέλα Cluster Discrimination, ώστε να βρούμε τα σημαντικότερα χαρακτηριστικά στοιχεία του cluster που μας ενδιαφέρει και να καταλάβουμε την ομάδα πελατών που εντάσσονται σ’ αυτό. Θα εντοπίσουμε τα σημαντικότερα στοιχεία του cluster μέσα από τη σύγκριση των στοιχείων που υπάρχουν στο ίδιο cluster με όλα τα στοιχεία που βρίσκονται έξω από αυτό, δηλαδή με το συμπλήρωμά του (complement of cluster). Στο πεδίο Cluster 1, όπως φαίνεται στην ίδια Εικόνα, συμπληρώνουμε το cluster που μας ενδιαφέρει και στο πεδίο Cluster 2 συμπληρώνουμε το συμπλήρωμα του. Στη συγκεκριμένη περίπτωση, επιλέγουμε το Cluster 3 και το συμπλήρωμα του αντίστοιχα. Τα αποτελέσματα του πίνακα επιβεβαιώνουν την εκτίμηση που πήραμε από την προηγούμενη καρτέλα (Cluster Characteristics). καθώς οι πελάτες που εντάσσονται και σε αυτό το cluster (Cluster Discrimination) είναι νέοι, άγαμοι και άτεκνοι. Βάσει των χαρακτηριστικών αυτών, μπορούμε να καταλάβουμε τι είδους πελάτες ανήκουν στο cluster 3 και, ενδεχομένως, να μετονομάσουμε το συγκεκριμένο cluster με κάποιο όνομα που το προσδιορίζει καλύτερα.

Εικόνα 8.18

Πριν όμως μετονομάσουμε το cluster, καλό είναι να λάβουμε υπόψη μας ότι μπορεί να είναι παρόμοιο με άλλα clusters. Γι’ αυτό, πρέπει πρώτα να συγκριθεί με τα άλλα γειτονικά του clusters. Επιστρέφουμε, λοιπόν, στην καρτέλα Cluster Diagram και, όπως φαίνεται στην Εικόνα 8.19, παρατηρούμε ότι, αν ανεβάσουμε διαδοχικά τη μπάρα από το χαμηλότερο προς το ανώτερο επίπεδο, το cluster 3 σχετίζεται περισσότερο με τα clusters 10, 4, 1 και 7.

Εικόνα 8.19

Επειδή, όμως, μας ενδιαφέρουν τα clusters με τα οποία το cluster 3 έχει την ισχυρότερη σχέση, μελετάμε τις περιπτώσεις που ομαδοποιούνται σ’ αυτά τα clusters επιλέγοντας τις καρτέλες Cluster Profiles, Cluster Characteristics και Cluster Discrimination. Όταν καταλήξουμε στο όνομα που προσδιορίζει το cluster με μεγαλύτερη σαφήνεια, το μετονομάζουμε, κάνοντας δεξί κλικ επάνω στο cluster και επιλέγοντας Rename Cluster, όπως φαίνεται στην Εικόνα 8.20.

Εικόνα 8.20

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.3. Αξιολόγηση Μοντέλου Clustering

Σ’ αυτήν την ενότητα θα εξετάσουμε αν το μοντέλο που δημιουργήσαμε μπορεί (ή δεν μπορεί) να προβλέψει με ακρίβεια την οικογενειακή κατάσταση των πελατών. Η αξιολόγηση του μοντέλου θα πραγματοποιηθεί με δύο τρόπους: α) την ερμηνεία του Lift Chart και β) τη μελέτη των περιπτώσεων που ανήκουν σε κάθε cluster, επιλέγοντας Drill Through στα clusters.

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.3.1. Αξιολογώντας το μοντέλο με την χρήση του Lift chart

Επιλέγουμε την καρτέλα Mining Accuracy Chart και, στη συνέχεια, την καρτέλα Cοlumn Mapping, όπως φαίνεται στην Εικόνα 8.21. Στο πεδίο Select data set to be used for Accuracy Chart επιλέγουμε το Specify a different data set.

Εικόνα 8.21

Εμφανίζεται το παράθυρο με το Mining Structure. Επιλέγουμε Select Structure, ώστε να προσδιορίσουμε το μοντέλο μας (CustMaritalStatus). Στη συνέχεια, κάνουμε κλικ στο Select Case Table και επιλέγουμε τον πίνακα Customers. Εμφανίζεται ξανά το παράθυρο με το Mining Structure και τους πίνακες, όπου βλέπουμε τις σχέσεις που έχουν δημιουργηθεί. Στη συνέχεια, επιλέγουμε Select Nested Table, ώστε να επιλέξουμε τους πίνακες Technology και Hobbies, όπως φαίνεται στην Εικόνα 8.22.

Εικόνα 8.22

Στη συνέχεια, όπως φαίνεται στην Εικόνα 8.23, επιλέγουμε την καρτέλα Lift Chart και εμφανίζεται το σχετικό διάγραμμα. Το διάγραμμα εκφράζει το ποσοστό του συνολικού πληθυσμού (άξονας Χ) σε σχέση με το ποσοστό του πληθυσμού που έχουμε προβλέψει σωστά (άξονας Υ). Η μπλε γραμμή του άξονα Χ, που έχει κλήση 45ο, δείχνει την επίδοση του ιδανικού μοντέλου που θα προέβλεπε σωστά την οικογενειακή κατάσταση όλων των πελατών. Η κόκκινη καμπύλη που βρίσκεται κάτω από την μπλε γραμμή εκφράζει την επίδοση του δικού μας μοντέλου.

Κάνουμε κλικ στο 83% πάνω στο διάγραμμα, όπως φαίνεται στην Εικόνα 8.23, για να δούμε τα σχετικά στατιστικά τα οποία καταγράφονται στο παράθυρο Mining Legend. Βλέπουμε ότι στο 83% του συνολικού πληθυσμού (που είναι το δείγμα μας), το μοντέλο μας προβλέπει σωστά το 60.81% του δείγματος, ενώ το ιδανικό είναι να προβλέπει σωστά το 83%. To Score είναι 0.79.

Εικόνα 8.23

Στην συνέχεια, επιλέγουμε την καρτέλα Classification Matrix, όπου βλέπουμε ποιες είναι οι πραγματικές τιμές των χαρακτηριστικών και ποιες τιμές αποδόθηκαν στα χαρακτηριστικά αυτά από το μοντέλο μας. Όπως φαίνεται στην Εικόνα 8.24, όσον αφορά τους πελάτες που δεν έχουν παντρευτεί (Never Married), ο αλγόριθμος τούς προβλέπει πολύ σωστά (902 σωστές προβλέψεις επί συνόλου 948 πελατών που δεν έχουν παντρευτεί) με ποσοστό επιτυχούς πρόβλεψης περίπου 95%. Όσον αφορά, όμως, τους διαζευγμένους (Divorced), ο αλγόριθμος δεν τους προβλέπει καθόλου καλά (0 σωστές προβλέψεις επί συνόλου 137) με ποσοστό επιτυχούς πρόβλεψης 0%. Ίσως αυτό το μη επιτυχές αποτέλεσμα να οφείλεται σε μη επαρκές δείγμα διαζευγμένων μέσα στο σύνολο δεδομένων μας.

Εικόνα 8.24

Στη συνέχεια, θα προβλέψουμε την τιμή Married για το χαρακτηριστικό Marital Status. Επιλέγουμε την καρτέλα Column Mapping, όπως φαίνεται στην Εικόνα 8.25. Στο πεδίο Predictable Column Name επιλέγουμε Marital Status. Στο πεδίο Predict Value επιλέγουμε Married.

Εικόνα 8.25

Στη συνέχεια, επιλέγουμε την καρτέλα Lift Chart και εμφανίζεται το σχετικό διάγραμμα, όπως φαίνεται στην Εικόνα 8.26. Σ’ αυτήν την περίπτωση, ο άξονας Υ δείχνει το ποσοστό των παντρεμένων που προβλέφθηκε σωστά. Η μπλε γραμμή, που έχει κλήση 45ο, δείχνει το τυχαίο μοντέλο. Η πράσινη γραμμή, που βρίσκεται πιο ψηλά απ’ όλες, δείχνει το ιδανικό μοντέλο. Η κόκκινη γραμμή αντιπροσωπεύει το δικό μας μοντέλο. Στο παράδειγμά μας, το ιδανικό μοντέλο πετυχαίνει το 100% των προβλέψεων με το 62% του συνολικού πληθυσμού. Στον πίνακα Mining Legend βλέπουμε ότι το μοντέλο μας έχει Score 0.88 και προβλέπει την τιμή που θέλουμε με ακρίβεια 77.06%.

Εικόνα 8.26

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.3.2. Αξιολόγηση ενός μοντέλου με την χρήση του Drill through

Σ’ αυτήν την ενότητα θα μελετήσουμε τη δυνατότητα αξιολόγησης ενός μοντέλου με έναν εναλλακτικό τρόπο. Αυτό που θα πρέπει να προσέξουμε είναι ότι με το Lift Chart, που περιγράφηκε στην προηγούμενη ενότητα, αξιολογούμε την απόδοση του αλγορίθμου σε όλα τα clusters συνολικά. Στην περίπτωση, όμως, που θέλουμε να αξιολογήσουμε την ομοιογένεια των μελών ενός cluster, πρέπει να έχουμε πρόσβαση στα instances που συγκροτούν το κάθε cluster, έτσι ώστε να κάνουμε τις κατάλληλες συγκρίσεις. Αυτό γίνεται κάνοντας Drill Through σε κάθε cluster και συγκρίνοντας την ομοιογένειά του ως προς τα μέλη που ενσωματώνει (στην περίπτωσή μας, τους πελάτες). Ας υποθέσουμε, για την περίπτωση μας, ότι επιλέγουμε το cluster 3. Επιλέγουμε την καρτέλα Mining Model Viewer και, στη συνέχεια, την καρτέλα Cluster Diagram, όπως φαίνεται στην Εικόνα 8.27, Κάνουμε δεξί κλικ επάνω σε ένα cluster και επιλέγουμε Drill Through και Model Columns Only.

Εικόνα 8.27

Εμφανίζεται το παράθυρο με όλες τις περιπτώσεις του cluster, όπως φαίνεται στην Εικόνα 8.28. Στη συνέχεια, κάνουμε δεξί κλικ και επιλέγουμε Copy All. Επειδή δεν μπορούμε να επεξεργαστούμε αυτά τα δεδομένα στον SQL Server, μπορούμε να τα αντιγράψουμε σε διάφορα άλλα εργαλεία (Microsoft Excel, SPSS κτλ). Στη συγκεκριμένη περίπτωση, χρησιμοποιούμε το Microsoft Excel επιλέγοντας Επικόλληση σε ένα φύλλο. Μπορούμε τώρα να κάνουμε τους υπολογισμούς που θέλουμε, ώστε να αξιολογήσουμε την ομοιογένεια των στοιχείων του cluster 3, δηλαδή την αποτελεσματικότητα του αλγορίθμου. Για παράδειγμα, μπορούμε να υπολογίσουμε τον μέσο όρο ηλικίας των πελατών στο Cluster 3.

Εικόνα 8.28

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.4. Ασκήσεις στην ομαδοποίηση δεδομένων

Να συγκριθούν τα δεδομένα του cluster 3 με τα δεδομένα του cluster 4 στο ήδη δημιουργηθέν μοντέλο (της Εικόνας 8.10) που αναπτύχθηκε στο κεφάλαιο 8.
Να βρεθούν τα χαρακτηριστικά των πελατών του cluster 4 και, στη συνέχεια, να μετονομαστεί αυτό καταλλήλως.
Στο ήδη δημιουργηθέν μοντέλο (της Εικόνας 8.10) να αλλάξετε την τιμή της παραμέτρου CLUSTER_COUNT, ορίζοντάς την σε 5. Να εμφανίσετε και να σχολιάσετε τα παρακάτω
- τα νέα clusters που θα δημιουργηθούν,
- το Lift Chart και την ακρίβεια πρόβλεψης του νέου μοντέλου.
Να επαναλάβετε την άσκηση 3, επιλέγοντας τον αλγόριθμο k-means (CLUSTERING_METHOD = 3), όπου το πλήθος των clusters να υπολογίζεται ευρηστικά από τον ίδιο τον αλγόριθμο.
Να επαναλάβετε την άσκηση 3, επιλέγοντας τον αλγόριθμο k-means (CLUSTERING_METHOD = 3), όπου το πλήθος των clusters να υπολογίζεται ευρηστικά από τον ίδιο τον αλγόριθμο. Επιπροσθέτως, να ορίσετε ως κατώτατο πλήθος περιπτώσεων ανά cluster τις 50.
Στη καρτέλα Mining Models να δημιουργήσετε δύο μοντέλα. Ένα μοντέλο να γίνει με την χρήση του αλγορίθμου Decision Tree και ένα με την χρήση του αλγορίθμου Clustering. Οι αλγόριθμοι να επεξεργάζονται τα ίδια ακριβώς δεδομένα με αυτά της Εικόνας 8.10. Στη συνέχεια να συγκριθούν αυτά τα δύο μοντέλα.

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.5. Λύσεις ασκήσεων στην ομαδοποίηση δεδομένων

Άσκηση 1

Να συγκριθούν τα δεδομένα του cluster 3 με τα δεδομένα του cluster 4 στο ήδη δημιουργηθέν μοντέλο (της Εικόνας 8.10) που αναπτύχθηκε στο κεφάλαιο 8.

Λύση άσκησης 1:
+

1. Επιλέγουμε την καρτέλα Cluster Profiles, ώστε να εμφανιστούν αναλυτικά οι τιμές όλων των χαρακτηριστικών για τα cluster 3 και cluster 4. Κοιτάζοντας με προσοχή τα δεδομένα, παρατηρούμε ότι οι πελάτες που ανήκουν σ’ αυτά τα δύο clusters έχουν πάρα πολλές ομοιότητες και δικαιολογημένα στη καρτέλα Cluster Diagram, αυτά τα δύο clusters εμφανίζονται να συσχετίζονται τόσο πολύ. Πιο συγκεκριμένα, όπως φαίνεται στην Εικόνα 8.29, οι πελάτες αυτών των clusters ανήκουν στο ίδιο φύλο, έχουν την ίδια περίπου ηλικία και διάθετουν το ίδιο περίπου μορφωτικό επίπεδο.

Εικόνα 8.29

Άσκηση 2

Να βρεθούν τα χαρακτηριστικά των πελατών του cluster 4 και, στη συνέχεια, να μετονομαστεί αυτό καταλλήλως.

Λύση άσκησης 2: +
- 1. Στο Cluster Characteristics tab, όπως φαίνεται στην Εικόνα 8.30, βλέπουμε τις τιμές των χαρακτηριστικών των πελατών του cluster 4 σε φθίνουσα σειρά ως προς την πιθανότατα εμφάνισης ενός χαρακτηριστικού. Αυτή η κατηγορία πελατών είναι κυρίως άγαμες γυναίκες, που ενδιαφέρονται κυρίως για την παρακαλούθηση ταινιών και τη λογοτεχνία.
Εικόνα 8.30
- 2. Αν, όμως, θέλουμε να μελετήσουμε τα πιο σημαντικά χαρακτηριστικά που προσδιορίζουν αυτό το cluster, πρέπει να ανοίξουμε την καρτέλα Cluster Discrimination tab. Βλέπουμε τότε, όπως φαίνεται στην Εικόνα 8.30, ότι αυτό το cluster αποτελείται από γυναίκες που δεν έχουν παιδιά, δεν αρέσουν τους υπολογιστές, δεν έχουν DVD player ή Console Game System κλπ. Επομένως, τώρα που έχουμε μια πιο ολοκληρωμένη εικόνα αυτού του cluster, μπορούμε να το μετονομάσουμε, αφού πρώτα το συγκρίνουμε με τα άλλα clusters με τα οποία συνδέεται στενά, κάτι που βλέπουμε στο Cluster Diagram tab.
Εικόνα 8.31

Άσκηση 3

Στο ήδη δημιουργηθέν μοντέλο (της Εικόνας 8.10) να αλλάξετε την τιμή της παραμέτρου CLUSTER_COUNT, ορίζοντάς την σε 5. Να εμφανίσετε και να σχολιάσετε τα παρακάτω:

τα νέα clusters που θα δημιουργηθούν και
το Lift Chart και την ακρίβεια πρόβλεψης του νέου μοντέλου.

Λύση άσκησης 3 :
+
- 1. Αλλάζουμε την τιμή της παραμέτρου CLUSTER_COUNT, δίνοντάς της την τιμή 5.
Εικόνα 8.32
- 2. Δημιουργούνται 5 clusters, όπως εμφανίζονται στο Cluster Diagram της Εικόνας 8.33.
Εικόνα 8.33
- 3. Επιλέγουμε την καρτέλα Lift Chart, οπότε εμφανίζεται το σχετικό διάγραμμα. Κάνουμε κλικ στο 83%, πάνω στο διάγραμμα, για να δούμε τα σχετικά στατιστικά που καταγράφονται στο παράθυρο Mining Legend. Όπως φαίνεται στην Εικόνα 8.34, στο 83% του συνολικού πληθυσμού (που είναι το δείγμα μας) το μοντέλο μας προβλέπει σωστά το 60.94% του δείγματος. Ας θυμηθούμε ότι όταν τα clusters ήταν 10, το μοντέλο πρόβλεπε το 60.81% (βλέπε Εικόνα 8.23).
Εικόνα 8.34

Άσκηση 4

Να επαναλάβετε την άσκηση 3, επιλέγοντας τον αλγόριθμο k-means (CLUSTERING_METHOD = 3), όπου το πλήθος των clusters να υπολογίζεται ευρηστικά από τον ίδιο τον αλγόριθμο.

Λύση άσκησης 4 :
+
- 1. Όπως φαίνεται στην Εικόνα 8.35, στην παράμετρο CLUSTERING_METHOD δίνουμε την τιμή 3, επειδή σ’ αυτήν την τιμή αντιστοιχεί ο Scalable k-means. Στην παράμετρο CLUSTER_COUNT δίνουμε την τιμή 0, για να υπολογίσει ο ίδιος ο αλγόριθμος ευρηστικά το πλήθος των clusters που είναι καλύτερο να δημιουργηθούν.
Εικόνα 8.35
- 2. Όπως φαίνεται στην Εικόνα 8.36, ο αλγόριθμος χώρισε τα δεδομένα σε 7 clusters.
Εικόνα 8.36
- 2. Επιλέγουμε την καρτέλα Lift Chart, οπότε εμφανίζεται το σχετικό διάγραμμα. Κάνουμε κλικ στο 83%, πάνω στο διάγραμμα, για να δούμε τα σχετικά στατιστικά που καταγράφονται στο παράθυρο Mining Legend. Όπως φαίνεται στην Εικόνα 8.37, στο 83% του συνολικού πληθυσμού (που είναι το δείγμα μας) το μοντέλο μας προβλέπει σωστά το 62.41% του δείγματος. Ας θυμηθούμε ότι όταν τα clusters ήταν 10, το μοντέλο πρόβλεπε το 60.81% (βλέπε Εικόνα 8.23).
Εικόνα 8.37
- 3. Παρατηρούμε, επίσης, στο Cluster Profiles tab τις τιμές των χαρακτηριστικών σε κάθε cluster, όπως αυτές εμφανίζονται στην Εικόνα 8.38. Όπως φαίνεται, υπάρχουν και clusters (cluster 6, cluster 7) που έχουν πολύ μικρό size και θα πρέπει να ενοποιηθούν. Αυτό θα γίνει στην επόμενη άσκηση.
Εικόνα 8.38

Άσκηση 5

Να επαναλάβετε την άσκηση 3, επιλέγοντας τον αλγόριθμο k-means (CLUSTERING_METHOD = 3), όπου το πλήθος των clusters να υπολογίζεται ευρηστικά από τον ίδιο τον αλγόριθμο. Επιπροσθέτως, να ορίσετε ως κατώτατο πλήθος περιπτώσεων ανά cluster τις 50.

Λύση άσκησης 5:
+
- 1. Αφήνουμε τις παραμέτρους ως έχουν στην άσκηση 4, με τη διαφορά ότι στην παράμετρο MINIMUM_SUPPORT δίνουμε την τιμή 50.
Εικόνα 8.39
- 2. Στο Cluster Diagram, όπως φαίνεται στην Εικόνα 8.40, παρατηρούμε ότι το πλήθος των clusters έχει μειωθεί σημαντικά.
Εικόνα 8.40

Άσκηση 6

Στη καρτέλα Mining Models να δημιουργήσετε δύο διαφορετικά μοντέλα. Ένα μοντέλο να γίνει με την χρήση του αλγορίθμου Decision Tree και ένα με την χρήση του αλγορίθμου Clustering. Οι αλγόριθμοι να επεξεργάζονται τα ίδια ακριβώς δεδομένα με αυτά της Εικόνας 8.10. Στη συνέχεια να συγκριθούν αυτά τα δύο μοντέλα.

Λύση άσκησης 6:
+
- 1. Στην καρτέλα Mining Models επιλέγουμε New Mining Model. Επιλέγουμε τον αλγόριθμο Microsoft Decision Tree και δίνουμε όνομα στο μοντέλο μας (CustMaritalStatus_Decision Tree). Κάνουμε process το μοντέλο μας. Όπως φαίνεται στην Εικόνα 8.41, έχουμε πλέον φτιάξει δύο μοντέλα.
Εικόνα 8.41
- 2. Πηγαίνουμε στο Lift chart, όπως φαίνεται στην Εικόνα 8.43, και κάνουμε σύγκριση των δύο μοντέλων. Παρατηρούμε ότι το δεύτερο μοντέλο (πράσινη καμπύλη) προβλέπει λίγο καλύτερα από το πρώτο (κόκκινη καμπύλη).
Εικόνα 8.42

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

8.6. Βιβλιογραφία/Αναφορές

Chakrabarti, S. (2003). Mining the Web: Discovering Knowledge from Hypertext Data, Morgan – Kauffman.

Liu, B. (2007). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Springer.

Rajaraman, A., Leskovec, J., & Ullman, J.D. (2015). Mining of Massive Datasets, Cambridge University Press.

Roiger, R., & Geatz, M. (2003). Data Mining: A tutorial-based Primer, Addison Wesley.

Tan, P - N., Steinbach, M., & Kumar, V. (2006). Introduction to Data Mining, Addison Wesley.

Πίνακας Περιεχομένων / Περιεχόμενα Κεφαλαίου

Λύση άσκησης 1:

Λύση άσκησης 2: +

Λύση άσκησης 3 :

Λύση άσκησης 4 :

Λύση άσκησης 5:

Λύση άσκησης 6:

Data Definition Language - DDL

Data Manipulation Language - DML

Διάγραμμα οντοτήτων-συσχετίσεων (διάγραμμα E-R)

Ερώτημα SQL

create database

Drop Database

ON UPDATE

ON DELETE

Καρτεσιανού γινομένου

πράξη της επιλογής/selection

πράξης της σύνδεσης (join)

left outer join

πράξη του full outer join

όρος distinct

όρος GROUP BY

όρος HAVING

πράξη της ένωσης πινάκων/σχέσεων

πράξη της τομής σχέσεων

πράξη της διαφοράς σχέσεων

Ο όρος ΙΝ

Ο ορος Νot Ιn

Οι όροι all και some

Οι όροι exists και not exists

CREATE VIEW

DELETE FROM

DROP TABLE

Οι αποθηκευμένες διαδικασίες/stored procedures

Το εύναυσμα/trigger

Ευρετήριο

ALTER TABLE

εντολή grant.

εντολή revoke.

H παράμετρος Split method:

Κατηγοριοποίηση (classification)

H παράμετρος Split method:

H παράμετρος Stopping Tolerance

Η τάση (trend)

Η περιοδικότητα (periodicity)

Οι ακραίες τιμές (outliers)

ολοκληρωμένη (integrated)

Μη ευμετάβλητη (non volatile)

Αφορά ιστορικά δεδομένα (time-variant)

Ένα μέτρο ή αλλιώς μετρική (measure)

διαστάσεις (dimensions)

Η ιεραρχία (hierarchy) μιας διάστασης

Το σχήμα Αστέρα (star schema)

To σχήμα χιονονιφάδας (snowflake schema)

Το σχήμα γαλαξία (galaxy schema),

Η πράξη Roll-up

Η πράξη Drill-down

Η πράξη Slice

Η πράξη Dice

Η πράξη Pivot

Συναθροιστικές συνάρτήσεις (aggregation function)

Slice

Pivot