του Δρ. Γιάννη Ρεφανίδη
Φυσικού / Πληροφορικού / Διδάκτορος Πληροφορικής στο χώρο της Τεχνητής Νοημοσύνης

Έστω μια μεγάλη πόλη με δύο αλυσίδες κομμωτηρίων, τη «Χτένα» και το «Ψαλίδι». Οι κάτοικοι της πόλης είναι απολύτως μοιρασμένοι, με τους μισούς κατοίκους (άνδρες και γυναίκες, εφεξής χρησιμοποιείται ο όρος «κάτοικος» για να αναφερθούμε σε όποιον και όποια κατοικεί στην πόλη) να επισκέπτονται κάποιο κομμωτήριο της αλυσίδας «Χτένα» και τους άλλους μισούς να επισκέπτονται κάποιο κομμωτήριο της αλυσίδας «Ψαλίδι». Οι κάτοικοι επισκέπτονται το κομμωτήριο της αρεσκείας τους ακριβώς μία φορά κάθε 30 ημέρες, σε προκαθορισμένες ημέρες, έτσι ώστε κάθε ημέρα το ίδιο πλήθος ανθρώπων να επισκέπτονται τα καταστήματα της κάθε αλυσίδας κομμωτηρίων.

Στην πόλη αυτή διεξάγεται καθημερινά μία κλήρωση, όπου συμμετέχουν δικαιωματικά (και το πράττουν) όλοι οι κάτοικοι. Κάθε κάτοικος επιλέγει ένα πλήθος αριθμών και όποιος πετύχει τους αριθμούς που θα κληρωθούν κερδίζει ένα σεβαστό χρηματικό ποσό. Σε μια κλήρωση μπορεί να υπάρχει οποιοδήποτε πλήθος νικητών ή και κανένας (και πάλι, με τον όρο «νικητής» αναφερόμαστε σε νικητές και νικήτριες).

Είναι προφανές ότι τα δύο γεγονότα, η επίσκεψη στο κομμωτήριο και η νίκη στην κλήρωση, είναι ανεξάρτητα. Δεν υπάρχει καμία προφανής εξάρτηση. Μπορεί να αποδειχθεί όμως αυτό;

Το αν υπάρχει ή όχι εξάρτηση θα μας το πει η Στατιστική. Το πώς εξηγείται η εξάρτηση (αν υπάρχει) είναι ευθύνη των «ειδικών» να το εξηγήσουν. Να σημειώσουμε ωστόσο ότι υπάρχουν πολλά είδη εξάρτησης.

Θα υποθέσουμε καταρχήν ότι δεν υπάρχει καμία εξάρτηση μεταξύ των δύο γεγονότων, δηλαδή της επίσκεψης στο κομμωτήριο και του αποτελέσματος της κλήρωσης. Αν όντως είναι έτσι, τότε θα πρέπει να συμβαίνουν (μεταξύ άλλων) τα εξής:

  • Περίπου οι μισοί νικητές της κλήρωσης να είναι πελάτες της αλυσίδας «Χτένα» και οι άλλοι μισοί να είναι πελάτες της αλυσίδας «Ψαλίδι». Για παράδειγμα, αν λάβουμε υπόψη τους τελευταίους 900 νικητές, οι (περίπου) 450 να είναι πελάτες της αλυσίδας «Χτένα» και οι (περίπου) υπόλοιποι 450 να είναι πελάτες της αλυσίδας «Ψαλίδι».
  • Η κατανομή της χρονικής απόστασης της νίκης σε κλήρωση από την αμέσως προηγούμενη επίσκεψη στο κομμωτήριο να είναι (για μεγάλο πλήθος νικητών) ομοιόμορφη επί των αριθμών από το 1 έως το 30 (ως 1 θεωρείται η μέρα που πήγε κάποιος στο κομμωτήριο). Δηλαδή, στους τελευταίους 900 νικητές, περίπου 30 να κέρδισαν την ημέρα επίσκεψης στο κομμωτήριο, περίπου 30 να κέρδισαν την επόμενη (2η) ημέρα κοκ, και περίπου 30 να κέρδισαν την 30η ημέρα.
  • Αν χωρίσουμε τους 900 τελευταίους νικητές στις δύο υπο-κατηγορίες, αυτών που επισκέπτονται τη «Χτένα» και αυτών που επισκέπτονται το «Ψαλίδι», η ομοιομορφία της κατανομής της χρονικής απόστασης της νίκης από την επίσκεψη στο κομμωτήριο διατηρείται και στις δύο υπό-κατηγορίες.

Φυσικά μπορούν να γίνουν και άλλοι έλεγχοι, με βάση όχι το κομμωτήριο, αλλά την ηλικία, το φύλο, κλπ. Όσο περισσότερα δεδομένα έχουμε, τόσο πιο ασφαλή στατιστικά συμπεράσματα μπορεί να προκύψουν.

Έστω λοιπόν ότι προκύπτει η εξής παρατήρηση: Από τους 900 τελευταίους νικητές, οι 300 είναι επισκέπτες της «Χτένας» και οι 600 είναι επισκέπτες της αλυσίδας «Ψαλίδι». Τι σημαίνει αυτό; Φαίνεται να υπάρχει εξάρτηση με την επιλογή κομμωτηρίου και τη νίκη στην κλήρωση. Με ποιον τρόπο; Έστω ότι ζητήθηκε από «ειδικούς» να εξηγήσουν την εξάρτηση και κατέληξαν πως δεν υπάρχει εξάρτηση αλλά πρόκειται για τυχαίο γεγονός. Και είναι λογικό αυτό το συμπέρασμα, πώς αλλιώς εξάλλου θα μπορούσε να συνδέεται η επίσκεψη σε ένα κομμωτήριο με την νίκη σε μία «αδιάβλητη» κλήρωση;

Είναι ωστόσο αποδεκτό αυτό το συμπέρασμα; Από την πλευρά της Στατιστικής, όχι. Είναι πολύ μεγάλη η διαφορά του 600 από το 300, για να θεωρηθεί ότι είναι τυχαία (ιδιαίτερα όταν αυτή η διαφορά εμφανίζεται διαχρονικά και όχι μόνο στους τελευταίους 900 νικητές). Το γεγονός ότι δεν κατέστη δυνατό να βρεθεί η εξάρτηση των δύο γεγονότων δεν σημαίνει ότι αυτή δεν υπάρχει.

Έστω ότι επιπλέον παρατηρείται το εξής: Οι 300 νικητές, πελάτες της «Χτένας», ισοκατανέμονται στις 30 ημέρες μετά την επίσκεψη του καθενός τους στο κομμωτήριο (περίπου 10 ανά ημέρα), όμως οι 600 νικητές της αλυσίδας «Ψαλίδι» δεν ισοκατανέμονται: Οι περισσότεροι είναι συγκεντρωμένοι στις ημέρες αμέσως μετά την επίσκεψη στο κομμωτήριο. Τα παρακάτω δύο διαγράμματα (Εικόνες 1 και 2) δείχνουν τις κατανομές των νικητών, πελατών των δύο κομμωτηρίων, ως προς τη χρονική τους απόσταση από την επίσκεψή τους στο κομμωτήριο:

Από την Εικόνα 1 προκύπτει το συμπέρασμα ότι για τους νικητές, πελάτες της «Χτένας», το πότε επισκέφθηκαν το κομμωτήριο δεν επηρεάζει το πότε θα κερδίσουν (όσοι κερδίσουν). Όμως από την Εικόνα 2 προκύπτει πως για τους νικητές, πελάτες της αλυσίδας «Ψαλίδι», συμβαίνει αυτοί να κερδίζουν πιο συχνά την ημέρα και τις αμέσως επόμενες της επίσκεψής τους στο κομμωτήριο.

Συγκρίνοντας επίσης κανείς τα παραπάνω διαγράμματα μπορεί να κάνει την εξής πράξη: Να αφαιρέσει την κατανομή των πελατών της «Χτένας» (Εικόνα 1) από την κατανομή των πελατών της αλυσίδας «Ψαλίδι» (Εικόνα 2), και να πάρει την παρακάτω κατανομή της υπερβάλλουσας νικηφορίας των πελατών της αλυσίδας «Ψαλίδι»:

Το διάγραμμα της Εικόνας 3 μας δείχνει την κατανομή της υπερβάλλουσας νικηφορίας των πελατών του «Ψαλιδιού» ως προς την χρονική απόστασή των νικών τους από την τελευταία επίσκεψή τους στο κομμωτήριο. Ένα μέρος των πελατών του «Ψαλιδιού», οι 300 που «αφαιρέθηκαν» από την Εικόνα 2, κέρδισαν με ομοιόμορφη τυχαιότητα, χωρίς η νίκη τους να έχει επηρεαστεί από την επίσκεψή τους στο κομμωτήριο (όπως ακριβώς συμβαίνει με τους πελάτες της «Χτένας»). Για τους υπόλοιπους 300 νικητές, πελάτες του «Ψαλιδιού», η κατανομή των οποίων φαίνεται στην Εικόνα 3, εμφανίζεται ισχυρή εξάρτηση με την επίσκεψη τους στο κομμωτήριο. Μάλιστα, όπως συνήθως συμβαίνει σε τέτοιες περιπτώσεις, η εξάρτηση αυτή είναι και χρονική: Τις ημέρες που ακολουθούν την επίσκεψη στο κομμωτήριο η πιθανότητα νίκης είναι μεγαλύτερη από τις ημέρες λίγο πριν την επόμενη επίσκεψη.

Πώς εξηγείται αυτή η εξάρτηση; Η ερώτηση αυτή δεν είναι εύκολο να απαντηθεί και δεν ενδιαφέρει τη Στατιστική. Στο συγκεκριμένο παράδειγμα μπορεί κανείς να υποθέσει ότι:

  • H κλήρωση δεν είναι αδιάβλητη και ότι στην «απάτη» συμμετέχουν κάποιοι πελάτες του «Ψαλιδιού» ή η ιδιοκτησία του κομμωτηρίου (μαζί φυσικά με τους διοργανωτές της κλήρωσης).
  • Oι πελάτες του «Ψαλιδιού» είναι απλά πιο τυχεροί (με την τύχη τους να μειώνεται όσο περνούν οι μέρες από την τελευταία τους επίσκεψη στο κομμωτήριο).
  • Oι πελάτες της «Χτένας» είναι πιο άτυχοι ή δεν συμπληρώνουν σωστά τα δελτία τους και αυτά ακυρώνονται, με αποτέλεσμα να μειώνονται οι πιθανότητές νίκης τους (αυτό ωστόσο δεν εξηγεί τις κατανομές των εικόνων 2 και 3).
  • κλπ

Θα μπορούσε να γίνει περισσότερη ανάλυση των δεδομένων, λαμβάνοντας υπόψη το μέγεθος του πληθυσμού της πόλης,  αλλά και την πιθανότητα νίκης κάθε κατοίκου ανά συμμετοχή του στην κλήρωση (η οποία μπορεί να υπολογιστεί με ακρίβεια από τις προδιαγραφές του παιχνιδιού), ώστε να αποκλειστούν κάποιες εξηγήσεις (π.χ., έτσι μπορεί να αποδειχθεί αν οι πελάτες της Χτένας όντως είναι άτυχοι). Σε κάθε περίπτωση η Στατιστική δείχνει το δρόμο. Και, όταν έχουμε να κάνουμε με μεγάλα δείγματα, η Στατιστική είναι αλάνθαστη και αμείλικτη.

Email:                          yrefanid@outlook.com
MeWe Page:               https://tinyurl.com/refanidis