Διάλεξη 17: Αυτό που θα κάνουμε σήμερα θα είναι να φτιάχνουμε μια γραμμούλα. Και οι παλινδρώμεις για να χαρακτηρίζετε τα σημεία είναι πάνω και κάτω από τη γραμμή. Παλινδρομού δηλαδή, γύρω από μια γραμμούλα. Και ποια γραμμούλα ξέρετε, την πιο απλή γραμμή που μπορείτε να φανταστείτε. Αυτό που θα κάνουμε σήμερα θα είναι να φτιάχνουμε μια γραμμούλα. Και ποια γραμμούλα ξέρετε, την πιο απλή γραμμή που μπορείτε να φανταστείτε. Η γραμμή της ευθείας. Ψ, ί, Α, Σ, Β, Χ. Αυτή την είχατε κάνει στην τρίτη ηλικίου. Σήμερα λοιπόν θα πάμε σε αυτό το μάθημα να μιλήσουμε για μια τέτοια γραμμή. Θα τη δούμε όμως μέσα από τη μεριά της στατιστικής και να εξηγήσουμε τι σημαίνει αυτό για εμάς. Πριν να πάμε σε αυτό όμως θα μιλήσουμε πρώτα για συσχέτιση. Συσχέτιση ξέρετε τι είναι. Αν έχω λοιπόν δύο τυχαίες μεταβλητές στο ραχή και ψη. Έχει αλλάξει τώρα ο σχεδιασμός μου εδώ. Έχει αλλάξει το πρόβλημα. Δεν έχω μία τυχαία μεταβλητή όπως είχαμε εχθές. Ή δύο τυχαίες μεταβλητές ίδιου τύπου σε διαφορετικούς πληθυσμούς. Θυμάστε τη χθεσινή άσκηση. Γιατί νομίζω από ότι βλέπω τα πρόσωπά σας ήταν εδώ χθες όλοι. Κοιτούσαμε τη συγκέντρωση του διαλυμένου οξυγόνου. Άρα η μεταβλητή είναι μία σε δύο ποταμούς. Άρα άλλαζε ο πληθυσμός. Εδώ όμως μιλάμε χ και ψ. Διαφορετικού τύπου μεταβλητές. Και λέμε ότι δύο τέτοιες μεταβλητές μπορεί να συσχετίζονται. Τι σημαίνει αυτό. Να συμβαίνει ένα από αυτά τα δύο. Ή να επηρεάζει μία την άλλη. Και η δύο από κάποια άλλη. Όταν λοιπόν λέω ότι δύο μεγέθη συσχετίζονται. Κι οποιαδήποτε μεγέθη, ένα από τα δύο πρέπει να συμβαίνει. Έχετε κάνει παράδειγμα για δύο μεγέθη. Τυχαία μεγέθη. Δύο τυχαίες μεταβλητές που να συσχετίζονται. Ναι. Μου έκλειψε το παράδειγμα τώρα εσύ. Ο χρόνος μελέτης και ο βαθμός. Σε ποια από τις δύο κατηγορίες θα το έβαλες όμως. Το χρόνο που αφαιρώνει κάποιος το μάθημα. Και το βαθμό που παίρνει τελικά τις εξετάσεις. Στην πρώτη. Η μία επηρεάζει την άλλη. Ο βαθμός επηρεάζεται, εξαρτάται από το χρόνο μελέτης. Θα θέλαμε έτσι, έτσι δεν είναι. Αλίμονα αλλιώς. Δεν το θέλαμε. Καλά εσείς που είστε στην τάξη, δεν θέλετε να επηρεάζει ο χρόνος μελέτης το βαθμό. Ναι βάζουμε στο χρόνο μελέτης, βάζουμε το χρόνο που αφαιρώνει στο μάθημα. Άρα και η παρουσία στο μάθημα, είναι μέσα στο χρόνο μελέτης. Άλλο παράδειγμα. Υψος και το βάρος. Το ύψος και το βάρος. Σε ποια από τις δύο κατηγορίες θα το έβαζες. Στην πρώτη. Στην πρώτη ότι το βάρος επηρεάζει το ύψος. Το ύψος επηρεάζει το βάρος. Το βάρος επηρεάζει το ύψος. Η κότα έκανε ταυγό. Οι ονειδιακά. Ίσως να υπάρχει μια άλλη μεταβλητή. Ο γενετικός κώδικας για παράδειγμα. Ή μπορεί να είναι η διατροφή. Μπορεί να είναι η εθνικότητα. Διάφορα θέματα που να επηρεάζουν και το βάρος και το ύψος. Αλλά εδώ μιλάμε απλά για συσχέτιση λοιπόν. Το βάρος και το ύψος. Δεν έχει να μας δώσει μια σχέση αιτίας. Αιτιατή σχέση όπως τη λέμε. Όπως ο χρόνος μελέτης έχει μια σχέση αιτιατή. Προκαλεί το βαθμό. Σε πολλά φαινόμενα. Οι σχέσεις είναι αιτιατές. Δηλαδή το ένα φαινόμενο που συσχετίζεται με ένα άλλο το επηρεάζει κατά κάποιο βαθμό. Αλλά υπάρχουν και κάποιες περιπτώσεις όπως το βάρος και το ύψος που δεν έχουμε την αιτιατή σχέση, η οποία δεν είναι και τόσο ενδιαφέροσα η σχέση. Δηλαδή τι να πας να πεις παραπάνω για το βάρος και το ύψος. Απλά πηγαίνουν μαζί. Δηλαδή ένας που είναι πιο ψηλός έχει μεγαλύτερο βάρος. Υπάρχει ένα γνωστό παράδειγμα που το χρησιμοποιούν για να δείξουν τη διαφορά αυτών των δύο ότι η συσχέση δεν σημαίνει αυτό το πράγμα, ότι υπάρχει μια σχέση εξάρτησης. Απλά δύο μεγέθη συσχετίζονται. Το παράδειγμα αυτό είναι από ένα άρθρο που είχε γραφτεί πριν περίπου 40 χρόνια σε ένα επιστημονικό περιοδικό στατιστικό και είδα μια γερμανική μελέτη σοβαρή που έλεγε, έφτανε στο συμπέρασμα τελικά, ότι οι πληθυσμοί των πελαργών συσχετίζονται με τις γενήσεις. Άρα λοιπόν αν θα το βάζετε σε αυτή την κατηγορία θα λέγατε κιόλας ότι οι πελαργοί φέρνουν τα μωρά. Αυτό θα ήταν το παράδειγμα. Αλλά δεν υπήρχε κάποιος φάλμα σε αυτό, γιατί πήγαν και μετρήστες σε διάφορες περιοχές και βρήκανε όπου είχανε μεγάλους πληθυσμούς πελαργών εκεί είχαν και πολλές γενήσεις. Άρα υπήρχε μια συσχέτιση εδώ πέρα. Το θέμα είναι όμως ότι είμαστε σε αυτή την κατηγορία, δεν επηρεάζει μία την άλλη, απλά υπάρχει μια συσχέτιση. Δεν μπορούμε να πούμε κάτι παραπάνω. Δεν υπάρχει μια αιτιατή σχέση να πούμε ότι τα μωρά φέρνουν τους πελαργούς ή οι πελαργοί φέρνουν τα μωρά. Απλά επηρεάζονται και οι δυο από κάποια άλλη που προφανώς εδώ πέρα είναι ότι όπου υπάρχουνε μεγάλοι οικισμοί, πολλά σπίτια, μεγάλα χωριά και τα λοιπά εκεί πέρα φυσικά έχουμε και πολλές γενήσεις αλλά έρχονται και πελαργοί. Και έτσι παρατηρείτε αυτό το φαινόμενο. Άρα λοιπόν τη σημειώνουμε από εδώ ότι η συσχέτιση δεν σημαίνει ότι υπάρχει και σχέση εξάρτηση. Η σχέση εξάρτηση είναι αυτό που θα δούμε στη συνέχεια με αυτήν εδώ τη γραμμούλα. Εδώ μας δηλώνει τη σχέση εξάρτηση. Τώρα για τη συσχέτιση. Πώς μπορούμε να τη μετρήσουμε. Η συσχέτιση μας λέει δηλαδή ότι δύο μεγέθη συσχετίζονται όταν πηγαίνουνε μαζί. Άρα έχουν θετική συσχέτιση ή πηγαίνουν αντιστρόφως ανάλογα. Όταν δηλαδή υπάρχει μια αναλογική σχέση μεταξύ τους. Τώρα για να το μετρήσουμε αυτό έχουμε ένα δίκτυ που το λέμε συνδιασπορά που μοιάζει με το δίκτυ της διασποράς. Όχι και πολύ με σίγμα το συμβολίζουμε και αυτό και βάζουμε κάτω στο δίκτυ χ και ψ. Η διασπορά τι σημαίνει θυμάστε. Τι δηλώνει η διασπορά. Από την κεντρική τιμή. Από τη μέση τιμή. Δηλαδή την απόκληση από τη μέση τιμή. Εδώ η συνδιασπορά προσπαθεί να μας πει πόσο μαζί πηγαίνουνε οι τιμές πλέον και των δυο μεταβλητών. Αν πηγαίνουνε μαζί τότε θα έχουμε μια θετική συνδιασπορά. Αν πηγαίνουνε αντίθετα θα έχουμε μια αρνητική διασπορά. Αν δεν συσχετίζονται θα έχουμε μια μηδενική διασπορά. Αλλά το πρόβλημα είναι αν γυρίσουμε το βάρος και το ύψος και πω ότι εντάξει πρώτα απ' όλα μια παρατήρηση εδώ. Αυτό το κόμμα είναι επί δεν είναι κόμμα. Είναι επί. Είναι η μέση τιμή του γινομένου μίον το γινόμενο το μέσο τιμό. Και το κόβ αυτό σημαίνει covariance συνδιασπορά. Είναι απλά συμβολισμός συνδιασπορά του χ και ψ. Η οποία ορίζεται έτσι θεωρητικά. Όπως η διασπορά ορίζεται θεωρητικά με το ύψινο του χ τετράγωνο μίον το ύψινο του χ και όλο το τετράγωνο. Αντίστοιχα έχουμε και τον ορισμό για τη συνδιασπορά. Αν όμως εγώ σας πω ότι η συνδιασπορά του βάρους και του ύψου είναι 10. Αυτός σας λέει τίποτα. Αν σας πω ότι είναι 0,01. Το 10 είναι μεγαλύτερο από το 0,01. Άρα είναι πιο μεγάλο. Ναι. Δεν ξέρουμε τις τετρικές συνδιασπορές, τις τετράγωνος πάνω του χ και ψ. Ακριβώς. Γιατί θα μπορούσα το βάρος να το μετρούσα σε κιλά ή να το μετρούσα σε γραμμάρια. Οπότε αντίστοιχα εδώ πέρα θα άλλαζε το σίγμα του χ ύψι. Άρα έχω ένα πρόβλημα εδώ ότι με το να δώσω μία τιμή στη διασπορά δεν με διαφωτίζει για να δω την ένταση της συσχέτησης που υπάρχει μεταξύ των δύο μεταβλητών. Πρόσημο εντάξει αν είναι θετική ή αρνητική αυτό μου λέει αλλά την ένταση δεν μπορώ να τη μετρήσω. Οπότε τι κάνουμε όπως σωστά είπες ότι δεν ξέρουμε τις διασπορές. Δεν ξέρουμε το εύρος των τιμών του χ και ψ για να ερμηνεύσουμε τη συνδιασπορά. Για αυτό πάμε και διαιρούμε με το γινόμενο των τυπικών αποκλήσεων. Κάνουμε αυτό που λέμε μια κανονικοποίηση. Κανονικοποιούμε και έτσι με αυτόν τον τρόπο φέρνουμε το συντελεστήσης σχέτης όπως το λέμε τώρα μεταξύ του μ-1 και 1. Αυτό το ρ λοιπόν τώρα θα το λέμε συντελεστήσης σχέτησης και μπορούμε να το ερμηνεύσουμε γιατί ακριβώς παίρνει τη μέση μέσα σε ένα διάστημα πάντα. Από την κατασκευή του επειδή ακριβώς εδώ το διέρεσαμε τις τυπικές αποκλήσεις και ας το γράψω εδώ πέρα. Επειδή το διέρεσαμε τις τυπικές με το γινόμενο τυπικών αποκλήσεων από την κατασκευή του θα παίρνει τη μέση μόνο μεταξύ μ-1 και 1. 1 πότε θα έχουμε? Πολλή! Είναι το ανώτατο όριο το 1. Τη μέγιστη σχέση μπορεί να έχω. Όταν έχω τέλεια σχέση. Δηλαδή γνωρίζω το ένα μέγεθος μπορώ ακριβώς να προσδιορίσω και το άλλο. Αυτό σημαίνει βέβαια ότι μεταξύ τους έχουν μια σχέση μαθηματική πλέον. Μπορούμε να τη γράψουμε μια εξίσωση τη σχέση. Όπως για παράδειγμα η ένταση και η τάση του ρεύματος. Μ-1 αντίστοιχα θα έχουμε την τέλεια αρνητική σχέση. Αρνητική τι σημαίνει αντιστροφος ανάλογης σχέσης. Και τιμές που είναι κοντά στο 1 και στο μ-1 θα λέμε ότι είναι τιμές που δηλώνει ισχυρή σχέση. Τιμές κοντά στο μηδέν ότι είναι ασυσχέτιστες. Και αυτό ήδη το είπαμε ότι δεν εξαρτάται από τη μονάδα μέτρηση. Δεν είναι συμμετρικό συντελεστή σχέση γιατί εδώ μιλάμε απλά για σχέση. Όχι για μία κατεύθυνση στη σχέση, όχι για μία εξάρτηση. Αυτά λοιπόν είναι οι παρατηρήσεις γύρω από αυτό το ρο. Να σημειώσω εδώ πέρα ότι είναι πρακτικά συσχέτιστες λέμε όταν είναι στο μηδέν. Το ασυσχέτιστο όμως έχει να κάνει με τη γραμμική συσχέτιση. Αυτό που μετράει δηλαδή ο συντελεστής αυτός το συσχέτιστο ρο είναι μόνο γραμμικές σχετίσεις. Πάμε λίγο σε αυτό το γραφικό παράδειγμα εδώ πέρα. Πώς μπορούμε να το κάνουμε αυτό στην πράξη τώρα. Στην πράξη εγώ τι θα έχω. Στην στατιστική τι κάνουμε. Δουλεύουμε με δείγματα όπως λέγαμε. Άρα στην προκειμένη περίπτωση αφού έχω δύο μεταβλητές, το δείγμα που θα έχω θα είναι δείγμα ζευγαρωτών παρατηρήσεων. Όπως πηγαίνω για το παράδειγμα βάρος και ύψος θα μετρήσω στον κάθε ένα από σας το βάρος και το ύψος. Όταν ονομάσω το βάρος, y το ύψος, για κάθε έναν, κάθε δίκτυ εδώ δηλαδή, θα έχω το βάρος και το ύψος. Και αν πάρω n τέτοιες τιμές, για να δω τώρα τα δεδομένα μου, δεν θα κάνω κάποιο θηκόγραμμα, ιστογραμμα κτλ. Αλλά αυτό που με ενδιαφέρει είναι να δω πως συσχετίζονται. Άρα τι θα κάνω. Θα πάω σε ένα καρτεσιανό σύστημα συντεταγμέων εδώ πέρα, θα βάλω όπου x1 την τετμημένη, όπου y1 την τεταγμένη και θα πάρω ένα σημείο και θα σχηματίσω έτσι τα n σημεία του δείγματος. Και κοιτώντας τώρα τα σημεία θα προσπαθήσω να δω. Φαίνεται να υπάρχει κάποια συσχέτηση. Εδώ είναι αυτό που λέγαμε η τέλεια συσχέτηση γιατί είναι πάνω σε μια ευθεία γραμμή. Αλλά αυτό είναι λίγο απίθανο να συμβαίνει. Στην πράξη μπορεί να έχουμε κάτι σαν τα δύο παρακάτω. Εδώ που έχω ισχυρή συσχέτηση εδώ, οι γραμμούλες είναι κοντά στη γραμμή, οι τελείτσες είναι κοντά στη γραμμή, ενώ εδώ είναι λίγο πιο σκόρφιες. Εδώ είναι 0,8 στο τρίτο παράδειγμα. Το βάρος και το ύψος πότε το βάζατε? Στο πρώτο σχήμα? Στο δεύτερο? Ούτε στο δεύτερο. Μάλλον στο τρίτο, έτσι. Υπάρχει μια συσχέτηση αλλά δεν είναι τόσο ισχυρή. Δηλαδή όταν γνωρίζεις το βάρος μπορείς να προσδιορίσεις σε ένα βαθμό το ύψος αλλά όχι τόσο πολύ ίσως. Ίσως κάπου εδώ πέρα να είσαι. Και αυτό είναι για θετική συσχέτηση. Αρνητική σημαίνει ότι θα είναι η γραμμούλα ως προς την αντιδιάμετρο πλέον, δηλαδή πηγαίνει για αυξανόμενες τιμές του χ, έχουμε μειωμένες τιμές του y. Κατανοητάει σε αυτά. Δεν είναι τίποτα ιδιαίτερα. Αυτό που δεν είπαμε τι είναι αυτό το R. Θα το πούμε σε λίγο. Εδώ έχουμε μια περίπτωση όπου είναι ασησχέτιστα. Και τι σημαίνει αυτό για εμάς ότι για μια οποιαδήποτε τιμή του χ, το y μπορεί να είναι οπουδήποτε εδώ πέρα. Για παράδειγμα, αν παίρναμε το βαθμό που είπαμε πριν και αντί να έχουμε τον χρόνο μελέτης που θα ήμασταν κάπου εδώ, σωστά λέμε, κάπου εδώ θα ήμασταν, ούτε εδώ, γιατί διαφέρει από άτομο σε άτομο ή σούτο εδώ, κάπου εδώ πέρα, αν αντί για τον χρόνο μελέτης έπαιρνα με το βαθμό να ζευγαρώσω το αεμ σας, θα ήμουν κάπου εδώ σε μια από αυτές τις περιπτώσεις. Δηλαδή, να δω τη συσχέτιση που έχει το αεμ, ο αριθμός ειδικού μητρώου με το βαθμό. Μάλλον θα ήμουν εδώ, έτσι. Για οποιαδήποτε τιμή του αεμ που έχω εδώ πέρα, ο βαθμός μπορεί να είναι οπουδήποτε στην κλίμακα από 0-10. Αλλά δεν συσχετίζει το βαθμός. Εδώ πέρα περιμένω απλά να έχω ακανόνιστο σχήμα, να έχω ένα συνεφάκι δηλαδή με τελίτσες. Έχω όμως και μια περίπτωση, η επόμενη αυτή εδώ. Αυτή τώρα τι λέει. Το ρ εδώ, όπως βλέπετε, είναι πάλι 0. Όπως και εδώ πέρα. Είναι οι ίδιες αυτές οι δύο περιπτώσεις όμως. Βλέπετε κανένας τη διαφορά. Που είναι η τελίτση αυτές. Είναι πάνω σε μια παραβολή. Αυτή είναι η ευθεία. Η παραβολή ποια μορφή έχει. Ποια έκφραση έχει. Η πιο απλή έκφραση παραβολής που μπορούμε να βάλουμε. Ορίστε. Ωραία, ή το πιο απλό ψηρίζον για α1 και β0 και γ0. Χ τετράγωνο. Μπαίνει όμως ένα τετράγωνο. Αυτό είναι το σημαντικό. Για να έχει παραβολή θα πρέπει να έχεις ένα τετράγωνο. Το τετράγωνο δηλώνει σχέση μη γραμμική. Γιατί το χ που μπαίνει εδώ πέρα στην εξίσωση. Μπαίνει ως μη γραμμικός όρος. Άρα αυτή είναι μία σχέση μη γραμμική εδώ πέρα. Εδώ ο συντολεστής συσχέτης δεν μας βοηθάει. Γιατί μετράει μόνο γραμμικές συσχετήσεις. Και άρα σε αυτή την περίπτωση δεν μπορεί να μας μετρήσει. Τη σχέση που υπάρχει. Παρόλο που εδώ η σχέση που υπάρχει είναι τέλεια. Είναι πάνω σε μία γραμμή. Μόνο που η γραμμή αυτή δεν είναι ευθεία. Σημειώστε το αυτό. Θα το βρείτε δυστυχώς μπροστά σας αργότερα. Σε μεγαλύτερα έτη. Γιατί τα συστήματα που θα μελετήσετε. Ό,τι συστήματα είναι αυτά. Ελεκτρικά, ελεκτρονικά, ενεργειακά. Οτιδήποτε συστήματα μελετήσετε. Δυστυχώς οι σχέσεις που υπάρχουν μεταξύ των διαφόρων παραγών. Όπου μπαίνουν στο σύστημα των μεταβλητών όπως λέμε. Δεν είναι πάντα τέτοιου είδους σχέσεις. Είναι κυρίως μη γραμμικές. Και εκεί δυσκολεύουν τα πράγματα. Εδώ βέβαια εμείς δεν θα το επεκτείνουμε εδώ πέρα. Υπάρχει μία θεματική εργασία για αυτό το θέμα. Αλλά δεν θα μιλήσουμε άλλο για μη γραμμικές σχέσεις. Το τελευταίο παράδειγμα δεν είναι τίποτα. Είναι τετριμένο όταν η μία δεν ορίζεται. Η y εδώ δηλαδή παίρνει την ίδια τιμή. Όταν η μία παίρνει την ίδια τιμή, τότε δεν ορίζεται ο συντελεστής της σχέσης γιατί η τυπική απόκληση εδώ πέρα είναι μηδενική. Άρθουμε τώρα στο r. Βλέπετε ότι αυτό το r εδώ είναι ένα άλλο μέγεθος που μετράω. Το οποίο μοιάζει λίγο με το ρ. Μπορείτε να βάλετε τη φαντασία σας να δουλέψει. Είναι η εκτίμηση του ρ. Είναι καλή η εκτίμηση του ρ εδώ πέρα. Έχω πάρει, αν θυμάμαι καλά, το 1 είναι 20 στην περίπτωση. Δηλαδή έχω πάρει δείγμα 20 ζευγαρωτών παρατηρήσεων. Και έχω εκτιμήσει. Δεν έχω πει ακόμα πώς θα το εκτιμήσουμε, αλλά είναι η εκτίμηση. Εσείς τώρα που το κοιτάτε είστε ευχαριστημένοι σε αυτές τις περιπτώσεις που εκτιμήσαμε. Στο 0,97 βρήκα 0,98. Στο 0,97 βρήκα μειον 0,97 μειον 0,96. Στο 0,08 μειον 0,62. Στο 0,08 μειον 0,89. Στο 0 μειον 0,49. Δεν κάνουμε και τόσο καλή εκτίμηση. Εδώ λοιπόν ο συντελεστής σχέτης δεν είναι και τόσο καλός στην εκτίμηση του ρ. Και αυτό έχει να κάνει με το ότι είναι δύσκολο να βρούμε μια καλή εκτίμηση της συσχέτησης. Λοιπόν, για να δούμε πώς το εκτιμούμε τώρα. Πάμε από εδώ. Αυτός είναι το θεωρητικό μέγεθος. Οι παράμετρος, θυμάστε, όπως είχαμε το μήτη, μέση, τιμή. Και πήγαμε και βρήκαμε ως εκτίμηση το μέσο όρο. Είχαμε τη διασπορά, το σίγμα τετράγωνο και βρήκαμε το εσ τετράγωνο. Έτσι και εδώ έχουμε το ρ. Και θέλω να βρω το ρ που να μου εκτιμάει αυτό το ρ. Και λέω πώς να το σχηματίσω το ρ. Πώς να βρω τον εκτιμητή. Ναι. Ακριβώς, τη συνδιασποράς εδώ πάνω. Άρα να έχω την εκτίμηση της συνδιασποράς και τις εκτιμήσεις των δύο τυπικών αποκλήσεων. Τώρα, η συνδιασπορά. Πώς θα βρω τη συνδιασπορά. Να θυμίσω ότι για τη διασπορά, το εσ τετράγωνο, του χ, ας πούμε. Τι είχαμε. Ας βάλω εδώ πρώτα. Έχουμε τη διασπορά του χ, το θεωρητικό μέγεθος, που ήταν ε του χ τετράγωνο μειον ε του χ και όλο στο τετράγωνο. Και όταν πήραμε εμείς το εσ τη διασπορά τη διγματική, ο τύπος είναι αυτός εδώ. Στην ουσία τι κάνει αυτός ο τύπος. Αντικαθιστά αυτό το ε που είναι η μέση τιμή, που είναι ένας τελεστής ή αλλιώς τη λέμε και αναμενόμενη τιμή, το αντικαθιστά με έναν μεσό όρο. Δηλαδή εκεί που έχει ε κάποιας χ ή χ τετράγωνο ή κάποιας έκφρασης του χ, παίρνει μεσό όρο. Τι είναι ο μεσός όρος. Αθρίζουμε και διαιρούμε το πλήθος. Μόνο που εδώ κάνει και μια διόρθωση και βάζει το 1-1. Άρα πάει και αντικαθιστά αυτό το τελεστή της μέσης τιμής με το μέσο όρο. Σε αντιστοιχεία λοιπόν τώρα εάν πάρω εγώ τη συνδιασπορά που είναι αυτό εδώ. Αν εφαρμόσουμε τον ίδιο κανόνο εδώ πέρα πως θα είναι η εκτίμηση. Θα αντικαταστήσω αυτό εδώ και μάλιστα κρατάω και το 1-1 με το μέσο όρο. Που εδώ θα έχω το γινόμενο. Και εδώ αντί να έχω το μέσο όρο στο τετράγωνο του χ θα έχω το γινόμενο στο 2 μέσο όρο. Και έτσι λοιπόν μπορεί κάποιος να βρει την εκτίμηση για τη συνδιασπορά. Την αντίστοιχη εκτίμηση για τη συνδιασπορά. Και να τα αντικαταστήσει μέσα στην έκφραση που έχουμε για το ρ. Και να πάρουμε έτσι τον εκτιμητή για τον συντελεστή της σχέσης. Αυτό είναι. Και βέβαια αν φύγουν από εδώ πέρα τα 1-1 μένει αυτό εδώ το μακρινάρι τελος πάντων. Ο τύπος αυτός υπάρχει στον τυπολόγιο. Μιλάω τώρα πρακτικά για τις εξετάσεις δεν χρειάζεται να θυμάσετε τίποτα. Εντάξει. Λοιπόν αυτό το λέμε και συντελεστή της σχέσης του Πίρσον. Και υπάρχουν και άλλες συντελεστές της σχέσης. Και μπορούμε επίσης να προχωρήσουμε όπως είχαμε κάνει για τη μέση στιγμή. Για τη διασπορά που βγάλαμε διαστήματα εμπιστοσύνης για τη μέση στιγμή και τη διασπορά. Μπορούμε να το κάνουμε το ίδιο και για αυτό. Και πάρουμε και στατιστική έλεγχη και τα λοιπά που δεν τα έχουμε κάνει. Αυτό όμως που θέλω να μείνω είναι αυτό εδώ κάτω. Το συντελεστή προοδελεισμού που είναι στην ουσία το R τετράγωνο. Και μαζί θα το πολλαπλασιάζουμε με 100 για να πάμε σε ποσοστά. Το R τετράγωνο τι τιμές παίρνει. Το R όπως και το ρ, επειδή ακριβώς με τον ίδιο τρόπο κατασκευάζεται, είναι η συνδιασπορά διά το γινόμενο των τυπικών αποκλήσεων. Κάνουμε και εδώ την κακνονικοποίηση με τις τυπικές αποκλήσεις. Το R ανήκει αυτό στο μειον ένα και ένα όπως και το ρ. Το R τετράγωνο μηδέν ένα. Αφού είναι στο μηδέν ένα είναι κάτι σαν πιθανότητες λοιπόν. Άρα άμα το πολλαπλασιάσω επί 100 μπορώ να μιλάω για ποσοστά. Και έτσι λοιπόν το R τετράγωνο επί 100 μετράει το ποσοστό που μπορώ να εξηγήσω στη μεταβλητότητα της μίας τυχαίας μεταβλητής όταν γνωρίζω την άλλη. Καταλάβατε τίποτα από αυτό? Το ποσοστό της μεταβλητότητας που μπορώ να εξηγήσω στη μία μεταβλητή όταν γνωρίζω την άλλη. Αν πάμε στο παράδειγμα με το βαθμό, το ωραίο παράδειγμα αυτό, και πω ότι η συσχέτηση μεταξύ του βαθμού και του χρόνου που αφιερώνει κάποιος στο μάθημα, εβδομαδιαία ας πούμε, μπορώ να την ποσοτικοποιήσω με αυτόν εδώ το συντελεστή συσχέτης και έστω ότι βρήκα ότι το R είναι 0,9. Πόσο είναι το R τετράγωνο επί 100? Όχι, R τετράγωνο 81 έτσι, περίπου 80% Τι σημαίνει λοιπόν αυτό το 80% ότι εάν γνωρίζω εγώ το χρόνο που αφιερώνει κάποιος στο μάθημα, μπορώ να προσδιορίσω 80% της μεταβλητότητας του βαθμού, ένα 20% δεν μπορώ να το προσδιορίσω. Μπορώ για παράδειγμα να πω ένας που αφιερώνει 5 ώρες την εβδομάδα στο μάθημα, καλά είναι, θα πάρει 6 με 8, ένα 80% της μεταβλητότητας το έχω εξηγήσει. Δεν θα πάει οπουδήποτε από το 0 έως το 100, θα πάει 6 με 8. Ένα 20% δεν μπορώ να εξηγήσω, να το βρω ακριβώς πόσο είναι λοιπόν. Αυτό σημαίνει επειδή είναι 81% το R τετράγωνο εκεί στο 80%, γι' αυτό λέω ότι περιορίζω το βαθμό όταν γνωρίζω το χρόνο μελέτης σε ένα 20% αβεβαιότητα. Το άλλο 80% το γνωρίζω. Αυτό λοιπόν μου λέει το R τετράγωνο. Και φυσικά όσο πιο υψηλά είναι το R τετράγωνο κοντά στο 1, τόσο πιο καλά μπορώ να προσδιορίζω τη μια μεταβλητή όταν γνωρίζω την άλλη, δηλαδή συσχετίζονται πιο έντονα. Λοιπόν να το δούμε και σε ένα παράδειγμα αυτό. Εδώ είναι με μπλε οι λέξεις κλειδιά, λέει θέλουμε να εκτιμήσουμε τι? Τη συσχέτιση δύο μεγεθών, αντίσταση και χρόνο αποτυχίας. Τα χ και ψ λοιπόν είναι η αντίσταση και ο χρόνος αποτυχίας κάποιου υπερφορτωμένου αντιστάτη. Έχουμε 20 δοκίμια αντιστάσεων. Άρα έχουμε ζευγαρωτές παρατηρήσεις 20 στο πλήθος. Αυτές είναι οι παρατηρήσεις. Η χ η αντίσταση είναι σε αύξησα σειρά. Οι παρατηρήσεις της είναι σε αύξησα σειρά και της ψ είναι από δίπλα. Φαίνεται να υπάρχει κάποια συσχέτιση. Θέλουμε τώρα να δούμε ας συσχετίζονται αυτά τα δύο. Η αντίσταση με το χρόνο αποτυχίας. Φαίνεται να υπάρχει, γιατί εδώ είναι σε αύξησα σειρά. Φαίνεται να αυξάνουν και αυτές οι τιμές. Όχι απόλυτα βέβαια, αλλά φαίνεται να υπάρχει. Για να δούμε όμως, όπως κάναμε το θηκόγραμμα ως πρώτο βήμα για να δούμε την κατανομή μιας μεταβλητής ή για να συγκρίνουμε τις κατανομές δύο ίδιων τυχιών μεταβλητών σε διαφορετικούς πληθυσμούς, εδώ το αντίστοιχο σχήμα που χρειαζόμαστε είναι αυτό εδώ. Το διάγραμμα διασποράς. Τι μου λέει εδώ πέρα, θα πάρεις στεθμημένη για τον καθένα και τεταγμένη για το κάθε ένα από τα 20 δοκιμία και θα βρεις τις τελείτες αυτές εδώ. Από εδώ τώρα μπορώ να πω κάτι για τη συσχέτιση. Πριν δεν μπορούσα εύκολα να πω. Αλλά τι βλέπουμε εδώ, ότι καθώς αυξάνει η αντίσταση, φαίνεται να αυξάνει και ο χρόνος αποτυχίας και μάλιστα εδώ κάτω υπάρχει ένα κενό, άρα αν έχω μεγάλες τιμές αντίστασης δεν περιμένω να έχω μικρές τιμές του χρόνου αποτυχίας. Όπως και εδώ πάνω υπάρχει ένα κενό, άρα όταν έχω μικρές τιμές αντίστασης δεν περιμένω να έχω μεγάλες τιμές του χρόνου αποτυχίας και αυτό δείχνει ότι υπάρχει μια θετική συσχέτιση μεταξύ τους. Τώρα είναι γραμμική. Με 20 παρατηρήσεις είναι δύσκολο να ψάξουμε να βρούμε κάποια άλλη πολύπλοκη σχέση. Εδώ μάλιστα φαίνεται να είναι απλωμένες οι τιμές γύρω από κάποια ευθεία γραμμή, αλλά είναι αρκετά απλωμένες. Θα λέγαμε ότι δεν είναι ισχυρή αυτή η συσχέτιση. Δεν είναι οι τελίτσες αυτές κοντά σε μια γραμμή. Τώρα έχω βάλει το πινακάκι στο σχηματάκι εκεί πέρα και το 0.8. Πώς το βρίσκουμε αυτό? Παίρνουμε τα πέντε νούμερα, δηλαδή τους μέσους όρους του χίκεψη, γιατί τα χρειάζομαι για να βάλω εδώ πέρα τους μέσους όρους του χίκεψη, για να υπολογίσω τη συνδιασπορά. Τι άλλο χρειάζομαι? Χρειάζομαι το άθυσμα τετραγώνων του χί για την τυπική απόκλυση, το άθυσμα τετραγώνων του ψ, αντίστοιχα για την τυπική απόκλυση του ψ, αυτά τα δύο, και χρειάζομαι και το άθυσμα το γινωμένο χίκεψη για τη συνδιασπορά. Τους πέντε αριθμούς, λοιπόν, τους βρίσκω, τους αντικαδιστώ στον τύπο εδώ πέρα και βρίσκω το συντελεστή συσχέτηση 0,8. Είναι μηχανική δουλειά, δεν έχεις πολλά να κάνεις, παίρνεις το τύπο και κάνεις μια αντικατάσταση. Και μου δηλώνει τη συσχέτηση ότι είναι 0,8 και επιβεβαιώνει ότι δεν είναι ισχυρή. Συνήθως ισχυρή λέμε ότι είναι πάνω από 0,9 ο συντελεστής συσχέτησης. Να πάρω και το συντελεστή προσδιορισμού, το τετράγωνο δηλαδή αυτού νου επί 100 είναι γύρω στο 65%, το οποίο μου λέει ότι ένα ποσοστό 65% μπορώ να, για παράδειγμα, να εξηγήσω στην αντίσταση αν γνωρίζω το χρόνο αποτυχίας και αντίστροφα. Και ολοκληρώνουμε έτσι τη συσχέτηση. Είδατε μέσα σε 20 λεπτά μιλήσαμε για τη συσχέτηση. Δεν κάναμε και τίποτα όμως, γιατί μείναμε στη σημιακή εκτίμηση, δηλαδή μόνο σε αυτό. Μόλις βέβαια να προχωρήσεις, ένα βασικό ερώτημα που έχουμε όταν μετράμε δύο μεταβλητές είναι αν συσχετίζονται μεταξύ τους. Δηλαδή, αν μπορώ να πω ότι είναι το ρο, το πραγματικό, ότι δεν είναι μηδέν. Αυτό για να το κάνω, θα πρέπει να κάνουμε έναν έλεγχο, τα οποία δεν τα κάνουμε σε αυτό το μάθημα. Εδώ είναι μια σειρά από θέματα τα οποία τα έχω δώσει, ήδη τα έχετε πιλέξει, νομίζω, όλα, οπότε δεν έχει και νόημα να σας τα λέω τώρα, γιατί ήδη κάποιοι μου έχουν στείλει η μέλη και τα επέλεξαν. Έλεγχο σημαντικότητας είναι αυτό ακριβώς και κατά πόσο το ρο μπορεί να είναι μηδέν, κάνουμε έναν έλεγχο γι' αυτό. Και εδώ είναι δύο άλλοι συντελεστές συσχέτησης οι οποίοι έχουν κάποιες διαφορετικές ιδιότητες από αυτών που είδαμε πριν του Πίρσον. Και το τελευταίο θέμα είναι για μη γραμμικό μέτρο συσχέτησης, δηλαδή ένα μέγεθος που μπορεί να σου μετρήσει και αν είναι παραβολή ή αν είναι οτιδήποτε άλλο. Και το λέμε αμοιβαία πληροφορία. Λοιπόν, να προχωρήσουμε στην απλή γραμμική παλινδρόμηση. Αφήνουμε λοιπόν το συμμετρικό, δηλαδή αυτά που είπαμε μέχρι τώρα ήταν για δύο μεγέθη αν συσχετίζονται. Άρα μιλούσαμε για μια συμμετρική σχέση και θα περάσω τώρα σε μια σχέση εξάρτηση που αυτό το λέμε παλινδρόμηση. Για να το δούμε αυτό όμως ας πάρουμε λίγο το παράδειγμα πριν να ξεκινήσουμε. Ας πάρουμε το παράδειγμα το βαθμό και το χρόνο μελέτης και ας προσπαθήσω λίγο εδώ πέρα να το υλοποιήσω το παράδειγμα. Και έστω ότι έχω εδώ πέρα το χρόνο μελέτης και το ονομάζω χ. Και ας συμφωνήσουμε ότι το χρόνο μελέτης το μετράω αναβδομάδα και σε αυτό υπολογίζω και τις ώρες που παρακολουθεί κάποιος το μάθημα. Άρα λοιπόν φυσικά έχουμε εδώ πέρα το μηδέν. Όλοι ξέρουμε τι είναι το μηδέν. Μετά έχουμε το ένα. Μια ώρα την εβδομάδα παρακολουθεί κάποιος. Τι σημαίνει να παρακολουθεί κάποιος μια ώρα την εβδομάδα. Έρχεται ξέρω εγώ το απογευματάκι μετά τον καφέ σε 6 ώρα που είχαμε το μάθημα. Κάθεται μέχρι τις 7. Λέει νύχτωσε τώρα ή έχω καλύτερα πράγματα να κάνω. Βυσκώνεται φεύγει στο διάλειμμα. Και την Παρασκευή δεν έρχεται γιατί δεν μπορεί, γιατί έχει άλλες ασχολείες πιο σημαντικές. Οι δύο ώρες είναι να έρθει μόνο στο δύο ώρες από τις 4 ώρες, το ένα δύο ώρες από τα δύο που έχουμε την εβδομάδα. Το τρία, καταλαβαίνετε, είναι αυτός ο οποίος ή ότι έκανε και ο προηγούμενος. Το τρία είναι να παρακολουθεί τις τρεις από τις τέσσερις ώρες, ας πούμε, και να μην διαβάζει καθόλου. Το τέσσερα είναι να παρακολουθεί μόνο το μάθημα και να λέει ότι εγώ, αφού ήμουνα σε όλες τις παρακολουθήσεις, άρα είναι τόσο εύκολο το μάθημα που δεν χρειάζεται να προετοιμαστώ και έρχεται να δώσει κατευθείαν εξετάσεις. Ενώ πέντε είναι αυτός που παρακολούθησε το μάθημα τα τετρά ώρα την εβδομάδα και κάθισε και δώδεκα ώρες πριν τις εξετάσεις, δώδεκα δια δώδεκα εβδομάδες, άλλη μία ώρα. Και έχουμε αυτόν ο οποίος δεν κάθισε μόνο δώδεκα ώρες, έριξε ένα ολόκληρο εικοστετράωρο πριν τις εξετάσεις. Έχουμε έναν άλλον ο οποίος έκανε το εικοστετράωρο πριν τις εξετάσεις αλλά και το Σαββατοκύριακο, κάθε Σαββατοκύριακο μία ωρίτσα ξεφίληζε λίγο να δει τι έκανε τις τέσσερις ώρες των παραδόσσεων. Έχουμε τον άλλον ο οποίος τα έκανε όλα αυτά αλλά στις εξετάσεις κάθισε και μια ακόμα μέρα, ένα δώδεκα ώρες ακόμα και διάβασε. Ο άλλος φυσικά που αφιέρωσε 48 ολόκληρες ώρες πριν τις εξετάσεις και παρακολούθησε. Και φυσικά έχουμε σίγουρα και άλλα παιδιά τα οποία αφιερώσανε... έχουμε, ας πούμε ότι δεν έχουμε, ας πούμε ότι δεν έχουμε και σταματάμε κάπου εδώ. Αυτοί λοιπόν καλύπτουμε έτσι την γκάμα αντοφοιτητών που κατά πόσο ασχοληθήκαν με το μάθημα και τον χρόνο που αφιέρωσαν. Και έρχεται η ώρα της κρίσης. Εδώ όλοι ξέρουμε τι είναι. Είναι η τρομερή βάση του 5. Ας τη βάλω λίγο πιο κάτω. Και εδώ είναι ο ύψιστος αριθμός του 10. Και πάμε τώρα να δούμε, αυτοί που αφιερώσανε μία ώρα στο μάθημα, τι βαθμό θα πάρουνε. Δεν θα πάρουν ένα βαθμό. Και ας πούμε ότι εδώ την κλίμακα την αναλύουμε σε πρώτο και δεύτερο δεκαδικό, γιατί έχουμε τέτοιο βίτσια εμείς. Άρα μπορώ να μιλάω όχι μόνο για ένα βαθμό, αλλά την κατανομή του βαθμού που θα πάρουνε αυτοί που αφιέρωσαν μία ώρα. Και λέω ότι η κατανομή είναι κάπως έτσι. Έχει μια τρομερή μύτη εδώ πέρα. Ξέρετε σε ποιον νόμερο? Στο ένα. Δεν βάζουμε μηδέν, όχι. Αυτή λέω είναι η κατανομή του βαθμού για αυτούς που αφιέρωσαν μία ώρα στο μάθημα. Άρα πάω μετά σε αυτούς που αφιέρωσαν δύο ώρες. Και λέω ότι εδώ είναι κάπως έτσι. Για τρεις ώρες. Βάζω και μια μυτούλα μικρή από εδώ. Για τέσσερις ώρες. Είναι κάπως έτσι. Για αυτούς που αφιέρωσαν πέντε ώρες στο μάθημα είναι κάπως έτσι. Για αυτούς που αφιέρωσαν έξι ώρες στο μάθημα μπορεί να είναι έτσι η κατανομή. Για αυτούς που αφιέρωσαν εφτά ώρες στο μάθημα είναι κάπως έτσι. Για αυτούς που αφιέρωσαν οκτώ ώρες στο μάθημα, ας πούμε ότι είναι κάπως έτσι ο βαθμός. Να βάλω και γεννιά? Μετά κατεβαίνει. Μετά κατεβαίνει, λες? Ναι, γιατί ήρθαν κουρασμένοι. Κουρκούτεψε, ε! Αυτό λοιπόν που έχω και ας έρθω να γράψω και στη γενική του μορφή, όλα αυτά που έχω κάνει έχουμε συνηθίσει να βλέπουμε σε οριζόντια θέση την κατανομή. Απλά εδώ πέρα δεν έχω βάλει σε κατακόρυφη θέση. Όλα αυτά λοιπόν προσπαθούν να μου εξηγήσουν αυτό εδώ. Την κατανομή πια νου μέγεθους του βαθμού, το y, που είναι ο βαθμός. Βαθμού, αλλά πότε? Όταν το x παίρνει μια συγκεκριμένη τιμή. Πώς το βάζουμε αυτό το όταν? Δέσμευση, ε! Άρα είναι η δεσμευμένη συνάρτηση πυκνότητας πιθανότητας του y για μια συγκεκριμένη τιμή του x. Αν το έγραφα έτσι χωρίς αυτό, τότε είχα όλους τους βαθμούς. Θα είχα μια κατανομή που θα έπαιρνα για όλους τους βαθμούς. Όταν όμως το εξειδικεύω για τιμές του χρόνου μελέτης, τότε αυτό είναι η δεσμευμένη συνάρτηση πυκνότητας πιθανότητας. Και στη συντατηστική τι κάνουμε εμείς? Θέλουμε να λύσουμε αυτό το πρόβλημα, να του εκτιμήσουμε το πρόβλημα, αυτήν εδώ, από ένα δείγμα. Ποιο είναι το δείγμα? Πήρα, ας πούμε, εσάς εδώ πέρα. Σας ρώτησα το χρόνο μελέτης. Μπορεί να πέτυχα και κανένα από εσάς εδώ και από εδώ. Και αυτά τα σταυροδάκια που βάζω εδώ είναι οι τιμές που παίρνω από ένα δείγμα. Από ένα δείγμα φοιτητών. Και λέω τώρα, από αυτό το δείγμα των φοιτητών που έχω, έχω πάρει από 30 άτομα, ας πούμε. Από αυτό το δείγμα των φοιτητών μπορώ να εκτιμήσω εγώ αυτό εδώ. Μπορώ να το βρω με κάποιο τρόπο να το προσδιορίσω. Πολύ απίθανο, δεν είναι. Γιατί αυτό τι μου λέει, για κάθε τιμή του χει. Και μάλιστα δεν λέει μόνο για αυτές τις ακέραιες τιμές μπορώ να πάω και σε 1,1, 1,2 κτλ. Ε, δεν μπορώ να το κάνω αυτό, έτσι. Άρα είναι πολύ δύσκολο να λύσω αυτό το πρόβλημα. Αν θυμάστε και εσείς, και όταν είχαμε μία τυχαία μεταβλητή, που πήγαμε και μετρούσαμε 20 τιμές της, λέγαμε είναι δύσκολο να βρούμε όλη την κατανομή και πηγαίναμε σε κάποιο χαρακτηριστικό της κατανομής. Ποιο είναι το πιο αντιπροσωπευτικό χαρακτηριστικό μιας κατανομής? Μέση τιμή. Μέση τιμή. Άρα να βρω τη μέση τιμή του. Ποια είναι η μέση τιμή αυτού του? Είναι το ε του y για κάθε χ. Άρα να βρω τη μέση τιμή του. Εδώ όμως για τη μέση τιμή του είναι δεσμευμένη ως προστοχή. Και να κάνω την ερώτηση τώρα, αυτή τη μέση τιμή να θεωρήσω εγώ ότι είναι μία σταθερή τιμή. Ένα α, θα θέλατε κάτι τέτοιο. Το α ξέρετε τι σημαίνει. Ότι παίρνω τα γραπτά, αυτό το κάνω παλιά. Τα πετάω ψηλά πάνω στο τραπέζι, όσα μείνουν πάνω στο τραπέζι περνάνε, όσα πισουκά το κόβονται. Άρα εδώ θα έχω μια μέση τιμή του βαθμού. Ανάλογα φύσηξε πολύ αέρας και τα πήρε μακριά, έμειναν λίγα πάνω στο τραπέζι. Άρα η μέση τιμή πέφτει. Δε φύσηξε αέρας και πέσανε πολλά επάνω, ανεβαίνει. Άρα θα είναι μία σταθερά. Γιατί ο χρόνος μελέτης δεν επηρεάζει για το πιο γραπτό θα μείνει πάνω στο τραπέζι. Δε βαραίνει περισσότερο. Καλά, εντάξει, ας το αφήσουμε. Γιατί το να γράψεις πολλά δεν σημαίνει πάντως ότι είναι και καλά. Θα θέλατε να είναι λοιπόν στην περίπτωση κάτι τέτοιο? Μάλλον νο, γιατί αυτό τι θα σημαίνει. Ότι όλοι οι βαθμοί είναι γύρω από μία σταθερά. Άρα η μέση τιμή, ανεξάρτητα από την τιμή του χ εδώ κάτω, του χρόνου μελέτης, θα είναι ίδια. Και λέμε μήπως να το... Άλφα επί χ. Αυτό εδώ λες. Αυτό τι λέει τώρα να δω, δηλαδή ότι αυξάνεται η μέση τιμή του βαθμού με τον χρόνο μελέτης. Και αυξάνεται με κάποιο ρυθμό. Αυτό το α είναι ο ρυθμός αύξησης. Μόνο που το κάνουμε λίγο ακόμα πιο συνθετό, βάζουμε και έναν άλλον όρο εδώ. Και μια σταθερά, έτσι. Και ας βάλω και το... Όπως το έχουμε και στις σημειώσεις, ασυβείται αχ. Γιατί βάζουμε και μια σταθερά, γιατί λέμε... Καλά, και όταν το χ είναι μηδέν, για κάποιον που δεν διάβασε καθόλου, δεν παρακολούσε, τι βαθμό θα πάρει, μηδέν. Είπαμε ότι εμείς έξω, ας πούμε, δεν βγάζουμε μηδέν, βάζουμε ένα. Άρα, λοιπόν, εδώ πέρα θα έβαζες και ένα ένα, που θα αντιστοιχούσε για χ ίσον μηδέν. Άρα, λοιπόν, καταλήξαμε ότι το πιο απλό μοντέλο, γιατί αυτό που έχω φτιάξει τώρα είναι ένα μοντέλο, που μου προσδιορίζει το μέσο βαθμό από το χρόνο μελέτηση. Το πιο απλό μοντέλο που μπορώ να φτιάξω, βέβαια το πιο απλό είναι να είναι μια σταθερά. Αλλά η σταθερά, είπαμε, δεν βάζει μέσα το χ. Το πιο απλό μοντέλο που έχει μέσα και την εξάρτηση από το χ είναι αυτό το γραμμικό μοντέλο. Σε αυτό θα μείνουμε εδώ πέρα σήμερα. Είναι αυτή η γραμμούλα που σας είπα στην αρχή, μόνο που θα τη δούμε λίγο μέσα από τη στατιστική. Λοιπόν, έρχομαι τώρα και βαφτίζω, πάμε λίγο στην ορολογία δηλαδή, βαφτίζω τις δύο μεταβλητές. Δεν είναι πλέον δύο τυχαίες μεταβλητές όπως είχα στη συσχέτηση, αλλά έρχομαι και βαφτίζω τη μία εξαρτημένη και την άλλη ανεξάρτητη. Στο πρόβλημά μου, λοιπόν, αφού θέλω να προσδιορίσω το βαθμό από το χρόνο μελέτης, η εξαρτημένη θα είναι ο βαθμός και ο χρόνος μελέτης η ανεξάρτητη. Και μάλιστα να δείτε εδώ πέρα, σημειώνω ότι η ανεξάρτητη μεταβλητή δεν χρειάζεται να είναι τυχαία, μάλλον δεν πρέπει να είναι τυχαία, αλλά να είναι καθορισμένη. Τι σημαίνει αυτό, ότι δεν βάζω τυχαία τιμές που βρήκα από φοιτητές εδώ πέρα, αλλά πήγα και ρώτησα φοιτητές που αφιερώσαν μία ώρα, δύο ώρες, τρεις ώρες, βρήσα εγώ δηλαδή τις τιμές της χ, στο πείραμα μου. Και εδώ έχει ένα παραδειγματάκι, για να καταλάβουμε άλλο ένα παράδειγμα, τη διαφορά εξαρτημένης και ανεξάρτητης διατμητική αντοχή αργύλου σε διάφορα βάθη. Ποια θα βαφτίζατε εδώ εξαρτημένη και ποια ανεξάρτητη? Τα βάθη είναι εξαρτημένη ή ανεξάρτητη, έτσι, και το άλλο είναι εξαρτημένη. Θέλουμε να δούμε πώς αλλάζει η διατμητική αντοχή του αργύλου στα διάφορα βάθη. Και αυτή μπορώ να τη θεωρήσω και καθορισμένη, ότι πάω εγώ και κάνω το πείραμά μου και τις μετρήσεις μου σε συγκεκριμένα βάθη που έχω ορίσει. Βέβαια, στην πράξη αυτή μπορεί να μην είναι καθορισμένη. Και στην πράξη δεν είναι, είναι και αυτή τυχαία. Αλλά θεωρούμε εμείς ότι είναι καθορισμένη. Γενικά λοιπόν θέλουμε να βρούμε τη συνάρτηση, είτε την αθρηστική που έχω γράψει εδώ πέρα, είτε συνάρτηση πυκνών της πιθανότητας, περιοριζόμαστε μέση στιγμή, υποθέτουμε γραμμική εξάρτηση και αυτό το μοντέλο τώρα που φτιάξαμε, το λέμε μοντέλο... Μάλλον αυτό που εξυποστορίσαμε το πρόβλημά μας είναι το πρόβλημα της γραμμικής παλινδρόμησης. Καλούμαστε λοιπόν να βρούμε τώρα τα α και τα β για να βρούμε τη γραμμική παλινδρόμηση του ψ. Και αν έχω εδώ τις παρατηρήσεις, θα το συζητήσουμε στη συνέχεια, αλλά ας το πούμε και τώρα. Εδώ έχω βάλει τρεις υποψήφιες γραμμές. Δεν είναι τόσο απλό. Όταν εγώ πάρω για ταχύ και τα ψ που έχω και βάλω τις τελίτσες που αντιστοιχούν, ας το πούμε ότι εδώ είναι ο χρόνος μελέτης επάνω βαθμός και εδώ είναι για κάθε ένα από τα άτομα ο συνδυασμός τους, πώς μπορώ να βρω ποια γραμμή προσαρμόζεται εδώ πέρα, ποια γραμμή ταιριάζει στα δεδομένα. Γιατί δεν την ξέρω. Αυτά τα α και β, δηλαδή τη γραμμή, δεν την γνωρίζω εγώ από πριν. Είναι δυνατόν να την ξέρει κανένας. Δεν υπάρχει τέτοιο πράγμα. Είναι μια υπόθεση που φτιάχνουμε εμείς. Δεν ξεκινήσαμε να βάζουμε βαθμούς και να πηγαίνουν φοιτητές να φιερώνουν χρόνο στο μάθημα, έτσι ώστε να ταιριάζουν σε μια τέτοια ευθεία. Απλά θέλουμε να δούμε, μπορώ να υποθέσω εγώ ότι υπάρχει μια τέτοια ευθεία, ότι υπάρχει μια τέτοια σχέση του μέσου βαθμού από τον χρόνο μελέτης. Και πώς θα πάω να την βρω. Εκεί έβαλα τρεις γραμμές. Πώς θα βάζετε μια γραμμή στα εδομένα, στα σημεία. Εκεί έβαλα εγώ τρεις γραμμές. Ποια είναι καλή. Πώς θα βάζετε μια γραμμή. Πώς θα την βάζετε τη γραμμή. Πώς θα τραβούσατε μια γραμμή. Δεν υπάρχει καμιά καλή γραμμή. Εκεί έβαλα τρεις γραμμές. Αυτή από την οποία τα σημεία απέχουν το λιγότερο. Έχουν τη μικρότερη απόσταση δηλαδή από τη γραμμή λέει ο Μιχάλης. Να μοιάζουν συμμετρικά πια. Τα μισά από τη μία και τα μισά από την άλλη. Άρα θα μπορούσα να σχηματίσω τη γραμμή έτσι ώστε να περνάει και να αφήνει μισά σημεία από τη μία μεριά, μισά σημεία από την άλλη. Αυτή είναι η πρώτη προσέγγιση του αρχιτέκτον. Οι αρχιτέκτονες σκέφτονται γραφικά πάντα οπότε σου λέει να το κάνω έτσι. Αλλά θα μπορούσα να τραβήξω μια γραμμή. Έτσι και να είναι τα μισά από τη μία και τα μισά από την άλλη. Δεν μου λέει τίποτα για την κλήση που θα έχει η γραμμή. Αλλά δεν είναι απαραίτητα αυτός ο κανόνας. Θα μπορούσε όμως, αν βάζαμε ένα κριτήριο χωρίς να κάνουμε καθόλου πράξεις μόνο με χάρακα και μολύβι. Θα μπορούσε να το κάνεις έτσι. Να πας να την τραβήξεις προσεγγιστικά. Να αφήνει πάνω μισά από κάτω. Είπατε για την απόσταση. Αν πάρω λοιπόν μία ευθεία και πάρω την απόσταση αυτού του σημείου. Ποια απόσταση? Τι θα ορίσω ως απόσταση ενός σημείου από ευθεία. Την κάθετη. Αυτή είναι εδώ. Σωστά. Συμφωνούμε όλοι να πάρουμε την κάθετη. Ας το κρατήσουμε λοιπόν αυτό. Την κάθετη απόσταση. Ήθελες να πεις κάτι άλλο. Ναι την κατακόρυφη λοιπόν. Άρα εδώ έχουμε δύο υποψηφιότητες. Να πάρω την κάθετη ή την κατακόρυφη. Δεν θα ψηφίσουμε κιόλας αλλά έχουμε δύο υποψήφια. Δύο υποψήφιες προσεγγίσεις. Και τι θα ονομάσω ως απόσταση. Τι θα ονομάσω ως απόσταση. Αν έπαιρνα αυτήν εδώ τι θα ονόμαζα ως απόσταση. Τη διαφορά. Η διαφορά θα ήταν έτσι όμως εδώ θα έχει και πρόσημο. Εδώ θα ήταν θετικό ας πούμε ενώ αυτό από εδώ θα ήταν αρνητικό. Άρα δεν είναι απόσταση αυτό έχει πρόσημο. Την απόλυτη τιμή. Άρα την απόλυτη τιμή. Μήπως να πέρα το τετράγωνο. Άλλες προσεγγίσεις όχι πάλι τα ίδια. Άρα που θέλω να καταλήξω. Δεν υπάρχει μία ευθεία. Κάνουμε μία ευθεία σύμφωνα με το κριτήριο που βάζουμε. Αν θέλω εγώ να είναι αυτή που ελαχιστοποιεί. Τις αποστάσεις της κάθεται στην ευθεία. Είναι μία προσέγγιση. Θα βρω μία λύση. Αν είναι τις κατακόρυφες μία άλλη λύση. Αν θα ορίσω τις αποστάσεις ως απόλυτες τιμές. Θα είναι μία άλλη λύση. Αν τις ορίσω τετράγωνο θα είναι άλλη λύση. Δεν θα βρω τα ίδια α και β της εκτιμήσεις τους. Λοιπόν θα δούμε συνέχεια τι θα πάρουμε εμείς. Πάντως το πρόβλημα εδώ της παλιδρόμησης. Είναι να βρω αυτά τα α και β. Το σταθερό τον όρο, όπως το λέμε. Και το συντελεστή του χ ή την κλήση της ευθείας. Ο σταθερός όρος, θυμάστε, είπαμε εκεί που τέμνει τον άξο να το βζει. Το α το β τι σημαίνει. Συντελεστής τι ορίζει αυτό εδώ. Πώς φυσικά καταλαβαίνουμε αυτό το συντελεστή. Την κλήση της ευθείας. Ναι. Η εφαπτομένη της γωνίας που σχηματίζει με τον άξο να χ. Τι είναι. Η εφαπτομένη της γωνίας που σχηματίζει με τον άξο να χ. Η εφαπτομένη της γωνίας που σχηματίζει με τον άξο να χ. Ναι. Το οποίο αν το ερμηνεύσουμε διαφορετικά. Είναι αν αυξήσω το χ κατά μία μονάδα. Δηλαδή αν αυξήσω εδώ το χ κατά μία μονάδα. Πόσο θα μου αυξηθεί το ψ. Αν αυτό είναι μία μονάδα. Πόσο θα μου αυξηθεί το ψ. Πόσο θα μου αυξηθεί ο βαθμός που παίρνει κάποιος. Αν αυξήσει το χ μελέτης κατά μία βδομάδα. Αυτό μου ερμηνεύει φυσικά η κλήση λοιπόν. Και όλα τα σημεία εκεί πέρα φυσικά δεν είναι πάνω στην ευθεία. Αλλά απέχουνε κατά κάποιο ει. Και αυτή η απόσταση είναι η κατακόρυφη απόσταση. Δηλαδή αυτό το ει εδώ πέρα. Για κάθε τέτοιο σημείο που έχω. Για κάθε τέτοιο σημείο είναι αυτή η κατακόρυφη απόσταση. Και αυτή η κατακόρυφη απόσταση λέγεται και σφάλμα παλινδρόμησης. Αυτό λοιπόν είναι το σφάλμα της παλινδρόμησης. Άρα εγώ καλούμε τώρα να βρω αυτά τα α και β που μου δίνουν την καλύτερη ευθεία. Τώρα είχαμε πει πριν κάποια πράγματα. Επαναλαμβάνω λίγο αυτά που είπαμε. Σαν παρατηρήσεις και θα περάσουμε να δούμε τη λύση για την ευθεία. Το πρώτο είναι ότι η ηχή μπορεί να είναι καθορισμένη. Το άλλο είναι ότι θεωρούμε ότι είναι γραμμική η σχέση. Η εξάρτηση του βαθμού από τον χρόνο μελέτηση είναι γραμμική. Αλλά είναι κάποιες υποθέσεις που κάνουμε εδώ πέρα. Υπάρχει και μια άλλη υπόθεση την οποία λίγο θα μπερδευτείτε αν πάτε να τη διαβάσετε εδώ πέρα. Αυτή η υπόθεση λέει πολύ απλά ότι θεωρούμε ότι η διασπορά των σφαλμάτων της παλινδρόμησης, αυτά τα σιγμαεψιλών, ή αλλιώς η διασπορά του ψ για κάθε τιμή του χ, είναι σταθερή. Δηλαδή, εγώ εδώ πέρα έχω αυτή την κατανομή γύρω από το ψ, γύρω από τη μέση τιμή. Θεωρώ ότι η διασπορά είναι ίδια. Βέβαια, στο δικό μου το παράδειγμα βλέπουμε ότι η διασπορά εδώ πέρα αυξάνει και μετά επάνω μειώνεται. Άρα στο δικό μου το παράδειγμα δεν ισχύει αυτό. Αυτό δεν σημαίνει ότι δεν μπορώ να βρω τα α και β. Θα τα βρούμε τον ίδιο τρόπο. Απλά δεν μπορώ μετά να χρησιμοποιήσω τα εργαλεία που έχω από τη στατιστική όπου κάνω διαστήματα εμπιστοσύνης που λέγαμε για τα α και β και τα λοιπά αν δεν θεωρήσω σταθερή αυτή τη διασπορά. Γι' αυτό συνήθως θεωρούμε ότι υπάρχει αυτή η ομοσκεδαστικότητα, δηλαδή η διασπορά της ψιος προστιχή είναι σταθερή. Και συνήθως θεωρούμε και κανονική κατανομή, αλλά αυτό το βάζω έτσι σαν συμπαρένθεση. Τώρα, για να ορίσω λοιπόν το πρόβλημά μου, να βρω τη λύση, θα πρέπει να βρω τα α και β, να εκτιμήσω από το δείγμα και να εκτιμήσω επίσης και τη διασπορά των σφαλμάτων, γιατί εάν εκτιμήσω τη διασπορά των σφαλμάτων, θα έχω μια εκτιμήση για την ακρίβεια του μοντέλου μου. Εάν το σίγμα τετράγωνο το εκτιμήσω να είναι πολύ μεγάλο και αντίστοιχα η τυπική απόκριση να είναι μεγάλη, σημαίνει ότι αυτή η ευθεία δεν θα με βοηθήσει πολύ γιατί δεν μπορεί να μου προσδιορίσει το ψι καλά όταν γνωρίζω το χ. Πάμε λοιπόν τώρα στη λύση. Από αυτά που είπατε είχαμε τέσσερις συνδυασμούς, δηλαδή να πάρω κατακόρυφες ή κάθετες αποστάσεις, να πάρω απόλυτες τιμές ή τετράγωνα. Από αυτούς τους τέσσερις συνδυασμούς, εμείς επιλέγουμε τον έναν που λέει κατακόρυφες αποστάσεις και τετράγωνα. Και αυτή η μέθοδος λέγεται μέθοδος ελαχής των τετραγών. Τώρα θα μου πείτε γιατί πήραμε αυτήν. Έχει επικρατήσει αυτή η μέθοδος, έχει καλές ιδιότητες στην επίλυσή της, άμα θα παίρνατε απόλυτες τιμές είχαμε το πρόβλημα πάλι το πώς θα βρούμε τη λύση. Το ότι παίρνουμε κατακόρυφες αποστάσεις και δεν παίρνουμε κάθετες έχει να κάνει με την υπόθεση που κάναμε ότι το χ εδώ κάτω είναι καθορισμένο. Ότι πήγα εγώ και είπα θα πάρω στο δείγμα μου άτομα που αφιέρωσαν μία ώρα στο μάθημα, δύο, τρεις κτλ. Δεν υπάρχει κάποια αβιβεότητα, κάποια τυχαιότητα εδώ πέρα. Εάν στο παράδειγμά μου, στο πρόβλημά μου είχα τυχαιότητα και σταχή, τότε η καλύτερη λύση θα ήταν να πάρω την κάθετη. Για κάποιο λόγο όμως έχει επικρατήσει τη δραστητική να παίρνουμε μέθοδο ελαχής στον τετράγωνο. Θα το ακούσετε και αργότερα σε άλλα έτη, όταν είναι να λύσετε κάποιο πρόβλημα και θέλετε να κάνετε μια προσαρμογή κάπου για να το λύσετε, θα πάρετε ελάχιστα τετράγωνο. Στα αγγλικά λέγεται ordinary least squares, γι' αυτό ίσως το δείτε και σαν ULS γραμμένο. Άρα τι θέλω να κάνω τώρα, όπως λέει εδώ να πάρω το άθρησμα των τετραγώνων των κατακόρυφων αποστάσεων, δηλαδή αυτό εδώ, ή αν εγκαταστήσω το ί με αυτό εδώ και να βρω αυτή την ευθεία που μου μειώνει αυτό εδώ το άθρησμα. Μαθηματικά πώς το λύνω αυτό λοιπόν, αφού θέλω να βρω αυτή την ευθεία που μου κάνει όσο δυνατό μικρότερο αυτό το άθρησμα, θέλω λοιπόν να ελαχιστοποιήσω αυτό εδώ που είναι μια συνάρτηση που μπαίνουν μέσα τα α και β, να το ελαχιστοποιήσω ως προς τα α και β. Αφού λοιπόν θέλω να βρω το ελάχιστο μια συνάρτηση ως προς τα α και β, θα πάρω την παράγω ως προς το α και ως προς το β, θα την βάλω ίσως με το μηδέν, θα λύσω το σύστημα και με κόκκινα γράμματα έχω τη λύση που υπάρχει και στο τυπολόγιο. Εδώ λοιπόν έχω την κλήση, την εκτίμηση της κλήσης και εδώ έχω την εκτίμηση του σταθερού όρου. Και αυτή είναι η ευθεία των ελαχίσεων τετραγώνων. Παιδιά, δεν θα κάνουμε διάλειμμα και θα συνεχίσουμε να το τελειώσουμε, εντάξει. Συμφωνείτε κι εσείς από εκεί, ε? Ναι, συχαίρομαι. Και αυτή εδώ λοιπόν είναι η εκτίμηση τώρα της ευθείας παλινδρόμησης που τη λέμε ευθεία ελαχίσεων τετραγώνων. Μου βρίσκει δηλαδή, έχοντας τα a και b τώρα που είναι η εκτιμή στον α και β, μου βρίσκει για κάθε x ποια είναι η ανομενόμενη τιμή του ψ. Και αφού έχω λοιπόν, για κάθε x i μπορώ να βρω το y i ως εκτίμηση, έτσι μπορώ να εκτιμήσω και το σφάλμα. Δηλαδή, αφού έχω εκτιμήσει τώρα αυτήν εδώ την ευθεία και για κάθε x i εδώ πέρα μου βρίσκει το y, i καπελάκι που είναι η εκτίμηση, μπορώ να πάρω τη διαφορά από την πραγματική τιμή που έχω του y i και αυτό είναι το υπόλοιπο ή το σφάλμα ελαχίσεων τετραγώνων, το e i που το λέμε. Ναι, γιατί αυτό το κάνεις γενικά, εσύ την έχεις από το δείγμα. Το y i καπελάκι όμως τι σου εκτιμάει, σου εκτιμάει αυτό εδώ, τη μέση τιμή. Εάν έχεις πάρει από πέντε έξι άτομα που έτυχε να έχουν έξι ώρες μελέτης και άλλα άτομα με πέντε ώρες, τέσσερις ώρες και τα λοιπά και βρήκες μια τέτοια ευθεία, αυτό το y καπελάκι που αντιστοιχεί στις έξι ώρες μελέτης θα είναι ο μέσος βαθμός για οποιοδήποτε φοιτητή αφιερώνει έξι ώρες το μάθημα. Δεν σημαίνει ότι όλοι οι φοιτητές που θα αφιερώνουν έξι ώρες το μάθημα θα πάρουν τον ίδιο βαθμό, είναι η μέση τιμή. Εσύ για το yi που έχεις την πραγματική τιμή να πω ένα φοιτητή που έτυχε να πάρει πάνω από αυτό το βαθμό, ένας άλλος μπορεί να πει και κάτω από αυτό το βαθμό. Μπορεί να έχουμε και πολλές μετρήσεις για το ίδιο χιάι. Αυτό όμως που εκτιμάμε είναι ο μέσος βαθμός. Το σφάλμα μας δίνει την απόκληση που έχει το συγκεκριμένο στοιχείο του δείγματος από την εκτιμήση που έχουμε για τη μέση τιμή για το ίδιο χιάι. Εντάξει. Και στη συνέχεια τώρα είναι όλες αυτές οι κατακόρυφες γραμμούλες εδώ για κάθε yi είναι η απόκληση που έχουμε από την τιμή πάνω στην ευθεία. Και μπορεί κάποιος να υπολογίσει τη διασπορά. Εδώ στον τύπο μπαίνει τώρα και το 1-2 αντί για 1-1 γιατί έχουμε δύο άγνωστοι, τα α και τα β, τα οποία τα έχουμε ήδη εκτιμήσει. Αλλά εμείς δεν θα πάρουμε τον τύπο αυτό με το γαλάζιο, θα πάρουμε ένα τύπο που μας δίνει τα σφάλματα, τη διασπορά των σφαλμάτων ως συνάρτηση, ως έκφραση των διασπορών και της συνδιασποράς του τετράγωνο ή των διασπορών και της κλήσης. Και αυτός ο τύπος υπάρχει επίσης στο τυπολόγιο που μπορούμε να το πάρουμε από εκεί πέρα. Λοιπόν, μια πρώτη παρατήρη στην οποία ίσως θα τη θυμάστε από την τρίτη ηλικίου, ότι σε αυτήν την ευθεία ελαχής των τετραγώνων που βρήκα έχω κατοχυρώσει ότι το σημείο με τετμημένη το μέσο όρο του χ και τεταγμένη το μέσο όρο του ψ περνάει από την ευθεία. Μάλλον η ευθεία περνάει από το σημείο, το σημείο είναι πάνω στην ευθεία. Και αυτό μπορεί κάποιος πολύ εύκολο να το δείξει, εάν έρθει πάρει τον τύπο της ευθείας όπου το χ βάλει το μέσο όρο θα δει, κάνοντας πράξη, ότι αυτό που παίρνει είναι ο μέσος όρος του χ και άρα πληρεί τον τύπο της ευθείας ψ ίσον ΆΛΦΑΣ ΙΒΙΤΑΧΗΡΟ. Γι' αυτό και μπορεί κάποιος εναλλακτικά να βάλει έναν άλλο ορισμό για την ευθεία βγάζοντας από τη μέση το σταθερό όρο και βάζοντας αντί για το σταθερό όρο τις δύο μέσους όρους. Εδώ όπως είπαμε και πριν δεν προϋποθέτει η εκτίμηση της ευθείας να έχω σταθερή διασπορά και κανονική κατανομία αλλά αν θέλω να προχωρήσω για να κάνω κάποια στατιστική συμπερασματολογία πάνω στις τραγματικές τιμές των παραμέτρων Ά και Β όπως και στις εκτιμήσεις θα πρέπει να θεωρήσω αυτά τα δύο να ισχύουν. Το τρίτο που έχει ενδιαφέρον έχει να κάνει με πρόβλεψη δηλαδή πάνω στο ερώτημα που είπες τώρα αν θέλω τώρα για ένα νέο φοιτητή ότι έρχεσαι εσύ και μου λες εγώ είμαι από αυτούς παφιέρω σε έξι ώρες το μάθημα κοντά από αυτό. Τέσσερις ώρες έρχεσαι και δύο ώρες τη βδομάδα αν βάλουμε έξι ώρες το μάθημα και λες τι βαθμό θα πάρω αφού πήγα και βρήκα τα A και τα B θα πάρω το έξι θα το βάλω εδώ και θα πω ο μέσος βαθμός είναι το Y0 ο μέσος βαθμός είναι η εκτίμηση αυτήν. Άρα περιμένω να πάρεις το βαθμό που αντιστοιχεί εκεί πέρα που εδώ πέρα στο συγκεκριμένο παράδειγμα για το έξι ο βαθμός αυτός είναι εκεί στο εφτάμιση. Χάρη και σε με έξι ώρες βαθμό γύρω στο εφτάμιση. Έρχεται τώρα και ένας άλλος που μου λέει βρε εσύ εγώ είμαι από τους μελετηρούς και παρακολούθησα το μάθημα διάβαζα Σαββατοκύριακο είχα μια βδομάδα ολόκληρη πριν τις εξετάσεις και κάθε μέρα διάβαζα και είμαι εδώ στις 10 ώρες τι βαθμό θα πάρω. Μπορούμε να το κάνουμε αυτό να του πούμε θα πάρει 12, 11. Σαφώς και δεν γίνεται. Ποιο είναι το πρόβλημα εδώ πέρα. Ποιο είναι το πρόβλημα γιατί δεν μπορούμε να του πούμε. Δεν έχει φυσική σημασία και δεν μπορούμε να προεκτείνουμε τη γραμμή έξω από τα όρια των τιμών που έχουμε για το χ. Ούτε προς τα πάνω αλλά ούτε και προς τα κάτω. Δεν μπορούμε να το προεκτείνουμε. Άρα λοιπόν οι προβλέψεις που μπορούμε να κάνουμε εδώ πέρα είναι μόνο μέσα στα όρια. Δεν μπορώ λοιπόν να κάνω πρόβληψη έξω από τα όρια γιατί δεν ξέρω τι ισχύει. Εκείνη η γραμμή μπορεί να γίνεται μετά ευθεία οριζόντια γραμμή στο 10. Ή μπορεί όπως είπε ο άλλος να πέφτει. Γιατί άμα έχεις αφιερώσει τόση πολλές ώρες, ζαλίστηκες και δεν μπορείς να γράψεις. Σε εξετάσεις. Λοιπόν για να τα δούμε και με ένα παράδειγμα εδώ πέρα. Θέλουμε να μελετήσουμε σε ένα όπως λέγεται ολοκληρωμένο κύκλωμα. Την εξάρτηση με μπλε γράμματα είναι λέξη κλειδί δύο μεγεθών της απολαβής ρεύματος κρυσταρολυχνίας που σημαίνει transistor από την αντίσταση του στρώματος. Άρα έχω δύο μεταβλητές και θέλω να μελετήσω την εξάρτηση της πρώτης από τη δεύτερη. Είναι σημαντικό στα προβλήματα παλιδρόμησης να βαφτίσετε σωστά τις δύο μεταβλητές ως εξαρτημένη και ανεξάρτητη. Γιατί αλλιώς θα κάνετε το αντίστροφο. Και άρα όλο το μοντέλο θα βγει ανάποδα. Ποια λοιπόν είναι εδώ η εξαρτημένη? Αφού λέει εξάρτηση της, αυτή είναι η εξαρτημένη, από την ανεξάρτητη, έτσι. Να και τα εδομένα, δέκα μόνο ζευγαρωτές παρατηρήσεις. Η χ λοιπόν είναι η αντίσταση του στρώματος, η ανεξάρτητη και η εξαρτημένη y είναι η απολαβή του ρεύματος. Φαίνεται να υπάρχει εξάρτηση εδώ πέρα. Όχι και τόσο πολύ, ε. Η χ μάλιστα είναι σε αύξησα σειρά, λίγο μας βοηθάει αυτό. Αυξάνει η χ, η y τι είναι η έρθει να αυξάνει όσο ανεβαίνουν οι τιμές στη χ, αλλά όχι και τόσο ξεκάθαρα. Για να μπορούμε λοιπόν να απαντήσουμε στο ερώτημα αν υπάρχει εξάρτηση και ακόμα περισσότερο να είναι και γραμμική, αν είναι ισχυρή, αν είναι θετική ή αρνητική, αυτό που κάνουμε είναι πάλι το διάγραμμα διασποράς. Φαίνεται τώρα να υπάρχει κάποια εξάρτηση, τι λέτε? Στο 06, δεν εξάρτησε στο 06, συσχέτησταν εκείνη. Φαίνεται εξάρτηση να είναι γραμμική. Είναι μόνο 10 παρατηρήσεις. Κάποιος θα μπορούσε να πει να βάλουμε μία λογαριθμική ας πούμε ή να βάλουμε μία πολυονυμική, να κάνει καμπυλότι. Είναι πολύ δύσκολο να προσαρμόσεις μία πιο πολύπλοκη καμπύλη όταν τα δεδομένα σου είναι λίγα. Εδώ μόνο 6 τιμές έχουμε, 6 σημεία. Άρα το πιο απλό είναι να πούμε ότι υπάρχει μια αυξητική τάση, μια γραμμική εξάρτηση μεταξύ της απολαβής ρεύματος και της αντίστασης. Σίγουρα δεν είναι ισχυρή, γιατί παρόλο που δεν έχουμε μικρές τιμές απολαβής ρεύματος για μεγάλες τιμές αντίστασης, ούτε μεγάλες τιμές απολαβεί ρεύματος για μικρές τιμές αντίστασης, δηλαδή εδώ και εδώ είναι κενό, παρόλο αυτά οι τιμές είναι πολύ σκόρκες. Άρα μπορούμε να πούμε ότι υπάρχει μια εξάρτηση γραμμική, θετική βέβαια, γιατί όσο αυξάνει το χ, αυξάνει και το ψ, αλλά όχι ισχυρή. Πώς θα την προσδιορίσουμε τώρα, θα πρέπει να βρούμε τα α και β. Όπως έκανα και πριν, θα χρειαστεί πάλι τους πέντε αριθμούς, δηλαδή τους δύο μέσους όρους εδώ του χ και του y, το άθρυσμα τετραγώνων του χ, το άθρυσμα τετραγώνων του ψ και το άθρυσμα γινωμένου και από αυτά μπορώ να υπολογίσω τις δύο διασπορές, τις δυγματικές και τη μία δυγματική συνδιασπορά. Βέβαια, αν θέλω μόνο τα α και β, αυτό εδώ δεν μου χρειάζεται, όπως δεν μου χρειάζεται και η διασπορά του y, αλλά αν θέλω να βρω και τη διασπορά των σφαλμάτων, θα τα χρειαστώ. Άρα, για την κλήση χρειάζομαι μόνο αυτά τα δύο και βρίσκω την κλήση εδώ πέρα, για το σταθερό όρο, για την εκτίμηση του σταθερού όρου, χρειάζομαι την κλήση που έχω βρει και τους μέσους όρους και βρίσκω έτσι την τιμή για τα α και β. Αν θέλω τώρα να βρω και την εκτίμηση της διασποράς σφαλμάτων, θα χρειαστώ τώρα και τη διασπορά του y, γι' αυτό είπαμε ότι αυτά εδώ πέρα τα χρειαζόμαστε, αν θέλουμε και τη διασπορά των σφαλμάτων. Και έτσι λοιπόν έχω ορίσει την ευθεία των ελαχής των τετραγώνων και τη διασπορά των σφαλμάτων. Πώς τα ερμηνεύω αυτά τώρα, το 2,53 που βρήκα τι σημαίνει, μάλλον η κλήση, ξεκινάω από την κλήση, εδώ είχα την κλήση 0,063, τι μου λέει αυτό, αν αυξήσω κατά μία μονάδα την αντίσταση, πόσο ρεύμα θα πάρω. Α, αυτό μου λέει ότι αν αυξήσω κατά 1 ΩΜΑΝΑ εκατοστό θα πάρω 0,063 απολαβή ρεύματος. Ενώ ο σταθερός όρος του 2,53 μου λέει πόσο είναι η απολαβή ρεύματος όταν δεν έχω αντίσταση, το οποίο φυσικά είναι αδύνατο, αλλά εδώ έχει να κάνει πάλι ότι είμαστε έξω από τα όρια των τιμών του χ που έχω δώσει. Αν γυρίσουμε πίσω και δούμε εδώ πέρα το σχήμα, βλέπουμε ότι δεν έχουμε τιμές κάτω από 50, για την ακρίβεια κάτω από 66. 66 είναι η μικρότερη τιμή. Άρα δεν έχει νόημα να μιλάω τώρα για πόσο είναι η απολαβή όταν η αντίσταση είναι 0. Και το τελευταίο, η διασπορά των σφαλμάτων και η τυπική απόκλειση παίρνοντας την τραγωνική ρίζα, μου λέει την ακρίβεια. Δηλαδή όσο πιο μεγάλο είναι αυτό το S, η τυπική απόκλειση, τόσο θα αποκλείουν από τη μέση τιμή και άρα δεν θα έχω μεγάλη ακρίβεια σε αυτό το αποτέλεσμα που θέλω να προβλέψω. Αν θέλω τώρα να κάνω πρόβλεψη λοιπόν, αφού έχω το όριο των τιμών του x από 66 μέχρι 141, μόνο μέσα εκεί θα κάνω πρόβλεψη. Αν έρθεις εσύ και μου δώσεις 150 αντίσταση θα σου πω δεν γίνεται. Γιατί δεν ξέρω τι γίνεται στη συνέχεια. Μπορεί να σταματάει, μπορεί να εξυφενδονίζεται ψηλά, δεν ξέρω τι μπορεί να γίνει. Ή για μικρότερη από 66 τιμή δεν μπορώ να προβλέψω. Μόνο μέσα στα όρια. Αν μου δώσεις μια τιμή που είναι 120 σε αυτό το παράδειγμα που είναι μέσα στα όρια, μπορώ να προβλέψω την τιμή που είναι 10,11 και να σου πω με ακρίβεια simply 2,249 όπου το 2,249 είναι η τυπική απόκλειση των σφαλμάτων. Αυτό βέβαια δεν είναι ακριβές, είναι προσεγγιστικό. Υπάρχουν ακριβοί διαστήματα εμπιστοσύνης, 95% όπως είχαμε κάνει για την πρόβλεψη εδώ πέρα και για τη μέση πρόβλεψη αλλά και για την πρόβλεψη που είναι σε οποιαδήποτε τιμή. Αυτά όμως δεν θα τα κάνουμε εδώ. Λοιπόν, εδώ θα τελειώνει το παράδειγμα. Υπάρχουν κάποια δυο διαφάνειες για τη σχέση του συντελεστή συσχέτησης και της κλήσης. Υπάρχει κάποια σχέση εδώ πέρα αλλά αυτό που θέλω να τονίσω εδώ είναι ότι ο συντελεστής συσχέτησης είναι αυτός που μας δίνει πόσο συσχετίζονται οι δυο μεταβλητές. Η κλήση δεν μας δίνει. Δηλαδή το ότι βρήκα μία κλήση 0,063 ας πούμε δεν μου λέει τίποτα για το πόσο συσχετίζεται η αντίσταση με την απολαβή. Το μόνο που συμφωνούν είναι στα πρόσημα. Δηλαδή αν έχω θετική συσχέτηση θα έχω και θετική κλήση. Αν έχω αρνητική συσχέτηση θα έχω και αρνητική κλήση. Και επίσης η συσχέτηση, ο συντελεστής συσχέτησης συσχετίζεται με τη διασπορά των σφαλμάτων. Υπάρχει αυτή εδώ η σχέση μεταξύ τους που καταλαβαίνουμε ότι όσο πιο ισχυρή είναι η συσχέτηση των δυο μεταβλητών. Τι σημαίνει ισχυρή συσχέτηση των δυο μεταβλητών. Σημαίνει ότι τα σημεία που παίρνουν αυτά είναι όλο και πιο κοντά στη γραμμή. Άρα η διασπορά τους από τη γραμμή είναι όλο και πιο μικρή. Άρα αυξάνει το R μειώνεται το S τετράγωνο των σφαλμάτων. Και στην προκειμένη περίπτωση εδώ πέρα σε αυτό το παράδειγμα ήταν 0,75 η συσχέτηση. Και αυτά εδώ είναι τα υπόλοιπα και θέματα, τα τελευταία θέματα, τα οποία δεν νομίζω να τα έχουν πάρει. Μπορείτε να δηλώνετε θέματα μέχρι προς το τέλος. Έχω βάλει τη σημερωμενία, όσο θυμάμαι είναι 30 Ιουνίου η προθεσμία για να παραδώσετε την εργασία. Η οποία την είχα αναρτήσει, αν θυμάμαι καλά την τρίτη που μας πέρασε, τρέχει δηλαδή, μπορεί να την πάρετε να την κάνετε με βάση τα τρία εργαστήρια που κάναμε στο SPSS και θα πρέπει να την παραδώσετε ηλεκτρονικά μέσω της ιστοσελίδας του e-TIMI, του συστήματος που έχει εκεί πέρα για την παράδοση την ηλεκτρονική. Θα κλείσει το σύστημα 30 του μηνός, οπότε δεν μπορεί να την παραδώσετε μετά. Για αυτούς που έχουν επιλέξει ή θα επιλέξουν θεματικές εργασίες, μέχρι 30 του μηνός θα πρέπει να μου στείλουν ηλεκτρονική παρουσίαση σε ό,τι την έχουνε βάλει, σε PDF, σε PowerPoint κτλ. Και την επόμενη μέρα, πρώτη του μηνός, θα βρεθούμε μάλλον εδώ, αν δεν έχει εξετάσεις, θα γράψω στο διαδίκτυο στην ιστοσελίδα πού θα γίνει η συνάντηση. Είστε όλοι ευπρόσδικτοι βέβαια και αυτοί που δεν παρουσιάσετε και να κάνετε και ερωτήσεις, γιατί όπως βλέπετε είναι πολύ ενδιαφέρον το θέμα. Σας ευχαριστώ για την παρουσία μέχρι τώρα. |