Big Data (Μεγάλα Δεδομένα): Προκλήσεις και Υποσχέσεις | Minos Garofalakis | TEDxChania /

: Είναι μεγάλη μου χαρά που είμαι εδώ σήμερα να σας μιλήσω για μια ερευνητική περιοχή, στην οποία δουλεύω εδώ για και αρκετά χρόνια, την περιοχή των μεγάλων δομένων, η big data. Είναι μεγάλη μου χαρά που είμαι εδώ σήμερα να σας μιλήσω για μια ερευνητική περιοχή, στην οποία δουλεύω εδώ για και αρκετά...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Γλώσσα:el
Φορέας:TEDx Chania
Μορφή:Video
Είδος:Μαρτυρίες/Συνεντεύξεις
Συλλογή: /
Ημερομηνία έκδοσης: TEDxChania 2016
Θέματα:
Διαθέσιμο Online:https://www.youtube.com/watch?v=lnTS3gKOYKo&list=PLSuMvwOBeqn2sshMPAZh_fBafGqXD3us5
Απομαγνητοφώνηση
: Είναι μεγάλη μου χαρά που είμαι εδώ σήμερα να σας μιλήσω για μια ερευνητική περιοχή, στην οποία δουλεύω εδώ για και αρκετά χρόνια, την περιοχή των μεγάλων δομένων, η big data. Είναι μεγάλη μου χαρά που είμαι εδώ σήμερα να σας μιλήσω για μια ερευνητική περιοχή, στην οποία δουλεύω εδώ για και αρκετά χρόνια, την περιοχή των μεγάλων δομένων, η big data. Είναι μεγάλη μου χαρά που είμαι εδώ σήμερα να σας μιλήσω για μια ερευνητική περιοχή, στην οποία δουλεύω εδώ για και αρκετά χρόνια, την περιοχή των μεγάλων δομένων, η big data. Και να μοιραστώ λίγο μαζί σας κάποιες από τις μεγάλες προκλήσεις που εισάγει αυτή η περιοχή. Πολλά από τα προβλήματα αυτά που θα συζητήσουμε, ίσως σε πρώτη φάση να σας φαίνονταν αδύνατα, εξού και ο παραλυσμός με το τετραγωνισμό του κύκλου. Είναι λοιπόν μια περιοχή που έχει τεράστιες ερευνητικές προκλήσεις, η οποία θα μας δίνει τη ζωή μας στο μέλλον. Ωραία. Καταρχάς μιλάμε για δεδομένα. Και ας είμαστε στην ίδια σελίδα σε ό,τι αφορά τι είναι τα δεδομένα. Δεδομένα είναι, βασικά, πληροφορία την οποία μπορούμε να ψηφιοποιήσουμε και να αποθηκεύσουμε και να επεξεργαστούμε σε έναν ηλεκτρονικό υπολογιστή. Όπως ξέρετε, σήμερα πλέον λίγες είναι οι πληροφορίες που δεν μπορούμε να ψηφιοποιήσουμε και να αποθηκεύσουμε σε έναν επεξεργαστή. Πέρα από αριθμούς, κείμενα, προγράμματα και τα λοιπά, μπορούμε να αποθηκεύσουμε σχεδόν τα πάντα. Φωτογραφίες, βίντεο, ήχους, ταινίες. Όλα αυτά είναι δεδομένα. Και όταν μιλάμε για δεδομένα σε ψηφιακούς υπολογιστές, όπως ξέρετε οι ψηφιακοί υπολογιστές είναι γένοι χαζά μηχανήματα, το μόνο που καταλαβαίνουν είναι μηδενικά και άσως. Και η βασική μονάδα πληροφορίας σε ένα υπολογιστή είναι το bit, που είναι είτε ένα μηδενικό, είτε ένα ασάσος, και το byte είναι απλά μια ομαδοποίηση 8 bits, η οποία αποθηκεύει βασικά ένα χαρακτήρα. Έτσι, ένα byte λοιπόν είναι η μονάδα αποθήκευση ενός χαρακτήρας σε ένα υπολογιστή. Τι είναι λοιπόν τα μεγάλα δεδομένα. Τα μεγάλα δεδομένα είναι ένα σύγχρονο φαινόμενο. Ξεκίνησε στα τελείς δεκαετίες του 90, όταν υπήρξε η έκρηξη του διαδικτύου και του παγκοσμίου ιστού. Και ειδικά την τελευταία δεκαετία αυτό που παρατηρούμε είναι πραγματικά μια έκρηξη στο νόκο των δεδομένων, που σαν ανθρώπινο γένος παράγουμε και αποθηκεύουμε. Ωραία. Αυτό που έκανε βασικά το internet και άλλαξε τη ζωή μας, είναι ότι μας έκανε όλους από καταναλωτές δεδομένων, γιατί κατά βάση μέχρι τότε ήμασταν όλοι καταναλωτές. Διαβάζαμε, αλλά δεν ήμασταν παραγωγοί. Με το internet πλέον είμαστε όλοι μας και παραγωγοί δεδομένοι. Σκεφτείτε την καθημερινότητά σας. Κάθε μέρα, όταν μπείτε στο internet, όταν χρησιμοποιείτε το smartphone σας, όταν μπαίνετε στα μέσα κοινωνικής δικτύωσης, Facebook, Twitter, LinkedIn, Instagram, Flickr, όλα αυτά, κάθε τέτοια χρήση που κάνετε ουσιαστικά αφήνεται πίσω σας ένα ψηφιακό ύχνος. Και αυτό το ψηφιακό ύχνος, είτε το θέλετε είτε όχι, αποθηκεύεται. Είναι δεδομένα τα οποία αποθηκεύονται, όχι κατά ανάγκη στο δικό σας υπολογιστή, μπορεί να αποθηκεύονται κάπου αλλού, κάπου έξω, θα το δούμε λίγο αυτό. Αλλά ουσιαστικά παράγεται ένα ψηφιακό ύχνος, ψηφιακή πληροφορία, και πλέον σε μια μελέτη που έγινε το 2008 έδειξε ότι πάνω από το 95% της ανθρώπινης γνώσης είναι πλέον σε ψηφιακή μορφή. Δηλαδή, σε εδών όλη μας η γνώση είναι πλέον ψηφιοποιημένη. Είναι αποθηκευμένη σε υπολογιστές. Και η γνώση αυτή διαρκώς αυξάνεται. Αυτή η ψηφιακή πληροφορία αυξάνεται μεταγδαίως ρυθμούς. Υπάρχει μια διάσημη ρύση του Eric Smith, ο οποίος ήταν ο... Αυτό που είπε ο Eric Smith το 2010, και το οποίο προφανώς είναι ακόμη πιο έντονο σήμερα, είναι ότι από την αρχή του ανθρώπινου πολιτισμού, από της αυγίας του ανθρώπινου πολιτισμού, μέχρι το 2003, η ανθρωπότητα είχε δημιουργήσει 5-6 bytes πληροφορίας. Τι είναι το 6 byte? Είναι πολλά bytes. Τι είναι το 6 byte λοιπόν, ένα 6 byte είναι 10-18 bytes. Είναι λοιπόν ένας Άσος ακολουθούμενος από 18 μηδενικά, ένα δισεκατομμύριο δισεκατομμύρια bytes. Ένα δισεκατομμύριο λοιπόν, δισεκατομμύρια χαρακτήρες. Αν θέλετε να το αποκονίσετε αυτό σε βίντεο, ας πούμε πόσο βίντεο μπορώ να αποθηκεύσω, υψηλής πιστότητας DVD βίντεο μπορώ να αποθηκεύσω σε ένα 6 byte, βασικά περίπου 50 χιλιάδες χρόνια DVD βίντεο. Είναι πολύ πληροφορία. Και αυτό που είπε λοιπόν ο Eric Smith ήταν ότι ενώ είχαμε δημιουργήσει 5-6 bytes από την αρχή του πολιτισμού μέχρι το 2003, σήμερα παράγουμε 5-6 bytes πληροφορίας κάθε 2 μέρες. Και ο ρυθμός αυτός διαρκώς αυξάνεται. Είμαστε λοιπόν αντιμέτωποι με ένα τσουνάμι δεδομένων. Έχουμε λοιπόν μια έκρηξη των δεδομένων. Τα δεδομένα γίνονται ολοένα και πιο μεγάλα. Και αυτό το είχε παρατηρήσει και ένας διάσημος μαθηματικός και φιλόσοφος ο Fuller, ο οποίος είχε μελετήσει την καλούμενη καμπύλη γνώσης. Τι μελέτησε λοιπόν ο Fuller? Μελέτησε σε πόσο χρονικό διάστημα η ανθρωπότητα διπλασιάζει τη γνώση της. Και αυτό που είχε παρατηρήσει λοιπόν, αυτό που έδειξε ο Fuller, είναι ότι μέχρι το 1900 η γνώση διπλασιαζόταν περίπου κάθε αιώνα. Δηλαδή κάθε 100 χρόνια που περνούσαν, το ποσό της ανθρώπινης γνώσης διπλασιαζόταν. Στο τέλος του Δευτέρου Παγκοσμίου ο ρυθμός είχε αυξηθεί. Η γνώση μας διπλασιαζόταν κάθε 25 χρόνια. Μπορεί κανείς να φανταστεί πόσο γρήγορα διπλασιάζει τη γνώση μας σήμερα? Τέσσερα χρόνια? Δώδεκα μήνες. Κάθε δώδεκα μήνες λοιπόν, το ποσό της ανθρώπινης γνώσης διπλασιάζεται. Βλέπετε λοιπόν ότι ενώ η αύξηση γνώσης ήταν περίπου γραμμική μέχρι τα μέσα του 20ου αιώνα, πλέον έχει αρχίσει να παίρνει μια εκθετική μορφή. Δηλαδή ο όγκος των δεδομένων, ο όγκος της γνώσης, ο όγκος της πληροφορίας που συλλέγουμε σαν ανθρώπινο γένος, πλέον αυξάνεται με εκρυκτικούς ρυθμούς. Και για να σας το κάνω ακόμα πιο έντονο, αυτή είναι μια από τις αγμένες μου φωτογραφίες, που ουσιαστικά επικονίζει τι γίνεται στο σημερινό ίντερνετ κάθε 60 δευτερόλεπτα. Τι συμβαίνει λοιπόν στο ίντερνετ κάθε 60 δευτερόλεπτα. Και απλά έχω απομονώσει κάποια στοιχεία, αλλά αξίζει κανείς να τη διαβάσει όλη την εικόνα. Τι συμβαίνει λοιπόν κάθε 60 δευτερόλεπτα. Στο Facebook ανεβάζουμε 350 GB πληροφορίας. Στο YouTube ανεβάζουμε περίπου 72 ώρες βίντεο κάθε 60 δευτερόλεπτα. Και τυκλοφορούν, φεύγουν περίπου 204 εκατομμύρια e-mails. Και πάλι κάθε 60 δευτερόλεπτα. Περίπου 2 εκατομμύρια αναζητήσεις Google, περίπου 571 καινούργια website στείνονται και το καθεξής. Βλέπετε λοιπόν ότι η έκρηξη αυτών των εδομένων, το tsunami αυτών των εδομένων, γίνεται ολοένα και πιο έντονο. Μίλησα για τα 6 bytes και ίσως σε κάποιους να ακούστηκε μεγάλο, σαν ποσό πληροφορίες, έτσι. Υπάρχουν και πράγματα πολύ πιο πάνω από τα 6 bytes, έτσι. Και πλέον ο όγγος της ψηφιακής πληροφορίας που έχουμε συλλέξει σαν ανθρώπινο γένος, στο ψηφιακό μας σύμπαν, είναι πλέον στην τάξη του ytabyte. Τι είναι το ytabyte? Το ytabyte είναι 10 στη 24η bytes. Ουσιαστικά λοιπόν το πληροφορίες είναι 10 στη 24η. Ουσιαστικά λοιπόν ένα εκατομμύριο 6 bytes. Και αν θέλετε να αποθηκεύσετε αυτή την πληροφορία σε DVDs, θα χρειαζόσασταν 253 εκατομμύρια DVDs. Τι σημαίνει 253 εκατομμύρια DVDs? Σημαίνει ότι αν τα έβγαζα από τη δίκη τους και τα στήβαζα το ένα πάνω στο άλλο, έτσι, θα μπορούσα να καλύψω την απόσταση της γης από τη σελήνη, όχι μία ή δύο, αλλά πάνω από 600 φορές. Μιλάμε λοιπόν για πολλά DVDs, μιλάμε για πολλή πληροφορία. Ωραία, έχουμε λοιπόν πολλά δεδομένα. Ποιο είναι το πρόβλημα? Το αποθηκευτικό κόστος? Όχι. Το αποθηκευτικό κόστος γενικά είναι μικρό. Και αυτός είναι άλλωστε και ένας λόγος που αποθηκεύουμε όλη αυτή την πληροφορία. Έχουμε λοιπόν τα τελευταία χρόνια μία δραματική μίωση του κόστους του να αποθηκεύσουμε πληροφορία ανα byte, σε σχέση με το πώς ξεκινήσαμε. Είδα μια ομιλία το πρωί που κάποιος μιλούσε για προσωπικούς υπολογιστές. Την εποχή λοιπόν εκείνη, το 1985, η ονειρική μηχανή να έχει κανείς σαν προσωπικός υπολογιστής, ήταν το IBM PC. Ήταν ό,τι καλύτερο μπορούσες να έχεις στο γραφείο σου. Και είναι αυτό εδώ το πράγμα, το τεράστιο, το οποίο πήγαινε σε ένα μαγαζί, το αγόρασες, κόστιζε πάνω από 1.000 ευρώ και ερχόταν με σκληρό δίσκο 10 MB. Το κορυφαίο μοντέλο είχε 10 MB σκληρό δίσκο. Και θυμάμαι τότε ότι σκεφτόμασταν 10 MB. 10 εκατομμύρια χαρακτήρες. Δεν υπάρχει ποτέ περίπτωση να το γεμίσω αυτό το πράγμα. Σήμερα έχετε τέτοιες συσκευούλες που έρχονται με 64 GB. Τι σημαίνει αυτό? Σημαίνει 6.5 χιλιάδες φορές την αποθηκευτική ικανότητα ενός IBM PC και εκατοντάδες ή χιλιάδες φορές μεγαλύτερη επεξεργαστική ικανότητα. Πιο γρήγορους επεξεργαστές. Το κόστος λοιπόν που το αποθηκεύεις στην πληροφορία και η ικανότητά μας να αποθηκεύουμε πληροφορία έχει ανέβει επίσης εκθετικά. Μπορείτε σήμερα να μπείτε σε ένα κατάστημα ελεκτρονικών και με περίπου 80 ευρώ να πάρετε ένα δίσκο 3 TB. Τι είναι 3 TB? 3 TB είναι περίπου 300.000 IBM PC. Δηλαδή έχετε την αποθηκευτική ικανότητα που είχατε σε 300.000 τέτοια μηχανάκι. Μπορούμε λοιπόν να την αποθηκεύσουμε αυτή την πληροφορία. Το κόστος δεν είναι μεγάλο. Ποιο είναι το πρόβλημα όμως? Το πρόβλημα είναι πώς βρίσκεις κάτι χρήσιμο από όλη αυτή την πληροφορία. Πώς την επεξεργάζεσαι, πώς την αναλύεις όλη αυτή την πληροφορία. Κι αυτό υπάρχει μια πολύ διάσημη ρύση του John Isbit πριν δεκαετίες, το 1982, αλλά είναι σίγουρα πολύ επίκαιρη σήμερα. Ο οποίος είχε πει τότε το 82 ότι πνιγόμαστε σε πληροφορίες, αλλά διψάμε για γνώση. Έχουμε λοιπόν πάρα πολύ πληροφορία, αλλά η χρήσιμη γνώση που μπορούμε να εξάγουμε από αυτήν είναι πολύ δύσκολα να την βρούμε. Και ειδικά στην περίοδο των μεγάλων δεδομένων, το να βρεις αυτήν την χρήσιμη γνώση, είναι η καλύτερη πρόκληση που αντιμετωπίζουμε σαν άνθρωποι της πληροφορικής σήμερα. Πώς μπορούμε να βρούμε χρήσιμη γνώση, κανόνες, μοντέλα από μεγάλα δεδομένα. Τι πάει να πει κανόνες, σκεφτείτε για παράδειγμα την Google. Η Google συλλέγει τεράστιους όγκους δεδομένων κάθε μέρα. Με εσάς σαν χρήστη, στις αναζητήσεις σας, στον τρόπο που χρησιμοποιείτε το Gmail και το καθεξής. Θέλει λοιπόν να χρησιμοποιήσει αυτά τα μεγάλα δεδομένα για να καταλάβει τι σας αρέσει προκειμένου να σας σπρώξει τις κατάλληλες δευθυμίσεις. Αυτό είναι χρήσιμη γνώση για την Google και είναι η δουλειά της. Έτσι επιβιώνει σαν εταιρεία. Πώς λοιπόν από αυτό το τεράστιο όγκο δεδομένων που συλλέγει για κάθε χρήστη, μπορεί να εξάγει γνώση για το τι αρέσει στον κάθε χρήστη, ώστε να του σπρώξει τις κατάλληλες δευθυμίσεις. Είναι ένα big data πρόβλημα. Το να επεξεργασίσεις τα big data, ακριβώς λόγω του όγκου των δεδομένων, είναι ένα τεράστιο θέμα. Απλά και μόνο, ας σκεφτείτε ότι είμαι μια εταιρεία, έχω πάρει τους σκληρούς μου δίσκους, έδωσα το 80 μου ευρώ, πήρα ένα δίσκο 3TB και έχω βγάλει ένα καινούργιο προϊόν και θέλω να δω πώς αντιδράει ο κόσμος σε αυτό το προϊόν. Τι θα κάνω λοιπόν, θα φτιάξω ένα πρόγραμμα το οποίο θα βγαίνει έξω, θα κατεβάζει στο σελίδες, στο σκληρό μου δίσκο, τις οποίες μπορώ να τις αναλύσω μετά για να δω τις αντιδράσεις που έχει ο κόσμος στο προϊόν. Ωραία. Τέτοια προγράμματα υπάρχουν ήδη αυτοματοποιημένα, χρησιμοποιούνται από πολλοί κόσμο, από πολλές εταιρείας, έτσι μπορείτε να το κατεβάσετε, είναι έτοιμα προγράμματα και απλά ουσιαστικά αυτό που κάνουν είναι διανύουν το διαδίκτυο και κατεβάζουν πληροφορίες στο δίσκο σας. Μπορείτε να γεμίσετε ένα δίσκο τρία τεραμπάιτς στο AppSysVisa. Το ρίτμα είναι ότι τι θα κάνουμε αυτά τα δεδομένα, θέλω να τα αναλύσω, να βρω την πληροφορία που με ενδιαφέρει. Μόνο και μόνο να διαβάσεις τα τρία τεραμπάιτς από το δίσκο θα σου πάρει τρισίμισι μέρες. Απλά και μόνο να τα διαβάσεις, έτσι, όχι να τα επεξεργαστείς. Άρα έχουμε ένα μεγάλο θέμα στο τι αφορά το χρόνο. Πώς μπορούμε να επεξεργαστούμε τα μεγάλα δεδομένα σε εύλογο χρόνο, να έχουμε εγκαίρως τα συμπεράσματα που θέλουμε. Και η λύση που χρησιμοποιούν οι μεγάλες εταιρείες είναι ο παραλληλισμός. Δηλαδή, δεν θα χρησιμοποιήσουμε ένα δίσκο, θα χρησιμοποιήσουμε χιλιάδες δίσκους, χιλιάδες CPU, χιλιάδες επεξεργαστές, έτσι ώστε να μπορέσουμε να κάνουμε την ανάλυσή μας πάνω σε πραγματικά μεγάλα δεδομένα. Και από εσάς έχετε ακούσει για τα data centers, τα κέντρα δεδομένων, οι μεγάλες εταιρείες όπως η Facebook, η Google, η Amazon, ουσιαστικά έχουν δεκάδες τέτοια κέντρα δεδομένων, data centers, τα οποία είναι σπαρμένα ανατινηφίλειο. Και ένα μεγάλο data center μπορεί να έχει πάνω από 100.000 υπολογιστές. Εδώ είναι μια φωτογραφία από ένα data center της Google στην Αμερική. Κάθε ένα τέτοιο ράφι που βλέπετε εδώ είναι βασικά τέσσερις πλήρεις υπολογιστές. Με CPU, με σκληρό δίσκο, τα πάντα. Και τα μεγάλα data centers, όπως σας είπα, της Google έχουν πάνω από 100.000 υπολογιστές. Και προφανώς αυτό που το οποίο κάνουν είναι ότι έχουν την ανάλυση την οποία θέλουν να κάνουν και έχουν αυτοματοποιημένες λύσεις, οι οποίες παίρνουν την ανάλυση και τη διαμοιράζουν με αυτόματο τρόπο σε όλα τα μηχανάκια. Άρα δεν είναι κάτι το οποίο το κάνουν με το χέρι, έχουν αυτοματοποιημένες λύσεις που αποθηκεύουν τα big data τους, έχουν την ανάλυση που θέλουν να κάνουν και με αυτοματοποιημένο τρόπο κάνουν όλα αυτά τα 100.000 μηχανάκια να δουλεύουν πάνω σε αυτό τη συγκεκριμένη ανάλυση. Άρα για τις μεγάλες εταιρίες, όπως την Google και την Amazon, υπάρχει τρόπος να διαχειριστούν τα μεγάλα εδομένα. Για μας, τους κοινούς στην Ιτούς, υπάρχει κάποιος τρόπος να μπορέσουμε να δουλέψουμε με μεγάλα εδομένα. Εγώ με την εταιρεία μου και έχω τα τέρα μπάτια των εδομένων που έχω συλλέξει, μπορώ να τα αναλύσω με κάποιο τρόπο. Ευτυχώς υπάρχει τρόπος και ο τρόπος αυτός είναι τα υπολογιστικά ανέφη. Η τεχνολογία αυτή υπάρχει αρκετό καιρό, πρόσφατα έχει γίνει αρκετά πιο δημοφιλής με το όνομα cloud computing. Και αν έχετε χρησιμοποιήσει ποτέ το iCloud ή το Google Drive ή το Dropbox, έχετε χρησιμοποιήσει cloud computing. Είστε χρήστες του cloud computing. Ποια είναι η βασική ιδέα του cloud computing? Η ιδέα είναι ότι θα παρέχει, το νέφος λοιπόν, θα παρέχει την δυνατότητα να αποθηκεύσεις και να επεξεργαστείς δεδομένα σαν υπηρεσία. Και ο τρόπος που μου αρέσει να το εξηγώ αυτός στους πρωταϊτής φοιτητές μας είναι ότι σκεφτείτε το μοντέλο της DI. Η DI είναι ένας παροχός ο οποίος σου παρέχει ρεύμα. Σκεφτείτε ένα μοντέλο της DI, αλλά όχι για ρεύμα, αλλά για σκληρούς δίσκους και CPU και επεξεργαστές. Το σημερινό μοντέλο είναι τελείως ανυπόστατο. Ουσιαστικά αυτό το οποίο έχεις είναι κάθε εταιρία, έχει το δικό της υπολογιστικό κέντρο. Εγώ σαν χρήστης έχω το δικό μου υπολογιστή, πρέπει να τον στήσω, να τον συνδέσω στο ίντερνετ, να πάρω το λογισμικό, να τον συντηρήσω όταν έχει κάποια βλάβη. Είναι σαν να στήνω βασικά μια mini DI σε κάθε σπίτι ή σε κάθε επιχείρηση. Το μοντέλο του Cloud Computing είναι πολύ καλύτερο, πιστεύω. Εντάξει και αυτό πιστεύω ότι θα επικρατήσει. Ουσιαστικά αυτό το οποίο θα γίνει είναι ότι θα έχεις ένα παροχό νέφος, και πάλι σκεφτείτε όπως τη DI, ο οποίος όταν έχεις ανάγκη να χρησιμοποιήσεις αποθήκευση και όταν έχεις ανάγκη να χρησιμοποιήσεις επεξεργαστική δύναμη, θα στη δίνει, θα στη νοικιάζει, με προφανώς χρέωση με βάση του τι χρησιμοποιείς. Οπότε μπορώ να πάω και να πω θέλω να χρησιμοποιήσω 2-5 bytes χώρο και 100 μηχανάκια για να κάνω την αναλυσί μου. Και αυτό δεν είναι αερολογία, είναι κάτι το οποίο ήδη υπάρχει και αν πάτε σε αυτό το site, το Amazon Web Services εδώ, μπορείτε μέσω ενός ωραίου interface που σας δίνει η Amazon να νικιάσετε και αποθηκευτική ικανότητα και CPU χρόνου πάνω στο νέφος της Amazon. Και είναι κάτι, για παράδειγμα, που εμείς σαν εργαστήριο το έχουμε ήδη κάνει πολλές φορές για ανάλυση μεγάλα δεδομένα. Μιλήσαμε λοιπόν για τα μεγάλα δεδομένα, είδαμε ότι μπορούμε να τα αποθηκεύσουμε, υπάρχει τρόπος να τα επεξεργαστούμε, αν δεν έχουμε τις εγκαταστάσεις που χρειάζεται να χρησιμοποιήσουμε κάποιο νέφος. Τι μπορούμε να κάνουμε με αυτά τα μεγάλα δεδομένα, γιατί υπάρχει τόσο στόριβος γύρω από τα μεγάλα δεδομένα, τι μπορούν να μας προσφέρουν. Εδώ υπάρχουν πάρα πολλά projects και απλά διάλεξα ένα το οποίο πιστεύω ότι είναι ιδιαίτερα εντυπωσιακό. Και το project λέγεται Google Brain, είναι ένα project της Google και ο στόχος τους είναι να χρησιμοποιήσουν μεγάλα δεδομένα προκειμένου να φτιάξουν έξυπνες μηχανές, έξυπνα υπολογιστικά συστήματα. Αυτό το όραμα του AI, του Artificial Intelligence, τεχνητή νοημοσύνη, πώς κάνω μια μηχανή έξυπνη. Το πρόβλημα το οποίο προσπαθούν να λύσουν είναι να χρησιμοποιήσω μεγάλα δεδομένα, έτσι ώστε να φτιάξω ακριβή μοντέλα, νοήμονα μοντέλα για δύσκολα προβλήματα. Και ο τρόπος με το οποίο το κάνουν, αυτό χρησιμοποιούν τεχνικές οι οποίες ήδη υπήρχαν, αυτές οι τεχνικές της βαθιάς μάθησης, deep learning, ήδη υπήρχαν αλλά για πρώτη φορά εφαρμόστηκαν σε τέτοια κλίμακα, σε τέτοια κλίμακα δεδομένου. Και ένα ιδιαίτερο εντυπωσιακό αποτέλεσμα το οποίο παρουσιάστηκε πρόσφατα έδειξαν πώς μπορούν να πάρουν μια φωτογραφία, μια ψηφιακή φωτογραφία και το πρόγραμμα που δεν έχει ξαναδεί ποτέ και η μηχανή βασικά να μπορέσει να περιγράψει τι είναι μέσα αυτή τη φωτογραφία. Αυτό αν μιλήσετε σε άνθρωπο που κάνει τεχνητή νοημοσύνη θα σας πω ότι είναι αδύνατο πρόβλημα. Δηλαδή μέχρι πριν λίγα χρόνια αυτό το πρόβλημα θα λέει κανείς ότι δεν λύνεται. Αυτό που έδειξαν λοιπόν οι άνθρωποι της Google χρησιμοποιώντας μεγάλα δεδομένα βασικά κατέβασαν δισεκατομμύρια φωτογραφίες από το YouTube, από το Flickr, από το διαδίκτυο και τα χρησιμοποίησαν για να μάθουν ένα μοντέλο για τα περιεχόμενα των φωτογραφιών. Και το μοντέλο τους έδωσε πραγματικά εντυπωσιακά αποτελέσματα. Για παράδειγμα, σε αυτήν εδώ τη φωτογραφία, ο ανθρώπινος ειδικός, η περιγραφή που έδωσε είναι ότι έχουμε ένα νεαρό κορίτσι που κοιμάται στον καναπέ αγκαλιάζοντας ένα λούτρινο αρκοδάκι. Οι δύο κορυφές περιγραφές που τους έδωσε το μοντέλο τους, και πάλι χωρίς να έχει ξαναδεί ποτέ αυτή τη φωτογραφία, ήταν οι εξής. Μια κοντινή φωτογραφία ενός παιδιού που κρατάει ένα λούτρινο ζωάκι. Η δεύτερη, καλύτερη, ήταν ένα μωρό το οποίο κοιμάται δίπλα σε ένα λούτρινο αρκουδάκι. Βλέπετε λοιπόν εκπληκτική ακρίβεια, έτσι. Προφανώς σε μερικές φωτογραφίες το μοντέλο δεν μπορεί να είναι τόσο ακριβές όσο ο ανθρώπινος χρήστης. Για παράδειγμα σε αυτή τη φωτογραφία ο ανθρώπινος ειδικός είπε ότι έχουμε έναν ταινίστα ο οποίος ετοιμάζεται να σερβίρει την μπάλα. Ενώ το μοντέλο είπε απλά ότι βλέπουμε έναν άντρα να κρατάει μια ρακέτα τέννης σε ένα γήπεδο του τέννης. Είναι πολύ πιο γενικό από τι έδωσε ο εξειδικευμένος ο άνθρωπος, έτσι. Παρ' όλα αυτά είναι αρκετά κοντά και τα μοντέλα αυτά γίνονται όλο ένα και πιο ακριβή γιατί όσο περισσότερα δεδομένα τους δίνεις τόσο περισσότερο ακριβή γίνονται. Ένα λοιπόν παράδειγμα εντυπωσιακό για μεγάλα δεδομένα. Ποιο είναι το επόμενο στάδιο για τα μεγάλα δεδομένα κατά την άποψή μου είναι τα μεγάλα δεδομένα στις επιστήμες. Υπάρχει ένα πολύ ενδιαφέρον βιβλίο, αυτό εδώ το βιβλίο το Fourth Paradigm, το οποίο μιλάει, μπορείτε να το κατεβάσετε είναι στο διαδίκτυο, είναι ανοιχτό, το οποίο μιλάει για το πώς τα μεγάλα δεδομένα αλλάζουν τον τρόπο που οι ανθρώπινοι επιστήμονες, οι επιστήμονες βασικά κάνουν τη δουλειά τους, και το πώς έχουμε μια τέταρτη γενιά επιστημονικών ανακαλύψεων. Αν το σκεφτείτε η ανθρώπινη επιστήμη ξεκίνησε σαν εμπειρική επιστήμη. Χίλια χρόνια πριν είχαμε ανθρώπους οι οποίοι κοιτούσαν τηλεσκόπια και προσπαθούσαν να παρατηρούσαν φαινόμενα στο σύμπαν. Τους τελευταίους αιώνες πήγαμε από την εμπειρική επιστήμη στη θεωρητική επιστήμη. Δηλαδή, πλέον είχαμε τις παρατηρήσεις μας, προσπαθούσαμε να εξάγουμε νόμους, κανόνες, εξισώσεις, οι οποίες να περιγράφουν αυτά τα φαινόμενα. Και είχαμε λοιπόν τις εξισώσεις του Maxwell, είχαμε την περίφημη εξίσουση του Einstein, είχαμε τους νόμους του Kepler για την κίνηση και το καθεξής. Τις τελευταίες δεκαετίες αυτό που έγινε ήταν ότι τα μοντέλα αυτά γίναν τόσο πολύπλοκα, που πλέον δεν μπορούσαμε να τα έχουμε σε αναλυτική μορφή να τα επιλύσουμε. Οπότε οι κανόνες και οι εξισώσεις πλέον ήταν πάρα πολύ δύσκολο να κατονοηθούν σε αναλυτική μορφή. Οπότε πήγαμε σε ένα στάδιο υπολογιστικής επιστήμης. Τι σημαίνει αυτό, ότι βασικά τα μοντέλα σου ήταν πλέον τόσο πολύπλοκα, το μόνο που μπορούσες να κάνεις ήταν να τα προγραμματίσεις σε ένα υπολογιστή, να τα προσωμιώσεις και με βάση το τι βλέπεις στην προσωμίωση να εξάγεις κάποια συμπεράσματα, κάποιες ανακαλύψεις. Τώρα είμαστε σε αυτή την τέταρτη γενιά, όπως τη λέμε, αυτό που καλώ εγώ, δεδομενοκεντρική επιστήμη. Έχετε ακούσει τον όρο e-science ή data intensive science, ουσιαστικά αναφερόμαστε σε αυτό. Πλέον αυτό το οποίο γίνεται είναι ότι έχουμε μια συνεχή συλλογή δεδομένων, τα οποία καταλήγουν σε ένα υπολογιστή. Δεν υπάρχουν άνθρωποι πλέον να κοιτάνε τηλεσκόπια. Τα μεγάλα τα τηλεσκόπια αυτό το οποίο κάνουν είναι ότι είναι προγραμματισμένα να σκανάρουν τον ουρανό και συνέχεια παίρνουν φωτογραφίες. Κανείς δεν βλέπει αυτό το τηλεσκόπιο. Οι φωτογραφίες αυτές, ίσως από κάποιο φιλτράρισμα, καταλήγουν σε ένα υπολογιστή. Και ποια είναι η δουλειά του επιστήμονα? Η δουλειά του επιστήμονα είναι να εξερευνήσει και να αναλύσει όλα αυτά τα δεδομένα, προκειμένου να κάνει την επόμενη επιστημονική ανακάλυψη. Άρα η δουλειά του επιστήμονα πια επικεντρώνεται καθαρά πάνω στα δεδομένα, στην ανάλυση των δεδομένων. Έχουμε ήδη δει παραδείγματα όπου αυτή η δεδομενοκεντρική επιστήμη έχει δώσει εντυπωσιακά αποτελέσματα και απλά θα αναφέρω ένα, που ίσως είναι γνωστό σε όλους σας, είναι το πείραμα του CERN. Τι κάνα λοιπόν στο CERN, στήσαν ένα τεράστιο όργανο, αυτό το LHC, το Large Hadron Collider, ο οποίος είναι ένας τεράστιος επιταχυντής οματιδίων. Αυτό είναι σε πραγματική κλίμα, αυτοί είναι άνθρωποι εδώ πέρα, είναι λοιπόν ένας τεράστιος επιταχυντής οματιδίων, μήκος περίπου 25 χιλιομέτρων και αυτό που έκαναν ήταν ότι ουσιαστικά το χρησιμοποιήσαν για επιταχύνουν οματιδία και να έχουν συγκρούσει οματιδίων. Τα δεδομένα τα οποία παράγει το LHC είναι εντυπωσιακά σε όγκο. Κάθε μέρα παίρνει 14 εκατομμύρια φωτογραφίες ένα σε κοντ. Αυτές οι φωτογραφίες δεν τις αποθηκεύουν όλες, αποθηκεύουν όλα αυτές που βλέπουν να έχουν κάποιο ενδιαφέρον, έτσι, αλλά τελικά ο όγκος που παράγεται εξακολουθεί να είναι εντυπωσιακός, είναι πάνω από 30 ΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠΠ Αυτό το κλάουτ λοιπόν χρησιμοποιείται για να αποθηκευθούν και να αναλυθούν τα δεδομένα του SERP. Και τα αποτελέσματα τα έχουμε ήδη δει. Έχετε σίγουρα όλοι σας ακούσει για την ανακάλυψη του Μποζονίου Χίγκς, το 2012 το Σωματίδιο του Θεού. Θεωρεί το μία από τις πιο σημαντικές ανακαλύψεις των τελευταίων δεκαετιών και οδήγησε στο Nobel Φυσικής το 2013. Η ανακάλυψη του Μποζονίου Χίγκς ήταν καθαρά μία δεδομενοκεντρική ανακάλυψη. Για την ανακάλυψη αυτή χρειάστηκε να αναλύσουν πάνω από 800-300 εκατομμύρια συγκρούσεις πρωτονίων με πρωτόνια, το οποίο αντιστοιχούσε σε πάνω από 200 πέτα μπάιτς δεδομένων και μέσα σ' αυτές τις 800-300 εκατομμύρια συγκρούσεις ψάχναν για τις λίγες χιλιάδες υποψήφιες συγκρούσεις, όπου πιθανόν να παρατηρηθεί το Χίγκς Μποζονίου. Εδώ είναι σαν να έχεις 800-300 εκατομμύρια, ψάχνεις λίγες χιλιάδες, η αναλογία είναι ότι έχεις μια πισίνα Ολυμπιακών διαστάσεων γεμάτη με άμμο και ψάχνεις ένα συγκεκριμένο κόκο της άμμου. Τόσο σπάνιο ήταν το φαινόμενο. Ευτυχώς, τέτοιες αναζητήσεις είναι εύκολες για υπολογιστές, εφόσον ξέρεις τι ακριβώς ψάχνεις. Είναι σχετικά εύκολο να το προγραμματίσεις, να δουλέψεις πάνω σε ένα μεγάλο νέφος και πάνω σε τεράστιους όγκους δεδομένων, εφόσον ξέρεις τι ακριβώς ψάχνεις. Επειδή ακριβώς ήξεραν τι ψάχνουν με το Χίγκς Μποζόνιο, είχε πολύ συγκεκριμένα χαρακτήριστικά, ήταν σχετικά εύκολη η ανάλυση των δεδομένων. Θα σας παρουσιάσω δύο κουβέντες μόνο για ένα project το οποίο δουλεύουμε εμείς, στο οποίο δεν είναι τόσο ξεκάθαρα τα πράγματα και είναι το Human Brain Project. Το Human Brain Project είναι μια τεράστια προσπάθεια της Ευρωπαϊκής Ένωσης, η οποία στοχεύει στο να χτιστούν λεπτομερή μοντέλα για τον ανθρώπινο εγκέφαλο και να κατανοήσουμε ακριβώς πώς δουλεύει ο εγκέφαλός μας. Θεωρείται μία από τις μεγαλύτερες επιστημονικές προκλήσεις του 21ου αιώνα και προφανώς θα έχει τεράστια, τεράστες επιδράσεις σε πράγματα όπως την κατανοήση της εγκεφαλικής λειτουργίας, την κατανοήση ασθενειών, την πρόληψη ασθενειών, την πιθανή θεραπεία, καινούργιες μεθόδους θεραπείας και το καθεξής. Είναι μία τεράστια προσπάθεια, πάνω από 135 ιδρύματα σε 26 χώρες, συνολικό funding είναι γύρω στο 1,2 δις για 10 χρόνια, είναι λοιπόν ένα τεράστιο project και δεν είναι μόνο πληροφορικοί που συμμετέχουν, συμμετέχουν γιατροί, συμμετέχουν οι ευρωπιστήμονες, συμμετέχουν άνθρωποι που φτιάχνουν υπολογιστές. Στο project λοιπόν αυτό η ανάλυση των δεδομένων έχει κεντρικό ρόλο. Έχουμε λοιπόν τεράστιους όγκους δεδομένων τα οποία είναι είτε πειραματικά από τους διάφορους ευρωεπιστήμονες, είτε κλινικές μελέτες με πραγματικούς ασθενείς, αλλά ο μεγάλος όγκος πραγματικά θα έρθει από τη λεπτομερή προσομιώση του κεφάλου. Μία από τις μεγάλες προκλήσεις για το project αυτό είναι να χτίσουμε έναν προσομιωτή ο οποίος να προσομιώσει τον ανθρώπινο εγκέφαλο στην πλήρη κλίμα κάτω. Ο ανθρώπινος εγκέφαλος είναι ένα εξαιρετικά πολύπλοκο σύστημα. Αποτελείται από πάνω από 100 δις εκατομμύρια νευρώνες, δηλαδή οι βασικές μονάδες υπολογισμού του κεφάλου είναι πάνω από 100 δις εκατομμύρια νευρώνες και αυτοί οι νευρώνες συνδέονται μεταξύ τους με συνάψεις και έχουμε πάνω από 103 εκατομμύρια συνάψεις. Το να φτάσουμε να προσομιώσουμε αυτό το σύστημα δεν είμαστε καν κοντά σε αυτό το σημείο. Ο στόχος είναι ότι αυτό θα μπορέσει να γίνει σε 10 χρόνια, είμαστε στο δεύτερο έτος του project οπότε μιλάμε για 8 χρόνια, αλλά όταν γίνει αυτό ο ongoing των δεδομένων που θα παράξουν αυτές τις προσομιώσεις είναι της τάξης των 6 bytes, δηλαδή χιλιάδες petabytes, χιλιάδες φορές μεγαλύτερος από τον ongoing που παρήγαγε και παράγει το SERP. Και προφανώς αυτά τα δεδομένα θέλουμε να ψάξουμε για χρήσιμη γνώση. Τι είναι χρήσιμη γνώση, είναι χάρτες εγκεφαλικής λειτουργίας, θέλουμε να φτιάξουμε ένα brain atlas, θέλουμε να βρούμε μοντέλα, πρότυπα, θέλουμε να βρούμε κανόνες για νευρώνες που λειτουργούν μαζί ή λειτουργούν αντίστορφα. Και το ερώτημα είναι πώς θα μπορούμε να τα κάνουμε αυτά, προφανώς σε έγκαιρο χρόνο, έτσι ώστε όταν κάποιος τρέχει το simulation να μπορεί να βλέπει τι πραγματικά συμβαίνει στον ανθρώπινο εγκέφαλο με τα διάφορα ερεθίζματα που του δίνουν. Ωραία. Να κλείσω με κάποια σοβαρά όμως τα οποία υπάρχουν. Σίγουρα τα μεγάλα δεδομένα έχουν τεράστες υποσχέσεις για το μέλλον, αλλά υπάρχουν και κάποια άλλα. Έχω γράψει τα δύο σημαντικότερα για μένα και το πρώτο και σημαντικότερο σίγουρα είναι η προστασία των προσωπικών δεδομένων. Όταν λοιπόν μιλάμε για μεγάλα δεδομένα, ένα μεγάλο πρόβλημα είναι πώς προστατεύουμε τα προσωπικά δεδομένα των χρηστών. Γενικά η ιδέα εδώ είναι ότι με το ψηφιακό ύχνος που αφήνεις, μπορείς να οδηγηθείς σε πληροφορίες για ένα χρήστη, τις οποίες δεν θέλει κανείς να ανακαλύψεις. Και αυτό είναι ένα μεγάλο θέμα, ειδικά όταν μιλάμε για νέφη υπολογιστών, όπου η πληροφορία σου δεν είναι πλέον στον υπολογιστή σου, αλλά είναι εκεί έξω στο νέφος κάπου, δεν ξέρεις ούτε καν που είναι. Και ειδικά σε μεγάλα δεδομένα, γιατί τα μεγάλα δεδομένα σημαίνουν ότι έχεις δεδομένα από πολλές πηγές, κάθε πηγή από μόνη της μπορεί να ανασφαλείς, να μην διαρρέει προσωπική πληροφορία. Αλλά συνδυάζοντας δεδομένα από διάφορες πηγές, μπορείς να παράξεις προσωπική πληροφορία που δεν ήθελε κανείς να καταλάβεις. Και εδώ υπάρχει το κλασικό παράδειγμα στην Αμερική, όπου συνδυάζοντας πληροφορίες από διάφορες πηγές μπορείς να καταλάβουν ότι ένας διάσημος πολιτικός έπασε από καρκίνα. Τέτοιου είδους συμπερασμούς δεν πρέπει να μπορείς να κάνεις. Ένα δεύτερο βασικό θέμα είναι τα στατιστικά θέματα, τα οποία προκύπτουν όταν έχεις τεράστια όγκο δεδομένα. Ποιο είναι το πρόβλημα εδώ είναι ότι τα στατιστικά μοντέλα τα οποία παράγεις μπορεί απλά να παραχθούν λόγω του όγκου. Δηλαδή τα δεδομένα είναι τόσο μεγάλα που βασικά μπορούν να σου πουν ότι θέλεις. Για παράδειγμα, αν έχω δισεκατομμύρια περιπτώσεων καρκίνου, μπορώ να παράξω ένα κανόνα που λέει ότι χωρτοφαγία συνεπάγεται με καρκίνο του εντέρου. Γιατί? Γιατί απλά υπάρχουν τέτοιες περιπτώσεις. Όταν έχεις δισεκατομμύρια περιπτώσεις, μπορεί να επιβεβαιωθεί και αυτός ο κανόνας. Είναι το κλασικό στατιστικό ανέκδοτο ότι όταν έχεις δισεκατομμύρια δισεκατομμυρίων μαϊμούδες μπροστά σε μία τυπογραφική μηχανή να τυπώνουν, κάποια από αυτές θα τυπώσει τα απαντά τους έξπερ. Είναι απλά ο νόμος που λειτουργούν οι πιθανότητες. Υπάρχουν λοιπόν σοβαρά στατιστικά θέματα εδώ και πώς βεβαιώνεσαι ότι οι κανόνες που παράγεις από τα μεγάλα δεδομένα έχουν πραγματική σημασία και οι στατιστικοί ήδη δουλεύουν σε τέτοιους θέματα και περιμένουν ότι θα είναι κάτι το οποίο θα λυθεί στα επόμενα χρόνια. Τέλος να κλείσω. Τα μεγάλα δεδομένα λοιπόν, απλά να σας έδωσα μια πολύ γρήγορη εισαγωγή στην τεχνολογία. Κάποια από τα βασικά θέματα που προκύπτουν είναι εδώ για να μείνουν. Πιστεύω ότι δεν είναι κάτι το οποίο θα αλλάξει, ο όγκος των δεδομένων που αποθηκεύουμε απλά αυξάνεται και ήδη αγγίζουν τις ζωές μας με πάρα πολλούς τρόπους και πιστεύω ότι στο μέλλον θα τις αγγίξουμε με πολλούς περισσότερους. Σας ευχαριστώ πάρα πολύ.