Στόχοι Μελέτης, DNA – Ο φορέας της γενετικής πληροφορίας, Προβλήματα στην αλληλούχιση και μέθοδοι αντιμετώπισης τους, Χρωμοσωμικοί, Γενετικοί, Φυσικοί χάρτες και Χάρτες αλληλουχίας (και Ασκήσεις), Νέα μηχανήματα αλληλούχισης, Συναρμολόγηση και αποθήκευση δεδομένων, To μέλλον των αναλύσεων, Εύρεση γονιδίων στις αλληλουχίες γονιδιωμάτων: Λοιπόν, εδώ ήμασταν. Ασχολούμαστε και συζητάμε αυτή τη στιγμή το τι γίνεται σχετικά με την... Ασχολούμαστε και λέμε το πώς μπορούμε να αλληλουχήσουμε γονιδιώματα. Αυτό που συζητήσαμε όσο προλάβαμε στο προηγούμενο μάθημα ήταν την ιεραρχημένη τεχνική αλληλούχησης. Και είδαμε κάποια βιντεάκια. Για αρχή θα το βάλουμε ξανά αυτό το βιντεάκι να θυμηθείτε λίγο. Ή κάποιος θέλει να μας πει πώς κάνουμε ιεραρχημένη, ποια είναι τα βασικά στοιχεία στην ιεραρχημένη αλληλούχηση. Ποιο είναι το βασικό σημείο το οποίο χρειάζεται να κάνουμε στην ιεραρχημένη αλληλούχηση. Στη ιεραρχημένη αλληλούχηση το πιο βασικό το οποίο χρειάζεται είναι τη χρήση να κάνουμε τους γενετικούς και τους φυσικούς χάρτες. Είναι όλα αυτά τα οποία λέγαμε τόσο καιρό στο μάθημα. Από εκεί και πέρα, όπως φαίνεται εδώ πέρα, αυτό που χρειάζεται είναι να πάρουμε το γονιδιωματικό DNA, να το κόψουμε, να κάνουμε τις βιβλιοθήκες μας, να κάνουμε τα μπάξεις, να κάνουμε τα πλασμίδια μας. Και το πιο σημαντικό είναι αυτό το κομμάτι εδώ πέρα που δημιουργούμε το μονοπάτι αλλαγής της επικάλυψης, ή αλλιώς στα αγγλικά το tiling path. Τι σημαίνει αυτό? Ότι από όλα αυτά τα μπάξ, τα πλασμίδια και τα λοιπά που έχουμε, τα βάζουμε σε μια σειρά ώστε να ξέρουμε τι να διαβάσουμε. Τα έχουμε ήδη βάλει σε μια σειρά και ξέρουμε ποια μπάξ αντιστοιχούν σε ποια χρωμοσώματα, οπότε ήδη έχουμε αρχίσει να τα βάζουμε σε μια σειρά πριν κάνουμε την αλληλούχηση. Βλέπετε δηλαδή εδώ πέρα έχουμε τα χρωμοσώματα, τα κόβουμε και μετά τα βάζουμε σε μια σειρά για να ξέρουμε πώς στατιστικούν στα χρωμοσώματα. Έχουμε δηλαδή την τάξη, έχουμε βάλει μια τάξη σε αυτούς τους χάρτες μας, οπότε μετά μπορούμε να χωρίσουμε τη δουλειά και να πούμε, η Ιαπωνία θα κάνει το χρωμόσωμα 1, η Αγγλία θα κάνει το χρωμόσωμα 2, άρα λοιπόν υπάρχει μια σειρά σε όλο αυτό. Άρα λοιπόν, ποιο είναι τα πλωνεκτήματα και τα ομοιονεκτήματα της κάθε τεχνικής. Αυτή τη στιγμή μιλάμε για την ιεραρχημένη στρατηγική αλληλούχησης και μετά υπάρχει και η συνολική στρατηγική αλληλούχησης. Στην ιεραρχημένη στρατηγική αυτό που χρειάζεται και αυτό είναι το πλωνέκτημα είναι πρώτα από όλα Το βασικό πλωνέκτημα είναι αυτό, είναι πιο εύκολη συναρμολόγηση. Γιατί είναι πιο εύκολη συναρμολόγηση τελική. Γιατί τα έχουμε βάλει ήδη σε μια σειρά τα μπαξ και τα πλασμίδια μας και ξέρουμε περίπου τι γίνεται. Θα το δείτε σε λίγο όταν δούμε και τα βιντεάκια τι γίνεται με τη συνολική στρατηγική, πόσο είναι πολύ πιο δύσκολο. Και ακριβώς επειδή τώρα τα έχουμε βάλει σε μια σειρά χρειαζόμαστε ένα μικρό αριθμό πλασμιδίων ώστε να μπορέσουμε να διαβάσουμε. Δημήτρη σήμερα δεν έχεις όρεξη για μάθημα. Δημήτρη δεν έχεις όρεξη για μάθημα σήμερα. Το μειονέκτημα τώρα ποιο είναι. Το μειονέκτημα είναι ότι για να μπορέσουμε να τα καταφέρουμε όλα αυτά χρειάζεται να ξοδέψουμε πολύ χρόνο και πολύ χρήμα για να μπορέσουμε να τα βάλουμε σε μια σειρά. Εδώ πέρα χρειάζεται να φτιάξουμε φυσικούς και γενετικούς χάρτες. Άρα λοιπόν χρειάζεται να βάλουμε αυτούς τους χάρτες τα μπαξ να τα βάλουμε σε μια σειρά και μετά για το καθένα από αυτά τα μπαξ να φτιάξουμε πλασμυδιακές βιβλιοθήκες τις οποίες θα τις ελέγξουμε σε τι σειρά είναι όλα αυτά τα στοιχεία. Άρα λοιπόν έχουμε αρχικά 15-20.000 μπαξ. Γιατί 15-20.000 μπαξ. Άμα κάνετε τη διαίρεση που είχαμε κάνει, πόσο ανθρώπινο πονηδίωμα δια του ενθέματος μπορεί να πάρει ένα μπακ, τόσο μας βγαίνει. Άρα λοιπόν χρειάζεται να φτιάξουμε πλασμύδια για όλα αυτά τα μπαξ και μετά που είναι μπόλικη δουλειά για να γίνει. Την άλλη είναι η ολική γονιδιωματική στρατηγική. Θα δούμε λίγο το βιντεάκι, θα δούμε μάλλον δύο βιντεάκια για να μπορέσε να θυμηθείτε και το ένα και το άλλο. Αυτό είναι το ανθρώπινο πονηδίωμα. Τα τρία δισεκατομμύρια. Αυτό είναι η αρχημένη προσέγγιση. Αφού κάναμε την αρχημένη προσέγγιση όπου ξέραμε τα διαφορετικά τα κομμάτια που αντιστοιχούσαν με τη βοήθη των γενετικών δικτών, τα χωρίσαμε σε διαφορετικά εργαστήρια. Χρειάζεται να κάνουμε πολλαπλή κάλυψη του γονιδιώματος, άρα λοιπόν χρειάζεται και πολλαπλά αντίγραφα να διαβάσουμε. Τα κομματάκια σπάζουν και ενώνονται για να κάνουν το μεγαλύτερα countings και σε αυτή τη διαδικασία μας βοηθάνε γενετικοί δείκτες. Το πρόβλημα από τις επαναλαμβανόμενες αλληλουχίες είναι αυτό το οποίο δεν μας αφήνει να συμπληρώσουμε κενά. Οπότε βλέπετε τα κομμάτια τα οποία συνεχίζουν να κολυμπάνε ανάμεσα στο υπόλοιπο γονιδίωμα, που είναι αυτά τα κομμάτια τα οποία δεν έχουμε μπορέσει να βάλουμε στη σειρά, τα οποία είναι κυρίως επαναλαμβανόμενο DNA. Όχι, δεν θέλω αυτό. Τώρα θα δούμε την ολική γονιδιοματική προσέγγιση και πώς είναι αυτή σε σύγκριση με την άλλη την προσέγγιση. Χρησιμοποιήθηκε από τη Σελέρα. Κομματάκια τα πάντα. Τα μικρά κομματάκια ανεξάρτα πως είναι ενώνονται σε μεγαλύτερα, χωρίς να ξέρουμε καθόλου τι γίνεται εδώ πέρα. Το πρόβλημα είναι επαναλαμβανόμενες αλληλουχίες πάλι, όπου δεν ξέρουμε πώς να τις ενώσουμε, γιατί δεν έχουμε και καμιά πληροφορία σχετική θέση. Εδώ χρειαζόμαστε πολύ πιο ισχύραιους υπολογιστές για να μπορέσουμε να τα συναμβιολογήσουμε. Και για να τα καταφέρει να συναμβιολογήσει καλύτερα η Σελέρα το γονιδίωμα, χρειάζεται η πληροφορία από τον δημόσιο τομέα που τα είχε βάλει σε κάποια σειρά. Και μετά ξανά το ίδιο. Λοιπόν, η ώρα είναι 9.25 και νομίζω ότι τώρα μπορούμε να είμαστε λίγο πιο ήσυχοι. Λοιπόν, άρα τι θέλουμε. Καταλάβατε λίγο τη διαφορά της μιας προσέγγισης και από την άλλη. Νομίζω είναι πολύ χαρακτηριστικά οπτικά το πώς φαίνεται ένα γονιδίωμα, το οποίο το έχεις σπάσει σε μικρότερα κομμάτια και μετά δουλεύεις σε ένα μικρό κομματάκι, παρά να το έχεις όλο μαζί και να το σπάσεις κομματάκια. Αυτό είναι το μεγάλο πρόβλημα. Αυτό τώρα το οποίο είναι σημαντικό είναι το ότι εδώ πέρα το προσεγγίζουμε λίγο διαφορετικά. Και στην ολική γονιδιωματική το προσεγγίζουμε λίγο διαφορετικά για ποιο λόγο. Χρειαζόμαστε διαφορετικές βιβλιοθήκες σε οποίες όλες θα τις διαβάσουμε. Χρειαζόμαστε και βιβλιοθήκες BACS με ενθέματα περίπου 200.000 βάσεις. Χρειαζόμαστε και πλασμιδιακές βιβλιοθήκες με ενθέματα 10.000 βάσεις. Χρειαζόμαστε και πλασμιδιακές βιβλιοθήκες με θέματα 2.000 βάσεις. Ποια είναι η λογική εδώ πέρα. Χρειαζόμαστε και αυτές τις τρεις της βιβλιοθήκες. Υπενθυμίζω ότι πάντα, όταν διαβάζουμε, διαβάζουμε από αριστερά και από δεξιά. Άρα, σίγουρα εδώ πέρα, για παράδειγμα, όπως είχαμε πει και άλλη φορά στο μάθημα, αυτό που θα χρειαστεί να γίνει είναι ότι θα σπάσουν και θα μπορέσουμε να διαβάσουμε μόνο αριστερά και δεξιά. Δηλαδή τα υπόλοιπα, αν πούμε 600 βάσεις από εδώ και 600 βάσεις από εκεί πέρα, 1000 βάσεις είναι όλο και όλο. Αυτές τις 199 χιλιάδες βάσεις δεν μπορούμε να τις διαβάσουμε. Εδώ πέρα είναι που σας δημιουργείται το ερώτημα τότε γιατί το κάνουμε αυτό το πράγμα. Μπορεί να φανταστεί κανείς. Θα το σητήσουμε αμέσως μετά. Απλώς λίγο σας λέω ότι άντε πες αυτές τις βιβλιοθήκες, διαβάζονται σχεδόν ολόκληρο το κομμάτι. Και εδώ σχετικά διαβάζει μεγάλο κομμάτι, το 10%. Εδώ πέρα τι χρειαζόμαστε αυτές τις αλληλουχίες για να διαβάσουμε. Η απάντηση είναι τις μαζιμοθέσεις συναρμολόγησης. Σκεφτείτε ότι εδώ πέρα στην ολική ογονοδιαματική προσέγγιση δεν έχουμε καμιά πληροφορία όσον αφορά τη σχετική θέση των κλώνων μας. Μα καμιά πληροφορία. Δεν έχουμε καθόλου φυσικούς χάρτες, δεν έχουμε καθόλου γενετικούς χάρτες. Είχαμε μεν στον άνθρωπο αλλά τώρα σας λέω πώς γίνεται σε μια τέτοια προσέγγιση. Το πιο σημαντικό εδώ πέρα είναι να έχεις καλούς υπολογιστές και καλά μοντέλα και καλή βιοπληροφορική για να μπορέσουν τα συναρμολογήσεις. Χρειάζεται και τέτοιες προσεγγίσεις. Γιατί χρειαζόμαστε εδώ πέρα τα μεγάλα τέν θέματα των 100.000 βάσιων. Σκεφτείτε ότι έχουμε τα πλασμιδιάκια μας των 2.000-10.000 βάσιων τα οποία διαβάζουμε. Θα μπορούμε να τα συναρμολογήσουμε και ελπίζοντας ότι δεν έχουμε επαναλευανόμενες περιοχές. Θα μπορέσουμε λοιπόν να ενώσουμε τις μικρές περιοχές που είναι κοντά-κοντά σε μεγαλύτερες. Αν έχουμε τις 100.000 βάσεις εδώ πέρα το ένθεμά μας, 200.000 βάσεις και έχουμε και κάποια πλασμιδιάκια, έστω ότι αυτά μπορούμε να διαβάσουμε ώστε να έχουμε αυτή την περιοχή. Και αυτό λοιπόν έστω ότι αντιστοιχεί εδώ πέρα. Αντίστοιχα μπορεί να έχουμε και άλλες περιοχές εδώ πέρα τις οποίες μπορούμε να τις έχουμε ενώσει. Άρα λοιπόν έχουμε κάνει ένα συναρμολόγημα εδώ πέρα. Μπορεί να μην έχουμε καμιά πληροφορία και να μην έχουμε καταφέρει μόλις αυτές τις συναρμολογίες που έχουμε κάνει από τα μικρά τα πλασμιδιάκια να ενώσουμε αυτή την περιοχή με αυτή την περιοχή. Και εδώ είναι ακριβώς η λογική ότι γι' αυτό μας χρειάζονται τα μεγάλα τα μπακς τα οποία θα τα διαβάσουμε αριστερά και δεξιά. Γιατί? Γιατί άμα μπορέσουμε να βρούμε μια περιοχή εδώ πέρα να διαβάσουμε η οποία αντιστοιχεί σε αυτήν, και μια περιοχή από το ίδιο μπακ που ξέρουμε ότι είναι το ίδιο μπακ, εντάξει, που αντιστοιχεί σε αυτή, τότε εφόσον ξέρουμε ότι αυτή η περιοχή και αυτή η περιοχή έχει προκύψει από αυτό το μπακ, που τι σημαίνει είναι κομμάτι του ίδιου χρωμοσώματος. Άρα αυτό και αυτό αντιστοιχούν στο ίδιο χρωμόσωμα. Είναι μαζί ένα κομμάτι. Άρα λοιπόν και αντίστοιχα και αυτές οι περιοχές και αυτές οι περιοχές, παρόλο που δεν έχουμε μπορέσει να τις ενώσουμε, να τις αρμολογήσουμε μέσα από τα χρωμοσώματα, μέσα από τις αλληλουχίες, εφόσον ξέρουμε ότι αυτό αντιστοιχεί σε αυτό και αυτό αντιστοιχεί σε αυτό, τι κατάλαβαίνουμε αμέσως? Ότι είναι το ίδιο χρωμόσωμα. Δεν ξέρω αν το καταλαβαίνετε αυτό το πράγμα. Το μεγάλο πρόβλημα σε όλη την προσέγγιση είναι η αλληλούχη, είναι η συναρμολόγηση. Στους φυσικούς γενετικούς χάρτες, στην ειραρχημένη προσέγγιση, έχεις κάποια πληροφορία το πώς, αυτό το tiling path που είπαμε, το ελάχιστο μονοπάτι. Στην ολική γωνιδιαματική προσέγγιση να έχεις καμιά πληροφορία σχετικά με τη σχετική θέση των πλασμιδίων και των bugs. Το μόνο που έχεις είναι αλληλουχίες, τις οποίες πρέπει να συναρμολογήσεις. Και πέρα από το πρόβλημα της συναρμολόγησης κομματιών που είναι παραναμπανόμενα, κάποιες φορές δεν δουλεύει κιόλας το σύστημα. Δεν μπορεί να σου δώσει αποτελέσματα. Άρα λοιπόν, αν έχεις τα πλασμίδιά σου και τα έχεις ενώσει πάνω κάτω εδώ και σε κάποια άλλα πλασμίδια κάπου εδώ πέρα, τότε άμα δεις ότι αυτά τα πλασμίδια της τυχούν στην άκρη του ενός bug και αυτά τα πλασμίδια της τυχούν στην άκρη του άλλου bug, τότε αμέσως αμέσως έχεις καταλάβει ότι αυτό το counting που έχει προκύψει από τη συναρμολόγηση αυτών των πλασμιδίων και το counting που αντιστοιχεί στα άλλα τα πλασμίδια, τι αποτελούν ένα νέο κομμάτι. Εσωτερικά, αλληλουχία μπορεί να μην έχεις και αυτό είναι μεγάλο πρόβλημα αλλά είναι συνηθισμένο στα γωνιδιώματα. Τα gaps υπάρχουν έτσι κι αλλιώς, αλλά τουλάχιστον μπορείς να πεις ότι αυτό και αυτό είναι στο ίδιο χρωμόσομα. Εντάξει, το ψηλοκαταλάβατε. Αυτό ακριβώς λέω εδώ πέρα και εδώ πέρα η ερώτηση είναι το κενό πώς θα συμπληρωθεί. Εδώ πέρα, εκείνο το άσπρο το κομμάτι, τι θα κάνουμε, πώς θα το συμπληρωσούμε. Είπαμε από τη μια περίπτωση έχουμε το ένα κομμάτι το counting και από την άλλη το άλλο. Ενδιάμεσα, όλο αυτό το κομμάτι 199.000 βάσεις θα είναι πάντα κενό. Για σκεφτείτε, πάζλ είναι. Τα γωνιδιώματα είναι πάζλ, άμα σας αρέσουν τα πάζλ, τότε μπορείτε λίγο να σκεφτείτε τι κάνετε όταν κάνετε πάζλ. Σκεφτείτε και εδώ πέρα το μυστικό και εδώ είναι η βοήθεια προς εσάς αυτή τη στιγμή, ότι δεν είναι ένα πάζλ το οποίο, όταν κάνετε πάζλ, όλοι σχεδόν, είχατε ένα πάζλ με 500 κομμάτια, σωστά, για παράδειγμα. Αλλά εδώ πέρα στα γωνιδιώματα δεν είναι ένα πάζλ των 500 κομματιών, είναι πολλές φορές το ίδιο πάζλ, δηλαδή είναι 10 φορές το ίδιο πάζλ. Θέλουμε να κάνουμε δεκαπλάσια κάλυψη των γωνιδιώματων, που σημαίνει σαν να έχετε εσείς πάρει ένα πάζλ 500 κομματιών και σας δώσαν οι γονείς σας και 9 φορές το ίδιο πάζλ και τα κομματάκια δεν είναι ακριβώς ίδια, αλλά μπορεί να είναι και διαφορετικά και αυτά τα έχετε ανακατέψει όλα μαζί. Εντάξει. Άρα τώρα αυτό είναι που προσπαθώ να σας βοηθήσω. Άρα λοιπόν αυτό το κενό πώς θα συμπληρωθεί. Ναι, το μικρό σου. Κασιανή. Μέσα του θα μπορέσει να συμπληρώσει από κάποια άλλη περιοχή που θα διαβαστεί. Αυτό είναι το ένα διάβασμα της δεκαπλάσιας κάλυψης. Στη δεύτερη κάλυψη, την τρίτη, την τέταρτη, την πέμπτη θα μπορέσουμε να δούμε αυτή την αλληλουχία, πότε θα το συμπληρώσουμε σιγά σιγά. Ελπίζοντας ότι, που δεν πετυχαίνει πολλές φορές, ελπίζοντας, τώρα αυτό είναι ένα άλλο διαβάσμα, ότι εδώ πέρα θα ενωθούν αυτά, εδώ πέρα κάποια άλλα πλασμίδια, πότε αυτό θα ενωθεί με αυτό και κάποια στιγμή να μπορέσουμε να ενώσουμε αυτό με αυτό, αν να καταλάβουμε ότι αυτό είναι αυτή η περιοχή, αυτό να βρούμε κάπου αλλού και το καθεξής. Δύσκολο είναι αυτό. Δύσκολο γιατί θέλει πάρα πολύ καλό διάβασμα και δεν έχει καμιά πληροφορία. Δηλαδή σκεφτείτε ότι στην αρχημένη προσέγγιση είπαμε τα Bugs τα χωρίσανε σε διαφορετικά εργαστήρια. Ξέρανε σε ποιες πάνω κάτω χρωμοσώματα αντιστοιχούσε το καθένα από αυτά. Και εφόσον ξέρανε, είχαν ήδη μια πληροφορία. Ενώ, άρα λοιπόν, για να το δούμε, ποια είναι τα πλεονεκτήματα της ολικής γροντιωματικής στρατηγικής. Δεν χρειαζόμαστε χάρτες. Δεν ξοδεύουμε χρήματα και χρόνο για να κάνουμε χάρτες. Χρειαζόμαστε όλο και όλο λοιπόν μια Bug και δύο πλασμιδιακές βιβλιοθήκες. Στην αρχημένη προσέγγιση είπαμε ότι χρειάζεται να κάνουμε πλασμιδιακή βιβλιοθήκη για καθένα από τα Bugs. 15-20.000 Bugs. 15-20.000 πλασμιδιακές βιβλιοθήκες. Εδώ πέρα κάνεις τρεις βιβλιοθήκες όλες όλες. Αυτές τρεις βιβλιοθήκες χρειάζεται να διαβάσεις. Άρα λοιπόν το μόνο που χρειάζεσαι είναι να κάνεις καλή πρωτοδιάταξη, ξεχνάς χάρτες και να έχεις καλούς υπολογιστές. Αυτά χρειάζεσαι. Το μειονέκτημα βέβαια είναι ότι πάλι έχεις πρόβλημα τις επαναλαμβανόμενες αλληλουχίες. Και εδώ πέρα είναι πιο έντονο το πρόβλημα. Γιατί είναι πιο έντονο το πρόβλημα εδώ πέρα σε σχέση με την αρχημένη προσέγγιση. Ακριβώς αυτό. Δηλαδή στην αρχημένη προσέγγιση είχες ένα μπάκ που αντιστοιχούσε στο άκρο του μεγάλου βραχείων του χρωμοσώματος 3. Ό,τι επαναλαμβανόμενες αλληλουχίες και να βρήκες εκεί πέρα ήξερες ότι αυτές επαναλαμβανόμενες αλληλουχίες αντιστοιχούν στο μεγάλο άκρο του χρωμοσώματος 3. Στο μεγάλο βραχείωνα. Εδώ πέρα οι επαναλαμβανόμενες αλληλουχίες σου δεν απαραίτητον να είναι μόνο από εκεί πέρα και πουδήποτε άλλο πάνω στα χρωμοσώματα. Άρα λοιπόν έχεις διάφορα προβλήματα που τίποτα είναι αυτά τα προβλήματα. Έστω ότι έχεις αυτή την επαναλαμβανόμενη αλληλουχία. Εδώ πέρα έχεις μοναδική αλληλουχία, εδώ πέρα έχεις μοναδική αλληλουχία. Η επαναλαμβανόμενη αλληλουχία όπως θα τη διαβάσεις ο οποίος όπως είπαμε είναι μπορεί να και πολύ μεγάλη, πολύ παραπάνω από 600 βάσεις. Αν πας να κάνεις συναρμολόγηση μπορεί να ξεκινήσεις να συναρμολόγεις αυτά τα κομμάτια και μετά που λέει ο λόγος μπορείς από εδώ πέρα να πεταχτείς ξαφνικά εδώ πέρα γιατί είναι κομματάκια 600 βάσεων που είναι επαναλαμβανόμενα και να μην ξέρεις τελικά ότι εδώ μέσα έχεις μια επαναλαμβανόμενη περιοχή. Μικρό το κακό. Χάσαμε λίγη περιοχή όσον αφορά επαναλαμβανόμενο DNA. Εδώ όμως μπορεί η επαναλαμβανόμενη περιοχή να είναι μοναδική περιοχή, επαναλαμβανόμενη, μοναδική περιοχή, επαναλαμβανόμενη, μοναδική περιοχή. Και όπως κάνεις στην αρμολόγηση αυτών των περιοχών να ξεκινήσεις να πας από εδώ και από εδώ να πας να κολλήσεις τα κομμάτια σου εδώ πέρα να συναρμολογείς. Τι σημαίνει αυτό αμέσως ότι έχεις χάσει στην αρμολόγησή σου αυτή τη μοναδική περιοχή και μετά αυτή τη μοναδική περιοχή θα την έχεις κάπου σαν άλλο counting να εορείται που την κολλάς σε αυτή την περιοχή τώρα. Και άμα θέλουμε να το κάνουμε ακόμα πιο πολύπλοκο, πώς θα γίνει ακόμα πιο πολύπλοκο, για να συμπερδέψεις ακόμα περισσότερο, μπορεί επειδή δεν έχεις πληροφορία αυτές οι περιοχές από ποια χρωμοσώματα είναι, μπορεί να έχεις μια επαναλαμβανόμενη περιοχή να είναι στο χρωμό σώμα 1 και μια ίδια ακριβώς στο χρωμό σώμα 3 και να κάνεις στην αρμολόγηση μοναδικές περιοχές από το χρωμό σώμα 1 να τις ενώσεις με το χρωμό σώμα 3. Και μετά αρχίζουν να σου γίνονται ακόμα περισσότερο το μπέρδεμα στο τελικό αποτέλεσμα. Το καταλαβαίνετε? Γιατί είναι επαναλαμβανόμενης περιοχής της οποίας τις διαβάζεις λίγο-λίγο. Αυτά είναι τα προβλήματα της αλληλούχησης. Όπως λέει εδώ πέρα, βεβαίως, και το είπα στο βιντεάκι, δεν ξέρω αν σας έμεινε, ακριβώς επειδή η σελέρα είχε πολύ πρόβλημα με το επαναλαμβανόμενο DNA και δεν ήξερε τι να κάνει και πώς να συμπερώσει τα κενά, τι έκανα για να είναι έξυπνη, χρησιμοποίησε και την πληροφορία που ήταν δημόσια διαθέσιμη από την αρχημένη προσέγγιση της δημόσιας προσέγγισης για να μπορέσει να φτάσει στην καλή συναρμολόγηση του ανθρώπινου γονιδιώματος. Οι προσεγγίσεις ολικές γονιδιωματικές έχουν αυτό το πρόβλημα. Χρειάζεσαι λίγο από φυσική χαρτογράφηση για να μπορέσεις να τα καταφέρεις, οπότε γι' αυτό κατάφερε και η σελέρα να δημοσιεύσει το ανθρώπινο γονιδίωμα, χρησιμοποιώντας υποτιθέμεναι αποκλειστικά ολική γονιδιωματική. Πολύ απλά, τι χρειάζεται λοιπόν στην ολική γονιδιωματική προσέγγιση. Έχεις τις διάφορα διαβάσματα, ανάγνωση, όπως το λέει το κάθε βιβλίο, εγώ το λέω διάβασμα. Στα αγγλικά πώς το λέμε αυτό. Ποιος είναι ο αγγλικός όρος για το ανάγνωση, για το διάβασμα, θα το δείτε και στις εργασίες. Δεν ακούω. Κάποιος να το πει. Read, ok. Άρα λοιπόν, διαβάζεις αυτά τα reads, έχεις αυτά τα reads, τα οποία τα συναρμολογείς και παίρνεις τη συναρμολογημένη αλληλουχία ή συναρμολόγημα ή counting. Το μειονέκτημα επίσης σε αυτές τις περιπτώσεις, ένα ακόμα μειονέκτημα και των δύο μεθόδων, είναι ένα από τα τέσσερα προβλήματα που είχαμε αναφέρει αρχικά όταν μιλούσαμε για προβλήματα στην αλληλούχηση, είναι ότι υπάρχουν πάντα και στα γωνιδιώματα μερικές ετεροχρωματινικές περιοχές, οι οποίες είναι έτσι συμπυκνωμένες και δεν μπορούν να κλωνοποιηθούν. Άρα λοιπόν, για κάποιο λόγο δεν ξέρουμε γιατί, από το τελικό μας γωνιδίωμα μπορούν να πουσιάσουν και κάποιες περιοχές που δεν έχουν κλωνοποιηθεί, άρα να έχουν και κάποια κενά γιατί για κάποιο λόγο αυτές τις περιοχές δεν μπορούσαν να μπορούν σε βιβλιοθήκες. Αυτή τη στιγμή, μέχρι τώρα συζητούσαμε πώς κάναμε διαβάσματα στην αλληλουχία του πρώτου ανθρώπου γωνιδιώματος που βγήκε το 2004-2005, εντάξει. 2004-2014, 10 χρόνια έχουν περάσει, πολλά έχουν αλλάξει. Τι πιστεύετε, εδώ λέει χρησιμοποιούνται και οι δύο τεχνικές μέσα από ένας ενδιασμός τους. Δηλαδή χρησιμοποιούμε και ολική γωνιδιωματική και ιεραρχημένη προσέγγιση. Ποια από τις δύο σας φαίνεται ότι χρησιμοποιούμε περισσότερο πια? Γκάλοπ. Ποιος πιστεύει ότι χρησιμοποιούμε περισσότερο την ιεραρχημένη προσέγγιση? Ποιος πιστεύει ότι χρησιμοποιούμε περισσότερο την ολική γωνιδιωματική προσέγγιση? Ωραία. Δε θα ρωτήσω ποιος κοιμάται. Λοιπόν, δεν κοιμάσετε πολύ. Ξυπνήσατε. Σωστολέω. Ένας να πει γιατί πιστεύουμε ότι χρησιμοποιούμε περισσότερο την ιεραρχημένη προσέγγιση. Από αυτούς που είπατε ότι χρησιμοποιούμε την ιεραρχημένη προσέγγιση περισσότερο. Πες το μικρό σου. Νάνση. Πιστεύω ότι πλέον γνωρίζουμε περισσότερες θέσεις πάνω από την ιεραρχημένη προσέγγιση από την ολική γωνιδιωματική προσέγγιση. Είναι ακόμα πιο εύκολο να βάλουμε σε σκηνά. Ωραία απάντηση. Μ' άρεσε. Ποιος πιστεύει ότι μπορεί να είναι η ολική προσέγγιση αυτή που σημαίνουμε περισσότερο. Ναι. Μπορεί να κάνουμε ιεραρχημένη προσέγγιση από τη μία γιατί έχουμε περισσότερη πληροφορία από γενετικούς δίκτες. Δόξα το Θεέ μετά από 10 χρόνια έχουμε πολύ περισσότερες πληροφορίες. Έχουμε διαβάσει γωνιδιώματα. Άρα λοιπόν έχουμε δίκτες οι οποίοι μας βοηθούν στο να κάνουμε μια ιεραρχημένη προσέγγιση. Αυτή είναι μια άποψη και άλλη είναι ότι χρησιμοποιούμε ολική γωνιδιωματική προσέγγιση γιατί ακριβώς είναι καλύτερα στις τεχνικές πρωτοδιάταξης πια. Προφανώς είναι καλύτερα και τα βιοπληροφορικά μοντέλα που συναρμολογούν με τα γωνιδιώματα και επίσης είναι και λιγότερο χρονοβόρα. Ίσως εγώ δεν έκανα σωστά την ερώτηση αλλά για ένα οποιοδήποτε τυχαίο γωνιδίωμα τι θα χρησιμοποιούσαμε αυτή τη στιγμή. Γιατί ναι μεν αυτή τη στιγμή έχουμε γενετικούς δίκτες περισσότερους αλλά έχουμε τους δίκτες περισσότερος τον άνθρωπο που την έχουμε διαβάσει πάρα πολύ. Σε ένα οποιοδήποτε άλλο γωνιδίωμα το οποίο θέλουμε να το δουλέψουμε ξαφνικά εκεί πέρα δεν έχουμε τέτοιους δίκτες. Άρα σε αυτή την περίπτωση κυρίως θα χρησιμοποιήσουμε την ολική γωνιδιωματική προσέγγιση γιατί ακριβώς δεν χρειάζεται να ξοδέψουμε χρήματα και χρόνο. Θα χρησιμοποιήσουμε μόνο αλληλούχηση ως επί το πλίστον και πού θα χρησιμοποιήσουμε κάποιες πληροφορίες. Δεν θα χρησιμοποιήσουμε πληροφορίες για να κάνουμε φυσικούς γενετικούς χάρτες με τεχνικό κομμάτι στο μπάγκο αλλά εκεί αυτό που είπε η Νάνηση έχει σημασία. Ναι μεν έχουμε γενετικούς δίκτες αλλά γενετικοί δίκτες μπορεί να μην είναι αυτοί καθαυτοί αυτοί που δημιουργήσαμε στο μπάγκο. Μπορεί να είναι αλληλουχίες από γονιδιώματα από άλλα είδη που υπάρχουν διοπληροφορικά κατατεθυμένες πια στο διαδίκτυο. Άρα όταν πάμε να συναρμολογίσουμε το γονιδιωμά μας σε κάποιο άλλο είδος τι μπορούμε να κάνουμε. Συγκριτική γονιδιωματική να δούμε διοπληροφορικά πως είναι οργανωμένο το γονιδίωμα σε κάποιο άλλο είδος. Να πάρουμε και τις αλληλουχίες από ολική γονιδιωματική προσέγγιση και να προσπαθήσουμε να τις συναρμολογίσουμε όχι με πραγματικούς φυσικούς γενετικούς χάρτες αλλά κατά κάποιο τρόπο με διοπληροφορικούς χάρτες με συγκριτική γονιδιωματική για να μπορέσουμε να πάρουμε το γονιδιωμά μας. Άρα ναι μεν κάνουμε μια ολική προσέγγιση όπου απλώς σπάζουμε κομματάκια και διαβάζουμε αλλά χρησιμοποιούμε την πληροφορία από χάρτες μπορεί να από κάποια άλλα είδη. Έτσι λοιπόν προσπαθούμε να λύσουμε το πρόβλημα ώστε να μην ξοδέψουμε και χρήματα και χρόνο γιατί κακά τα ψέματα σας το έχω πει και άλλη φορά και θα συνεχίσω να σας το λέω. Ακόμα και τώρα που έχουμε ξοδέψει δισεκατομμύρια δολάρια για το ανθρώπινο γονιδίωμα κάποια στιγμή θα πούμε πέντε πράγματα για το ανθρώπινο γονιδίωμα θα δείτε ότι υπάρχουν κενά σε αυτό το γονιδίωμα. Άρα οποιοδήποτε άλλο είδος αν πιστεύουμε ότι θα μπορέσουμε να το καταφέρουμε να έχουμε πλήρες γονιδίωμα απαντώμαστε ικτρά. Εφόσον μιλάμε βέβαια πάντα γιατί γονιδιώματα, για ευκαιριωτικά γονιδιώματα. Τα ευκαιριωτικά είναι πιο εύκολα. Και γιατί είπαμε ότι είναι πιο εύκολα γιατί έχουν λιγότερο επαναλαμβανόμενο DNA, είναι πολύ πιο μικρά, έχουν πολύ μοναδικό DNA, άρα η συναρμολόγησή τους είναι σχετικά εύκολη. Εντάξει. Λοιπόν, πάντως χρησιμοποιείται μια προσέγγιση η οποία είναι συνδυαστική της μιας και της άλλης προσέγγισης. Αυτά όσον αφορά τα γονιδιώματα και το πώς μπορείς να τα διαβάσεις στο παρελθόν και τι κάνουμε τώρα. Θα έρθει και η ώρα η δικιά σας να ασχοληθείτε λίγο με την εργασία σας για να δείτε ακριβώς πώς κάνουμε αυτή τη στιγμή αλληλούχηση. Από εδώ και πέρα τώρα θα ασχοληθούμε με το τι κάνουμε αυτά τα δεδομένα και πολύ σιγά σιγά θα αρχίσουμε να μπαίνουμε και σε αποτελέσματα από αλληλουχήσεις για να δούμε ακόμα είμαστε στο κομμάτι της δομικής γονιδιωματικής. Δηλαδή προσπαθούμε να δούμε αλληλουχίες συναρμολογούμε και πληροφορίες είναι γονιδιώματα πως είναι δομημένα. Μετά σε πιο μεθεπόμενα μαθήματα θα αρχίσουμε να μπαίνουμε λίγο στο κομμάτι της συγκριτικής γονιδιωματικής. Έχουμε το κάθε γονιδίωμα εξοχωριστά τι πληροφορίες μπορούμε να πάρουμε να συγκρινουμε γονιδιώματα μεταξύ τους. Και μετά πολύ πιο μετά στο μάθημα θα πάμε στο κομμάτι της λειτουργικής γονιδιωματικής. Τι πληροφορίες μπορούμε να πάρουμε όσον αφορά τις εφαρμογές όλων αυτών των γονιδιωμάτων και πως μπορούμε να τα χρησιμοποιήσουμε στην επιστήμη, στην υγεία, στην βιοπαρακολούθηση, στο περιβάλλον, σε οτιδήποτε. Καμιά ερώτηση για την ιεραρχημένη και την ολική γονιδιωματική προσέγγιση έχετε? Θα το δούμε και μετά και σιγά σιγά και στα υπόλοιπα μαθήματα πως δουλεύει. Τώρα βλέπετε εδώ πέρα ότι όπως καταλαβαίνετε όλο και περισσότερο παράγουμε δεδομένα και σιγά σιγά έχει δημιουργηθεί ένα πρόβλημα που είναι το πρόβλημα αποθήκευσης των δεδομένων. Τι εννοούμε με αυτό? Η μεγάλη παραγωγή των δεδομένων για το ανθρώπινο γονιδίωμα ξεκίνησε μετά το 2000. Μέχρι τότε πηγαίναν σχετικά αργά. Κάποια στιγμή όμως βγήκε και η σελέερα ο Βέντερ και είπε ότι εγώ έχω δημιουργήσει εργοστάσια παραγωγής αλληλουχειών όπου έχω πολλά μηχανήματα και παράγουν πολλή αλληλουχεία. Κάπου και ο δημόσιος τομέας είπε οχ θα μας φάει στη γωνία ο Βέντερ πρέπει και εμείς να σφιχτούμε να βγάλουμε αποτελέσματα οπότε ξεκίνησε και αυτός να παράγει πολλοί αποτελέσματα, να αγοράζουν διάφορα μηχανήματα και άρχισε λοιπόν να δημιουργείται το εξής φαινόμενο. Από εκεί που είχαμε ένα μηχάνημα ABI για να παράγεις μια αλληλουχεία η ABI είναι η κλασική Applied Biosystems η οποία είπε ότι θα κάνω μηχανήματα τα οποία θα μπορούν να διαβάσουν ταυτόχρονα όχι ένα δείγμα, 96 δείγματα. Αυτό υπήρχε η ιδέα της καλύψης πριν το 2000. Συνήθως ο χρόνος που χρειάζεται για να διαβάσει 600 βάσεις είναι 4 ώρες. Άρα λοιπόν μπορούσε το κάθε μηχάνημα να διαβάσει 350.000 βάσεις που είναι 600 βάσεις πάνω κάτω το κάθε τριχοειδές, το κάθε δείγμα 56 τριχοειδή, λέω τριχοειδή γιατί δεν είναι ηλεκτροφόρηση εκκληλαμίδης, είναι μια πολύ λεπτή ίν από εκκληλαμίδη που λέγεται τριχοειδές. Άρα λοιπόν έχουμε 600 βάσεις επί 96 τριχοειδή επί 6 διαβάσματα την ημέρα, 4 ώρες το διάβασμα, 4-6-24 ώρες την ημέρα γιατί αυτά δουλεύανε όλο το 24, δεν δουλεύανε μόνο 9-5. Άρα λοιπόν είχαμε 600 επί 96 επί 6 μας κάνει περίπου 350.000 διαβάσεις. Και μετά είπαμε ότι δημιουήθηκαν εργοστάσια παραγωγής δεδομένων. Αυτά τα εργοστάσια ήταν περιοχές όπου υπήρχαν 100-300 τέτοια μηχανήματα όλα μαζί για να παράγουν αλληλουχία. Κάπου εκεί το 2000-2002 παράγαμε πολλή πληροφορία. Άρα λοιπόν μπορούσαμε να παράγουμε 350.000 βάσεις επί 300 τέτοια μηχανήματα, πόσο είναι, 100 εκατομμύρια βάσεις την ημέρα, θεωρητικά. Και επίσης θεωρητικά θα μπορούσαμε λοιπόν να έχουμε έναν ανθρώπινο γονιδίωμα μέσα σε 30 μέρες. Γιατί έναν ανθρώπινο γονιδίωμα, γιατί αν διερέσεις τα 100 εκατομμύρια βάσεις παραγώταν κάθε μέρα, μπορούσαμε σε 30 μέρες να έχουμε έναν ανθρώπινο γονιδίωμα. Γιατί θεωρητικά πρώτα απ' όλα. Γιατί λέω θεωρητικά και το τονίζω και το υπογραμμίζω και το λέω. Μπορεί να μας βγάλουν καλά αποτελέσματα, μπορεί η παραγωγή των κλόνων η πίστα πρέπει να μπορέσει να διαβάσει τα PCR και τα λοιπά να μη δουλέψουν, παρόλα αυτά από εκεί που παιδευόμασταν να βγάλουμε αποτελέσματα ή πηγαίναμε αργά, αργά, αργά, ή ήδη φτάσαμε κάπου εκεί πέρα το 2000 με 2004 πάνω κάτω να παίρνουμε μια κάλυψη, δεν θα σας πω εγώ σε 30 μέρες, μέσα σε 6 μήνες έχω σας λέω ότι θα μπορέσουμε να το καταφέρουμε. Και έτσι λοιπόν καταφέραμε ξαφνικά μέσα σε 2-3 χρόνια να φτάσουμε στο πρώτο ανθρώπινο γονιδίωμα. Αλλά αυτό το πρώτο ανθρώπινο γονιδίωμα σκεφτείτε ότι μας πήρε χρόνια τελικά, μέχρι να πάρουμε για πρώτη φορά μια πληροφορία που αντιστοιχούσε καλά σε 3 δισεκατομμύρια βάσεις. Από το 2004 και μετά βγήκαν καινούργια μηχανήματα. Βγήκαν τα μηχανήματα τα Next Generation Sequencing για τα οποία θα πούμε πάρα πολλά πράγματα εν καιρό, τα οποία είχαν λιγότερα λάθη, χαμηλότερο κόστος και βεβαίως και γρήγορα αποτελέσματα. Θα δούμε κάποια στιγμή αυτά τα μηχανήματα, όχι τώρα. Ενώ μέχρι το 2004 τα μηχανήματα ABI βασιζόταν στην τεχνική του Sanger, την οποία την έχετε ακούσει. Κι άμα δεν την ακούσετε την ακούσετε και από την κυρία Δροσεπουλή και από εμένα λίγο. Από το 2004 και μετά πήκαν άλλα μηχανήματα, τα Next Generation Sequencing μηχανήματα, τα οποία καταλαβαίνετε παράγανε πολύ περισσότερα δεδομένα. Βλέπετε εδώ πέρα μια εικόνα από το Nature για αυτά τα τρία τα βασικά μηχανήματα που βγήκαν μετά το 2004. Το 454, το Solid και το Illumina. Αυτά θα τα μάθετε έτσι και θα τους το ακούσετε τόσες φορές. Όπου αυτό που με ενδιαφέρει είναι ότι βλέπετε ότι αυτά τα μηχανήματα δεν κάνανε 96 αντιδράσεις ταυτόχρονα, αλλά κάνανε εκατομμύρια αντιδράσεις, όσο και πολλά εκατομμύρια αντιδράσεις το καθένα από αυτά. Εδώ πέρα είναι πώς βασίζεται η αλληλούχιση σε αυτές τις περιττώσεις. Δεν με ενδιαφέρει αυτή τη στιγμή. Απλώς είναι μια ωραία εικονίτσα. Βλέπετε αυτό που είπαμε ότι υπήρχαν ενώ το 454 πάνω κάτω πλησίαζε το ABI μηχάνημα όσον αφορά την παραγωγή του ενός διαβάσματος, τα άλλα ήταν πολύ πιο μικρά διαβάσματα. Με ό,τι προβλήματα δημιούργησε όλο αυτό. Και κάπου εκεί πέρα επίσης αφού βγάλαμε το πρώτο ανθρώπινο γονιδείωμα βγήκε το πρόγραμμα του 1000 Genomes Project που σκοπός του ήταν να διαβάσει γονιδείωμα από χίλια άτομα. Σε αυτό το πρόγραμμα μπήκανε και οι τρεις εταιρίες αυτές που είπαμε πιο πριν οι οποίες υποσχέθηκαν ότι θα παράγουν και θα βοηθήσουν να παράγουνε δεδομένα για αυτό το πρόγραμμα. Το πρόγραμμα αποτελιόταν από τρία διαφορετικά πληρωτικά προγράμματα. Δεν με ενδιαφέρει το ποιος ήταν σκοπός του προγράμματος γιατί αυτή τη στιγμή μιλάμε για την παραγωγή των δεδομένων. Αυτό με ενδιαφέρει. Αρχικά μπορεί να θέλαμε, ας πούμε, θέλαμε τριπλάσια κάλυψη, 40 φορές κάλυψη, οτιδήποτε αλλά βλέπετε ότι αρχίζουμε και πάμε σε τεραμμπάιτς δεδομένων. Δηλαδή από το 10 στην 9 πάμε σε 12 δεδομένα. Μπόλικες πληροφορίες, όχι γίγα μπάιτς αλλά τεραμμπάιτς πληροφορίες. Και που φτάσαμε σιγά σιγά, ερχόμαστε όλο και περισσότερο στο τώρα. Στο 2012 σε λιγότερο από 10 χρόνια από το πρώτο ανθρώπινο γονιδίωμα είχε αλληλουχηθεί το γονιδίωμα 2,5 χιλιάδων ανθρώπων. Είχαν πει χίλια άτομα αλλά τελικά επειδή ήταν εύκολη η παραγωγή δεδομένων φτάσαν στα 2,5 χιλιάδες άτομα. Φτάσανε στην κατάσταση να μην παράγουν έναν ανθρώπινο γονιδίωμα σε 10 χρόνια αλλά μπορούσαν να παράγουν 2 human genomes μέσα σε μια μέρα. Πολύ πολύ πολύ πιο γρήγορα από ό,τι οπωδήποτε στο παρελθόν. Και στο τέλος του προγράμματος μέσα σε 3-4 χρόνια μπορέσαμε και παράγαμε 60 φορές περισσότερα δεδομένα από ό,τι είχαμε καταθέσει σε δημόσιας βάσης παλιά, πριν το 2004. Οι παλιές οι εκτιμήσεις λέγανε, αυτό το είχα βάλει σαν εκτίμηση πριν περίπου 5 χρόνια που έλεγε ότι το 2005 είχαμε καταφέρει να καταθέσουμε έναν ανθρώπινο γονιδίωμα πληροφορία και έλεγαν τότε που είναι από 5 χρόνια ότι το 2015 θα έχουμε 1000 ανθρώπινα γονιδιώματα που αυτή τη στιγμή τελικά το έχουμε φτάσει σε 2500 γονιδιώματα και πολύ παραπάνω βασικά από αυτό. Το 2025 θα έχουμε 10 στην 6 ανθρώπινα γονιδιώματα, το 2035 10 στην 9 και το καθεξής. Και δίπλα εδώ πέρα πόση ποσότητα δεδομένων είναι κατεθυμένη υποτίθεται στις βάσεις δεδομένων. Το βασικό εδώ πέρα που ήδη αρχίσουμε να το καταλαβαίνουμε είναι ότι τα δεδομένα παράγονται. Άρα λοιπόν και η ερώτηση που βγαίνει είναι πού θα αποθηκευθούν όλα αυτά τα δεδομένα και πόσο σωστά θα αναλυθούν αυτά τα δεδομένα. Δεν μας ενδιαφέρει το πόσο σωστά θα αναλυθούν όσο περισσότερο το πού θα αποθηκευθούν τα δεδομένα. Κρατάτε λίγο εδώ πέρα ότι υποτίθεται ότι τώρα 2014-2015 οι εκτιμήσεις έλεγαν ότι θα είχαμε αποθηκευμένα 3TB όλο και όλο. Συνολικά τελικά το ανθρώπινο γονιδίμα του 1000 Genomes Project παρίγαγε 50TB δεδομένων. Και ποιο είναι το πρόβλημα ότι άμα θέλαμε να δουλέψουμε αυτά τα δεδομένα στον δικό μας τον προσωπικό τον υπολογιστή, αν μπορούσαμε να πούμε ότι θα μπορέσουμε να τα αποθηκεύσουμε τέλος πάντων σε ένα υπολογιστή με πολύ ικανότητα αποθηκευτικής δύναμης, θα χρειαζόμασταν πέντε μέρες και μόνο για να μπορέσουμε να τα κατεβάσουμε τα δεδομένα από τις βάσεις δεδομένων που υπάρχουν στην NCBI να την έχουμε στον δικό μας τον υπολογιστή, μόνο και μόνο να τα κατεβάσουμε, πόσο μάλιστα να τα αναλύσουμε. Και αυτή τη στιγμή λοιπόν με αυτά είναι τα στοιχεία του 2014-2015 έχουμε φτάσει στα 3000TB αποθηκευμένα δεδομένα, επαναλαμβάνω η εκτίμηση στα 3000TB ήταν εδώ πέρα το 2025, έτσι λέγαμε νομίζαμε ότι θα βρισκόμαστε πριν από πέντε έξι χρόνια, ότι τότε θα έχουμε φτάσει να έχουμε 3.000TB και εδώ πέρα σήμερα το 2014 τέλος του 2014 να πω όσο ποσότητα είναι που είναι 3.000TB αποθηκευμένα. Άρα λοιπόν είμαστε ήδη 10 χρόνια, πιο γρήγορα έχουμε παράγει δεδομένα. Εδώ είναι η σελίδα στην NCBI που δείχνει ακριβώς εκεί που αποθηκεύονται όλα αυτά τα δεδομένα, είτε είναι από μηχανήματα next generation sequencing, είτε είναι από μηχανήματα τα κλασικά τα μηχανήματα. Εδώ παίρνε κάποια slide από ένα webinar που είχε κάνει ένας υπεύθυνος παραγωγής δεδομένων στο BGI. Το BGI είναι το Beijing Genome Institute, το γονιδιωματικό institute παραγωγής δεδομένων της Κίνας, του Πεκίνου, που είναι από τα πιο ισχυρά εργοστάσια παραγωγής δεδομένων αυτή τη στιγμή. Και λέει ο τύπος ότι ένα μηχάνημα λιλούχησης αυτή τη στιγμή, που πια υπάρχουν χιλιάδες τέτοια μηχανήματα από τον κόσμο, μπορεί να παράγει ένα τεραμμπάιτ νουκλαιοτηδίων σε μια εβδομάδα πια. Και μπορεί από την άλλη να χρειαστούμε, ακόμα και όταν τα έχουμε παράγει αυτά τα δεδομένα, μπορεί να χρειαστούμε και δύο εβδομάδες μόνο και μόνο για να μπορέσουμε να το βάλουμε αυτά τα δεδομένα στο μηχάνημά μας και να τα αναλύσουμε. Τόσα πολλά δεδομένα θέλουμε μόνο πάρα πολύ χρόνο, μόνο και μόνο για να τα βάλουμε στο δικό μας το μηχάνημα. Και εδώ είναι το πρόβλημα. Εδώ ακριβώς δημιουργήθηκε το πρόβλημα. Από το 2004, 2005 και μετά που βγήκανε τα μηχανήματα, τα next generation sequencing, βλέπετε εδώ πέρα ένα διάγραμμα. Εδώ είναι πόσο κοστίζει να αποθηκεύσεις τα δεδομένα και εδώ ήταν πόσο κόστιζε να παράγεις δεδομένα. Όσο το κόστος παραγωγής δεδομένων είναι χαμηλότερο από το κόστος αποθήκευσης δεδομένων, όπως φαίνεται εδώ πέρα, είμαστε καλά. Σημαίνει ότι αυτό που παράγουμε μπορούμε να το αποθηκεύσουμε. Μας βγαίνει οικονομικά να το αποθηκεύσουμε. Αλλά βλέπετε εδώ πέρα το 2000 το κόστος παραγωγής δεδομένων ήταν χαμηλότερο από το κόστος αποθήκευσης. Από το 2004 και μετά βλέπετε ότι αρχίζει και μειώνεται όλο και περισσότερο το κόστος παραγωγής δεδομένων, ενώ δεν είναι τόσο πολύ ακριβό, είναι σταθερό το κόστος αποθήκευσης δεδομένων. Και βλέπουμε ότι από το 2008 και μετά πιο εύκολα παράγουμε δεδομένα παρά αποθηκεύουμε δεδομένα. Άρα, εδώ είναι το πρόβλημα. Τι θα τα κάνουμε αυτά τα δεδομένα. Εμείς τα παράγουμε, αλλά άμα χρησιμοποιήσουμε κλασικούς τρόπους για να τα αποθηκεύσουμε στους υπολογιστές μας, πρόβλημα. Και ποια είναι η λύση. Την ξέρετε τη λύση. Την έχετε ακούσει τη λύση. Τη χρησιμοποιείτε αυτή τη λύση. Ποιο από εσάς έχετε iPhone και ποιο από εσάς χρησιμοποιείτε το iCloud. Αυτή είναι η λύση. Ποια είναι η λύση λοιπόν. Η λύση είναι το Cloud Computing. iCloud είναι το iCloud, είναι ένα σύστημα όπου συνδέεις υπολογιστές και που αποθηκεύεις το δεδομένο σου. Όχι μόνο στο δικό σου το μηχάνημα το iPhone ή οτιδήποτε, αλλά έχεις όλα τα δεδομένα και στα σύννεφα. Τι σημαίνει αυτό. Ότι από εδώ και πέρα όλο και περισσότερο δεν μπαίνουμε σε μια διαδικασία τα δεδομένα μας που τα παράγουμε να τα αποθηκεύουμε εμείς στο δικό μας τον υπολογιστή. Αλλά υπάρχουν στα Cloud στο διαδίκτυο. Άρα λοιπόν και το σημαντικό σε όλη αυτή την περίπτωση δεν είναι μόνο ότι τα αποθηκεύουμε στο διαδίκτυο. Το σημαντικό είναι ότι μπορεί να τα αναλύουμε και στο διαδίκτυο. Θα δούμε ακριβώς τι εννοούμε με αυτό. Και γιατί το κάνουμε αυτό. Πάλι αυτή η διαφάνεια είναι από την παρουσία του BGI ότι όλο και περισσότερο έχουμε τη δυνατότητα να κάνουμε και περισσότερες δουλειές και να παράγουμε δεδομένα. Το ιερό δισκοπότρο της γωνιδιωματικής. Ψάχνουμε πάντα να πάμε όλο καλύτερα να βγάλουμε περισσότερα αποτελέσματα. Για παράδειγμα παράγαμε παλιά 700 δισεκατομμύρια ένα τεραμπάιτ μπορεί ένα πέταμπάιτ να μπορούμε να παράγουμε από ένα μηχάνημα. Παλιά διαβάζαμε κομμάτια 50 βάσεων μετά 150 βάσεων έχουμε αρχίσει να πλησιάζουμε τα διαβάσματά μας στις κάποιες φορές να είναι 10.000 βάσεις. Ίσως στο μέλλον να μπορούμε από ένα διάβασμα να είναι όχι 600 βάσεις όχι 1000 βάσεις να είναι εκατοντάδες χιλιάδες βάσεις. Το αρχικό το πρώτο το γονιδίωμα κόστισε 300 εκατομμύρια δολάρια. Οι τιμές έχουν πέσει δεν το έχουμε φτάσει το 1000 dollar genome δηλαδή να χρειάζεσαι 1000 δολάρια για να παράγεις έναν ανθρώπινο γονιδίωμα. Κάπου εδώ βρισκόμαστε αλλά ίσως στο μέλλον με τις νέες τεχνολογίες να μπορεί ο καθένας από μας να έχει το ανθρώπινο γονιδίωμά του με 1 δολάριο όλο και όλο να χρειάζεται να ξοδέψει. Και ενώ χρειάστηκαν 15 χρόνια να πάρουμε το πρώτο ανθρώπινο γονιδίωμα, αυτή τη στιγμή άνετα παράγουμε ανθρώπινο γονιδίωματα σε μια βδομάδα, ίσως στο μέλλον να μπορούμε να το φτάσουμε αυτό σε μια ώρα ή ακόμα και σε ένα λεπτό. Άρα όλο και περισσότερο δεδομένα τα οποία πρέπει να τα κάνουμε κάτι. Για να τα κάνουμε λοιπόν κάτι, η λύση είναι να τα αποθηκεύουμε στα clouds. Λοιπόν, μιλάμε για σύννεφα και για clouds. Εσείς τι υπηρεσίες clouds ξέρετε πέρα από το iCloud? Dropbox, Google Drive. Άρα λοιπόν, πιστεύω ότι τουλάχιστον το 50% των φοιτητών εδώ πέρα χρησιμοποιεί υπηρεσίες clouds. Οπότε βεβαίως εσείς όσο επιτοπλίστων τα χρησιμοποιείτε μόνο για να αποθηκεύετε δεδομένα. Βέβαια, αυτές οι υπηρεσίες που χρησιμοποιείτε εσείς, σας δίνουν έναν μέγιστο αποθηκευτικό χώρο, ο οποίος είναι δωρεάν. Από εκεί και πέρα, αν θέλετε να χρησιμοποιήσετε πολύ περισσότερη υπολογιστική δύναμη, πληρώνεις. Και αυτό ακριβώς θα συζητήσουμε. Ναι, ok, αλλά άμα έχεις τεραμμπέιζης και τεραμμπάιτς εδομένων αποθηκεύσεις, τότε δεν αρχίει. Ναι, πες το, Δημήτρη. Θα το συζητήσουμε, θα το συζητήσουμε, ναι. Λοιπόν, πέρα από, εδώ, εδώ, εδώ. Εδώ πέρα βλέπετε, μάγκες και κούκλες, εδώ. Εδώ πέρα βλέπετε μια εκτίμηση, όχι για το τι γίνεται όσον αφορά τη βιοπληροφορική, αλλά συνολικά την πληροφορική. Σύμφωνα με αυτή την εκτίμηση μπορείτε να την κοιτάξετε αναλυτικά, άμα θέλετε, σε αυτό το site. Βλέπουμε πόση δουλειά, ποια γίνεται όσον αφορά να αναλύσει οποιοδήποτε δεδομένο, όχι μόνο δύο πληροφορικών δεδομένων, σε υπολογιστές, λάπτοπς μπροστά σου και πόσο ποσοστό με το πράσινο γίνεται σε cloud services. Μη βλέπετε εμάς τι κάνουμε, συνολικά και επαγγωσμίως. Βλέπετε ότι ήδη σχεδόν έχουμε περάσει το 50% της δουλειάς να γίνεται σε cloud services και βλέπουμε ότι μέχρι τα 2007 περιμένουμε ότι το 70% των αναλύσεων, οτιδήποτε αναλύσεων μιλάμε, θα γίνεται σε cloud. Άρα λοιπόν θέλουμε δε θέλουμε με την παραγωγή των δεδομένων που υπάρχει και σε βιοπληροφορικό επίπεδο θα χρησιμοποιούμε cloud services. Άρα λοιπόν τι γινότανε και τι θα γίνεται από εδώ και πέρα όσον αφορά την παραγωγή και την αποθήκευση και την ανάλυση των δεδομένων γιατί εκεί είναι ακόμα πιο δύσκολο και θα δούμε ακριβώς τι εννοούμε με αυτό. Παλιά όταν εγώ έκανα το ευακτορικό μου αυτό που χρειαζόταν ήταν ένας απλός ερευνητής αλλά ακόμα και μεγάλο ερευνητικά κέντραμα ήταν το NCBI. Όταν θέλαμε να κάνουμε δουλειά τι κάναμε. Αρχικά βασικά παράγαμε τα δεδομένα τα βάζαμε σε βάση δεδομένων και αυτές τις βάσεις δεδομένων όποτε θέλουμε τις δουλέψαμε κατεβάζαμε την πληροφορία στο δικό μας τον υπολογιστή και δουλεύαμε έτσι. Αυτό γινόταν παλιά. Τώρα στα δικά σας τα διδακτορικά αυτό που θα γίνεται μη σας πω και στις διπλωματικές σας όλα τα πάντα είναι αποθηκευμένα στον διαδίκτυο και οποτεδήποτε θες να κάνεις αναλύσεις τις κάνεις όσο επιτροπίσω στον διαδίκτυο και αποθηκεύεις τα δεδομένα σου και αναλύεις τα δεδομένα σου στον διαδίκτυο. Άρα λοιπόν όλα γίνονται σε cloud services. Οι αναλύσεις γίνονται σε εικονικούς υπολογιστές. Και θα δούμε ακριβώς τι εννοούμε με αυτό. Τι εννοούμε λοιπόν πρώτα απ' όλα για αυτές τις αναλύσεις. Τι θα κάνουμε με αυτές τις αναλύσεις. Βλέπετε εδώ πέρα αυτό το είχα πάρει πάλι από μία εργασία στο genome biology. Εκτιμήσεις. Πριν τα μηχανήματα NGS του 2000. Το τώρα το genome biology ήταν το 2010. Και ποιο είναι το μέλλον το 2020. Βλέπετε εδώ πέρα με αυτά τα κουτάκια πόσο χρόνο και χρήμα ξοδεύουμε για διαφορετικές δουλειές. Με το κόκκινο είναι πόσο χρόνο ξοδεύουμε για να συλλέξουμε τα δείγματά μας και να σχεδιάσουμε το πείραμά μας. Με το μπλε πόσο χρόνο χρειάζεται για την αυτή καθαυτή αλληλούχηση. Και για το κίτρινο πόσο χρόνο χρειάζεται μετά για το downstream ανάλυση. Μετά από εκεί και πέρα την μετέπειτα ανάλυση αυτών των δεδομένων. Βλέπετε πως από εκεί που ήμασταν το 2000 το μεγαλύτερο χρονικό διάστημα και βεβαίως και χρήματα ξοδεύαμε στο να παράγουμε τις αλληλουχίες. Δείτε πως είμαστε τώρα και πως θα είμαστε το 2020. Ποιο θα είναι αυτό το οποίο θα ξοδεύουμε το λιγότερο χρόνο και χρήμα. Είναι ξεκάθαρο το γαλάζιο. Η παραγωγή των δεδομένων. Νομίζω σας μην είναι ξεκάθαρο το ότι πια δεν είναι δύσκολο να παράγεις δεδομένα. Για τους δικούς μας φιλετές, τους διδακτορες και για σας ακόμα περισσότερο το πρόβλημα δεν θα είναι να παράγετε δεδομένα. Αλλά τι θα χρειάζεται πάρα πάρα πολύ. Και εκείνη που σας λέω ότι εσάς είναι η δικιά σας ευθύνη επένδυση στον εαυτό σας να το βάλετε το μυαλό σου να δουλέψει κριτικά. Όταν θες να κάνεις ένα διδακτορικό, όταν θες να δουλέψεις την έρευνά σου δεν θα είναι το άγχος σου να καθίσω στον μπάγκο να κάνω PCR και να βγάλω αλληλούχιση. Το άγχος σου θα είναι να διαβάσω καλά, να δω όλα τα διαφορετικά μηχανήματα που υπάρχουν πως δουλεύουν αλλά όχι για να καθίσω να δουλέψω. Επίσης να δεις ποια είναι τα πλεονεκτήματα και τα μειονεκτήματα του καθενός μηχανήματος και να σκεφτείς ποιος είναι ο στόχος της ερευνάς μου, ποιο είναι το βασικό μου ερευνητικό βιολογικό ερώτημα και αφού το σχεδιάσεις πολύ καλά στο μυαλό σου δεις τι δείγματα χρειάζεσαι, τα μαζέψεις πάρα πολύ σημαντικά και πολύ λεπτομέρεια αυτά τα δείγματα και αφιερώσεις πάρα πολύ χρόνο στο να σχεδιάσεις αυτό το πείραμα μετά ίσως να μην χρειστικά να δουλέψεις στον μπάγκο, μπορεί να το στείλετε στην BGI όλα αυτά τα δείγματα, θα σε βγάλουν τα αποτελέσματα και μετά κάτσε και δούλεψε το μεγαλύτερο χρόνο του διδακτορικού σου να αναλύσεις αυτά τα δεδομένα. Πρέπει να σας γίνει ξεκάθαρο ότι στη νέα τάξη των πραγμάτων, στη βιολογία, στη γενετική, στη γονιδιωματική, η δουλειά στον μπάγκο θα είναι πάρα πολύ μικρή. Αυτό που έχετε εσείς να κάνετε είναι να σκεφτείτε τι θέλετε να κάνετε και μετά να αναλύσετε αυτά τα δεδομένα. Γιατί σας λέω ότι πρέπει να μάθετε γλώσσα προγραμματισμού, για αυτό είναι ακριβώς το λόγο. Γιατί όταν έχεις παράγει εκατοντάδες εκατομμύρια βάσεις από εντελώς διαφορετικά δείγματα και θα πρέπει εσύ να τα αναλύσεις αυτά τα αποτελέσματα, πρέπει να ξέρεις βιοπληροφορική. Θα αφιερώσεις τόσο πολύ χρόνο εδώ πέρα, που θα πρέπει να το καταφέρεις. Και να το καταφέρεις αυτό, θα πρέπει να ξέρεις ανάλυση δεδομένων. Και βλέπετε λοιπόν, άρα λοιπόν όλο και περισσότερο στο μέλλον θα έχει σημασία η ανάλυση των δεδομένων και όχι η παραγωγή των δεδομένων. Γι' αυτό και γονιδιωματικές εταιρείες δραστηριοποιούνται πια πολύ και στην παροχή υπηρεσιών και όχι μόνο παραγωγής δεδομένων αλλά και ανάλυσης δεδομένων. Δηλαδή σε χρεώνουν ένα άλφα ποσό, άμα θέλεις όλο και όλο να πάρεις τα πρωτογενή δεδομένα, πάρε διαβάσματα από ηλούμινα μηχάνημα, εκατομμύρια δεδομένα διαβάσματα. Αλλά άμα θέλετε θα πληρώσετε κάτι παραπάνω και θα σας δώσω και συναρμολογημένο το γονιδίωμα. Βλέπετε λοιπόν ότι αυτό το οποίο αρχίζει και αυξάνεται στο εμπόριο δεν είναι μόνο τα μηχανήματα που σου δίνουν τη δυνατότητα να τα χρησιμοποιείς οι εταιρείες αλλά και το service, το software που θα σου δώσει την ανάλυση δεδομένων. Βλέπετε ότι το 2016 οι εταιρείες, ηλούμινα, 454 πάει στο εμπόριο, θα βγάζει τα χρήματα της όχι μόνο από την παραγωγή των δεδομένων, αλλά από το γεγονός ότι έχουν και δύο πληροφορικάριους μέσα στο εργαστήριο. Η BGI έχει άτομα τα οποία δουλεύουν το πρωί μέχρι το βράδυ, τώρα το πόσο καλά δουλεύουν δεν έχει σημασία. Εκείνα που εσείς πρέπει να μάθετε να μπορείτε μόνος να αναλύσετε τα δικά σας τα δεδομένα ώστε αυτά τα άτομα θα δουλεύουν και θα σου αναλύσουν τα δεδομένα. Για μένα είναι ξεκάθαρο ότι όλοι σας, άμα θέλετε να δουλέψετε με γενετική γονιδιωματική πρέπει να ξέρετε γλώσσα προγραμματισμού. Python θα είναι, Perl θα είναι, δεν ξέρω τι θα είναι, αλλά πάντως πρέπει να το κάνετε. Ναι, εύκολο, δύσκολο, αλλά πάντως πρέπει να το κάνετε. Χρόνο έχετε πάντως, περισσότερο από ότι εγώ τώρα που έχω άλλα χιλιά πράγματα να κάνω. Και τι αναλύσεις θα κάνουν, αυτό σας λέω. Και ακόμα και οι εταιρείες αυτό που μπορούν να κάνουν είναι base polling, τι σημαίνει αυτό, πρωτογενής ανάλυση. Απλώς να σας διαβάσετε τα χρωματογραφήματα που λέει ο λόγος. Μετά μια άλλη ανάλυση να κάνετε. Μετά μια άλλη ανάλυση να αρχίσει να σας κάνει μια συναρμολόγηση και να σας τα βάλει σε μια σειρά. Να σας τα ενώσει τα δεδομένα. Μετά αφού πάρεις το αρχικό το γωνιδίωμα, μετά μπορείς να αρχίσεις να συγκρίνεις γωνιδιώματα μεταξύ τους. Μια άλλη ανάλυση και να βρεις τα variants, δηλαδή την πικιλομορφία μεταξύ διαφορετικών ατόμων. Και μετά το δύσκολο, και εδώ πέρα δεν έχουμε φτάσει ακόμα, είναι να κάνουμε το annotation. Δηλαδή τεκμηρίως το γωνιδίωμα. Να δούμε τελικά ποια είναι αυτά τα γωνίδια τα οποία έχουν σημασία βιολογική. Και εδώ πέρα είναι που εσείς ως ερευνητές θα πρέπει να ξέρετε ποιο είναι το βιολογικό σας ερώτημα. Γιατί καμιά εταιρεία δεν ενδιαφέρεται και το δικό σου το βιολογικό ερώτημα. Θα μπορεί να σας δώσει πληροφορίες ότι αυτό είναι το γωνιδίωμα, αυτές είναι μεταλλάξεις, αλλά από εκεί και πέρα εσείς θα πρέπει να σκεφτείτε, ναι, αλλά ποιο είναι το δικό μου το βιολογικό ερώτημα, τι ψάχνω, και είναι και το πιο δύσκολο, αλλά και το πιο προσωδοφόρο τελικά για εσάς. Αυτό που σας κάνει πραγματικούς ερευνητές. Το να πάρουμε αποτελέσματα, εύκολο. Το να εξηγείστε αποτελέσματα, είναι το πιο δύσκολο. Και αυτό όμως είναι και αυτό που κάνει και την επιστήμη τόσο εντυπωσιακή και τόσο ενδιαφέρουσα. Οπότε, υπάρχουν λοιπόν, εσείς είπαμε ξέρετε, Dropbox, Google Drive και οτιδήποτε, η Amazon δίνει και αυτή, έχει το δικό της το Cloud Service, που η Illumina χρησιμοποιεί και πληρώνει το Cloud Service της Amazon και το λέγεται BaseSpace, θα δούμε δύο βιντεάκια, το γενικό βιντεάκι το οποίο έχει να κάνει με το Elastic Service EC2 της Amazon λίγο την αρχή, πως δουλεύουν αυτά, πάνω κάτω το ξέρετε είναι ωραίο βιντεάκι και μετά θα δούμε πως χρησιμοποιεί αυτό το EC2 το Cloud Service της Amazon η Illumina για να παρέχει πληροφορίες στους ερευνητές. Κάντε δείξη, ακούγεται, χρόνος και χρήμα. Θέλεις να αγοράσεις μηχανήματα για να αποθηκεύεις δεδομένο στον δικό σου τον υπολογιστή ή όχι αυτό σου λέει. Ικονικά μηχανήματα στα σύννεφα. Θέλεις να δουλέψεις σε Linux μηχάνημα, σε Windows αυτό σου δίνει δυνατότητα. Και αποθηκεύεις και αποφασίζεις τι υπολογιστική ισχύ θα έχουν οι υπολογιστές σου. Και πληρώνεις μόνο όταν το χρησιμοποιείς, άμα δεν το χρησιμοποιείς δεν το πληρώνεις. Ανάλογα με το πόσο είναι η ισχύ που θέλεις να χρησιμοποιείς, πόσο είναι το memory και πόσο είναι ο αποθηκευτικός χώρος που θέλεις να χρησιμοποιείς. Αποφασίζεις και πληρώνεις αναλόγως. Όλα έχουν να κάνουμε price βέβαια. Και άμα θέλεις και περισσότερο, πληρώνεις και περισσότερο και από τότε έχεις και καλύτερη κανότητα να αποθηκεύσεις. Μετά αρχίζει και μιλάει για τιμές, δεν με ενδιαφέρει τόσο πολύ, αλλά αυτό που σου λένε ότι ανάλογα με το τι θες να χρησιμοποιείς, τα πληρώσεις. Άμα δεν το χρησιμοποιείς δεν πληρώνεις, ενώ από την άλλη ας πούμε άμα ήθελες να αγοράσεις σκληρούς δίσκους να έχεις το δικό σου το εργαστήριο, αφού σου έχεις πληρώσει και μετά χρειάζεται να πληρώνεις συνεχώς το maintenance, δηλαδή τη συντήρηση αυτών των μηχανημάτων που είναι πολλά χρήματα. Επίσης όλη η σκληρή δίσκη που τους έχεις πρέπει να πληρώνεις συνεχώς τη DI, γιατί χρειάζεται να δουλεύουμε ηλεκτρικό ρεύμα, άρα λοιπόν όταν τα έχεις αυτά στο δικό σου το χώρο, τότε συνεχώς πρέπει να πληρώνεις. Είναι και τα θέματα της προστασίας των ειδομένων που θα τα συζητήσουμε, αλλά σου λέει τι κερδίζεις από αυτό, δεν λέει τι μπορεί να χάσεις. Εντάξει αυτό είναι το γενικό για το EC2, τώρα να δούμε λίγο την Illumina, πώς χρησιμοποιεί η Illumina το EC2 της Amazon για να αποθηκεύει δεδομένα. Ο υπεύθυνος που είναι για την αποθήκευση των ειδομένων της Illumina στο Cloud. Εδώ λέτε ότι η Illumina έχει παράγει τον ένδυση των δεδομένων γενικά, λίγο υπερεκτίμηση, αλλά τέλος πάντων. Κάνετε λίγο ησυχία. Αυτό που λέει η αλληλουχία του γονιδιώμετος σε οποιοδήποτε καρκενοπαθείο είναι διαφορετική. Το πρόβλημα είναι η πληροφορική ανάλυση. Πώς θα αναλύσουν αυτά τα δεδομένα. Και το μεγαλύτερο πρόβλημα είναι ότι όλοι αυτοί είναι βιολόγοι, οι οποίοι δεν ξέρουν πώς να τα αναλύσουν τα δεδομένα. Όλα τα μηχανήματα της Illumina αυτή τη στιγμή είναι άμεσα συνδεδεμένα με το Cloud της. Αγοράζει το μηχάνημα και ταυτόχρονα αποθηκεύονται δεδομένως στο Cloud. Αυτά τώρα είναι μηχανήματα παραγωγής. Από τη στιγμή που εγώ παράγω δεδομένα μπορεί και οποιοςδήποτε άλλος στην Αμερική να δει αυτά τα δεδομένα που τα έχουν παράγει. Δεν χρειάζεται να τα στέλνουν. Οι υπάρχουν στα Cloud. Αυτό είναι ένα χάρτης παγκόσμιος. Δεν φαίνεται πολύ καλά. Όπως βλέπετε δεν είναι μόνο ότι αποθηκεύεις τα δεδομένα σου στο Cloud. Είναι ότι υπάρχουν έτοιμα software μέσα στο Cloud για να κάνεις και ανάλυση των δεδομένων. Δεν είναι απλώς τα βάζεις εκεί πέρα αλλά σου έχει ετοιμάσει και το software η Illumina για να κάνεις και επεξεργασία των δεδομένων μέσα από το Cloud. Αυτά δηλαδή είναι μέσα από το Cloud που δουλεύουν. Απλικαίσεις έτοιμα. Και λέει ότι αυτό που είναι σημαντικό είναι και η προστασία των δεδομένων. Στο σημείο που τα στέλνουν το μηχάνημα στο Cloud πρέπει να είναι προστατευμένα. Υπάρχει κάποιος τρόπος, δεν ξέρω πώς. Και εκεί είναι κωδικοποιημένα για να μπορεί κάποιος να τα πάρει. Οι εταιρείες όπως η Illumina είναι και περισσότερο πάντα πλεγμένες με δεδομένα και με προβλήματα που έχουν να κάνουν με big data, με πολύ μεγάλα δεδομένα. Και βεβαίως γι' αυτό δουλεύουν με την Amazon. Με το οποίο μπορούμε να χρησιμοποιήσουμε τις εκπληκτικές υπολογιστικές ικανότητες της Amazon. Όπως λοιπόν υπάρχει η Amazon η οποία προσφέρει τέτοιες υπηρεσίες, δεν είναι μοναδικές. Αυτή στην Amazon, αν θέλεις να τη χρησιμοποιήσεις, πρέπει να πληρώσεις. Δεν σημαίνει ότι υπάρχουν μοναδικοί τρόποι. Υπάρχουν και οι πανεπιστήμια τα οποία προσφέρουν αντίστοιχα τέτοια cloud services όπου εκεί πέρα μπορείς να αποθηκεύεις δεδομένα χωρίς να χρειάζεται να πληρώσεις. Έτσι λοιπόν, για παράδειγμα, υπάρχει αυτό το site, το buy on imbus, που όπως βλέπετε είναι ένα open space όπου είναι σε συνεργασία με το Πανεπιστήμιο του Σικάγο και το Open Science Data Cloud. Αυτό σημαίνει ότι δεν χρειάζεται να πληρώσεις για να αποθηκεύεις δεδομένα και να αναλύσεις δεδομένα. Τι μπορούμε να βρούμε εδώ πέρα στο buy on imbus? Θα βρούμε δεδομένα από το 1000 Genomes Project. Δηλαδή όλα αυτά τα δεδομένα είναι ανοιχτά. Δεν πληρώνεις, αλλά αυτό είναι ανοιχτά. Επίσης μπορούμε να βρούμε δεδομένα όχι μόνο για δύο πληροφορικοί, για το modern code, δηλαδή όλα τα δεδομένα που υπάρχουν εκεί πέρα επίσης τα αποθηκεύουν σε αυτά τα data set. Και υπάρχουν αντίστοιχα και άλλες τέτοιες υπηρεσίες, η Helix, η Atos, CGI, 6Q, οι οποίες επίσης αποθηκεύουν τέτοια δεδομένα. Για μένα αυτό που είναι πιο σημαντικό να σας μείνει εσάς και μετά θα ζητήσουμε κάτι ακόμα, είναι αυτό που το πήρα πάλι από την CGI, βασίζονται σε αυτό που είχε πει ο Albert Einstein πριν από πάρα πολλά χρόνια. Αν δεν μπορείς να εξηγήσεις κάτι απλά, τότε το έχεις καταλάβει. Άρα λοιπόν αυτό που είναι σκοπός σε οποιοσδήποτε υπηρεσίες γονιδιωματικής, είναι τελικά το πολύπλοκο τα χιλιάδες εκατομμύρια δεδομένα να μπορεί εσένα να σου το κάνει εύκολο. Άρα λοιπόν γι' αυτό και η CGI έχει ονομάσει το δικό της Cloud Server Easy Genomics, να μπορώ αυτό που εσύ το βλέπεις και λες θέμα πού να ξεκινήσω και τι θα καταλάβω από όλο αυτό, να σου το κάνει easy. Αυτό είναι ο σκοπός σε οποιοσδήποτε υπηρεσίες γονιδιωματικής στο μέλλον, όχι μόνο να παράγει τα δεδομένα αλλά και να τα αποθηκεύσει. Εδώ πέρα, άμα θέλετε, δείτε και αυτό το άρθρο που ήταν στο Nature πρόσφατα σχετικά με τα big challenges των big data. Ποιες είναι οι προκλήσεις όλων αυτών των μεγάλων δεδομένων και πώς θα μπορέσουν να τα διαχειριστούμε. Υπάρχει το site, θα το βρείτε κι εσείς, δηλαδή θα το ανεβάσω αυτό το PowerPoint σήμερα, οπότε θα το έχετε μια χαρά για να μπορέσετε να δείτε όλες τις πληροφορίες θέλετε. Το πρόβλημα σε όλο αυτό, όπως είπαμε, είναι η προστασία των δεδομένων. Υπάρχουν δύο εντελώς διαφορετικές προσεγγίσεις. Η μια προσεγγίση είναι ότι άμα σας υποσχεθώ εγώ, σαν εταιρεία, ότι τα δεδομένα σας θα είναι εντελώς και εντελώς προστατευμένα και κανείς δεν θα μπορεί να τα δει και να τα χρησιμοποιήσει, μπορεί να σας λέω και ψέματα. Και δεν το λέω αυτό το πράγμα. Πριν από πότε έγινε, τον Μάιο του 2013, ένας ερευνητής στην Αμερική έκανε το εξής. Υποτίθεται το 1000 Genomes Project ήταν ένα πρόγραμμα που είχε υποσχεθεί ανονιμία στα άτομα τα οποία συμμετείχαν σε αυτό. Αλλά τα δεδομένα αυτά, υποτίθεται αφόσον ήταν από δημόσια χρήματα, ήταν ανοιχτά για να μπορεί οποιοςδήποτε να βρει πληροφορίες για αυτά τα δεδομένα. Τα δεδομένα λοιπόν αυτά υπήρχαν στο διαδίκτυο. Ποιος είναι ο τρόπος με τον οποίο μπορούμε να κάνουμε ταυτοποίηση ατόμων, που το ας συζητήσαμε κιόλας, κάποια στιγμή. Τι χρησιμοποιούμε με γενετική ταυτοποίηση, πώς κάνουμε γενετική ταυτοποίηση στα άτομα. Με μικροδροηφορικό DNA. 1000 Genomes Project, το πονηδήμα του καθενός ανθρώπου, όπου εκεί πέρα μπορούσες άνετα να δεις το μικροδροηφορικό πρότυπο σε όλα τα χρωμοσώματα σε όλους τους μικροδροηφορικούς τόπους του κάθε ατόμου. Άρα λοιπόν πήγε αυτός ο άνθρωπος, βρήκε τον αριθμό των επαναλήψεων σε συγκεκριμένους μικροδροηφορικούς τόπους, στα ψυχρωμόσωμα και μετά υπάρχουν βάσεις δεδομένων ανοιχτές πάλι στο κοινό, όπου έχουνε ταυτοποιήσει συγκεκριμένα ονόματα με συγκεκριμένα βάση δεδομένων, μπορούσαν να βρουν την πληροφορία σχετικά με τα ονόματα και τον αριθμό των επαναλήψεων του μικροδροηφορικού DNA στο ψυχρωμόσωμα. Άρα λοιπόν είχε ολόκληρο γωνιδίωμα με μικροδροηφορικούς τόπους και βάση δεδομένων για τους γενοτύπους στο ψυχρωμόσωμα. Βρήκε τα ονόματα που αντιστοιχούσαν σε αυτή την βάση δεδομένων, έψαξε μετά βιοπληροφορικά από πού ήταν συλλεγμένα τα διάφορα άτομα αυτά του 1000 Genomes Project, μπήκε σε γεωγραφικές βάσεις δεδομένων και σύγκρινε όλα αυτά τα αποτελέσματα και μετά έφτασε στο συμπέρασμα και είπε ότι αυτό το γωνιδίωμα είναι αυτού του ατόμου που ζει σε αυτή την περιοχή και το καθεξής. Και έγινε μεγάλο σκάνδαλο, γιατί ακριβώς υποτίθεται ανώνυμα τα δεδομένα αλλά αυτός δεν έκανε τίποτα ιδιαίτερο, ήξερε βέβαια σε πληροφορική και χρησιμοποίησε διαδίκτυο, τίποτα άλλο. Άρα τι είπε, ότι αυτό που λέτε εσείς ότι είναι ανώνυμα τα δεδομένα δεν ισχύει. Καλύτερα να κάνετε κάτι εντελώς διαφορετικό. Αυτό που κάνουνε ο καθηγητής ο George Church από το Πανεπιστήμιο του Harvard, ο οποίος τη λέει «Σας λέω ότι θα συμμετάσχετε εσείς στο Personal Genome Project, όπου θα δώσετε DNA επειδή θέλετε να βοηθήσετε την επιστήμη και θα είναι ανοιχτό εξ αρχής». Δεν σας πωσχω με κάτι το οποίο δεν ισχύει. Θα το ξέρετε εξ αρχής ότι βοηθάτε την επιστήμη. Το να σας πω ότι αυτό δεν θα μπορέσω ποτέ να το αστοποιήσω σε εσάς είναι μεγάλο ψέμα, γιατί μπορεί εσείς να μην θέλετε να το δώσετε το όνομά σας, αλλά μπορεί ο συγγενής σας να θέλει να το δώσει το όνομά του. Άμα δώσει το συγγενείς σας το όνομά του, τότε κατευθείαν θα σας βρει. Γιατί απλή χειλονόμηση, θα δει το συγγενείς, θα δει και εσάς, με απλή σατιστική θα μπορέσει να βρει ποιος είναι ο καθένας. Αυτό είναι το ένα το κομμάτι. Το άλλο κομμάτι βέβαια, είναι αυτό που λέει και όλας ο George Sertz, είναι ότι για να μπορέσουμε να βρούμε λύσεις σε ασθένειες, πρέπει να έχουμε ενδεδόν περισσότερη πληροφορία. Βέβαια αυτή η πληροφορία δεν θα πρέπει να χρησιμοποιηθεί ενάντια στα άτομα τα οποία θέλουν να τη δώσουν αυτή την πληροφορία. Αυτό είναι το πολύ μεγάλο δύσκολο και με πολύ μεγάλο βιοηθικός προβληματισμός, κατά πόσο τελικά αυτή η πληροφορία θα χρησιμοποιηθεί εναντίον των ατόμων που θα δώσουμε. Δεν έχω λύση σε αυτό, δεν έχω απάντηση, ούτε εμένα μ' αρέσει και είναι πολύ προσυζήτηση κατά πόσο θα μπορέσουμε να προστατέψουμε τον καθένα από εμάς από τη χρήση γενετικών δεδομένων. Με την ίδια λογική που έχουμε και τον προβληματισμό κατά πόσο μπορεί ο καθένας από εμάς να προστατευθεί από τη χρήση των δεδομένων από το πόσο χρησιμοποιούμε τον Google, πόσο χρησιμοποιούμε το Facebook, πόσο χρησιμοποιούμε οτιδήποτε. Είναι ένα γενικότερο πρόβλημα προστασίας προσωπικών δεδομένων, το οποίο δεν έχει λύση εύκολα και θέλει πολύ συζήτηση. Κάτι από εσάς θέλετε να πείτε, θέλετε να σητήσετε, θέλετε να ρωτήσετε. Αυτή είναι η κατάσταση αυτή τη στιγμή όσον αφορά την παραγωγή των δεδομένων. Εδώ πέρα υπάρχει και ένα άλλο κομμάτι το οποίο θέλω να συζητήσω, το οποίο είναι λίγο ενδιάμεσο ανάμεσα στην βιοπληροφορική ανάλυση των γονιδιωμάτων και στη δομική ανάλυση των γονιδιωμάτων και έχει να κάνει με το πώς βρίσκουμε γονίδια σε λουχίες. Δεν κολλάει τόσο πολύ, δεν ήξερα πού να το βάλω, αλλά το συζητάμε αυτή τη στιγμή γιατί μετά θα το συζητήσουμε και πολλές φορές με τις εφαρμογές αυτού όταν μιλάμε για γονιδιώματα. Γιατί από το άλλο, από αύριο, συζητάμε ποια γονιδιώματα. Μπαίνουμε αυτό, αυτό καθαρά στη δομική γονιδιωματική και σε προκαρυωτικά, ευκαρυωτικά γονιδιώματα. Ένα βασικό ερώτημα στα γονιδιώματα είναι ότι δεν μας ενδιαφέρει βεβαίως μόνο να έχουμε τις αλληλουχίες, αλλά μας ενδιαφέρει να βρούμε και τα γονίδια. Γιατί στο κάτω-κάτω αυτό μας ενδιαφέρει, να καταλάβουμε πώς λειτουργούν τα γονιδιώματα. Για να δούμε πώς λειτουργούν τα γονιδιώματα θέλουμε να ξέρουμε τα γονίδια. Εδώ θέλω λίγο την προσοχή σας. Όταν λέμε ότι βρίσκω το γονίδιο επάνω στα γονιδιώματα τι εννοώ, τι καταλαβαίνετε. Βρίσκω το γονίδιο με βιοπληροφορικές μεθόδους. Άλλο βιοπληροφορική μέθοδος και άλλο μέθοδος στο εργαστήριο που δουλεύουν αυτό και αυτό το γονίδιο. Όταν το βρίσκω με βιοπληροφορικές μεθόδους τι κάνω. Μια εκτίμηση, αυτό είναι η βιοπληροφορική προσέγγιση, κατά πόσο μια αλληλουχία αντιστοιχεί σε ένα γονίδιο. Πώς μπορώ να το αποδείξω, πώς. Μόνο άμα μπω στο εργαστήριο και αρχίσω και κάνω μεταλλάξεις και βρω κατά πόσο η αλλαγή σε αυτή την περιοχή, αλλάζει το φαινόντυπο. Αλλά, βεβαίως σκεφτείτε το ότι αν έχουμε έναν ανθρώπινο γονιδίωμα με 20.000 γονίδια, ή άμα έχω και οποιοδήποτε άλλο γονιδίωμα με οποιοδήποτε είδους, που δεν ξέρω αν το δουλεύει αυτό το γονιδίωμα, δεν είναι δυνατό να κάθομαι να δουλεύω με το κάθε γονίδιο ξεχωριστά να δω πώς δουλεύει. Το πρώτο λοιπόν πράγμα που θέλουμε να κάνουμε είναι διοπληροφορικά να βρούμε τα γονίδια στις αλληλουχίες του γονιδιώματος. Και πώς μπορούμε να το κάνουμε. Χρησιμοποιούμε υπολογιστές. Από εκεί ξεκινάμε. Και με αυτούς τους υπολογιστές θέλουμε να βρούμε ένα ποσοστό σημαντικότητας, ένα ποσοστό ασφάλειας, κατά πόσο αυτή η εκτίμησή μας ισχύει ή δεν ισχύει. Ο πρώτος τρόπος που μπορούμε να το κάνουμε είναι αν έχουμε άλλα γνωστά γονίδια από το παρελθόν, που ξέρουμε ότι έχουμε το γονίδιο το τάδε στη δροσόφυλλα, τα γονίδια τα heat shock γονίδια και οτιδήποτε, σύγκριση ομολογίας. Μπορώ να βρω αλληλουχίες από αυτά τα γονίδια από άλλο είδους να βρω να ανακαλύψω ότι εδώ πέρα να υπάρχει ομολογία, άρα λοιπόν είναι το ίδιο γονίδιο, άρα εδώ πέρα έχω γονίδιο. Έχω μήπως αλληλουχίες ESTs αποθηκευμένες, τι είναι αλληλουχίες ESTs? Express Sequence Tags, είναι αλληλουχίες από CD&A βιβλιοθήκη. Αν έχω από τον άνθρωπο CD&A βιβλιοθήκες, τι είναι αυτό, έκφραση γονιδίων. Άμα τη βρω αυτή την αλληλουχία και έχω και το γονιδιωμά μου, τι κάνω, σύγκριση. ESTs αντιστοιχεί σε γονίδιο, αυτή η αλληλουχία η συνολική, η γονιδιωματική, κάνω σύγκριση και βρίσκω το γονιδιωμά μου, μάλλον. Μα όμως με πολύ υψηλή πιθανότητα να είμαι σωστός, γιατί το έχω δει και σαν έκφραση. Ο άλλος τρόπος με τον οποίο μπορώ να το κάνω είναι να το ψάξω στα τυφλά. Τι σημαίνει στα τυφλά, τι ξέρετε εσείς για τα γονίδια, ότι έχουν θέσεις σε έναρξη μεταγραφής, θέσεις λήξης και ούτε καθεξής. Το ATG είναι χαρακτηριστικό για έναρξη μεταγραφής. Το UAA είναι χαρακτηριστικό για λήξης μετάφρασης. Έχω εξόνια, εντρόνια αν μιλάμε για ευκαιριωτικά γονιδιώματα. Έχω κουτιά ταταμπόξης, κοίτα καθεξής. Τι ψάχνω λοιπόν να βρω σε τέτοιες περιπτώσεις, αυτό θέλω να το προσέξετε πάρα πάρα πολύ, είναι πολύ σημαντικό να το καταλάβετε. Ψάχνω ένα ανοιχτό αναγνωστικό πλαίσιο. Τι είναι το ανοιχτό αναγνωστικό πλαίσιο? Να αντιστοιχθούν σε ένα RNA ή σε ένα γονίδιο. Υπάρχει το αναγνωστικό πλαίσιο ή υπάρχει το ανοιχτό αναγνωστικό πλαίσιο. Το ανοιχτό αναγνωστικό πλαίσιο είναι ακριβώς ο τρόπος με τον οποίο θα το διαβάσουμε την τριπλέτα, ώστε τελικά να καταλέξουμε σε ένα γονίδιο. Το αναγνωστικό πλαίσιο είναι οποιοςδήποτες τρόπος που μπορούμε να διαβάσουμε μια τριπλέτα. Πόσα αναγνωστικά πλαίσια μπορούμε να βρούμε σε μια αλληλουχία DNA? Ναι, το μικρό σου, πες Παναγιώτη. Έξι. Γιατί έξι, θα το δούμε σε λίγο. Γιατί είναι τριπλέτα πρώτον εγκλωτίδιο, από δεύτερο διαβάζουμε από τρίτο, ή και μετά συμπληρωματική αλληλουχία. Πότε τα συζητήσατε αυτά, σε ποιο μάθημα και τα θυμάστε, ε? Μοριακή. Ωραία. Άλλες φορές δεν τα θυμόσασταν, γι' αυτό το ρωτάω. Μπράβο. Άρα λοιπόν ψάχνω ανοιχτά αναγνωστικά πλαίσια. Αναλαμβάνω, ένας τρόπος συγκρίνω με γνωστά γονίδια, δεύτερος τρόπος ψάχνω στα τυφλά, και τρίτος τρόπος συγκρίνω ολόκληρα γονιδιώματα. Έχω εντελώς διαφορετικά γονιδιώματα και τι ψάχνω. Ένα γονίδιο προφανώς έχει μια λειτουργία. Άμα έχει λειτουργία, πρέπει να είναι συντηρημένο. Άμα δεν είναι συντηρημένο, τότε μπορεί αυτή η περιοχή να μην έχει καμιά λειτουργία. Άμα δεις όμως μια περιοχή που είναι συντηρημένη και δεν αλλάζει, κάτι θα κάνει εκεί. Δεν μπορεί να έχει παραμείνει η ίδια άμα δεν κάνει κάποια λειτουργία. Άρα λοιπόν, η έβρεση συντηρημένων περιοχών αντιστοιχούν προφανώς, αλλά όχι με 100% σιγουριά, σε λειτουργικές περιοχές. Βεβαίως, όσο περισσότερο έχω ευκαραιοτικό γονιδίωμα, το οποίο είναι πολύ πολύπλοκο, έχει junk DNA, έχει επαναλαμβανομένο DNA, έχει introni, exonia, μας κάνει τη ζωή λίγο πιο δύσκολη. Το σημαντικό είναι τελικά με τη βοήθεια των υπολογιστών να εκτιμήσουμε τελικά ποια είναι αυτά τα γονίδια που έχουμε, με ένα ποσοστό επιτυχίας το οποίο μπορεί να παίζει από 70% μέχρι 90%. Το λέω εδώ πέρα αυτό και θα το δούμε και στην πράξη μετά όταν μελήσουμε με διαφορετικά γονιδιώματα πώς τελικά προσπαθήσουμε να ταυτοποιήσουμε αυτά τα γονίδια. Το καταφέραμε, δεν το καταφέραμε, θα το δούμε στην πράξη τι έγινε. Θα έχουμε διάφορες ευκαιρίες να το δούμε αυτό. Να το δούμε όμως λίγο και τι βλέπετε εδώ πέρα. Τι έχει εδώ πέρα. Μια αλληλουχία. Ο σκοπός μας όταν χρησιμοποιούμε προγράμματα έβρεσης γονιδίων ποιος είναι. Να μπορέσουμε εδώ πέρα να μαρκάρουμε ποια είναι τα γονιδιά μας και πώς θα το κάνουμε αυτό. Θα πάρουμε αυτή την αλληλουχία, θα τη βάλουμε στα προγράμματα και τελικά τι περιμένουμε να έχουμε. Κάτι τέτοιο. Αν και δεν φαίνεται καλά θα δείτε ας πούμε για παράδειγμα ότι εδώ πέρα τι έχει. ATG. Εδώ πέρα πάλι, πού το το άλλο φαινόταν χαρακτηριστικά. Καλά, εδώ φαίνεται καλύτερα. Και εδώ έχει ATG. Εδώ πέρα είναι λίγο κομμένη και δεν φαίνεται ότι έχει ATG γιατί ακριβώς ξεκινάει. Άρα λοιπόν σε αυτή την αλληλουχία από εκεί που δεν φαινόταν τίποτα έχουμε ταυτοποιήσει ένα, δύο, τρία, τέσσερα γονίδια. Αυτός είναι ο στόχος μας. Από εκεί που έχουμε απλώς μια αλληλουχία να καταλάβουμε τελικά ποια είναι τα γονιδιά μας. Καλά, δείτε λίγο εδώ πέρα. Όπως είπαμε, τελειώνουμε παιδιά. Λίγο υπομονή. Όπως είπαμε, για να μπορέσουμε να βρούμε τα γονίδια μέσα στα γονιδιώματα χρησιμοποιήσαμε βάση δεδομένου και από ESD. Τι είναι τα ESD? Αλληλουχίσεις από γονίδια. Δείτε λίγο πώς η χρήση των μηχανημάτων Next Generation Sequencing μας άλλαξε εντελώς τη φύση αυτών των διουλειοθήκων ESD. Βλέπετε το μέγεθος των κομματιών που ήταν διαβασμένα σε βάσεις ESD, όπου, τι είπαμε γενικά, ότι τα περισσότερα διαβάσματα μέχρι το 2004-2015 ήταν από μηχανήματα ABI, που κατά μέσο όρο διαβάζαν 600 βάσεις. Άρα, λοιπόν, στις αλληλουχίες ESD βλέπετε ότι ο μεγαλύτερος αριθμός των ESD είναι σε αυτό το μέγεθος. Έχει και λίγα, το οποίο είναι μικρότερο μέγεθος, γιατί δεν διάβασαν τόσο καλά τα μηχανήματα, αλλά τα περισσότεροι ήταν εδώ πέρα, σε αυτή την αλληλουχία, σε αυτό το εύρος. 2004-2005 και ξαφνικά αρχίζουν και βγαίνουν τα μηχανήματα Next Generation Sequencing, θυμηθείτε Illumina Solid, τα οποία διαβάζουν πολύ μικρότερα κομματάκια. Και βλέπετε ξαφνικά αρχίζουν και αυξάνονται πολύ εδώ πέρα, ενώ αυτά δεν αυξάνονται τόσο πολύ, οι αλληλουχίες που είναι κατατεθυμένες, αυξάνονται πάρα πολύ αλληλουχίες από ESD που έχουν μικρό μέγεθος. Γιατί μπήκανε στην παραγωγή τα μηχανήματα Next Generation Sequencing που διαβάζανε μικρότερα κομματάκια. Έτσι, λοιπόν, αυξάνεται αυτή η πληροφορία. Στο σύνολο, βεβαίως, κάθε χρονιά αυξάνονταν τα ESD που είναι κατεθυμένες σε βάση δεδομένων, αλλά βλέπετε ότι αυτό που άλλαξε το 2006 και μετά, είναι ότι άλλαξαν τα μικρά ESD που μπορέσαμε να διαβάζουμε όλο και περισσότερο, το καταλαβαίνετε. Και λίγο εδώ πέρα για να τελειώσουμε το αναγνωστικό πλαίσιο, βλέπετε, έχεις μια αλληλουχία, όπου είναι αυτή η αλληλουχία και θέλεις να βρεις τα αναγνωστικά πλαίσια, πώς θα το διαβάσεις, το πρώτο αναγνωστικό πλαίσιο, ξεκινάς με τριπλέτες, αυτή την αλληλουχία την σπάζουμε ανά τρία και πάει ATG, CCC και ούτω καθεξής. Αυτό αντιστοιχεί σε κάποιο γωνίδιο. Ναι, μια χαρά, από εδώ πέρα ξεκινάμε με θεονίνη και τελειώνουμε κανονικά stop quantum. Καλό αναγνωστικό πλαίσιο, ανοιχτό αναγνωστικό πλαίσιο. Εδώ πέρα, άμα ξεκινήσουμε όχι από το A αλλά από το T και πάμε ανά τρία νουκλωτίδια, βλέπουμε διάφορα stop quantum, δεν είναι μάλλον ανοιχτό αναγνωστικό πλαίσιο αυτό. Πάμε στο τρίτο αναγνωστικό πλαίσιο που ξεκινάμε από το τρίτο νουκλωτίδιο ανά τρία και βλέπουμε και εδώ πέρα stop quantum. Αυτό θα μάθετε να το κάνετε και εσείς στη βιοπληροφορική στο επόμενο εξάμινο, δεν είναι τίποτα δύσκολο. Παίρνεις στην αλληλουχία, τη βάζεις μέσα στο προγραμματάκι σου και σου βλέπει και τα έξι αναγνωστικά πλαίσια, εμείς είδαμε τα τρία αναγνωστικά πλαίσια, πρέπει όμως να πάρεις και τη συμπληρωματική αλληλουχία να δεις τι γίνεται και θα σου ψάχνεις να σου βρει. Προφανώς εδώ πέρα όταν βλέπεις αυτά τα stop quantum εδώ, άρα δεν είναι το σωστό αναγνωστικό πλαίσιο, το ανοιχτό αναγνωστικό πλαίσιο που ψάχνουμε είναι αυτό. Μπορεί να μην βρίσκαμε και τίποτα. Που καταλήγουμε όμως ότι αυτό και πάλι τι είναι μια βιοπληροφορική εκτείνηση ότι αυτό είναι γονίδιο. Δεν το δουλέψετε στον πάγκο, απλώς λέτε ότι μάλλον αυτό είναι γονίδιο. Εντάξει, αυτά. |