1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Γεια σου. 3 00:00:08,870 --> 00:00:09,980 Καλώς ήρθατε όλοι. 4 00:00:09,980 --> 00:00:11,216 Το όνομά μου είναι Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Είμαι μια junior στο [δεν ακούγεται] μελετώντας επιστήμη των υπολογιστών, με έμφαση στην 6 00:00:15,220 --> 00:00:16,410 υπολογιστική γλωσσολογία. 7 00:00:16,410 --> 00:00:19,310 Έτσι δευτεροβάθμια μου είναι στη γλώσσα και γλωσσολογική θεωρία. 8 00:00:19,310 --> 00:00:21,870 Είμαι πραγματικά ενθουσιασμένος για να διδάξουν τα παιδιά σας λίγο για το πεδίο. 9 00:00:21,870 --> 00:00:24,300 Είναι μια πολύ συναρπαστική περιοχή για να μελετήσει. 10 00:00:24,300 --> 00:00:27,260 Επίσης, με πολλές δυνατότητες για το μέλλον. 11 00:00:27,260 --> 00:00:30,160 Έτσι, είμαι πραγματικά ενθουσιασμένος ότι εσείς εξετάζουν τα σχέδια σε 12 00:00:30,160 --> 00:00:31,160 υπολογιστική γλωσσολογία. 13 00:00:31,160 --> 00:00:35,460 Και θα είμαι περισσότερο από ευτυχής να συμβουλεύσει κάποια από σας αν αποφασίσετε να 14 00:00:35,460 --> 00:00:37,090 επιδιώκουν έναν από αυτούς. 15 00:00:37,090 --> 00:00:40,010 >> Έτσι, πρώτα απ 'όλα τι είναι υπολογιστικά γλωσσολογία; 16 00:00:40,010 --> 00:00:44,630 Έτσι, υπολογιστική γλωσσολογία είναι η τομής μεταξύ γλωσσολογία και 17 00:00:44,630 --> 00:00:46,390 επιστήμη των υπολογιστών. 18 00:00:46,390 --> 00:00:47,415 Έτσι, ποια είναι η γλωσσολογία; 19 00:00:47,415 --> 00:00:48,490 Τι είναι η επιστήμη των υπολογιστών; 20 00:00:48,490 --> 00:00:51,580 Λοιπόν, από τη γλωσσολογία, τι παίρνουμε είναι οι γλώσσες. 21 00:00:51,580 --> 00:00:54,960 Έτσι, γλωσσολογία είναι στην πραγματικότητα η μελέτη της φυσικής γλώσσας σε γενικές γραμμές. 22 00:00:54,960 --> 00:00:58,330 Έτσι, η φυσική γλώσσα - μιλάμε για γλώσσα που πράγματι χρησιμοποιήσει για 23 00:00:58,330 --> 00:00:59,770 επικοινωνούν μεταξύ τους. 24 00:00:59,770 --> 00:01:02,200 Έτσι, δεν είμαστε ακριβώς μιλάμε για το C ή Java. 25 00:01:02,200 --> 00:01:05,900 Μιλάμε περισσότερο για τα αγγλικά και Κινέζικα και άλλες γλώσσες που θα 26 00:01:05,900 --> 00:01:07,780 χρησιμοποιούν για να επικοινωνούν μεταξύ τους. 27 00:01:07,780 --> 00:01:12,470 >> Το δύσκολο πράγμα για αυτό είναι ότι αυτή τη στιγμή έχουμε περίπου 7.000 28 00:01:12,470 --> 00:01:14,260 γλώσσες στον κόσμο. 29 00:01:14,260 --> 00:01:19,520 Έτσι, υπάρχει μια αρκετά μεγάλη ποικιλία γλωσσών που μπορούμε να μελετήσουμε. 30 00:01:19,520 --> 00:01:22,600 Και τότε πιστεύω ότι είναι μάλλον πολύ δύσκολο να γίνει, για παράδειγμα, 31 00:01:22,600 --> 00:01:26,960 μετάφραση από τη μία γλώσσα στην άλλη, θεωρώντας ότι έχετε 32 00:01:26,960 --> 00:01:28,240 σχεδόν 7.000 από αυτούς. 33 00:01:28,240 --> 00:01:31,450 Έτσι, εάν σκέφτεστε να κάνει τη μετάφραση από τη μία γλώσσα στην άλλη σας 34 00:01:31,450 --> 00:01:35,840 έχουν σχεδόν πάνω από ένα εκατομμύριο διαφορετικούς συνδυασμούς που μπορείτε να 35 00:01:35,840 --> 00:01:37,330 έχουν από γλώσσα σε γλώσσα. 36 00:01:37,330 --> 00:01:40,820 Έτσι, είναι πραγματικά δύσκολο να κάνει κάποια είδος του συστήματος μετάφρασης για παράδειγμα 37 00:01:40,820 --> 00:01:43,540 κάθε γλώσσα. 38 00:01:43,540 --> 00:01:47,120 >> Έτσι, η γλωσσολογία αντιμετωπίζει με τη σύνταξη, σημασιολογία, πραγματολογία. 39 00:01:47,120 --> 00:01:49,550 Εσείς δεν χρειάζεται ακριβώς να γνωρίζουν τι είναι. 40 00:01:49,550 --> 00:01:55,090 Αλλά το πολύ ενδιαφέρον πράγμα είναι ότι ως μητρική του γλώσσα, πότε θέλετε να μάθετε 41 00:01:55,090 --> 00:01:59,010 γλώσσα ως παιδί, μπορείτε πραγματικά να μάθουν όλα αυτά τα πράγματα - σημασιολογία σύνταξη 42 00:01:59,010 --> 00:02:00,500 και την πραγματολογία - 43 00:02:00,500 --> 00:02:01,430 από τον εαυτό σας. 44 00:02:01,430 --> 00:02:04,820 Και κανείς δεν έχει να διδάξει σύνταξη σας για μπορείτε να καταλάβετε πώς είναι ποινές 45 00:02:04,820 --> 00:02:05,290 δομημένο. 46 00:02:05,290 --> 00:02:07,980 Έτσι, είναι πραγματικά ενδιαφέρον, διότι Είναι κάτι που έρχεται πολύ 47 00:02:07,980 --> 00:02:10,389 διαισθητικά. 48 00:02:10,389 --> 00:02:13,190 >> Και τι παίρνεις από η επιστήμη των υπολογιστών; 49 00:02:13,190 --> 00:02:16,700 Λοιπόν, το πιο σημαντικό πράγμα που μπορούμε έχουν στην επιστήμη των υπολογιστών είναι η πρώτη από 50 00:02:16,700 --> 00:02:19,340 όλα, την τεχνητή νοημοσύνη και μηχανική μάθηση. 51 00:02:19,340 --> 00:02:22,610 Έτσι, αυτό που προσπαθούμε να κάνουμε υπολογιστική γλωσσολογία είναι διδάσκουν 52 00:02:22,610 --> 00:02:26,990 υπολογιστή σας πώς να κάνει κάτι με τη γλώσσα. 53 00:02:26,990 --> 00:02:28,630 >> Έτσι, για παράδειγμα, στο μηχάνημα μετάφραση. 54 00:02:28,630 --> 00:02:32,490 Προσπαθώ να διδάξει πώς ο υπολογιστής μου να γνωρίζουν πώς να τη μετάβαση από το ένα 55 00:02:32,490 --> 00:02:33,310 γλώσσα στην άλλη. 56 00:02:33,310 --> 00:02:35,790 Έτσι, βασικά αρέσει διδασκαλία ένας υπολογιστής δύο γλώσσες. 57 00:02:35,790 --> 00:02:38,870 Αν κάνω επεξεργασία φυσικής γλώσσας, η οποία είναι η περίπτωση για παράδειγμα της 58 00:02:38,870 --> 00:02:41,810 Γράφημα του Facebook Search, σας διδάξει υπολογιστή σας πώς να κατανοήσουν 59 00:02:41,810 --> 00:02:42,730 ερωτήματα καλά. 60 00:02:42,730 --> 00:02:48,130 >> Έτσι, αν πείτε "τις φωτογραφίες του μου φίλοι. "Facebook δεν αντιμετωπίζει ότι 61 00:02:48,130 --> 00:02:51,130 ως σύνολο εγχόρδων που έχει απλά ένα μάτσο λέξεις. 62 00:02:51,130 --> 00:02:56,020 Είναι πράγματι κατανοεί τη σχέση μεταξύ "φωτογραφίες" και "φίλοι μου" και 63 00:02:56,020 --> 00:02:59,620 κατανοεί ότι είναι "φωτογραφίες" ιδιοκτησία "τους φίλους μου." 64 00:02:59,620 --> 00:03:02,350 >> Έτσι, αυτό είναι μέρος της, για παράδειγμα, επεξεργασία φυσικής γλώσσας. 65 00:03:02,350 --> 00:03:04,790 Προσπαθεί να καταλάβει τι είναι η σχέση μεταξύ 66 00:03:04,790 --> 00:03:07,520 οι λέξεις σε μια πρόταση. 67 00:03:07,520 --> 00:03:11,170 Και το μεγάλο ερώτημα είναι, μπορεί να σας διδάξει έναν υπολογιστή πώς να μιλούν 68 00:03:11,170 --> 00:03:12,650 μια γλώσσα σε γενικές γραμμές; 69 00:03:12,650 --> 00:03:17,810 Ποια είναι μια πολύ ενδιαφέρουσα ερώτηση σκεφτεί, όπως και αν ίσως στο μέλλον, 70 00:03:17,810 --> 00:03:19,930 θα πάμε να είναι σε θέση να μιλήστε στο κινητό σας τηλέφωνο. 71 00:03:19,930 --> 00:03:23,290 Κάπως σαν αυτό που κάνουμε με το Siri, αλλά κάτι που μοιάζει περισσότερο, μπορείτε πραγματικά να 72 00:03:23,290 --> 00:03:25,690 πείτε ό, τι θέλετε και το τηλέφωνο πρόκειται να καταλάβει τα πάντα. 73 00:03:25,690 --> 00:03:28,350 Και μπορεί να έχει συνέχεια ερωτήσεις και να μιλάτε. 74 00:03:28,350 --> 00:03:30,880 Αυτό είναι κάτι πραγματικά συναρπαστικό, κατά τη γνώμη μου. 75 00:03:30,880 --> 00:03:33,070 >> Έτσι, κάτι για φυσικές γλώσσες. 76 00:03:33,070 --> 00:03:36,220 Κάτι πολύ ενδιαφέρον για φυσικές γλώσσες είναι ότι, και αυτό είναι 77 00:03:36,220 --> 00:03:38,470 πίστωσης τον γλωσσολόγο καθηγητή μου, Μαρία Polinsky. 78 00:03:38,470 --> 00:03:40,830 Δίνει ένα παράδειγμα και νομίζω είναι πραγματικά ενδιαφέρον. 79 00:03:40,830 --> 00:03:47,060 Επειδή μαθαίνουμε τη γλώσσα από τη στιγμή που γεννιόμαστε και, στη συνέχεια, τη μητρική μας 80 00:03:47,060 --> 00:03:49,170 γλώσσας είδος φύεται σε εμάς. 81 00:03:49,170 --> 00:03:52,570 >> Και βασικά θα μάθουν τη γλώσσα από την ελάχιστη συμβολή, σωστά; 82 00:03:52,570 --> 00:03:56,700 Μπορείτε απλά να πάρει στοιχεία από το Οι γονείς του αυτό που ακούγεται γλώσσα σας 83 00:03:56,700 --> 00:03:58,770 αρέσει και απλά να το μάθει. 84 00:03:58,770 --> 00:04:02,240 Έτσι, είναι ενδιαφέρον γιατί αν κοιτάξετε σε αυτές τις προτάσεις, για παράδειγμα. 85 00:04:02,240 --> 00:04:06,980 Φαίνεσαι, "Μαρία βάζει σε ένα παλτό κάθε φορά που φεύγει από το σπίτι. " 86 00:04:06,980 --> 00:04:10,650 >> Στην περίπτωση αυτή, είναι δυνατό να έχουν την λέξη «αυτή» αναφέρεται σε Mary, σωστά; 87 00:04:10,650 --> 00:04:13,500 Μπορείτε να πείτε "Μαρία βάζει σε ένα παλτό κάθε φορά που η Μαρία αφήνει την 88 00:04:13,500 --> 00:04:14,960 σπίτι ». έτσι ώστε να είναι μια χαρά. 89 00:04:14,960 --> 00:04:19,370 Στη συνέχεια, όμως, αν κοιτάξει κανείς την φράση «Βάζει σε ένα παλτό κάθε φορά Mary 90 00:04:19,370 --> 00:04:22,850 αφήνει το σπίτι. "ξέρετε ότι είναι αδύνατο να πει ότι "αυτή" είναι 91 00:04:22,850 --> 00:04:24,260 αναφερόμενος στην Παναγία. 92 00:04:24,260 --> 00:04:27,070 >> Δεν υπάρχει κανένας τρόπος για να πούμε ότι "η Μαρία βάζει σε ένα παλτό κάθε φορά που η Μαρία αφήνει 93 00:04:27,070 --> 00:04:30,790 το σπίτι. "Γι 'αυτό είναι ενδιαφέρον, διότι αυτό είναι το είδος της διαίσθησης 94 00:04:30,790 --> 00:04:32,890 ότι κάθε φυσικός ομιλητής έχει. 95 00:04:32,890 --> 00:04:36,370 Και κανείς δεν είχε διδάξει ότι αυτός είναι ο τρόπος που λειτουργεί η σύνταξη. 96 00:04:36,370 --> 00:04:41,930 Και ότι μπορείτε να έχετε μόνο αυτό το "αυτή" αναφερόμενος στην Παναγία σε αυτήν την πρώτη περίπτωση, 97 00:04:41,930 --> 00:04:44,260 και μάλιστα σε αυτό το άλλο πάρα πολύ, αλλά όχι σε αυτό. 98 00:04:44,260 --> 00:04:46,500 Αλλά ο καθένας παίρνει το είδος της με την ίδια απάντηση. 99 00:04:46,500 --> 00:04:48,580 Όλοι συμφωνούν σε αυτό. 100 00:04:48,580 --> 00:04:53,280 Έτσι, είναι πραγματικά ενδιαφέρον το πώς παρόλο δεν ξέρεις όλους τους κανόνες 101 00:04:53,280 --> 00:04:55,575 στη γλώσσα σας, το είδος της κατανοούν πώς λειτουργεί η γλώσσα. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Έτσι, το ενδιαφέρον πράγμα για το φυσικό γλώσσας είναι ότι δεν χρειάζεται να 104 00:05:01,530 --> 00:05:06,970 γνωρίζω καμία σύνταξη να ξέρω αν μια πρόταση είναι γραμματικά ή γραμματική για 105 00:05:06,970 --> 00:05:08,810 περισσότερες περιπτώσεις. 106 00:05:08,810 --> 00:05:13,220 Ποια σε κάνει να σκέφτεσαι ότι ίσως αυτό που συμβαίνει είναι ότι μέσα από τη ζωή σας, 107 00:05:13,220 --> 00:05:17,410 απλά να κρατήσει όλο και περισσότερο ποινές είπαν για εσάς. 108 00:05:17,410 --> 00:05:19,800 Και τότε θα κρατήσει απομνημόνευση όλες τις προτάσεις. 109 00:05:19,800 --> 00:05:24,230 Και στη συνέχεια, όταν κάποιος σας λέει κάτι, θα ακούσετε τη φράση αυτή και 110 00:05:24,230 --> 00:05:27,040 Αν κοιτάξει κανείς το λεξιλόγιό σας των ποινών και να δούμε αν 111 00:05:27,040 --> 00:05:28,270 η φράση αυτή δεν υπάρχει. 112 00:05:28,270 --> 00:05:29,830 Και αν είναι εκεί λένε ότι είναι γραμματικά. 113 00:05:29,830 --> 00:05:31,740 Αν δεν είναι λέγατε ότι είναι σόλοικος. 114 00:05:31,740 --> 00:05:35,150 >> Έτσι, στην περίπτωση αυτή, θα σας πω, OH, έτσι ώστε να έχουν μια τεράστια λίστα με όλα 115 00:05:35,150 --> 00:05:36,140 πιθανές ποινές. 116 00:05:36,140 --> 00:05:38,240 Και στη συνέχεια, όταν ακούς μια πρόταση, ξέρετε αν είναι γραμματικά ή 117 00:05:38,240 --> 00:05:39,450 δεν βασίζονται σε αυτό. 118 00:05:39,450 --> 00:05:42,360 Το θέμα είναι ότι αν κοιτάξετε μια πρόταση, για παράδειγμα, «Η 119 00:05:42,360 --> 00:05:47,540 πέντε επικεφαλής CS50 TFs μαγειρεμένα τον τυφλό χταπόδι χρησιμοποιώντας μια κούπα DAPA. «Είναι 120 00:05:47,540 --> 00:05:49,630 σίγουρα δεν είναι μια πρόταση ότι έχετε ακούσει πριν. 121 00:05:49,630 --> 00:05:52,380 Αλλά την ίδια στιγμή ξέρεις ότι είναι λίγο πολύ γραμματική, έτσι δεν είναι; 122 00:05:52,380 --> 00:05:55,570 Δεν υπάρχουν γραμματικά λάθη και μπορείτε να πείτε ότι 123 00:05:55,570 --> 00:05:57,020 είναι μια πιθανή ποινή. 124 00:05:57,020 --> 00:06:01,300 >> Γι 'αυτό μας κάνει να πιστεύουμε ότι στην πραγματικότητα η τρόπο που μαθαίνουμε τη γλώσσα δεν είναι μόνο 125 00:06:01,300 --> 00:06:07,090 έχοντας μια τεράστια βάση δεδομένων των πιθανών λέξεις ή φράσεις, αλλά περισσότερο από 126 00:06:07,090 --> 00:06:11,490 κατανόηση της σχέσης μεταξύ λόγια σε αυτές τις προτάσεις. 127 00:06:11,490 --> 00:06:14,570 Μήπως αυτό έχει νόημα; 128 00:06:14,570 --> 00:06:19,370 Έτσι, λοιπόν, το ερώτημα είναι, μπορεί να υπολογιστές μάθουν ξένες γλώσσες; 129 00:06:19,370 --> 00:06:21,490 Μπορούμε να διδάξουν τη γλώσσα με τους υπολογιστές; 130 00:06:21,490 --> 00:06:24,230 >> Έτσι, ας σκεφτούμε τη διαφορά ανάμεσα σε ένα φυσικό ομιλητή της γλώσσας 131 00:06:24,230 --> 00:06:25,460 και ένας υπολογιστής. 132 00:06:25,460 --> 00:06:27,340 Έτσι, τι συμβαίνει με τον ομιλητή; 133 00:06:27,340 --> 00:06:30,430 Λοιπόν, ο φυσικός ομιλητής μαθαίνει γλώσσα από την έκθεση σε αυτό. 134 00:06:30,430 --> 00:06:34,200 Συνήθως τα πρώτα χρόνια της παιδικής ηλικίας της. 135 00:06:34,200 --> 00:06:38,570 Έτσι, βασικά, απλά έχει ένα μωρό, και να μιλάτε σε αυτό, και 136 00:06:38,570 --> 00:06:40,540 μόλις μαθαίνει πώς να μιλήσει η γλώσσα, έτσι δεν είναι; 137 00:06:40,540 --> 00:06:42,660 Έτσι, είστε ουσιαστικά δίνει εισόδου για το μωρό. 138 00:06:42,660 --> 00:06:45,200 Έτσι, τότε θα μπορεί να υποστηρίξει ότι ένας υπολογιστής μπορεί να κάνει το ίδιο πράγμα, έτσι δεν είναι; 139 00:06:45,200 --> 00:06:49,510 Μπορείτε να δώσετε μόνο τη γλώσσα ως συμβολή στον υπολογιστή. 140 00:06:49,510 --> 00:06:53,410 >> Όπως επί παραδείγματι μια δέσμη των αρχείων που έχουν τα βιβλία στα αγγλικά. 141 00:06:53,410 --> 00:06:56,190 Ίσως αυτός να είναι ένας τρόπος ότι μπορείτε θα μπορούσε ενδεχομένως να διδάξει 142 00:06:56,190 --> 00:06:57,850 υπολογιστή αγγλικά, έτσι δεν είναι; 143 00:06:57,850 --> 00:07:01,000 Και στην πραγματικότητα, αν το καλοσκεφτείτε, σας παίρνει ίσως ένα ζευγάρι 144 00:07:01,000 --> 00:07:02,680 ημέρες για να διαβάσετε ένα βιβλίο. 145 00:07:02,680 --> 00:07:05,760 Για έναν υπολογιστή που χρειάζεται ένα δευτερόλεπτο για να εξετάσουμε όλες τις λέξεις σε ένα βιβλίο. 146 00:07:05,760 --> 00:07:10,810 Έτσι, μπορείτε να σκεφτείτε ότι μπορεί να είναι ακριβώς αυτό επιχείρημα των εισροών από γύρω σας, 147 00:07:10,810 --> 00:07:15,440 αυτό δεν είναι αρκετό να πούμε ότι αυτό είναι κάτι που μόνο οι άνθρωποι μπορούν να κάνουν. 148 00:07:15,440 --> 00:07:17,680 Μπορείτε να σκεφτείτε υπολογιστές Επίσης, μπορείτε να πάρετε είσοδο. 149 00:07:17,680 --> 00:07:21,170 >> Το δεύτερο πράγμα είναι ότι η μητρική τους γλώσσα έχουν επίσης έναν εγκέφαλο που έχει 150 00:07:21,170 --> 00:07:23,870 την ικανότητα εκμάθησης ξένων γλωσσών. 151 00:07:23,870 --> 00:07:27,020 Αλλά αν το σκεφτείτε, ένας εγκέφαλος είναι ένα στερεό πράγμα. 152 00:07:27,020 --> 00:07:30,450 Όταν γεννιούνται, είναι ήδη οριστεί - 153 00:07:30,450 --> 00:07:31,320 Αυτό είναι το μυαλό σας. 154 00:07:31,320 --> 00:07:34,660 Και όπως σας μεγαλώνουν, μπορείτε απλά να πάρετε περισσότερα εισόδου της γλώσσας και ίσως θρεπτικά συστατικά 155 00:07:34,660 --> 00:07:35,960 και άλλα πράγματα. 156 00:07:35,960 --> 00:07:38,170 Αλλά λίγο πολύ το μυαλό σας είναι ένα στερεό πράγμα. 157 00:07:38,170 --> 00:07:41,290 >> Έτσι, μπορείτε να πείτε, καλά, ίσως μπορείτε να οικοδομήσει έναν υπολογιστή που έχει μια δέσμη των 158 00:07:41,290 --> 00:07:45,890 λειτουργίες και τις μεθόδους που απλά μιμούνται την ικανότητα εκμάθησης ξένων γλωσσών. 159 00:07:45,890 --> 00:07:49,630 Έτσι, με αυτή την έννοια, θα μπορούσαμε να πούμε, λοιπόν, μπορεί να έχει έναν υπολογιστή που έχει όλα τα 160 00:07:49,630 --> 00:07:52,270 πράγματα που πρέπει να μάθουν τη γλώσσα. 161 00:07:52,270 --> 00:07:56,200 Και το τελευταίο πράγμα είναι ότι ένας ντόπιος ομιλητής μαθαίνει από τη δοκιμή και το λάθος. 162 00:07:56,200 --> 00:08:01,090 Έτσι, βασικά ένα άλλο σημαντικό πράγμα στην εκμάθηση γλωσσών είναι ότι το είδος 163 00:08:01,090 --> 00:08:05,340 του μάθουν πράγματα, κάνοντας γενικεύσεις για το τι ακούτε. 164 00:08:05,340 --> 00:08:10,280 >> Έτσι, όπως σας μεγαλώνουν θα μάθουν ότι ορισμένες λέξεις είναι περισσότερο σαν ουσιαστικά, 165 00:08:10,280 --> 00:08:11,820 κάποια άλλα από αυτά είναι επίθετα. 166 00:08:11,820 --> 00:08:14,250 Και δεν χρειάζεται να έχει οποιαδήποτε γνώση της γλωσσολογίας 167 00:08:14,250 --> 00:08:15,040 να το κατανοήσουμε αυτό. 168 00:08:15,040 --> 00:08:18,560 Αλλά ξέρετε ακριβώς υπάρχει κάποια λόγια τοποθετούνται σε κάποιο μέρος της 169 00:08:18,560 --> 00:08:22,570 πρόταση και κάποιοι άλλοι σε άλλες τμήματα της ποινής. 170 00:08:22,570 --> 00:08:26,110 >> Και ότι όταν κάνεις κάτι που είναι όπως μια πρόταση που δεν είναι σωστό - 171 00:08:26,110 --> 00:08:28,770 ίσως λόγω της γενίκευσης πάνω για παράδειγμα. 172 00:08:28,770 --> 00:08:32,210 Ίσως όταν μεγαλώνεις, θα παρατηρήσετε ότι ο πληθυντικός είναι συνήθως 173 00:08:32,210 --> 00:08:35,809 σχηματίζεται τοποθετώντας ένα S στο το τέλος της λέξης. 174 00:08:35,809 --> 00:08:40,042 Και τότε θα προσπαθήσουμε να κάνουμε τον πληθυντικό "Ελαφιών", όπως "ελάφια" ή "δόντι", όπως 175 00:08:40,042 --> 00:08:44,780 "Tooths." Έτσι, τότε οι γονείς σας ή κάποιον που διορθώνει και λέει, όχι, η 176 00:08:44,780 --> 00:08:49,020 πληθυντικός του "ελαφιών" είναι "ελάφια", και ο πληθυντικός του "δόντι" είναι "δόντια". Και στη συνέχεια 177 00:08:49,020 --> 00:08:50,060 μπορείτε να μάθετε αυτά τα πράγματα. 178 00:08:50,060 --> 00:08:51,520 Έτσι, μπορείτε να μάθετε από την δοκιμή και το λάθος. 179 00:08:51,520 --> 00:08:53,100 >> Αλλά μπορείτε επίσης να το κάνετε αυτό με έναν υπολογιστή. 180 00:08:53,100 --> 00:08:55,310 Μπορείτε να έχετε κάτι που ονομάζεται ενισχυτική μάθηση. 181 00:08:55,310 --> 00:08:58,560 Ποια είναι βασικά σαν να δίνουμε ένα υπολογιστή μια ανταμοιβή κάθε φορά που το κάνει 182 00:08:58,560 --> 00:08:59,410 κάτι σωστά. 183 00:08:59,410 --> 00:09:04,710 Και δίνει το αντίθετο από μια ανταμοιβή και όταν κάνει κάτι λάθος. 184 00:09:04,710 --> 00:09:07,410 Μπορείτε πραγματικά να δείτε ότι αν πάτε στο Google Translate και να προσπαθήσετε να 185 00:09:07,410 --> 00:09:10,220 μεταφράσετε μια πρόταση, το σας ρωτά για την ανατροφοδότηση. 186 00:09:10,220 --> 00:09:13,240 Έτσι, αν σας πω, OH, υπάρχει μια καλύτερη μετάφραση για αυτή την πρόταση. 187 00:09:13,240 --> 00:09:18,140 Μπορείτε να πληκτρολογήσετε και στη συνέχεια αν πολλά οι άνθρωποι συνεχίζουν να λένε ότι είναι η καλύτερη 188 00:09:18,140 --> 00:09:21,560 μετάφραση, μαθαίνει μόνο ότι θα πρέπει να χρησιμοποιεί το εν λόγω μετάφραση αντί του 189 00:09:21,560 --> 00:09:22,960 το ένα που έδινε. 190 00:09:22,960 --> 00:09:28,830 >> Έτσι, αυτό είναι ένα πολύ φιλοσοφικό ερώτημα για να δούμε αν οι υπολογιστές θα είναι 191 00:09:28,830 --> 00:09:30,340 είναι σε θέση να μιλήσει ή όχι στο μέλλον. 192 00:09:30,340 --> 00:09:34,440 Αλλά έχω μεγάλες ελπίδες ότι μπορούν να μόνο με βάση τα επιχειρήματα αυτά. 193 00:09:34,440 --> 00:09:38,570 Αλλά είναι ακριβώς πάνω από μια φιλοσοφική ερώτηση. 194 00:09:38,570 --> 00:09:43,460 >> Έτσι, ενώ οι υπολογιστές δεν μπορούν ακόμα να μιλήσει, ποια είναι τα πράγματα που μπορούμε να κάνουμε; 195 00:09:43,460 --> 00:09:47,070 Μερικά πραγματικά δροσερά πράγματα είναι ταξινόμησης των δεδομένων. 196 00:09:47,070 --> 00:09:53,210 Έτσι, για παράδειγμα, εσείς ξέρετε ότι οι υπηρεσίες ηλεκτρονικού ταχυδρομείου κάνουμε, για 197 00:09:53,210 --> 00:09:55,580 παράδειγμα, το φιλτράρισμα ανεπιθύμητων μηνυμάτων. 198 00:09:55,580 --> 00:09:59,070 Έτσι, κάθε φορά που λαμβάνετε spam, προσπαθεί να φιλτράρετε σε άλλο πλαίσιο. 199 00:09:59,070 --> 00:10:00,270 Έτσι, πώς να το κάνουμε αυτό; 200 00:10:00,270 --> 00:10:06,080 Δεν είναι όπως ο υπολογιστής ξέρει ακριβώς Οι διευθύνσεις ηλεκτρονικού ταχυδρομείου ό, τι για την αποστολή spam. 201 00:10:06,080 --> 00:10:09,130 Έτσι είναι περισσότερο με βάση το περιεχόμενο των το μήνυμα, ή ίσως ο τίτλος, ή 202 00:10:09,130 --> 00:10:11,310 ίσως κάποιο μοντέλο που έχετε. 203 00:10:11,310 --> 00:10:15,690 >> Έτσι, βασικά, τι μπορείτε να κάνετε είναι να πάρετε μια πολλά στοιχεία των μηνυμάτων ηλεκτρονικού ταχυδρομείου που είναι spam, 204 00:10:15,690 --> 00:10:19,980 μηνύματα που δεν είναι spam, και να μάθετε τι είδος των προτύπων που έχετε στο 205 00:10:19,980 --> 00:10:21,000 αυτά που είναι spam. 206 00:10:21,000 --> 00:10:23,260 Και αυτό είναι μέρος της υπολογιστικής γλωσσολογία. 207 00:10:23,260 --> 00:10:24,720 Λέγεται ταξινόμησης των δεδομένων. 208 00:10:24,720 --> 00:10:28,100 Και είμαστε πραγματικά πρόκειται να δούμε μια παράδειγμα ότι στις επόμενες διαφάνειες. 209 00:10:28,100 --> 00:10:32,910 >> Το δεύτερο πράγμα είναι η φυσική γλώσσα επεξεργασίας, το οποίο είναι το πράγμα που το 210 00:10:32,910 --> 00:10:36,580 Γράφημα Αναζήτηση κάνει να αφήσει μπορείτε να γράψετε μια πρόταση. 211 00:10:36,580 --> 00:10:38,690 Και εμπιστεύεται να καταλάβετε τι είναι η έννοια και δίνει 212 00:10:38,690 --> 00:10:39,940 Είσαι ένα καλύτερο αποτέλεσμα. 213 00:10:39,940 --> 00:10:43,880 Στην πραγματικότητα, αν πάτε στο Google ή το Bing και ψάχνετε κάτι σαν Lady 214 00:10:43,880 --> 00:10:47,060 Ύψος της Gaga, είστε πράγματι πρόκειται να πάρει 5 '1 "αντί για τα στοιχεία 215 00:10:47,060 --> 00:10:50,170 από αυτήν επειδή καταλαβαίνει πραγματικά τι πράγμα μιλάς. 216 00:10:50,170 --> 00:10:52,140 Έτσι, αυτό είναι μέρος της φυσικής επεξεργασία της γλώσσας. 217 00:10:52,140 --> 00:10:57,000 >> Ή, επίσης, όταν χρησιμοποιείτε Siri, το πρώτο έχετε έναν αλγόριθμο που προσπαθεί να 218 00:10:57,000 --> 00:11:01,130 μεταφράσει τι λέτε σε λέξεις, σε κείμενο. 219 00:11:01,130 --> 00:11:03,690 Και τότε προσπαθεί να μεταφράσει ότι σε νόημα. 220 00:11:03,690 --> 00:11:06,570 Έτσι ώστε να είναι όλα μέρος της φυσικής επεξεργασία της γλώσσας. 221 00:11:06,570 --> 00:11:08,320 >> Στη συνέχεια, έχετε αυτόματη μετάφραση - 222 00:11:08,320 --> 00:11:10,300 η οποία είναι στην πραγματικότητα ένα από τα αγαπημένα μου - 223 00:11:10,300 --> 00:11:14,060 η οποία είναι ακριβώς μετάφραση από μια γλώσσα στην άλλη. 224 00:11:14,060 --> 00:11:17,950 Έτσι, μπορείτε να σκεφτείτε ότι όταν κάνεις αυτόματη μετάφραση, έχετε 225 00:11:17,950 --> 00:11:19,750 άπειρες δυνατότητες των ποινών. 226 00:11:19,750 --> 00:11:22,960 Έτσι, δεν υπάρχει τρόπος να αποθηκεύουμε μόνο κάθε μετάφραση. 227 00:11:22,960 --> 00:11:27,440 Έτσι, θα πρέπει να καταλήξει σε ενδιαφέροντα αλγόριθμους για να είναι σε θέση να 228 00:11:27,440 --> 00:11:30,110 μεταφράσει κάθε πρόταση με κάποιο τρόπο. 229 00:11:30,110 --> 00:11:32,483 >> Εσείς έχετε οποιεσδήποτε ερωτήσεις μέχρι τώρα; 230 00:11:32,483 --> 00:11:34,450 Όχι; 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Λοιπόν, τι θα δούμε σήμερα; 233 00:11:36,900 --> 00:11:39,300 Πρώτα απ 'όλα, είμαι πρόκειται να μιλήσω για το πρόβλημα ταξινόμησης. 234 00:11:39,300 --> 00:11:41,440 Έτσι, αυτό που ήμουν λέγοντας για το spam. 235 00:11:41,440 --> 00:11:46,820 Τι Πάω να κάνουμε είναι, δεδομένου στίχους ένα τραγούδι, μπορείτε να προσπαθήσετε να καταλάβω 236 00:11:46,820 --> 00:11:49,810 με μεγάλη πιθανότητα ποιος είναι ο τραγουδιστής; 237 00:11:49,810 --> 00:11:53,590 Ας πούμε ότι έχω τραγούδια από Lady Gaga και η Katy Perry, αν μπορώ να σας δώσω μια 238 00:11:53,590 --> 00:11:58,130 νέο τραγούδι, μπορώ να σας καταλάβω αν Είναι Katy Perry και η Lady Gaga; 239 00:11:58,130 --> 00:12:01,490 >> Το δεύτερο, είμαι απλώς πρόκειται να μιλήσω σχετικά με το πρόβλημα του κατακερματισμού. 240 00:12:01,490 --> 00:12:05,780 Οπότε δεν ξέρω αν εσείς γνωρίζετε, αλλά Κινέζικα, Ιαπωνικά, εκτός της Ανατολικής Ασίας 241 00:12:05,780 --> 00:12:08,090 γλώσσες, και σε άλλες γλώσσες σε γενικές γραμμές, δεν έχουν 242 00:12:08,090 --> 00:12:09,830 διαστήματα μεταξύ των λέξεων. 243 00:12:09,830 --> 00:12:13,540 Και στη συνέχεια, αν σκεφτούμε τον τρόπο που το είδος του υπολογιστή σας προσπαθεί να 244 00:12:13,540 --> 00:12:18,600 κατανοήσουν την επεξεργασία φυσικής γλώσσας, φαίνεται από τα λόγια και 245 00:12:18,600 --> 00:12:21,500 προσπαθεί να κατανοήσει τις σχέσεις μεταξύ τους, σωστά; 246 00:12:21,500 --> 00:12:25,440 Στη συνέχεια, όμως, αν έχετε Κινέζικα, και έχουν μηδενικό χώρους, είναι πραγματικά δύσκολο να 247 00:12:25,440 --> 00:12:28,360 μάθετε ποια είναι η σχέση μεταξύ Δηλαδή, επειδή δεν έχουν καμία 248 00:12:28,360 --> 00:12:29,530 λέξεις από την πρώτη. 249 00:12:29,530 --> 00:12:32,600 Έτσι, έχετε να κάνετε κάτι που ονομάζεται κατάτμηση η οποία σημαίνει απλά βάζοντας 250 00:12:32,600 --> 00:12:36,490 κενά ανάμεσα σε αυτό που λέμε λόγια σε αυτές τις γλώσσες. 251 00:12:36,490 --> 00:12:37,740 Νόημα; 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Και μετά θα πάμε να μιλάμε για σύνταξη. 254 00:12:41,540 --> 00:12:44,050 Έτσι λίγο για το φυσικό επεξεργασία της γλώσσας. 255 00:12:44,050 --> 00:12:45,420 Είναι πρόκειται να είναι απλά μια επισκόπηση. 256 00:12:45,420 --> 00:12:50,700 Έτσι, σήμερα, βασικά αυτό που θέλω να κάνω είναι να σας δώσει τα παιδιά λίγο ένα 257 00:12:50,700 --> 00:12:53,930 μέσα από ποιες είναι οι δυνατότητες που μπορείτε να κάνετε με την υπολογιστική 258 00:12:53,930 --> 00:12:54,960 γλωσσολογία. 259 00:12:54,960 --> 00:13:00,410 Και τότε μπορείτε να δείτε ό, τι νομίζετε είναι δροσερό μεταξύ αυτά τα πράγματα. 260 00:13:00,410 --> 00:13:02,270 Και ίσως μπορείτε να σκεφτείτε ένα σχέδιο και να έρθει να μου μιλήσει. 261 00:13:02,270 --> 00:13:05,260 Και μπορώ να σας δώσω συμβουλές σχετικά με το πώς να την εφαρμόσουν. 262 00:13:05,260 --> 00:13:09,060 >> Έτσι, η σύνταξη θα είναι λίγο Γράφημα για την αναζήτηση και την μηχανή 263 00:13:09,060 --> 00:13:09,670 μετάφραση. 264 00:13:09,670 --> 00:13:13,650 Είμαι ακριβώς πρόκειται να δώσει ένα παράδειγμα για το πώς θα μπορούσε, για παράδειγμα, να μεταφράσει 265 00:13:13,650 --> 00:13:16,020 κάτι από τα πορτογαλικά στα αγγλικά. 266 00:13:16,020 --> 00:13:17,830 Ακούγεται καλό; 267 00:13:17,830 --> 00:13:19,293 >> Έτσι, η πρώτη, το πρόβλημα ταξινόμησης. 268 00:13:19,293 --> 00:13:23,590 Θα πω ότι αυτό το μέρος του σεμιναρίου πρόκειται να είναι το πιο δύσκολο 269 00:13:23,590 --> 00:13:27,560 μόνο και μόνο επειδή υπάρχει μετάβαση να είναι κάποια κωδικοποίηση. 270 00:13:27,560 --> 00:13:29,470 Αλλά πρόκειται να είναι Python. 271 00:13:29,470 --> 00:13:34,380 Ξέρω ότι εσείς δεν ξέρετε Python, έτσι Είμαι ακριβώς πρόκειται να εξηγήσει την υψηλή 272 00:13:34,380 --> 00:13:35,750 επίπεδο αυτό που κάνω. 273 00:13:35,750 --> 00:13:40,900 Και δεν χρειάζεται να ενδιαφέρονται πραγματικά πάρα πολύ πολύ για τη σύνταξη γιατί αυτό είναι 274 00:13:40,900 --> 00:13:42,140 κάτι που τα παιδιά μπορούν να μάθουν. 275 00:13:42,140 --> 00:13:42,540 Εντάξει; 276 00:13:42,540 --> 00:13:43,580 Ακούγεται καλό. 277 00:13:43,580 --> 00:13:46,020 >> Ποιο είναι λοιπόν το πρόβλημα ταξινόμησης; 278 00:13:46,020 --> 00:13:49,140 Έτσι, σας δίνεται κάποια στίχους για ένα τραγούδι και θέλετε να μαντέψετε 279 00:13:49,140 --> 00:13:50,620 ποιος το τραγουδάει. 280 00:13:50,620 --> 00:13:54,045 Και αυτό μπορεί να είναι για οποιοδήποτε είδος άλλα προβλήματα. 281 00:13:54,045 --> 00:13:59,980 Έτσι μπορεί να, για παράδειγμα, έχετε ένα προεδρική εκστρατεία και έχετε ένα 282 00:13:59,980 --> 00:14:02,610 την ομιλία, και θέλετε να βρείτε αν ήταν, για παράδειγμα, 283 00:14:02,610 --> 00:14:04,470 Ομπάμα ή Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Ή μπορείτε να έχετε μια δέσμη των emails και θέλετε να καταλάβω αν είναι 285 00:14:07,700 --> 00:14:08,890 spam ή όχι. 286 00:14:08,890 --> 00:14:11,440 Έτσι είναι μόνο μερικά ταξινόμηση δεδομένων με βάση τις λέξεις 287 00:14:11,440 --> 00:14:13,790 ότι έχετε εκεί. 288 00:14:13,790 --> 00:14:16,295 >> Έτσι για να το κάνουμε αυτό, θα πρέπει να κάνουμε κάποιες υποθέσεις. 289 00:14:16,295 --> 00:14:20,570 Έτσι, πολλά για την υπολογιστική γλωσσολογία κάνει υποθέσεις, 290 00:14:20,570 --> 00:14:24,100 Συνήθως είναι έξυπνο υποθέσεις, έτσι ώστε να μπορείτε να πάρετε καλά αποτελέσματα. 291 00:14:24,100 --> 00:14:26,670 Προσπαθώντας να δημιουργήσει ένα μοντέλο για αυτό. 292 00:14:26,670 --> 00:14:31,290 Και στη συνέχεια να το δοκιμάσετε και να δούμε αν αυτό δουλεύει, αν σας δίνει καλή ακρίβεια. 293 00:14:31,290 --> 00:14:33,940 Και αν το κάνει, τότε θα προσπαθούμε να τη βελτιώσουμε. 294 00:14:33,940 --> 00:14:37,640 Αν δεν το κάνει, είστε όπως, εντάξει, ίσως να θα πρέπει να κάνουν μια διαφορετική υπόθεση. 295 00:14:37,640 --> 00:14:44,030 >> Έτσι, η υπόθεση ότι θα πάμε να κάνω είναι ότι ένας καλλιτέχνης συνήθως τραγουδά 296 00:14:44,030 --> 00:14:49,220 σχετικά με ένα θέμα πολλές φορές, και ίσως χρησιμοποιεί λέξεις φορές πολλαπλάσιο, μόλις 297 00:14:49,220 --> 00:14:50,270 επειδή συνηθίσει σε αυτό. 298 00:14:50,270 --> 00:14:51,890 Μπορείτε να σκεφτείτε ακριβώς του φίλου σας. 299 00:14:51,890 --> 00:14:57,350 Είμαι βέβαιος ότι εσείς όλοι έχετε φίλους που λένε φράση υπογραφή τους, 300 00:14:57,350 --> 00:14:59,260 κυριολεκτικά για κάθε φράση - 301 00:14:59,260 --> 00:15:02,660 όπως κάποια συγκεκριμένη λέξη ή κάποια συγκεκριμένη φράση που λένε για 302 00:15:02,660 --> 00:15:04,020 κάθε πρόταση. 303 00:15:04,020 --> 00:15:07,920 >> Και αυτό που μπορούμε να πούμε είναι ότι αν δείτε μια φράση που έχει μια υπογραφή 304 00:15:07,920 --> 00:15:11,450 φράση, μπορείτε να υποθέσετε ότι πιθανώς ο φίλος σας είναι η 305 00:15:11,450 --> 00:15:13,310 κανείς δεν το λέει, σωστά; 306 00:15:13,310 --> 00:15:18,410 Έτσι θα κάνουμε αυτή την υπόθεση και στη συνέχεια αυτό είναι το πώς μπορείτε να δημιουργήσετε ένα μοντέλο. 307 00:15:18,410 --> 00:15:24,440 >> Το παράδειγμα που είμαι πρόκειται να δώσει είναι πώς Lady Gaga, για παράδειγμα, οι άνθρωποι 308 00:15:24,440 --> 00:15:27,430 λένε ότι χρησιμοποιεί «μωρό» για όλα νούμερο ένα τα τραγούδια της. 309 00:15:27,430 --> 00:15:32,270 Και στην πραγματικότητα αυτό είναι ένα βίντεο που δείχνει της, λέγοντας τη λέξη "baby" για 310 00:15:32,270 --> 00:15:33,410 διαφορετικά τραγούδια. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO PLAYBACK] 312 00:15:33,860 --> 00:15:34,310 >> - (ΤΡΑΓΟΥΔΙ) Baby. 313 00:15:34,310 --> 00:15:36,220 Baby. 314 00:15:36,220 --> 00:15:37,086 Baby. 315 00:15:37,086 --> 00:15:37,520 Baby. 316 00:15:37,520 --> 00:15:37,770 Baby. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Baby. 319 00:15:39,243 --> 00:15:40,085 Baby. 320 00:15:40,085 --> 00:15:40,510 Baby. 321 00:15:40,510 --> 00:15:40,850 Baby. 322 00:15:40,850 --> 00:15:41,090 >> [ΤΕΛΟΣ VIDEO ΑΝΑΠΑΡΑΓΩΓΗ- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Έτσι υπάρχουν, νομίζω, 40 τραγούδια εδώ, στην οποία λέει το 324 00:15:44,020 --> 00:15:48,690 λέξη "baby". Έτσι, μπορείτε βασικά να μαντέψετε ότι αν δείτε ένα τραγούδι που έχει 325 00:15:48,690 --> 00:15:52,180 η λέξη "baby", εκεί είναι κάποια υψηλή πιθανότητα ότι η Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Αλλά ας προσπαθήσουμε να αναπτύξουμε αυτό ακόμη περισσότερο τυπικά. 327 00:15:56,450 --> 00:16:00,470 >> Έτσι, αυτά είναι στίχους για τραγούδια Lady Gaga και η Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Έτσι θα δούμε Lady Gaga, θα βλέπουν έχουν πολλά περιστατικά "baby", μια 329 00:16:04,120 --> 00:16:07,710 πολλά περιστατικά του «τρόπο». Και στη συνέχεια Katy Perry έχει πολλά περιστατικά της 330 00:16:07,710 --> 00:16:10,360 "Η," πολλά περιστατικά «φωτιά». 331 00:16:10,360 --> 00:16:14,560 >> Έτσι, βασικά αυτό που θέλουμε να κάνουμε είναι, μπορείτε να πάρετε μια λυρική. 332 00:16:14,560 --> 00:16:20,480 Ας πούμε ότι έχετε ένα λυρικό ποίημα για ένα τραγούδι που είναι «το μωρό," μόνο "το μωρό." Αν 333 00:16:20,480 --> 00:16:24,750 μπορείτε να πάρετε μόνο τη λέξη "baby", και αυτό είναι όλα τα δεδομένα που έχετε από 334 00:16:24,750 --> 00:16:27,880 Lady Gaga και η Katy Perry, ο οποίος θα να μαντέψετε είναι το πρόσωπο 335 00:16:27,880 --> 00:16:29,370 που τραγουδά το τραγούδι; 336 00:16:29,370 --> 00:16:32,360 Lady Gaga ή η Katy Perry; 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, σωστά; 338 00:16:33,150 --> 00:16:37,400 Επειδή αυτή είναι η μόνη που λέει "Baby". Αυτό ακούγεται ανόητο, έτσι δεν είναι; 339 00:16:37,400 --> 00:16:38,760 Εντάξει, αυτό είναι πραγματικά εύκολο. 340 00:16:38,760 --> 00:16:41,860 Είμαι απλά κοιτάζοντας τα δύο τραγούδια και Φυσικά, αυτή είναι η μόνη που έχει 341 00:16:41,860 --> 00:16:42,660 "Baby". 342 00:16:42,660 --> 00:16:44,740 >> Αλλά τι εάν έχετε μια δέσμη των λέξεων; 343 00:16:44,740 --> 00:16:50,900 Εάν έχετε μια πραγματική λυρική, κάτι όπως, "μωρό μου, απλά 344 00:16:50,900 --> 00:16:51,610 πήγε να δει ένα [; CFT?] 345 00:16:51,610 --> 00:16:54,020 διάλεξη, "ή κάτι τέτοιο, και τότε πρέπει πραγματικά να καταλάβουμε - 346 00:16:54,020 --> 00:16:55,780 με βάση όλες αυτές τις λέξεις - 347 00:16:55,780 --> 00:16:58,350 ποιος είναι ο καλλιτέχνης που πιθανώς τραγούδησε αυτό το τραγούδι; 348 00:16:58,350 --> 00:17:01,860 Οπότε ας προσπαθήσουμε να αναπτύξουμε αυτό το λίγο περισσότερο. 349 00:17:01,860 --> 00:17:05,630 >> ΕΝΤΑΞΕΙ, έτσι βασίζεται μόνο στα δεδομένα που έχουμε πήρε, φαίνεται ότι η Gaga είναι πιθανόν να 350 00:17:05,630 --> 00:17:06,260 η τραγουδίστρια. 351 00:17:06,260 --> 00:17:07,904 Αλλά πώς μπορούμε να γράφουμε αυτό πιο επίσημα; 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Και εκεί πρόκειται να είναι λίγο bit των στατιστικών στοιχείων. 354 00:17:13,140 --> 00:17:15,880 Έτσι, αν χαθείτε, προσπαθήστε απλά να κατανοήσουν την έννοια. 355 00:17:15,880 --> 00:17:18,700 Δεν έχει σημασία αν έχετε κατανοήσει οι εξισώσεις πολύ καλά. 356 00:17:18,700 --> 00:17:22,150 Αυτό είναι όλο πρόκειται να είναι σε απευθείας σύνδεση. 357 00:17:22,150 --> 00:17:25,490 >> Έτσι, βασικά αυτό που είμαι υπολογισμού είναι η πιθανότητα ότι αυτό το τραγούδι είναι από 358 00:17:25,490 --> 00:17:28,040 Lady Gaga, δεδομένου ότι - 359 00:17:28,040 --> 00:17:30,660 έτσι ώστε αυτή η γραμμή σημαίνει, δεδομένου ότι - 360 00:17:30,660 --> 00:17:33,680 Είδα τη λέξη "baby". Μήπως αυτό έχει νόημα; 361 00:17:33,680 --> 00:17:35,540 Έτσι προσπαθώ να υπολογίσει ότι η πιθανότητα. 362 00:17:35,540 --> 00:17:38,540 >> Υπάρχει, λοιπόν, αυτό το θεώρημα που ονομάζεται Bayes θεώρημα που λέει ότι η 363 00:17:38,540 --> 00:17:43,330 πιθανότητα μια δεδομένη Β, είναι η πιθανότητα B δοθεί Α, φορές το 364 00:17:43,330 --> 00:17:47,660 πιθανότητα Α, πάνω στην πιθανότητα του Β. Αυτό είναι μια μεγάλη εξίσωση. 365 00:17:47,660 --> 00:17:51,970 Αλλά αυτό που πρέπει να καταλάβετε από δηλαδή ότι αυτό είναι αυτό που θέλω να 366 00:17:51,970 --> 00:17:52,830 υπολογίσει, έτσι δεν είναι; 367 00:17:52,830 --> 00:17:56,570 Έτσι, η πιθανότητα ότι αυτό το τραγούδι είναι από Lady Gaga, δεδομένου ότι είδα τη λέξη 368 00:17:56,570 --> 00:17:58,230 "Baby". 369 00:17:58,230 --> 00:18:02,960 >> Και τώρα αυτό που παίρνω είναι το πιθανότητα η λέξη "baby" που δίνεται 370 00:18:02,960 --> 00:18:04,390 ότι έχω Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Και αυτό είναι που ουσιαστικά; 372 00:18:07,220 --> 00:18:10,500 Τι σημαίνει αυτό είναι, ποια είναι η πιθανότητα του να δει τη λέξη "baby" 373 00:18:10,500 --> 00:18:12,130 σε στίχους Gaga; 374 00:18:12,130 --> 00:18:16,240 Αν θέλω να υπολογίζουν ότι σε ένα πολύ απλό τρόπο, είναι ακριβώς ο αριθμός των 375 00:18:16,240 --> 00:18:23,640 φορές βλέπω "baby" επί του συνολικού αριθμού των λέξεων σε στίχους Gaga, σωστά; 376 00:18:23,640 --> 00:18:27,600 Ποια είναι η συχνότητα που βλέπω αυτή η λέξη στο έργο της Gaga; 377 00:18:27,600 --> 00:18:30,530 Νόημα; 378 00:18:30,530 --> 00:18:33,420 >> Ο δεύτερος όρος είναι η πιθανότητα Gaga. 379 00:18:33,420 --> 00:18:34,360 Τι σημαίνει αυτό; 380 00:18:34,360 --> 00:18:38,550 Αυτό ουσιαστικά σημαίνει, ποια είναι η πιθανότητα ταξινόμησης 381 00:18:38,550 --> 00:18:40,690 μερικοί στίχοι, όπως Gaga; 382 00:18:40,690 --> 00:18:45,320 Και αυτό είναι κάπως περίεργο, αλλά Ας σκεφτούμε ένα παράδειγμα. 383 00:18:45,320 --> 00:18:49,230 Ας πούμε ότι η πιθανότητα έχοντας «μωρό» σε ένα τραγούδι είναι το ίδιο 384 00:18:49,230 --> 00:18:51,760 για την Gaga και την Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Αλλά η Britney Spears έχει δύο φορές περισσότερα τραγούδια από Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Έτσι, αν κάποιος σας δίνει μόνο τυχαία στίχους του "baby", το πρώτο πράγμα που 387 00:19:00,570 --> 00:19:04,710 εξετάσουμε είναι, ποια είναι η πιθανότητα της έχοντας «μωρό» σε ένα τραγούδι Gaga, "baby" 388 00:19:04,710 --> 00:19:05,410 σε ένα τραγούδι Britney; 389 00:19:05,410 --> 00:19:06,460 Και είναι το ίδιο πράγμα. 390 00:19:06,460 --> 00:19:10,040 >> Έτσι, το δεύτερο πράγμα που θα δείτε είναι, καλά, ποια είναι η πιθανότητα της 391 00:19:10,040 --> 00:19:13,770 αυτό το λυρικό ποίημα από μόνη της είναι ένα λυρικό Gaga, και ποια είναι η πιθανότητα του 392 00:19:13,770 --> 00:19:15,380 είναι ένα λυρικό Britney; 393 00:19:15,380 --> 00:19:18,950 Έτσι, δεδομένου ότι η Britney έχει τόσα πολλά περισσότερα στίχους από Gaga, τότε σίγουρα 394 00:19:18,950 --> 00:19:21,470 ας πούμε, καλά, αυτό είναι πιθανώς λυρικός Britney. 395 00:19:21,470 --> 00:19:23,340 Έτσι, γι 'αυτό έχουμε αυτό το θητεία εδώ. 396 00:19:23,340 --> 00:19:24,670 Πιθανότητα Gaga. 397 00:19:24,670 --> 00:19:26,950 Έχει νόημα; 398 00:19:26,950 --> 00:19:28,660 Μήπως αυτό; 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Και το τελευταίο είναι μόνο η πιθανότητα "baby", το οποίο δεν 401 00:19:33,500 --> 00:19:34,810 πραγματικά έχει τόσο μεγάλη σημασία. 402 00:19:34,810 --> 00:19:39,940 Αλλά είναι η πιθανότητα βλέποντας «μωρό» στα αγγλικά. 403 00:19:39,940 --> 00:19:42,725 Εμείς συνήθως δεν με νοιάζει ότι πολύ για αυτόν τον όρο. 404 00:19:42,725 --> 00:19:44,490 Μήπως αυτό έχει νόημα; 405 00:19:44,490 --> 00:19:48,110 Έτσι, η πιθανότητα Gaga είναι ονομάζεται η εκ των προτέρων πιθανότητα 406 00:19:48,110 --> 00:19:49,530 της κατηγορίας Gaga. 407 00:19:49,530 --> 00:19:53,840 Διότι αυτό σημαίνει απλώς ότι, ποια είναι η πιθανότητα να έχουν αυτή την κατηγορία - 408 00:19:53,840 --> 00:19:55,520 που είναι Gaga - 409 00:19:55,520 --> 00:19:59,350 μόνο σε γενικές γραμμές, ακριβώς χωρίς άλλες προϋποθέσεις. 410 00:19:59,350 --> 00:20:02,560 >> Και στη συνέχεια, όταν έχω πιθανότητα Gaga δοθεί «μωρό», λέμε συν 411 00:20:02,560 --> 00:20:06,160 Δακρυσμένα μια πιθανότητα επειδή είναι η πιθανότητα να έχουν 412 00:20:06,160 --> 00:20:08,300 Gaga δώσει ορισμένες ενδείξεις. 413 00:20:08,300 --> 00:20:11,050 Γι 'αυτό σου δίνω τα στοιχεία ότι είδα τη λέξη μωρό και 414 00:20:11,050 --> 00:20:12,690 το τραγούδι έχει νόημα; 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Έτσι, Αν υπολογιστεί ότι για κάθε από τα τραγούδια της Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 τι θα είναι - 419 00:20:25,916 --> 00:20:27,730 προφανώς, δεν μπορώ να το μετακινήσω. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Η πιθανότητα της Gaga θα είναι κάτι σαν, 2 άνω των 24 ετών, 1/2 422 00:20:36,920 --> 00:20:38,260 πάνω από 2 άνω των 53. 423 00:20:38,260 --> 00:20:40,640 Δεν έχει σημασία αν γνωρίζετε τι οι αριθμοί αυτοί προέρχονται από. 424 00:20:40,640 --> 00:20:44,750 Αλλά είναι απλά ένας αριθμός που πρόκειται να είναι περισσότερο από 0, σωστά; 425 00:20:44,750 --> 00:20:48,610 >> Και στη συνέχεια, όταν κάνω Katy Perry, ο πιθανότητα "baby" που δίνεται Katy είναι 426 00:20:48,610 --> 00:20:49,830 ήδη 0, σωστά; 427 00:20:49,830 --> 00:20:52,820 Επειδή δεν υπάρχει "baby" στην Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Έτσι, τότε αυτό γίνεται 0, και Gaga νίκες, πράγμα που σημαίνει ότι η Gaga είναι 429 00:20:56,360 --> 00:20:57,310 ίσως η τραγουδίστρια. 430 00:20:57,310 --> 00:20:58,560 Μήπως αυτό έχει νόημα; 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Έτσι, εάν θέλετε να κάνετε αυτό το πιο επίσημο, Μπορώ να κάνω πραγματικότητα ένα μοντέλο 435 00:21:11,750 --> 00:21:12,700 πολλές λέξεις. 436 00:21:12,700 --> 00:21:14,610 Ας πούμε ότι έχω κάτι όπως, "baby, είμαι 437 00:21:14,610 --> 00:21:16,030 φωτιά », ή κάτι τέτοιο. 438 00:21:16,030 --> 00:21:17,760 Γι 'αυτό έχει πολλές λέξεις. 439 00:21:17,760 --> 00:21:20,880 Και σε αυτή την περίπτωση, μπορείτε να δείτε ότι «μωρό» είναι στην Gaga, 440 00:21:20,880 --> 00:21:21,710 αλλά δεν είναι σε Katy. 441 00:21:21,710 --> 00:21:24,940 Και "φωτιά" είναι στην Katy, αλλά δεν είναι σε Gaga, σωστά; 442 00:21:24,940 --> 00:21:27,200 Γι 'αυτό είναι να πάρει πιο περίπλοκη, έτσι δεν είναι; 443 00:21:27,200 --> 00:21:31,440 Επειδή φαίνεται ότι σχεδόν έχει μια σχέση μεταξύ των δύο. 444 00:21:31,440 --> 00:21:36,980 >> Έτσι, αυτό που έχετε να κάνετε είναι να υποθέσουμε ανεξαρτησία μεταξύ των λέξεων. 445 00:21:36,980 --> 00:21:41,210 Έτσι, βασικά, τι σημαίνει αυτό είναι ότι Είμαι απλά υπολογισμό ποια είναι η 446 00:21:41,210 --> 00:21:44,330 πιθανότητα να δει «μωρό», τι είναι η πιθανότητα του να δει "Εγώ", και 447 00:21:44,330 --> 00:21:46,670 "Είμαι", και "για" και "φωτιά" όλα ξεχωριστά. 448 00:21:46,670 --> 00:21:48,670 Τότε είμαι πολλαπλασιάζοντας όλα αυτά. 449 00:21:48,670 --> 00:21:52,420 Και βλέπω ποια είναι η πιθανότητα να δει το σύνολο της ποινής. 450 00:21:52,420 --> 00:21:55,210 Νόημα; 451 00:21:55,210 --> 00:22:00,270 >> Έτσι, βασικά, αν έχω μόνο μια λέξη, αυτό που θέλετε να βρείτε είναι το arg max, 452 00:22:00,270 --> 00:22:05,385 πράγμα που σημαίνει, ποια είναι η τάξη που είναι που μου έδωσε τη μεγαλύτερη πιθανότητα; 453 00:22:05,385 --> 00:22:10,010 Έτσι ποια είναι η τάξη που δίνει με την υψηλότερη πιθανότητα για 454 00:22:10,010 --> 00:22:11,940 πιθανότητα της τάξης δεδομένη λέξη. 455 00:22:11,940 --> 00:22:17,610 Έτσι, στην περίπτωση αυτή, δίνονται Gaga "baby". Ή Katy δοθεί «μωρό». Νόημα; 456 00:22:17,610 --> 00:22:21,040 >> Και μόνο από Bayes, ότι εξίσωση που μου έδειξε, 457 00:22:21,040 --> 00:22:24,780 έχουμε δημιουργήσει αυτό το κλάσμα. 458 00:22:24,780 --> 00:22:28,750 Το μόνο πράγμα είναι ότι μπορείτε να δείτε ότι η πιθανότητα της λέξης, δεδομένης της 459 00:22:28,750 --> 00:22:31,370 ταξικές αλλαγές ανάλογα με την κατηγορία, έτσι δεν είναι; 460 00:22:31,370 --> 00:22:34,260 Ο αριθμός των "baby" s που έχω στην Gaga είναι διαφορετική από Katy. 461 00:22:34,260 --> 00:22:37,640 Η πιθανότητα της τάξης και αλλαγές, επειδή είναι ακριβώς ο αριθμός 462 00:22:37,640 --> 00:22:39,740 τραγούδια το καθένα από αυτά έχει. 463 00:22:39,740 --> 00:22:43,980 >> Αλλά η πιθανότητα της ίδιας της λέξης πρόκειται να είναι η ίδια για όλα τα 464 00:22:43,980 --> 00:22:44,740 καλλιτέχνες, έτσι δεν είναι; 465 00:22:44,740 --> 00:22:47,150 Έτσι, η πιθανότητα της λέξης είναι ακριβώς, ποια είναι η πιθανότητα της 466 00:22:47,150 --> 00:22:49,820 βλέποντας αυτή τη λέξη στο Αγγλική γλώσσα; 467 00:22:49,820 --> 00:22:51,420 Έτσι είναι το ίδιο για όλα αυτά. 468 00:22:51,420 --> 00:22:55,790 Έτσι, δεδομένου ότι αυτή είναι σταθερή, μπορούμε απλά drop αυτό και δεν με νοιάζει γι 'αυτό. 469 00:22:55,790 --> 00:23:00,230 Έτσι, αυτό θα είναι στην πραγματικότητα η εξίσωση που ψάχνουμε. 470 00:23:00,230 --> 00:23:03,360 >> Και αν έχω πολλές λέξεις, είμαι ακόμα πρόκειται να έχουν εκ των προτέρων 471 00:23:03,360 --> 00:23:04,610 πιθανότητα εδώ. 472 00:23:04,610 --> 00:23:06,980 Το μόνο πράγμα είναι ότι είμαι πολλαπλασιασμό η πιθανότητα 473 00:23:06,980 --> 00:23:08,490 όλες οι άλλες λέξεις. 474 00:23:08,490 --> 00:23:10,110 Έτσι είμαι πολλαπλασιάζοντας όλα αυτά. 475 00:23:10,110 --> 00:23:12,610 Νόημα; 476 00:23:12,610 --> 00:23:18,440 Φαίνεται παράξενο, αλλά ουσιαστικά σημαίνει, υπολογίσει την προηγούμενη της κατηγορίας, και 477 00:23:18,440 --> 00:23:22,100 Στη συνέχεια πολλαπλασιάστε με την πιθανότητα της κάθε από τις λέξεις που είναι σε αυτή την κατηγορία. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Και ξέρετε ότι η πιθανότητα μιας λέξη δοθεί τάξη θα πρέπει να είναι η 480 00:23:29,150 --> 00:23:34,520 πόσες φορές θα δείτε ότι η λέξη ότι η τάξη, διαιρούμενο με τον αριθμό των 481 00:23:34,520 --> 00:23:37,020 λέξεις που έχετε σε αυτό τάξης γενικά. 482 00:23:37,020 --> 00:23:37,990 Νόημα; 483 00:23:37,990 --> 00:23:41,680 Είναι ακριβώς πώς «μωρό» ήταν 2 πάνω ο αριθμός των λέξεων που 484 00:23:41,680 --> 00:23:43,020 Είχα στους στίχους. 485 00:23:43,020 --> 00:23:45,130 Έτσι, μόλις η συχνότητα. 486 00:23:45,130 --> 00:23:46,260 >> Αλλά υπάρχει ένα πράγμα. 487 00:23:46,260 --> 00:23:51,250 Θυμηθείτε πώς ήταν που δείχνουν ότι το πιθανότητα "baby" είναι οι στίχοι 488 00:23:51,250 --> 00:23:56,350 από την Katy Perry ήταν 0 μόνο και μόνο επειδή Katy Perry δεν είχε «μωρό» σε όλα; 489 00:23:56,350 --> 00:24:04,900 Αλλά ακούγεται λίγο σκληρή για λίγο απλά να πω ότι οι στίχοι δεν μπορεί να είναι από 490 00:24:04,900 --> 00:24:10,040 ένας καλλιτέχνης μόνο και μόνο επειδή δεν έχουν η λέξη ειδικότερα οποιαδήποτε στιγμή. 491 00:24:10,040 --> 00:24:13,330 >> Έτσι θα μπορούσε απλώς να πω, καλά, αν δεν έχουν αυτή τη λέξη, Πάω να 492 00:24:13,330 --> 00:24:15,640 σας δώσει μια μικρότερη πιθανότητα, αλλά είμαι απλά δεν πρόκειται να 493 00:24:15,640 --> 00:24:17,420 να σας δώσω 0 αμέσως. 494 00:24:17,420 --> 00:24:21,040 Επειδή ίσως ήταν κάτι σαν, "Φωτιά, φωτιά, φωτιά, φωτιά," η οποία είναι 495 00:24:21,040 --> 00:24:21,990 εντελώς Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Και στη συνέχεια "baby", και πηγαίνει μόνο για να 0 αμέσως, διότι υπήρχε ένα 497 00:24:26,060 --> 00:24:27,250 "Baby". 498 00:24:27,250 --> 00:24:31,440 >> Έτσι, ουσιαστικά αυτό που κάνουν είναι κάτι Laplace ονομάζεται εξομάλυνση. 499 00:24:31,440 --> 00:24:36,260 Και αυτό σημαίνει απλά ότι δίνω κάποια πιθανότητα ακόμα και τις λέξεις 500 00:24:36,260 --> 00:24:37,850 ότι δεν υπάρχουν. 501 00:24:37,850 --> 00:24:43,170 Έτσι, αυτό που κάνω είναι ότι, όταν είμαι υπολογισμό αυτό, πάντα να προσθέσετε 1 502 00:24:43,170 --> 00:24:44,180 ο αριθμητής. 503 00:24:44,180 --> 00:24:48,060 Έτσι, ακόμη και αν η λέξη αυτή δεν υπάρχει, σε Στην περίπτωση αυτή, αν αυτό είναι 0, είμαι ακόμα 504 00:24:48,060 --> 00:24:51,250 υπολογισμό αυτό ως 1 πάνω από το συνολικό αριθμό των λέξεων. 505 00:24:51,250 --> 00:24:55,060 Διαφορετικά, παίρνω πόσες λέξεις Δεν έχω και μπορώ να προσθέσω 1. 506 00:24:55,060 --> 00:24:58,300 Έτσι Μετράω για τις δύο περιπτώσεις. 507 00:24:58,300 --> 00:25:00,430 Νόημα; 508 00:25:00,430 --> 00:25:03,060 >> Έτσι τώρα ας κάνουμε κάποια κωδικοποίηση. 509 00:25:03,060 --> 00:25:06,440 Πάω να πρέπει να το κάνουμε πολύ γρήγορα, αλλά είναι ακριβώς σημαντικό να 510 00:25:06,440 --> 00:25:08,600 παιδιά να κατανοήσουν τις έννοιες. 511 00:25:08,600 --> 00:25:13,450 Έτσι, αυτό που προσπαθούμε να κάνουμε Είναι ακριβώς αυτή η εφαρμογή 512 00:25:13,450 --> 00:25:14,330 πράγμα που μόλις είπα - 513 00:25:14,330 --> 00:25:19,110 Θέλω να δώσω στους στίχους από Lady Gaga και η Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Και το πρόγραμμα πρόκειται να είναι σε θέση να πει εάν αυτά τα νέα λυρικά ποιήματα είναι από Gaga 515 00:25:22,980 --> 00:25:24,170 ή Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Νόημα; 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Έτσι, δεν έχω αυτό το πρόγραμμα Πάω να καλέσει classify.py. 519 00:25:30,710 --> 00:25:31,970 Έτσι, αυτή είναι η Python. 520 00:25:31,970 --> 00:25:34,210 Είναι μια νέα γλώσσα προγραμματισμού. 521 00:25:34,210 --> 00:25:38,020 Είναι πολύ παρόμοια σε ορισμένα τρόπους για την C και PHP. 522 00:25:38,020 --> 00:25:43,180 Είναι παρόμοιο γιατί αν θέλετε να να μάθουν Python μετά γνωρίζοντας C, είναι 523 00:25:43,180 --> 00:25:46,270 πραγματικά δεν είναι ότι μεγάλη πρόκληση μόνο και μόνο επειδή Python είναι πολύ πιο εύκολο 524 00:25:46,270 --> 00:25:47,520 από C, πρώτα απ 'όλα. 525 00:25:47,520 --> 00:25:49,370 Και πολλά πράγματα είναι ήδη εφαρμοστεί για εσάς. 526 00:25:49,370 --> 00:25:56,820 Τόσο ακριβώς πώς όπως η PHP διαθέτει λειτουργίες που ταξινομήσετε μια λίστα, ή να προσθέσετε κάτι 527 00:25:56,820 --> 00:25:58,780 σε μια σειρά, ή μπλα, μπλα, μπλα. 528 00:25:58,780 --> 00:26:00,690 Η Python έχει όλα αυτά, καθώς και. 529 00:26:00,690 --> 00:26:05,960 >> Έτσι, είμαι απλώς πρόκειται να εξηγήσω γρήγορα πώς μπορούμε να κάνουμε την ταξινόμηση 530 00:26:05,960 --> 00:26:07,860 πρόβλημα εδώ. 531 00:26:07,860 --> 00:26:13,230 Έτσι, ας πούμε ότι σε αυτή την περίπτωση, έχω στίχους από Gaga και Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Ο τρόπος που έχω αυτούς τους στίχους είναι ότι η πρώτη λέξη των στίχων είναι 533 00:26:21,880 --> 00:26:25,250 το όνομα του καλλιτέχνη, και το υπόλοιπο είναι οι στίχοι. 534 00:26:25,250 --> 00:26:29,470 Ας πούμε ότι έχω τον κατάλογο αυτό στην οποία το πρώτο είναι σε στίχους του Gaga. 535 00:26:29,470 --> 00:26:31,930 Έτσι, εδώ είμαι στο σωστό δρόμο. 536 00:26:31,930 --> 00:26:35,270 Και το επόμενο είναι Katy, και Έχει επίσης τους στίχους. 537 00:26:35,270 --> 00:26:38,040 >> Έτσι, αυτό είναι το πώς θα δηλώσουν μια μεταβλητή στην Python. 538 00:26:38,040 --> 00:26:40,200 Δεν χρειάζεται να δώσει τον τύπο δεδομένων. 539 00:26:40,200 --> 00:26:43,150 Απλά γράψτε "στίχους" το είδος του αρέσει στην PHP. 540 00:26:43,150 --> 00:26:44,890 Νόημα; 541 00:26:44,890 --> 00:26:47,770 >> Ποια είναι λοιπόν τα πράγματα που έχω να υπολογίζουν να είναι σε θέση να υπολογίσει το 542 00:26:47,770 --> 00:26:49,360 πιθανότητες; 543 00:26:49,360 --> 00:26:55,110 Θα πρέπει να υπολογίσετε τις "ηγουμένων" εκάστου των διαφόρων 544 00:26:55,110 --> 00:26:56,710 τάξεις που έχω. 545 00:26:56,710 --> 00:27:06,680 Θα πρέπει να υπολογίσετε τις "posteriors" ή λίγο πολύ οι πιθανότητες 546 00:27:06,680 --> 00:27:12,150 κάθε μία από τις διαφορετικές λέξεις που Μπορώ να έχω για κάθε καλλιτέχνη. 547 00:27:12,150 --> 00:27:17,210 Έτσι, μέσα Gaga, για παράδειγμα, Πάω να έχουν μια λίστα για το πώς πολλές φορές βλέπω 548 00:27:17,210 --> 00:27:19,250 κάθε μία από τις λέξεις. 549 00:27:19,250 --> 00:27:20,760 Νόημα; 550 00:27:20,760 --> 00:27:25,370 >> Και τέλος, είμαι απλώς πρόκειται να έχουν κατάλογο που ονομάζεται «λέξεις» που είναι ακριβώς πρόκειται 551 00:27:25,370 --> 00:27:29,780 να έχει πόσες λέξεις μπορώ έχει για κάθε καλλιτέχνη. 552 00:27:29,780 --> 00:27:33,760 Έτσι, για Gaga, για παράδειγμα, όταν κοιτάζω με τους στίχους, είχα, νομίζω, 24 553 00:27:33,760 --> 00:27:34,750 λέξεις συνολικά. 554 00:27:34,750 --> 00:27:38,970 Έτσι, ο κατάλογος αυτός είναι ακριβώς πρόκειται να έχουν 24 Gaga και Katy άλλο αριθμό. 555 00:27:38,970 --> 00:27:40,130 Νόημα; 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Έτσι, τώρα, στην πραγματικότητα, ας πηγαίνετε στην κωδικοποίηση. 558 00:27:42,530 --> 00:27:45,270 Έτσι, Python, μπορείτε πραγματικά να επιστρέψει μια δέσμη των διαφορετικών 559 00:27:45,270 --> 00:27:46,630 τα πράγματα από μια συνάρτηση. 560 00:27:46,630 --> 00:27:50,810 Έτσι, Πάω να δημιουργήσει αυτή τη λειτουργία που ονομάζεται "υπό όρους", το οποίο πρόκειται 561 00:27:50,810 --> 00:27:53,890 να επιστρέψει όλα αυτά τα πράγματα, η "Ηγουμένων», οι «πιθανότητες», και η 562 00:27:53,890 --> 00:28:05,690 «Λέξεις». Έτσι, «υπό όρους», και είναι πρόκειται να τεθούν υπό "στίχους." 563 00:28:05,690 --> 00:28:11,510 >> Έτσι τώρα θέλω πραγματικά να γράψω αυτή τη λειτουργία. 564 00:28:11,510 --> 00:28:17,750 Έτσι, ο τρόπος που μπορώ να γράψω αυτό λειτουργία Απλά ορίζεται αυτό 565 00:28:17,750 --> 00:28:20,620 λειτουργούν με "def." Έτσι έκανα "def υπό όρους, "και αυτό είναι που λαμβάνουν 566 00:28:20,620 --> 00:28:28,700 "Στίχους." Και τι είναι αυτό πρόκειται να κάνει Είναι, πρώτα απ 'όλα, έχω priors μου 567 00:28:28,700 --> 00:28:31,030 ότι θέλετε να υπολογίσετε. 568 00:28:31,030 --> 00:28:34,330 >> Έτσι, ο τρόπος που μπορώ να το κάνετε αυτό είναι να δημιουργήσετε λεξικό σε Python, που 569 00:28:34,330 --> 00:28:37,320 είναι λίγο πολύ το ίδιο πράγμα με ένα hash πίνακα, ή σαν μια επαναληπτική 570 00:28:37,320 --> 00:28:40,480 array στην PHP. 571 00:28:40,480 --> 00:28:44,150 Αυτό είναι το πώς θα κηρύξει ένα λεξικό. 572 00:28:44,150 --> 00:28:53,580 Και βασικά αυτό σημαίνει ότι ηγούμενοι της Gaga είναι 0,5, για παράδειγμα, αν 573 00:28:53,580 --> 00:28:57,200 50% των στίχων είναι από Gaga, το 50% είναι από την Katy. 574 00:28:57,200 --> 00:28:58,450 Νόημα; 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Γι 'αυτό και πρέπει να καταλάβω πώς για τον υπολογισμό των ηγουμένων. 577 00:29:03,680 --> 00:29:07,120 >> Οι επόμενες αυτά που έχω να κάνω, επίσης, είναι οι πιθανότητες και οι λέξεις. 578 00:29:07,120 --> 00:29:17,100 Έτσι, οι πιθανότητες της Gaga είναι η λίστα από όλες τις πιθανότητες που έχω 579 00:29:17,100 --> 00:29:19,160 πρέπει για κάθε μία από τις λέξεις Gaga. 580 00:29:19,160 --> 00:29:23,880 Έτσι, αν πάω σε πιθανότητες Gaga "Baby", για παράδειγμα, αυτό θα μου δώσει 581 00:29:23,880 --> 00:29:28,750 κάτι σαν 2 πάνω από 24 στην εν λόγω υπόθεση. 582 00:29:28,750 --> 00:29:30,070 Νόημα; 583 00:29:30,070 --> 00:29:36,120 Γι 'αυτό πηγαίνετε στο "πιθανότητες", μεταβείτε στην "Gaga" κουβά που έχει μια λίστα με όλα 584 00:29:36,120 --> 00:29:40,550 οι λέξεις Gaga, τότε πηγαίνετε στο "μωρό" και βλέπω την πιθανότητα. 585 00:29:40,550 --> 00:29:45,940 >> Και τέλος, έχω αυτό "Λέξεις" λεξικό. 586 00:29:45,940 --> 00:29:53,620 Έτσι, εδώ, "πιθανότητες." Και στη συνέχεια «Λέξεις». Έτσι, αν το κάνω "λέξεις", "Gaga" 587 00:29:53,620 --> 00:29:58,330 τι πρόκειται να συμβεί είναι ότι είναι πρόκειται να μου δώσει 24, λέγοντας ότι 588 00:29:58,330 --> 00:30:01,990 έχουν 24 λέξεις μέσα από τους στίχους Gaga. 589 00:30:01,990 --> 00:30:04,110 Έχει νόημα; 590 00:30:04,110 --> 00:30:07,070 Έτσι, εδώ, «λέξεις» ισούται Ντα-ντα-ντα. 591 00:30:07,070 --> 00:30:07,620 Καλά 592 00:30:07,620 --> 00:30:12,210 >> Λοιπόν, τι Πάω να κάνουμε είναι να πάω να επαναλάβει σε καθένα από τους στίχους, έτσι 593 00:30:12,210 --> 00:30:14,490 κάθε μία από τις χορδές που Έχω στη λίστα. 594 00:30:14,490 --> 00:30:18,040 Και Πάω να υπολογίσει αυτά τα πράγματα για κάθε ένα από τους υποψηφίους. 595 00:30:18,040 --> 00:30:19,950 Έχει νόημα; 596 00:30:19,950 --> 00:30:21,700 Γι 'αυτό πρέπει να κάνουμε ένα βρόχο. 597 00:30:21,700 --> 00:30:26,300 >> Έτσι, Python, τι μπορώ να κάνω είναι "για τη γραμμή στους στίχους. "Το ίδιο πράγμα με ένα 598 00:30:26,300 --> 00:30:28,000 "Για κάθε" δήλωση στην PHP. 599 00:30:28,000 --> 00:30:33,420 Θυμηθείτε πως αν ήταν PHP θα μπορούσα λένε «για κάθε στίχους 600 00:30:33,420 --> 00:30:35,220 γραμμή. "Έχει νόημα; 601 00:30:35,220 --> 00:30:38,900 Έτσι παίρνω κάθε μία από τις γραμμές, σε αυτό το την περίπτωση, αυτή η συμβολοσειρά και το επόμενο 602 00:30:38,900 --> 00:30:44,540 κορδόνι για καθεμία από τις γραμμές αυτό που είμαι πρόκειται να κάνουμε είναι η πρώτη, Πάω να 603 00:30:44,540 --> 00:30:49,150 χωρίσει αυτή τη γραμμή σε μια λίστα λέξεις χωρισμένες με κενά. 604 00:30:49,150 --> 00:30:53,730 >> Έτσι, το δροσερό πράγμα για την Python είναι ότι θα μπορούσατε απλά Google, όπως «πώς μπορώ να 605 00:30:53,730 --> 00:30:58,220 χωρίσει ένα string σε λέξεις; "Και είναι πρόκειται να σας πω πώς να το κάνουμε. 606 00:30:58,220 --> 00:31:04,890 Και ο τρόπος για να το κάνουμε, είναι ακριβώς "γραμμή = Line.split () "και είναι ουσιαστικά 607 00:31:04,890 --> 00:31:08,640 πρόκειται να σας δώσει μια λίστα με καθεμία από τις λέξεις εδώ. 608 00:31:08,640 --> 00:31:09,620 Έχει νόημα; 609 00:31:09,620 --> 00:31:15,870 Έτσι, τώρα που έκανα ότι θέλω να ξέρω ποιος είναι ο τραγουδιστής του τραγουδιού. 610 00:31:15,870 --> 00:31:20,130 Και για να το κάνουμε αυτό έχω μόνο να πάρει το το πρώτο στοιχείο του πίνακα, έτσι δεν είναι; 611 00:31:20,130 --> 00:31:26,390 Έτσι μπορώ να πω ότι έχω "τραγουδιστής = Γραμμή (0) "Έχει νόημα; 612 00:31:26,390 --> 00:31:32,010 >> Και τότε τι πρέπει να κάνω είναι, πρώτα απ ' όλα, Πάω να ενημερώσει πόσοι 613 00:31:32,010 --> 00:31:36,130 τα λόγια που έχω στο "Gaga". έτσι είμαι απλά πρόκειται να υπολογίσει πόσες λέξεις I 614 00:31:36,130 --> 00:31:38,690 έχουν σε αυτή τη λίστα, έτσι δεν είναι; 615 00:31:38,690 --> 00:31:41,910 Επειδή αυτό είναι πόσες λέξεις έχω στους στίχους και είμαι απλώς πρόκειται να 616 00:31:41,910 --> 00:31:44,120 προσθέσετε στη "Gaga" συστοιχία. 617 00:31:44,120 --> 00:31:47,090 Μήπως αυτό έχει νόημα; 618 00:31:47,090 --> 00:31:49,010 Μην εστιάζετε υπερβολικά στη σύνταξη. 619 00:31:49,010 --> 00:31:50,430 Σκεφτείτε περισσότερα σχετικά με τις έννοιες. 620 00:31:50,430 --> 00:31:52,400 Αυτό είναι το πιο σημαντικό μέρος. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Έτσι, αυτό που μπορώ να κάνω είναι αν «Gaga» είναι ήδη στον εν λόγω κατάλογο, έτσι ώστε «αν τραγουδιστής 623 00:32:00,260 --> 00:32:03,190 λέξεις "που σημαίνει ότι έχω ήδη έχουν λέξεις Gaga. 624 00:32:03,190 --> 00:32:06,640 Θέλω απλά να προσθέσετε το πρόσθετο λέξεις σε αυτό. 625 00:32:06,640 --> 00:32:15,810 Έτσι, αυτό που κάνω είναι "λέξεις (τραγουδιστής) + = Len (γραμμή) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Και τότε μπορώ να κάνω ακριβώς το μήκος της γραμμής. 627 00:32:18,250 --> 00:32:21,860 Πώς, λοιπόν, πολλά στοιχεία που έχουν στη συστοιχία. 628 00:32:21,860 --> 00:32:27,060 Και έχω να κάνω μείον 1 μόνο και μόνο επειδή το πρώτο στοιχείο του πίνακα είναι μόνο 629 00:32:27,060 --> 00:32:29,180 τραγουδιστής και εκείνων που δεν είναι στίχοι. 630 00:32:29,180 --> 00:32:31,420 Έχει νόημα; 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Διαφορετικά", αυτό σημαίνει ότι θέλω πραγματικά να εισάγετε Gaga στη λίστα. 633 00:32:35,820 --> 00:32:45,990 Γι 'αυτό ακριβώς κάνει "λέξεις (τραγουδιστής) = Len (γραμμή) - 1, "συγγνώμη. 634 00:32:45,990 --> 00:32:49,200 Έτσι, η μόνη διαφορά μεταξύ των δύο γραμμές είναι ότι αυτό το ένα, δεν το κάνει 635 00:32:49,200 --> 00:32:51,080 υπάρχει ακόμα, οπότε είμαι απλά αρχικοποίησή. 636 00:32:51,080 --> 00:32:53,820 Αυτός είμαι πραγματικά προσθήκη. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Έτσι, αυτό ήταν η προσθήκη στα λόγια. 639 00:32:59,480 --> 00:33:03,040 >> Τώρα θέλω να προσθέσω στα priors. 640 00:33:03,040 --> 00:33:05,480 Λοιπόν, πώς μπορώ να υπολογίσω τις priors; 641 00:33:05,480 --> 00:33:11,580 Μπορούν να υπολογίζονται και οι ηγούμενοι από το πόσες φορές. 642 00:33:11,580 --> 00:33:15,340 Έτσι, πόσες φορές θα δείτε ότι τραγουδιστής μεταξύ όλων των τραγουδιστών που 643 00:33:15,340 --> 00:33:16,380 έχουν, έτσι δεν είναι; 644 00:33:16,380 --> 00:33:18,810 Έτσι, για την Gaga και η Katy Perry, σε αυτή την περίπτωση, βλέπω Gaga 645 00:33:18,810 --> 00:33:20,570 φορά, Katy Perry φορά. 646 00:33:20,570 --> 00:33:23,320 >> Έτσι, ουσιαστικά οι ηγούμενοι για Gaga και για την Katy Perry θα 647 00:33:23,320 --> 00:33:24,390 απλά να είναι ένα, έτσι δεν είναι; 648 00:33:24,390 --> 00:33:26,500 Απλά πόσες φορές Βλέπω τον καλλιτέχνη. 649 00:33:26,500 --> 00:33:28,740 Έτσι, αυτό είναι πολύ εύκολο να υπολογιστεί. 650 00:33:28,740 --> 00:33:34,100 Μπορώ ακριβώς κάτι παρόμοιο σαν «εάν τραγουδιστής σε priors, "Είμαι ακριβώς πρόκειται 651 00:33:34,100 --> 00:33:38,970 να προσθέσετε 1 έως ηγούμενοι κουτί τους. 652 00:33:38,970 --> 00:33:51,000 Έτσι, «οι ηγούμενοι (τραγουδούν)" + = 1 "και στη συνέχεια" αλλιώς " Πάω να κάνω "priors (τραγουδιστής) 653 00:33:51,000 --> 00:33:55,000 = 1. "Έχει νόημα; 654 00:33:55,000 --> 00:34:00,080 >> Έτσι, αν δεν υπάρχει έβαλα ακριβώς το 1, αλλιώς απλά προσθέστε 1. 655 00:34:00,080 --> 00:34:11,280 ΕΝΤΑΞΕΙ, έτσι τώρα το μόνο που μου έχει μείνει να κάνω είναι επίσης να προσθέσετε κάθε μία από τις λέξεις για να το 656 00:34:11,280 --> 00:34:12,290 πιθανοτήτων. 657 00:34:12,290 --> 00:34:14,889 Γι 'αυτό πρέπει να μετρήσει πόσες φορές Βλέπω κάθε μία από τις λέξεις. 658 00:34:14,889 --> 00:34:18,780 Γι 'αυτό ακριβώς πρέπει να κάνουμε άλλο βρόχος for στην γραμμή. 659 00:34:18,780 --> 00:34:25,190 >> Έτσι το πρώτο πράγμα που Πάω να κάνουμε είναι να ελέγξτε αν ο τραγουδιστής έχει ήδη 660 00:34:25,190 --> 00:34:26,969 πιθανότητες πίνακα. 661 00:34:26,969 --> 00:34:31,739 Έτσι Φεύγω αν ο τραγουδιστής δεν έχουν μια σειρά πιθανοτήτων, είμαι απλά 662 00:34:31,739 --> 00:34:34,480 πρόκειται να προετοιμαστεί για αυτούς. 663 00:34:34,480 --> 00:34:36,400 Δεν είναι καν μια σειρά, συγγνώμη, Είναι ένα λεξικό. 664 00:34:36,400 --> 00:34:43,080 Έτσι, οι πιθανότητες του τραγουδιστή πρόκειται να είναι μια ανοιχτή λεξικό, έτσι είμαι 665 00:34:43,080 --> 00:34:45,830 ακριβώς την προετοιμασία μιας λεξικό για αυτό. 666 00:34:45,830 --> 00:34:46,820 Εντάξει; 667 00:34:46,820 --> 00:34:58,330 >> Και τώρα μπορώ να κάνω πραγματικότητα ένα βρόχο για τον υπολογισμό κάθε ένα από τις λέξεις " 668 00:34:58,330 --> 00:35:00,604 πιθανοτήτων. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Έτσι, αυτό που μπορώ να κάνω είναι ένα βρόχο. 671 00:35:04,160 --> 00:35:06,590 Έτσι, είμαι απλώς πρόκειται να μετακινηθείτε πάνω από τη συστοιχία. 672 00:35:06,590 --> 00:35:15,320 Έτσι, ο τρόπος που μπορώ να το κάνω αυτό στην Python είναι "για το i in range." Από 1 673 00:35:15,320 --> 00:35:19,200 γιατί θέλω να ξεκινήσει το δεύτερο στοιχείο, επειδή το πρώτο είναι η 674 00:35:19,200 --> 00:35:20,260 όνομα τραγουδιστή. 675 00:35:20,260 --> 00:35:24,990 Έτσι, από το ένα μέχρι το μήκος της γραμμής. 676 00:35:24,990 --> 00:35:29,760 Και όταν κάνω κυμαίνονται πραγματικά να πάει από όπως εδώ, από την 1η έως τζαμάκι της 677 00:35:29,760 --> 00:35:30,740 γραμμή μείον 1. 678 00:35:30,740 --> 00:35:33,810 Έτσι, το κάνει ήδη αυτό το πράγμα να γίνει n μείον 1 για συστοιχίες που είναι πολύ 679 00:35:33,810 --> 00:35:35,500 βολικό. 680 00:35:35,500 --> 00:35:37,850 Έχει νόημα; 681 00:35:37,850 --> 00:35:42,770 >> Έτσι, για κάθε ένα από αυτά, τι Πάω να κάνουμε είναι, ακριβώς όπως και στην άλλη, 682 00:35:42,770 --> 00:35:50,320 Πάω να ελέγξετε αν η λέξη αυτή θέση στην γραμμή είναι ήδη 683 00:35:50,320 --> 00:35:51,570 πιθανοτήτων. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Και τότε, όπως είπα και εδώ, οι πιθανότητες λέξεις, όπως το έβαλα 686 00:35:57,260 --> 00:35:58,400 "Πιθανοτήτων (τραγουδιστής)". 687 00:35:58,400 --> 00:35:59,390 Έτσι, το όνομα του τραγουδιστή. 688 00:35:59,390 --> 00:36:03,450 Έτσι, αν είναι ήδη σε "Probabilit (τραγουδιστής)", αυτό σημαίνει ότι 689 00:36:03,450 --> 00:36:11,960 θέλετε να προσθέσετε 1 σε αυτό, έτσι είμαι πρόκειται να κάνει "πιθανοτήτων (τραγουδιστής)», και η 690 00:36:11,960 --> 00:36:14,100 λέξη ονομάζεται "γραμμή (θ)". 691 00:36:14,100 --> 00:36:22,630 Πάω να προσθέσετε 1 και "αλλιώς" Είμαι απλά πρόκειται να γίνει η προετοιμασία για την 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Έχει νόημα; 695 00:36:28,420 --> 00:36:30,180 >> Έτσι, υπολογίζεται το σύνολο των συστοιχιών. 696 00:36:30,180 --> 00:36:36,580 Έτσι, τώρα το μόνο που έχω να κάνω για αυτό είναι ακριβώς "επιστροφή priors, 697 00:36:36,580 --> 00:36:43,230 πιθανότητες και τις λέξεις. "Ας δείτε αν υπάρχουν, OK. 698 00:36:43,230 --> 00:36:45,690 Φαίνεται ότι τα πάντα λειτουργεί μέχρι σήμερα. 699 00:36:45,690 --> 00:36:46,900 Έτσι, αυτό έχει νόημα; 700 00:36:46,900 --> 00:36:47,750 Κατά κάποιο τρόπο; 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Έτσι, τώρα έχω όλες τις πιθανότητες. 703 00:36:51,980 --> 00:36:55,100 Έτσι τώρα το μόνο πράγμα που μου έχει απομείνει είναι απλά για να έχουν αυτό το πράγμα που 704 00:36:55,100 --> 00:36:58,650 υπολογίζει το γινόμενο όλων των πιθανοτήτων όταν παίρνω τους στίχους. 705 00:36:58,650 --> 00:37:06,270 >> Ας πούμε ότι θέλω να καλέσω τώρα Αυτή η λειτουργία "ταξινομούν ()" και το 706 00:37:06,270 --> 00:37:08,880 πράγμα που παίρνει τη λειτουργία είναι απλά ένα επιχείρημα. 707 00:37:08,880 --> 00:37:13,170 Ας πούμε "Baby, είμαι φωτιά" και είναι πρόκειται να καταλάβω ποια είναι η 708 00:37:13,170 --> 00:37:14,490 πιθανότητα ότι αυτό είναι Gaga; 709 00:37:14,490 --> 00:37:16,405 Ποια είναι η πιθανότητα ότι αυτή είναι η Katie; 710 00:37:16,405 --> 00:37:19,690 Ακούγεται καλό; 711 00:37:19,690 --> 00:37:25,750 Έτσι, είμαι απλώς πρόκειται να πρέπει να δημιουργήσετε ένα νέα λειτουργία που ονομάζεται "ταξινομούν ()" και 712 00:37:25,750 --> 00:37:29,180 πρόκειται να πάρει κάποιο στίχους, καθώς και. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Και εκτός από τους στίχους επίσης πρέπει να στείλετε τα priors, η 715 00:37:36,160 --> 00:37:37,700 πιθανότητες και οι λέξεις. 716 00:37:37,700 --> 00:37:44,000 Έτσι, Πάω να στείλει στίχους, priors, πιθανοτήτων, λόγια. 717 00:37:44,000 --> 00:37:51,840 >> Έτσι, αυτό παίρνει στίχους, priors, πιθανοτήτων, λόγια. 718 00:37:51,840 --> 00:37:53,530 Έτσι, τι κάνει; 719 00:37:53,530 --> 00:37:57,180 Είναι βασικά πρόκειται να περάσουν από όλα οι πιθανοί υποψήφιοι που θα 720 00:37:57,180 --> 00:37:58,510 έχουν ως τραγουδιστής. 721 00:37:58,510 --> 00:37:59,425 Και πού είναι οι υποψήφιοι; 722 00:37:59,425 --> 00:38:01,020 Είναι Στις priors, σωστά; 723 00:38:01,020 --> 00:38:02,710 Έτσι έχω όλα αυτά εκεί. 724 00:38:02,710 --> 00:38:07,870 Έτσι, Πάω να έχουμε ένα λεξικό όλων των πιθανών υποψηφίων. 725 00:38:07,870 --> 00:38:14,220 Και στη συνέχεια, για κάθε υποψήφιο στην ηγουμένων, οπότε αυτό σημαίνει ότι πρόκειται να 726 00:38:14,220 --> 00:38:17,740 να Gaga, Katie αν είχα περισσότερο θα ήταν περισσότερο. 727 00:38:17,740 --> 00:38:20,410 Πάω να αρχίσουν να υπολογίζουν αυτή η πιθανότητα. 728 00:38:20,410 --> 00:38:28,310 Η πιθανότητα όπως είδαμε στην PowerPoint είναι οι προηγούμενες φορές το 729 00:38:28,310 --> 00:38:30,800 προϊόν καθενός από τα άλλες πιθανότητες. 730 00:38:30,800 --> 00:38:32,520 >> Έτσι, μπορώ να κάνω το ίδιο και εδώ. 731 00:38:32,520 --> 00:38:36,330 Δεν μπορώ ακριβώς να κάνω πιθανότητα είναι αρχικά μόνο η προηγούμενη. 732 00:38:36,330 --> 00:38:40,340 Έτσι, ηγούμενοι του υποψηφίου. 733 00:38:40,340 --> 00:38:40,870 Σωστά; 734 00:38:40,870 --> 00:38:45,360 Και τώρα έχω να επαναλάβετε σε όλους η λέξεις που έχω τους στίχους να είναι 735 00:38:45,360 --> 00:38:48,820 μπορείτε να προσθέσετε την πιθανότητα για καθένα από αυτά, εντάξει; 736 00:38:48,820 --> 00:38:57,900 Έτσι, "για τη λέξη σε στίχους" τι Πάω να κάνουμε είναι, εάν η λέξη είναι σε 737 00:38:57,900 --> 00:39:01,640 "Πιθανοτήτων (υποψήφιος)", η οποία σημαίνει ότι είναι μια λέξη που ο 738 00:39:01,640 --> 00:39:03,640 υποψήφιος έχει στους στίχους τους - 739 00:39:03,640 --> 00:39:05,940 για παράδειγμα, "baby" για Gaga - 740 00:39:05,940 --> 00:39:11,710 τι Πάω να κάνουμε είναι ότι η πιθανότητα πρόκειται να πολλαπλασιαστεί 741 00:39:11,710 --> 00:39:22,420 από 1 συν οι πιθανότητες ο υποψήφιος για αυτή τη λέξη. 742 00:39:22,420 --> 00:39:25,710 Και αυτό λέγεται "λέξη". 743 00:39:25,710 --> 00:39:32,440 Αυτό διαιρούμενο με τον αριθμό των λέξεων που έχω για τον εν λόγω υποψήφιο. 744 00:39:32,440 --> 00:39:37,450 Ο συνολικός αριθμός των λέξεων που έχω για τον τραγουδιστή που κοιτάω. 745 00:39:37,450 --> 00:39:40,290 >> «Αλλιώς». αυτό σημαίνει ότι είναι μια νέα λέξη έτσι θα ήθελα να είναι όπως, για παράδειγμα, 746 00:39:40,290 --> 00:39:41,860 "Φωτιά" για την Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Γι 'αυτό ακριβώς θέλουν να κάνουν πάνω από 1 "Λέξη (υποψήφιος)". 748 00:39:45,760 --> 00:39:47,710 Γι 'αυτό και δεν θέλει να βάλει ο όρος αυτός εδώ. 749 00:39:47,710 --> 00:39:50,010 >> Γι 'αυτό πρόκειται να είναι ουσιαστικά αντιγραφή και επικόλληση αυτό. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Αλλά Πάω να διαγράψετε αυτό το μέρος. 752 00:39:56,000 --> 00:39:57,610 Γι 'αυτό ακριβώς πρόκειται να είναι πάνω από 1 αυτό. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Ακούγεται καλό; 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Και τώρα στο τέλος, είμαι απλώς πρόκειται να εκτυπώσετε το όνομα του υποψηφίου και 757 00:40:09,700 --> 00:40:15,750 η πιθανότητα που έχετε της έχοντας το S για τους στίχους τους. 758 00:40:15,750 --> 00:40:16,200 Έχει νόημα; 759 00:40:16,200 --> 00:40:18,390 Και εγώ πραγματικά δεν χρειάζεται καν Πρέπει αυτό το λεξικό. 760 00:40:18,390 --> 00:40:19,510 Έχει νόημα; 761 00:40:19,510 --> 00:40:21,810 >> Έτσι, ας δούμε αν αυτό λειτουργεί πραγματικά. 762 00:40:21,810 --> 00:40:24,880 Έτσι, αν το τρέχω, δεν λειτούργησε. 763 00:40:24,880 --> 00:40:26,130 Περιμένετε ένα δευτερόλεπτο. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Λόγια (υποψήφιος)", "λέξεις (υποψήφιος)", αυτό είναι 766 00:40:31,720 --> 00:40:33,750 το όνομα της συστοιχίας. 767 00:40:33,750 --> 00:40:41,435 Εντάξει λοιπόν, λέει ότι υπάρχει κάποιο bug για τις υποψήφιες σε priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Επιτρέψτε μου να χαλαρώσω λίγο. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Ας προσπαθήσουμε. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Γι 'αυτό δίνει Katy Perry έχει αυτό πιθανότητα αυτού φορές 10 έως το 774 00:40:58,710 --> 00:41:02,200 μείον 7, και αυτό έχει Gaga 10 φορές με το μείον 6. 775 00:41:02,200 --> 00:41:05,610 Βλέπετε λοιπόν δείχνει ότι Gaga έχει μια μεγαλύτερη πιθανότητα. 776 00:41:05,610 --> 00:41:09,260 Έτσι, "Μωρό μου, είμαι on Fire" είναι ίσως ένα τραγούδι Gaga. 777 00:41:09,260 --> 00:41:10,580 Έχει νόημα; 778 00:41:10,580 --> 00:41:12,030 Έτσι, αυτό είναι ό, τι κάναμε. 779 00:41:12,030 --> 00:41:16,010 >> Αυτός ο κωδικός θα πρέπει να δημοσιεύονται στο διαδίκτυο, έτσι εσείς μπορείτε να ελέγξετε έξω. 780 00:41:16,010 --> 00:41:20,720 Ίσως χρησιμοποιήσετε κάποια από αυτό, αν θέλετε να κάνει ένα έργο ή κάτι παρόμοιο. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Αυτό ήταν ακριβώς να δείξει τι υπολογιστική 783 00:41:25,930 --> 00:41:27,230 Κωδικός γλωσσολογία μοιάζει. 784 00:41:27,230 --> 00:41:33,040 Αλλά τώρα ας πάμε σε πιο πράγματα υψηλού επιπέδου. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Έτσι, τα άλλα προβλήματα που μιλούσε για - 787 00:41:35,150 --> 00:41:37,550 το πρόβλημα του κατακερματισμού είναι το πρώτο από αυτά. 788 00:41:37,550 --> 00:41:40,820 Έτσι έχετε εδώ ιαπωνική γλώσσα. 789 00:41:40,820 --> 00:41:43,420 Και τότε θα δείτε ότι δεν υπάρχουν κενά διαστήματα. 790 00:41:43,420 --> 00:41:49,110 Έτσι, αυτό είναι βασικά σημαίνει ότι είναι η κορυφή της καρέκλας, έτσι δεν είναι; 791 00:41:49,110 --> 00:41:50,550 Θα μιλούν ιαπωνικά; 792 00:41:50,550 --> 00:41:52,840 Είναι η κορυφή της καρέκλας, έτσι δεν είναι; 793 00:41:52,840 --> 00:41:54,480 >> ΦΟΙΤΗΤΗΣ: Δεν ξέρω τι το kanji εκεί είναι. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: Είναι [ΟΜΙΛΙΑ ΙΑΠΩΝΙΚΗ] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Έτσι, αυτό σημαίνει βασικά πρόεδρος της κορυφής. 797 00:42:00,960 --> 00:42:03,620 Έτσι, αν έπρεπε να βάλει ένα χώρο θα ήταν εδώ. 798 00:42:03,620 --> 00:42:05,970 Και τότε θα πρέπει [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Το οποίο ουσιαστικά σημαίνει ότι ο κ. Ueda. 800 00:42:09,040 --> 00:42:13,180 Και βλέπετε ότι «Ueda» και έχετε ένα χώρο και στη συνέχεια "san." Έτσι, θα δείτε ότι 801 00:42:13,180 --> 00:42:15,470 εδώ "Ue" είναι σαν από μόνη της. 802 00:42:15,470 --> 00:42:17,750 Και εδώ έχει χαρακτήρα δίπλα σε αυτό. 803 00:42:17,750 --> 00:42:21,720 >> Έτσι, δεν είναι όπως σε αυτές τις γλώσσες χαρακτήρες που σημαίνει μια λέξη που, έτσι ώστε να 804 00:42:21,720 --> 00:42:23,980 απλά βάλτε πολλά κενά. 805 00:42:23,980 --> 00:42:25,500 Χαρακτήρες σχετίζονται μεταξύ τους. 806 00:42:25,500 --> 00:42:28,680 Και μπορεί να είναι μαζί σαν δύο, τρεις, ένα. 807 00:42:28,680 --> 00:42:34,520 Έτσι, μπορείτε πραγματικά να δημιουργήσει κάποιο είδος του τρόπου βάζοντας αυτούς τους χώρους. 808 00:42:34,520 --> 00:42:38,850 >> Και αυτό το πράγμα είναι ότι κάθε φορά που θα πάρετε δεδομένα από τις ασιατικές γλώσσες, 809 00:42:38,850 --> 00:42:40,580 ό, τι έρχεται συνοστέωσης. 810 00:42:40,580 --> 00:42:45,940 Επειδή κανείς που γράφει Ιαπωνικά ή κινέζικα γράφει με κενά. 811 00:42:45,940 --> 00:42:48,200 Κάθε φορά που γράφεις κινέζικα, Ιαπωνικά μπορείτε απλά να γράψετε τα πάντα 812 00:42:48,200 --> 00:42:48,710 χωρίς κενά. 813 00:42:48,710 --> 00:42:52,060 Δεν έχει καν νόημα να θέσει χώρους. 814 00:42:52,060 --> 00:42:57,960 Έτσι, στη συνέχεια, όταν μπορείτε να πάρετε τα στοιχεία από, μερικά Γλώσσα της Ανατολικής Ασίας, αν θέλετε να 815 00:42:57,960 --> 00:43:00,760 πραγματικά να κάνουμε κάτι με αυτό έχετε στο τμήμα του πρώτου. 816 00:43:00,760 --> 00:43:05,130 >> Σκεφτείτε να κάνει το παράδειγμα της οι στίχοι χωρίς κενά. 817 00:43:05,130 --> 00:43:07,950 Έτσι, το μόνο στίχους που έχετε θα ποινές, έτσι δεν είναι; 818 00:43:07,950 --> 00:43:09,470 Που χωρίζονται από τελείες. 819 00:43:09,470 --> 00:43:13,930 Αλλά στη συνέχεια, έχοντας μόνο την ποινή θα δεν πραγματικά να βοηθήσει για την παροχή πληροφοριών 820 00:43:13,930 --> 00:43:17,760 του ποιοι είναι αυτοί οι στίχοι είναι του. 821 00:43:17,760 --> 00:43:18,120 Σωστά; 822 00:43:18,120 --> 00:43:20,010 Έτσι, θα πρέπει να βάζει πρώτα τους χώρους. 823 00:43:20,010 --> 00:43:21,990 Λοιπόν, πώς μπορείτε να το κάνετε αυτό; 824 00:43:21,990 --> 00:43:24,920 >> Έτσι, τότε έρχεται η ιδέα μιας γλώσσας μοντέλο το οποίο είναι κάτι πραγματικά 825 00:43:24,920 --> 00:43:26,870 σημαντική για την υπολογιστική γλωσσολογία. 826 00:43:26,870 --> 00:43:32,790 Έτσι, ένα μοντέλο γλώσσας είναι ουσιαστικά ένα πίνακα των πιθανοτήτων που δείχνει 827 00:43:32,790 --> 00:43:36,260 πρώτα απ 'όλα ποια είναι η πιθανότητα έχουν τη λέξη σε μια γλώσσα; 828 00:43:36,260 --> 00:43:39,590 Έτσι, δείχνει πόσο συχνά μια λέξη είναι. 829 00:43:39,590 --> 00:43:43,130 Και στη συνέχεια, δείχνει επίσης τη σχέση μεταξύ των λέξεων σε μια πρόταση. 830 00:43:43,130 --> 00:43:51,500 >> Έτσι, η βασική ιδέα είναι, αν ήρθε ένας ξένος σε σας και είπε μια πρόταση για 831 00:43:51,500 --> 00:43:55,600 σας, ποια είναι η πιθανότητα ότι, για παράδειγμα, "αυτή είναι η αδελφή μου [GTF;"?] 832 00:43:55,600 --> 00:43:57,480 ήταν η φράση ότι το πρόσωπο που είπε; 833 00:43:57,480 --> 00:44:00,380 Έτσι, προφανώς, ορισμένες φράσεις είναι πιο κοινή από ό, τι άλλες. 834 00:44:00,380 --> 00:44:04,450 Για παράδειγμα, "καλημέρα" ή "καλή νύχτα ", ή" Hey εκεί, "είναι πολύ πιο 835 00:44:04,450 --> 00:44:08,260 κοινή από ό, τι οι περισσότεροι ποινές ότι έχουμε μια αγγλική. 836 00:44:08,260 --> 00:44:11,060 Γιατί, λοιπόν, είναι αυτές ποινές και πιο συχνά; 837 00:44:11,060 --> 00:44:14,060 >> Πρώτα απ 'όλα, είναι επειδή έχετε λέξεις που είναι πιο συχνές. 838 00:44:14,060 --> 00:44:20,180 Έτσι, για παράδειγμα, αν σας πω, ο σκύλος είναι μεγάλη, και το σκυλί είναι γιγαντιαία, σας 839 00:44:20,180 --> 00:44:23,880 συνήθως ακούσετε πιθανώς ο σκύλος είναι μεγάλος πιο συχνά, επειδή "μεγάλο" είναι πιο 840 00:44:23,880 --> 00:44:27,260 συχνή στα αγγλικά από το «γιγάντιο». Έτσι, μία από τις 841 00:44:27,260 --> 00:44:30,100 τα πράγματα είναι η συχνότητα λέξη. 842 00:44:30,100 --> 00:44:34,490 >> Το δεύτερο πράγμα που είναι πραγματικά σημαντικό είναι μόνο η 843 00:44:34,490 --> 00:44:35,490 σειρά των λέξεων. 844 00:44:35,490 --> 00:44:39,500 Έτσι, είναι κοινό να πούμε «η γάτα είναι μέσα στο κουτί. ", αλλά δεν το κάνετε συνήθως 845 00:44:39,500 --> 00:44:44,250 δείτε στο "The κουτί μέσα είναι η γάτα." έτσι θα δείτε ότι υπάρχει κάποια σημασία 846 00:44:44,250 --> 00:44:46,030 με τη σειρά των λέξεων. 847 00:44:46,030 --> 00:44:50,160 Δεν μπορούμε απλά να πούμε ότι αυτά τα δύο φράσεις έχουν την ίδια πιθανότητα 848 00:44:50,160 --> 00:44:53,010 μόνο και μόνο επειδή έχουν τις ίδιες λέξεις. 849 00:44:53,010 --> 00:44:55,550 Μπορείτε πραγματικά πρέπει να φροντίσουν σχετικά με την παραγγελία, καθώς και. 850 00:44:55,550 --> 00:44:57,650 Νόημα; 851 00:44:57,650 --> 00:44:59,490 >> Οπότε τι κάνουμε; 852 00:44:59,490 --> 00:45:01,550 Έτσι, αυτό που θα μπορούσε να προσπαθήσει να σας πάρει; 853 00:45:01,550 --> 00:45:04,400 Προσπαθώ να σας πάρει ό, τι καλέσει τα μοντέλα n-gram. 854 00:45:04,400 --> 00:45:09,095 Έτσι, τα μοντέλα n-gram ουσιαστικά αναλάβει ότι, για κάθε λέξη που 855 00:45:09,095 --> 00:45:10,960 έχετε σε μια πρόταση. 856 00:45:10,960 --> 00:45:15,020 Είναι η πιθανότητα ότι έχει λέξη εξαρτάται υπάρχει όχι μόνο στην 857 00:45:15,020 --> 00:45:18,395 συχνότητα αυτής της λέξης στη γλώσσα, αλλά και για τις λέξεις που 858 00:45:18,395 --> 00:45:19,860 Οι γύρω από αυτό. 859 00:45:19,860 --> 00:45:25,810 >> Έτσι, για παράδειγμα, συνήθως όταν βλέπεις κάτι σαν ή είστε σε 860 00:45:25,810 --> 00:45:28,040 κατά πάσα πιθανότητα θα δούμε μια όνομα μετά από αυτό, έτσι δεν είναι; 861 00:45:28,040 --> 00:45:31,750 Επειδή όταν έχετε μια πρόθεση συνήθως παίρνει ένα ουσιαστικό μετά από αυτό. 862 00:45:31,750 --> 00:45:35,540 Ή εάν έχετε ένα ρήμα που είναι μεταβατικό συνήθως πρόκειται να 863 00:45:35,540 --> 00:45:36,630 έχουν μια ονοματική φράση. 864 00:45:36,630 --> 00:45:38,780 Έτσι πρόκειται να έχουν ένα ουσιαστικό κάπου γύρω από αυτό. 865 00:45:38,780 --> 00:45:44,950 >> Έτσι, βασικά, αυτό που κάνει είναι ότι θεωρεί ότι η πιθανότητα να έχουν 866 00:45:44,950 --> 00:45:47,960 λόγια ένα δίπλα στο άλλο, όταν είστε υπολογισμό της 867 00:45:47,960 --> 00:45:49,050 πιθανότητα μιας πρότασης. 868 00:45:49,050 --> 00:45:50,960 Και αυτό είναι μια γλώσσα μοντέλο είναι βασικά. 869 00:45:50,960 --> 00:45:54,620 Απλά λέγοντας ποια είναι η πιθανότητα της ύπαρξης ενός ειδικού 870 00:45:54,620 --> 00:45:57,120 φράση σε μια γλώσσα; 871 00:45:57,120 --> 00:45:59,110 Γιατί λοιπόν είναι τόσο χρήσιμη, βασικά; 872 00:45:59,110 --> 00:46:02,390 Και πρώτα απ 'όλα τι είναι ένα μοντέλο n-gram, στη συνέχεια; 873 00:46:02,390 --> 00:46:08,850 >> Έτσι, ένα μοντέλο n-gram σημαίνει ότι κάθε λέξη εξαρτάται από το 874 00:46:08,850 --> 00:46:12,700 επόμενη N μείον 1 λέξεις. 875 00:46:12,700 --> 00:46:18,150 Έτσι, βασικά, αυτό σημαίνει ότι αν κοιτάξω, για παράδειγμα, κατά τον TF CS50 όταν 876 00:46:18,150 --> 00:46:21,500 Είμαι υπολογισμό της πιθανότητας η ποινή, θα είναι σαν «το 877 00:46:21,500 --> 00:46:25,280 πιθανότητα να έχουν τη λέξη "η" φορές η πιθανότητα να έχουν «η 878 00:46:25,280 --> 00:46:31,720 CS50 "φορές η πιθανότητα να έχουν "Το TF CS50." Έτσι, βασικά, μετρώ 879 00:46:31,720 --> 00:46:35,720 όλες οι δυνατότητες για το τέντωμα. 880 00:46:35,720 --> 00:46:41,870 >> Και τότε συνήθως όταν κάνεις αυτό, όπως σε ένα έργο, βάζετε Ν να 881 00:46:41,870 --> 00:46:42,600 μια χαμηλή τιμή. 882 00:46:42,600 --> 00:46:45,930 Έτσι, έχουν συνήθως διγράμμων ή τρίγραμμα. 883 00:46:45,930 --> 00:46:51,090 Έτσι ώστε να μετράνε μόνο δύο λέξεις, μια ομάδα δύο λέξεις ή τρεις λέξεις, 884 00:46:51,090 --> 00:46:52,620 μόνο για θέματα επιδόσεων. 885 00:46:52,620 --> 00:46:56,395 Και, επίσης, γιατί ίσως αν έχετε κάτι σαν το "The TF CS50." Όταν 886 00:46:56,395 --> 00:47:00,510 έχουν «TF», είναι πολύ σημαντικό το γεγονός ότι "CS50" είναι δίπλα σε αυτό, έτσι δεν είναι; 887 00:47:00,510 --> 00:47:04,050 Αυτά τα δύο πράγματα είναι συνήθως δίπλα στο άλλο. 888 00:47:04,050 --> 00:47:06,410 >> Αν νομίζετε ότι του "TF", είναι πιθανώς πρόκειται να έχουν ό, τι 889 00:47:06,410 --> 00:47:07,890 κατηγορία είναι για TF'ing. 890 00:47:07,890 --> 00:47:11,330 Επίσης, "η" είναι πραγματικά σημαντικό για CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Αλλά εάν έχετε κάτι σαν το "The CS50 TF πήγε στην τάξη και έδωσε τους 892 00:47:14,570 --> 00:47:20,060 φοιτητές κάποια καραμέλα. "" Candy "και" η " δεν έχουν καμία σχέση με πραγματικά, έτσι δεν είναι; 893 00:47:20,060 --> 00:47:23,670 Είναι τόσο μακριά από τον άλλον ότι δεν έχει τόση σημασία τι 894 00:47:23,670 --> 00:47:25,050 λέξεις που έχετε. 895 00:47:25,050 --> 00:47:31,210 >> Έτσι, κάνοντας μια bigram ή τρίγραμμα, το απλά σημαίνει ότι είστε περιορίζοντας 896 00:47:31,210 --> 00:47:33,430 τον εαυτό σας με κάποια λόγια που είναι γύρω. 897 00:47:33,430 --> 00:47:35,810 Νόημα; 898 00:47:35,810 --> 00:47:40,630 Έτσι, όταν θέλετε να κάνετε κατάτμηση, Βασικά, αυτό που θέλετε να κάνετε είναι να δείτε 899 00:47:40,630 --> 00:47:44,850 τι είναι όλα οι πιθανοί τρόποι που μπορείτε να τμήμα της ποινής. 900 00:47:44,850 --> 00:47:49,090 >> Τέτοια ότι θα δείτε τι είναι το πιθανότητα κάθε μία από τις ποινές 901 00:47:49,090 --> 00:47:50,880 υφιστάμενες στη γλώσσα; 902 00:47:50,880 --> 00:47:53,410 Έτσι, αυτό που κάνετε είναι σαν, καλά, ας προσπαθήσω να το βάλω ένα χώρο εδώ. 903 00:47:53,410 --> 00:47:55,570 Έτσι βάζετε ένα χώρο εκεί και θα δείτε ποια είναι η 904 00:47:55,570 --> 00:47:57,590 πιθανότητα αυτής της πρότασης; 905 00:47:57,590 --> 00:48:00,240 Στη συνέχεια, είστε όπως, εντάξει, ίσως ότι δεν ήταν και τόσο καλή. 906 00:48:00,240 --> 00:48:03,420 Έτσι έβαλα ένα χώρο υπάρχει και ένα χώρο εκεί, και να υπολογίσετε το 907 00:48:03,420 --> 00:48:06,240 πιθανότητα τώρα, και θα δείτε ότι είναι μια μεγαλύτερη πιθανότητα. 908 00:48:06,240 --> 00:48:12,160 >> Έτσι, αυτό είναι ένας αλγόριθμος που ονομάζεται TANGO αλγορίθμου κατάτμησης, η οποία είναι 909 00:48:12,160 --> 00:48:14,990 πραγματικά κάτι που θα ήταν πραγματικά δροσερό για ένα έργο, το οποίο 910 00:48:14,990 --> 00:48:20,860 βασικά παίρνει συνοστέωσης κείμενο που μπορεί να είναι ιαπωνικό ή κινεζικό ή ίσως 911 00:48:20,860 --> 00:48:26,080 Αγγλικά χωρίς κενά και προσπαθεί να βάλει διαστήματα μεταξύ των λέξεων και το κάνει 912 00:48:26,080 --> 00:48:29,120 ότι χρησιμοποιώντας ένα μοντέλο γλώσσας και προσπαθούμε να δούμε τι είναι το υψηλότερο 913 00:48:29,120 --> 00:48:31,270 πιθανότητα που μπορείτε να πάρετε. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Έτσι, αυτό είναι ο κατακερματισμός. 916 00:48:33,800 --> 00:48:35,450 >> Τώρα σύνταξη. 917 00:48:35,450 --> 00:48:40,940 Έτσι, η σύνταξη που χρησιμοποιείται για τόσα πολλά πράγματα αυτή τη στιγμή. 918 00:48:40,940 --> 00:48:44,880 Έτσι, για Graph Αναζήτηση για Siri για σχεδόν κάθε είδος των φυσικών 919 00:48:44,880 --> 00:48:46,490 επεξεργασία της γλώσσας που έχετε. 920 00:48:46,490 --> 00:48:49,140 Έτσι, αυτό είναι το σημαντικό πράγματα σχετικά με τη σύνταξη; 921 00:48:49,140 --> 00:48:52,390 Έτσι, οι προτάσεις έχουν εν γένει αυτό που λέμε συστατικά. 922 00:48:52,390 --> 00:48:57,080 Ποιες είναι κάτι σαν ομάδες λέξεων που έχουν μια λειτουργία στην πρόταση. 923 00:48:57,080 --> 00:49:02,220 Και δεν μπορούν πραγματικά να εκτός από το άλλο. 924 00:49:02,220 --> 00:49:07,380 >> Έτσι, αν μπορώ να πω, για παράδειγμα, "Lauren αγαπά Milo. "Ξέρω ότι" Lauren "είναι ένα 925 00:49:07,380 --> 00:49:10,180 συστατικό και στη συνέχεια "αγάπες Milo "είναι επίσης ένα άλλο. 926 00:49:10,180 --> 00:49:16,860 Επειδή δεν μπορούμε να πούμε σαν "Lauren Milo αγαπά »να έχουν την ίδια έννοια. 927 00:49:16,860 --> 00:49:18,020 Δεν πρόκειται να έχουν την ίδια έννοια. 928 00:49:18,020 --> 00:49:22,500 Ή δεν μπορώ να πω σαν "Milo Lauren αγαπά. "Δεν είναι ό, τι έχει το ίδιο 929 00:49:22,500 --> 00:49:25,890 σημαίνει αυτό. 930 00:49:25,890 --> 00:49:31,940 >> Έτσι, τα δύο πιο σημαντικά πράγματα για σύνταξη είναι οι λεξιλογικές είδη που είναι 931 00:49:31,940 --> 00:49:35,390 ουσιαστικά η λειτουργία που σας έχουν για τα λόγια από μόνα τους. 932 00:49:35,390 --> 00:49:39,180 Έτσι, θα πρέπει να ξέρετε ότι "Lauren" και "Μήλο" είναι ουσιαστικά. 933 00:49:39,180 --> 00:49:41,040 «Αγάπη» είναι ένα ρήμα. 934 00:49:41,040 --> 00:49:45,660 Και το δεύτερο σημαντικό πράγμα είναι ότι είναι φραστικές τύπους. 935 00:49:45,660 --> 00:49:48,990 Έτσι, ξέρετε ότι «αγαπά Milo" είναι στην πραγματικότητα μια λεκτική έκφραση. 936 00:49:48,990 --> 00:49:52,390 Έτσι, όταν λέω "Lauren," Ξέρω ότι Lauren κάνει κάτι. 937 00:49:52,390 --> 00:49:53,620 Τι κάνει; 938 00:49:53,620 --> 00:49:54,570 Της αγάπης Milo. 939 00:49:54,570 --> 00:49:56,440 Έτσι, αυτό είναι ένα όλο θέμα. 940 00:49:56,440 --> 00:50:01,640 Αλλά συστατικά του έχουν ένα ουσιαστικό και ένα ρήμα. 941 00:50:01,640 --> 00:50:04,210 Αλλά μαζί, κάνουν μια φράση ρήμα. 942 00:50:04,210 --> 00:50:08,680 >> Λοιπόν, τι μπορούμε να κάνουμε στην πραγματικότητα με υπολογιστική γλωσσολογία; 943 00:50:08,680 --> 00:50:13,810 Έτσι, αν έχω κάτι, για παράδειγμα «Οι φίλοι της Allison." Να δω αν έχω μόνο 944 00:50:13,810 --> 00:50:17,440 έκανε μια συντακτική δέντρο θα ήθελα να ξέρω ότι "Φίλοι" είναι μια ονοματική φράση είναι μια 945 00:50:17,440 --> 00:50:21,480 ουσιαστικό και στη συνέχεια "από Allison" είναι ένα εμπρόθετη φράση με την οποία "από" είναι 946 00:50:21,480 --> 00:50:24,810 μια πρόταση και "Allison" είναι ένα ουσιαστικό. 947 00:50:24,810 --> 00:50:30,910 Τι θα μπορούσα να κάνω είναι να διδάξει τον υπολογιστή μου ότι όταν έχω μια ονοματική φράση και ένα 948 00:50:30,910 --> 00:50:33,080 τότε μια εμπρόθετη φράση. 949 00:50:33,080 --> 00:50:39,020 Έτσι, σε αυτή την περίπτωση, "φίλους" και στη συνέχεια "του Milo "Ξέρω ότι αυτό σημαίνει ότι 950 00:50:39,020 --> 00:50:43,110 NP2, η δεύτερη, κατέχει NP1. 951 00:50:43,110 --> 00:50:47,680 >> Γι 'αυτό και μπορεί να δημιουργήσει κάποιο είδος σχέσης, κάποιο είδος λειτουργίας για αυτό. 952 00:50:47,680 --> 00:50:52,370 Έτσι, κάθε φορά που βλέπω αυτή τη δομή, η οποία ταιριάζει ακριβώς με "τους φίλους του 953 00:50:52,370 --> 00:50:56,030 Allison, "Ξέρω ότι Allison κατέχει τους φίλους. 954 00:50:56,030 --> 00:50:58,830 Έτσι, οι φίλοι είναι κάτι ότι η Allison έχει. 955 00:50:58,830 --> 00:50:59,610 Έχει νόημα; 956 00:50:59,610 --> 00:51:01,770 Έτσι, αυτό είναι βασικά αυτό που Γράφημα αναζήτησης κάνει. 957 00:51:01,770 --> 00:51:04,360 Δημιουργεί απλά κανόνες για πολλά πράγματα. 958 00:51:04,360 --> 00:51:08,190 Έτσι, οι "φίλοι του Allison," "οι φίλοι μου που ζουν σε Cambridge, "" οι φίλοι μου 959 00:51:08,190 --> 00:51:12,970 που πηγαίνουν στο Χάρβαρντ. «Δημιουργεί κανόνες για όλα αυτά τα πράγματα. 960 00:51:12,970 --> 00:51:14,930 >> Τώρα μηχανικής μετάφρασης. 961 00:51:14,930 --> 00:51:18,850 Έτσι, η αυτόματη μετάφραση είναι επίσης κάτι στατιστικών. 962 00:51:18,850 --> 00:51:21,340 Και πράγματι, αν εμπλακούν σε υπολογιστική γλωσσολογία, πολλά 963 00:51:21,340 --> 00:51:23,580 πράγματά σας πρόκειται να είναι στατιστικά. 964 00:51:23,580 --> 00:51:26,670 Έτσι, όπως έκανα με το παράδειγμα πολλές πιθανότητες ότι ήμουν 965 00:51:26,670 --> 00:51:30,540 τον υπολογισμό, και στη συνέχεια μπορείτε να πάρετε σε αυτό πολύ μικρός αριθμός που είναι ο τελικός 966 00:51:30,540 --> 00:51:33,180 πιθανότητα, και αυτό είναι ό, τι σας δίνει την απάντηση. 967 00:51:33,180 --> 00:51:37,540 Η μηχανική μετάφραση χρησιμοποιεί επίσης ένα στατιστικό μοντέλο. 968 00:51:37,540 --> 00:51:44,790 Και αν θέλετε να σκεφτείτε μηχανής μετάφραση στην απλούστερη δυνατή 969 00:51:44,790 --> 00:51:48,970 Έτσι, ό, τι μπορείτε να σκεφτείτε είναι απλά μεταφράσει κατά λέξη, έτσι δεν είναι; 970 00:51:48,970 --> 00:51:52,150 >> Όταν είστε εκμάθηση μιας γλώσσας για την πρώτη φορά, ότι είναι ό, τι συνήθως 971 00:51:52,150 --> 00:51:52,910 κάνεις, έτσι δεν είναι; 972 00:51:52,910 --> 00:51:57,050 Αν θέλετε να μεταφράσετε μια πρόταση στη γλώσσα σας με τη γλώσσα 973 00:51:57,050 --> 00:52:00,060 μαθαίνετε, συνήθως πρώτα, θα μεταφράσει κάθε μία από τις λέξεις 974 00:52:00,060 --> 00:52:03,180 ξεχωριστά, και στη συνέχεια προσπαθήστε να βάλει τις λέξεις στη θέση του. 975 00:52:03,180 --> 00:52:07,100 >> Έτσι αν θέλετε να το μεταφράσετε, [ΟΜΙΛΙΑ ΤΗΣ ΠΟΡΤΟΓΑΛΙΑΣ] 976 00:52:07,100 --> 00:52:10,430 που σημαίνει "η λευκή γάτα έτρεξε μακριά." Αν ήθελα να το μεταφράσει από 977 00:52:10,430 --> 00:52:13,650 Πορτογαλικά σε Αγγλικά, τι θα μπορούσε να κάνει είναι, κατ 'αρχάς, θα ήθελα απλώς 978 00:52:13,650 --> 00:52:14,800 μεταφράζουν λέξη προς λέξη. 979 00:52:14,800 --> 00:52:20,570 Έτσι το "o" είναι "το", "gato", "γάτα" "Branco", "λευκό" και στη συνέχεια "Fugio" είναι 980 00:52:20,570 --> 00:52:21,650 «Έσκασε». 981 00:52:21,650 --> 00:52:26,130 >> Έτσι, τότε έχω όλες τις λέξεις εδώ, αλλά δεν είναι σε τάξη. 982 00:52:26,130 --> 00:52:29,590 Είναι σαν "η άσπρη γάτα το έσκασε" η οποία είναι γραμματική. 983 00:52:29,590 --> 00:52:34,490 Έτσι, στη συνέχεια, μπορώ να έχω ένα δεύτερο στάδιο, το οποίο πρόκειται να βρεθεί το ιδανικό 984 00:52:34,490 --> 00:52:36,610 θέση για κάθε μία από τις λέξεις. 985 00:52:36,610 --> 00:52:40,240 Έτσι ξέρω ότι πραγματικά θέλουν να έχουν "Άσπρη γάτα" αντί για "λευκή γάτα." Έτσι 986 00:52:40,240 --> 00:52:46,050 τι μπορώ να κάνω είναι, η πιο αφελής μέθοδος θα ήταν να δημιουργήσει όλα τα 987 00:52:46,050 --> 00:52:49,720 πιθανών μεταθέσεων λόγια, των θέσεων. 988 00:52:49,720 --> 00:52:53,300 Και στη συνέχεια να δούμε ποια έχει το υψηλότερη πιθανότητα σύμφωνα με 989 00:52:53,300 --> 00:52:54,970 σε μοντέλο μου γλώσσα. 990 00:52:54,970 --> 00:52:58,390 Και στη συνέχεια, όταν θα βρείτε αυτό που έχει η υψηλότερη πιθανότητα αυτό, το οποίο είναι 991 00:52:58,390 --> 00:53:01,910 μάλλον "η λευκή γάτα έτρεξε μακριά," αυτό είναι δική μου μετάφραση. 992 00:53:01,910 --> 00:53:06,710 >> Και αυτό είναι ένας απλός τρόπος για να εξηγήσουμε πώς πολλά από μηχανική μετάφραση 993 00:53:06,710 --> 00:53:07,910 αλγόριθμοι λειτουργούν. 994 00:53:07,910 --> 00:53:08,920 Μήπως αυτό έχει νόημα; 995 00:53:08,920 --> 00:53:12,735 Αυτό είναι επίσης κάτι πραγματικά συναρπαστικό ότι εσείς μπορεί ίσως να διερευνήσει για μια 996 00:53:12,735 --> 00:53:13,901 τελικό σχέδιο, ναι; 997 00:53:13,901 --> 00:53:15,549 >> ΦΟΙΤΗΤΗΣ: Λοιπόν, είπες ότι ήταν ο αφελής τρόπο, έτσι ώστε ό, τι είναι 998 00:53:15,549 --> 00:53:17,200 η μη αφελής τρόπος; 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: Η μη αφελής τρόπος; 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Έτσι, το πρώτο πράγμα που είναι κακό για η μέθοδος αυτή είναι ότι μόλις μεταφραστεί 1002 00:53:22,860 --> 00:53:24,330 λόγια, λέξη προς λέξη. 1003 00:53:24,330 --> 00:53:30,570 Αλλά μερικές φορές έχετε τις λέξεις που μπορεί να έχει πολλαπλές μεταφράσεις. 1004 00:53:30,570 --> 00:53:32,210 Πάω να προσπαθήσουμε να σκεφτούμε κάτι. 1005 00:53:32,210 --> 00:53:37,270 Για παράδειγμα, «manga» στα πορτογαλικά δοχείο είτε να είναι "μάγγανο" ή "μανίκι". Έτσι 1006 00:53:37,270 --> 00:53:40,450 όταν προσπαθείτε να μεταφράσετε λέξη από τη λέξη, αυτό μπορεί να σας δίνει 1007 00:53:40,450 --> 00:53:42,050 κάτι που δεν έχει κανένα νόημα. 1008 00:53:42,050 --> 00:53:45,770 >> Έτσι θέλετε πραγματικά να σας δούμε όλους οι πιθανές μεταφράσεις της 1009 00:53:45,770 --> 00:53:49,840 λέξεις και να δούμε, πρώτα απ 'όλα, ποια είναι η σειρά. 1010 00:53:49,840 --> 00:53:52,000 Μιλούσαμε για permutating τα πράγματα; 1011 00:53:52,000 --> 00:53:54,150 Για να δείτε όλες τις πιθανές εντολές και επιλέξετε το ένα με την υψηλότερη 1012 00:53:54,150 --> 00:53:54,990 πιθανότητα; 1013 00:53:54,990 --> 00:53:57,860 Μπορείτε επίσης να επιλέξετε όλες τις πιθανές μεταφράσεις για κάθε 1014 00:53:57,860 --> 00:54:00,510 λέξη και στη συνέχεια να δούμε - 1015 00:54:00,510 --> 00:54:01,950 σε συνδυασμό με τις μεταθέσεις - 1016 00:54:01,950 --> 00:54:03,710 η οποία έχει κανείς την υψηλότερη πιθανότητα. 1017 00:54:03,710 --> 00:54:08,590 >> Πλέον, μπορείτε επίσης να εξετάσουμε όχι μόνο λόγια, αλλά φράσεις. 1018 00:54:08,590 --> 00:54:11,700 έτσι ώστε να μπορούν να αναλύσουν τις σχέσεις μεταξύ οι λέξεις και στη συνέχεια να πάρετε μια 1019 00:54:11,700 --> 00:54:13,210 καλύτερη μετάφραση. 1020 00:54:13,210 --> 00:54:16,690 Επίσης κάτι άλλο, έτσι ώστε αυτό το εξάμηνο Είμαι πραγματικά να κάνει έρευνα στο 1021 00:54:16,690 --> 00:54:19,430 Κινεζικά-Αγγλικά αυτόματη μετάφραση, έτσι μετάφραση από 1022 00:54:19,430 --> 00:54:20,940 Κινεζικά στα αγγλικά. 1023 00:54:20,940 --> 00:54:26,760 >> Και κάτι που κάνουμε είναι, εκτός από τη χρήση ένα στατιστικό μοντέλο, το οποίο είναι ακριβώς 1024 00:54:26,760 --> 00:54:30,570 βλέποντας τις πιθανότητες του να δει κάποια θέση σε μια πρόταση, είμαι 1025 00:54:30,570 --> 00:54:35,360 πραγματικά προσθέτοντας επίσης κάποια σύνταξη, για να μου μοντέλο, λέγοντας, αχ, αν βλέπω αυτό το είδος 1026 00:54:35,360 --> 00:54:39,420 της κατασκευής, αυτό είναι αυτό που θέλω για να αλλάξετε όταν μεταφράζω. 1027 00:54:39,420 --> 00:54:43,880 Έτσι, μπορείτε επίσης να προσθέσετε κάποιο είδος στοιχείο της σύνταξη για να κάνει το 1028 00:54:43,880 --> 00:54:47,970 μετάφραση πιο αποτελεσματική και πιο ακριβή. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Τόσο πώς μπορείτε να ξεκινήσετε, αν θέλετε να κάνει κάτι στην υπολογιστική 1031 00:54:51,010 --> 00:54:51,980 γλωσσολογία; 1032 00:54:51,980 --> 00:54:54,560 >> Κατ 'αρχάς, μπορείτε να επιλέξετε ένα έργο που περιλαμβάνει τις γλώσσες. 1033 00:54:54,560 --> 00:54:56,310 Έτσι, υπάρχουν τόσοι πολλοί εκεί έξω. 1034 00:54:56,310 --> 00:54:58,420 Υπάρχουν τόσα πολλά πράγματα που μπορείτε να κάνετε. 1035 00:54:58,420 --> 00:55:00,510 Και τότε μπορούμε να σκεφτούμε ένα μοντέλο που μπορείτε να χρησιμοποιήσετε. 1036 00:55:00,510 --> 00:55:04,710 Συνήθως αυτό σημαίνει ότι σκέφτεται υποθέσεις, όπως, όπως, OH, όταν ήμουν 1037 00:55:04,710 --> 00:55:05,770 σαν σκέψη των στίχων. 1038 00:55:05,770 --> 00:55:09,510 Ήμουν όπως, επίσης, αν θέλω να καταλάβω έξω ποιος έγραψε αυτό, πιθανόν να θέλετε 1039 00:55:09,510 --> 00:55:15,400 για να δείτε τις λέξεις το πρόσωπο που χρησιμοποιείται και δείτε ποιος χρησιμοποιεί αυτή τη λέξη πολύ συχνά. 1040 00:55:15,400 --> 00:55:18,470 Έτσι, προσπαθούν να κάνουν υποθέσεις και προσπαθήστε να σκεφτείτε μοντέλων. 1041 00:55:18,470 --> 00:55:21,395 Και τότε μπορείτε επίσης να αναζητήσετε online για το είδος του προβλήματος που έχετε, 1042 00:55:21,395 --> 00:55:24,260 και πρόκειται να προτείνει να σας τα μοντέλα που ίσως 1043 00:55:24,260 --> 00:55:26,560 το πρότυπο αυτό το πράγμα καλά. 1044 00:55:26,560 --> 00:55:29,080 >> Και, επίσης, μπορείτε να στείλετε email μου πάντα. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Και μπορώ να απαντήσω στις ερωτήσεις σας απλά. 1047 00:55:34,940 --> 00:55:38,600 Μπορούμε ακόμη και ότι θα συναντηθούμε ώστε να μπορώ να δώσει προτάσεις σχετικά με τους τρόπους 1048 00:55:38,600 --> 00:55:41,490 υλοποίηση του προγράμματος. 1049 00:55:41,490 --> 00:55:45,610 Και εννοώ, αν εμπλακούν με υπολογιστική γλωσσολογία, πρόκειται 1050 00:55:45,610 --> 00:55:46,790 να είναι μεγάλη. 1051 00:55:46,790 --> 00:55:48,370 Θα πάμε να δούμε εκεί είναι τόσο μεγάλες δυνατότητες. 1052 00:55:48,370 --> 00:55:52,060 Και η βιομηχανία επιθυμεί να προσλάβει είσαι τόσο κακός εξαιτίας αυτού. 1053 00:55:52,060 --> 00:55:54,720 Ελπίζω, λοιπόν, τα παιδιά απολαμβάνουν αυτό. 1054 00:55:54,720 --> 00:55:57,030 Εάν εσείς έχετε οποιεσδήποτε ερωτήσεις, μπορείτε να με ρωτήσετε μετά από αυτό. 1055 00:55:57,030 --> 00:55:58,280 Αλλά σας ευχαριστώ. 1056 00:55:58,280 --> 00:56:00,150