1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Freitas: Hey. 3 00:00:08,870 --> 00:00:09,980 Selamat datang semua orang. 4 00:00:09,980 --> 00:00:11,216 Nama saya Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Saya junior di [didengar] belajar sains komputer dengan tumpuan dalam 6 00:00:15,220 --> 00:00:16,410 linguistik pengiraan. 7 00:00:16,410 --> 00:00:19,310 Jadi menengah saya adalah dalam bahasa dan teori linguistik. 8 00:00:19,310 --> 00:00:21,870 Saya benar-benar teruja untuk mengajar anda semua sedikit tentang bidang ini. 9 00:00:21,870 --> 00:00:24,300 Ia adalah satu kawasan yang sangat menarik untuk belajar. 10 00:00:24,300 --> 00:00:27,260 Juga dengan banyak potensi untuk masa hadapan. 11 00:00:27,260 --> 00:00:30,160 Oleh itu, saya benar-benar teruja bahawa kalian sedang mempertimbangkan projek-projek di 12 00:00:30,160 --> 00:00:31,160 linguistik pengiraan. 13 00:00:31,160 --> 00:00:35,460 Dan saya akan menjadi lebih daripada gembira untuk memberi nasihat mana-mana anda jika anda membuat keputusan untuk 14 00:00:35,460 --> 00:00:37,090 mengejar salah seorang daripada mereka. 15 00:00:37,090 --> 00:00:40,010 >> Jadi pertama sekali apakah pengiraan linguistik? 16 00:00:40,010 --> 00:00:44,630 Linguistik Jadi pengiraan adalah persimpangan antara linguistik dan 17 00:00:44,630 --> 00:00:46,390 sains komputer. 18 00:00:46,390 --> 00:00:47,415 Jadi, apa yang linguistik? 19 00:00:47,415 --> 00:00:48,490 Apakah bukti sains komputer? 20 00:00:48,490 --> 00:00:51,580 Baik dari linguistik, apa kami ambil bahasa. 21 00:00:51,580 --> 00:00:54,960 Jadi linguistik sebenarnya kajian bahasa semula jadi secara amnya. 22 00:00:54,960 --> 00:00:58,330 Bahasa begitu semula jadi - kita bercakap mengenai bahasa yang kita sebenarnya gunakan untuk 23 00:00:58,330 --> 00:00:59,770 berkomunikasi antara satu sama lain. 24 00:00:59,770 --> 00:01:02,200 Jadi, kita tidak betul-betul bercakap kira-kira C atau Jawa. 25 00:01:02,200 --> 00:01:05,900 Kami bercakap lebih lanjut mengenai bahasa Inggeris dan Bahasa Cina dan lain-lain yang kita 26 00:01:05,900 --> 00:01:07,780 gunakan untuk berkomunikasi antara satu sama lain. 27 00:01:07,780 --> 00:01:12,470 >> Perkara yang mencabar tentang itu adalah bahawa sekarang kita mempunyai hampir 7,000 28 00:01:12,470 --> 00:01:14,260 bahasa di dunia. 29 00:01:14,260 --> 00:01:19,520 Jadi, terdapat pelbagai yang agak tinggi bahasa yang kita boleh belajar. 30 00:01:19,520 --> 00:01:22,600 Dan kemudian anda berfikir bahawa ia mungkin sangat sukar untuk dilakukan, sebagai contoh, 31 00:01:22,600 --> 00:01:26,960 terjemahan dari satu bahasa kepada bahasa yang lain, memandangkan anda mempunyai 32 00:01:26,960 --> 00:01:28,240 hampir 7,000 daripada mereka. 33 00:01:28,240 --> 00:01:31,450 Jadi, jika anda berfikir untuk berbuat terjemahan dari satu bahasa kepada bahasa yang lain yang anda 34 00:01:31,450 --> 00:01:35,840 mempunyai hampir lebih daripada satu juta kombinasi yang berbeza yang anda boleh 35 00:01:35,840 --> 00:01:37,330 mempunyai dari bahasa kepada bahasa. 36 00:01:37,330 --> 00:01:40,820 Jadi ia benar-benar mencabar untuk melakukan jenis sistem terjemahan contoh untuk 37 00:01:40,820 --> 00:01:43,540 setiap bahasa tunggal. 38 00:01:43,540 --> 00:01:47,120 >> Jadi, linguistik merawat dengan sintaks, semantik, pragmatik. 39 00:01:47,120 --> 00:01:49,550 Kamu semua tidak betul-betul perlukan untuk mengetahui apa yang mereka berada. 40 00:01:49,550 --> 00:01:55,090 Tetapi perkara yang sangat menarik ialah sebagai penceramah asli, apabila anda belajar 41 00:01:55,090 --> 00:01:59,010 bahasa sebagai kanak-kanak, anda sebenarnya belajar semua perkara-perkara - semantik sintaks 42 00:01:59,010 --> 00:02:00,500 dan pragmatik - 43 00:02:00,500 --> 00:02:01,430 oleh diri sendiri. 44 00:02:01,430 --> 00:02:04,820 Dan tiada siapa yang mempunyai untuk mengajar anda untuk sintaks anda untuk memahami bagaimana ayat adalah 45 00:02:04,820 --> 00:02:05,290 berstruktur. 46 00:02:05,290 --> 00:02:07,980 Jadi, ia benar-benar menarik kerana ia sesuatu yang datang sangat 47 00:02:07,980 --> 00:02:10,389 intuitif. 48 00:02:10,389 --> 00:02:13,190 >> Dan apa yang anda mengambil dari sains komputer? 49 00:02:13,190 --> 00:02:16,700 Nah, perkara yang paling penting untuk kita mempunyai dalam bidang sains komputer adalah pertama 50 00:02:16,700 --> 00:02:19,340 semua, kecerdasan buatan dan pembelajaran mesin. 51 00:02:19,340 --> 00:02:22,610 Jadi, apa yang kita cuba untuk melakukan linguistik pengiraan adalah mengajar 52 00:02:22,610 --> 00:02:26,990 komputer anda bagaimana untuk melakukan sesuatu dengan bahasa. 53 00:02:26,990 --> 00:02:28,630 >> Jadi, sebagai contoh, di dalam mesin terjemahan. 54 00:02:28,630 --> 00:02:32,490 Saya cuba untuk mengajar bagaimana komputer saya tahu bagaimana untuk beralih dari satu 55 00:02:32,490 --> 00:02:33,310 bahasa kepada yang lain. 56 00:02:33,310 --> 00:02:35,790 Jadi, pada dasarnya suka pengajaran komputer dua bahasa. 57 00:02:35,790 --> 00:02:38,870 Jika saya melakukan pemprosesan bahasa semula jadi, yang adalah kes untuk contoh 58 00:02:38,870 --> 00:02:41,810 Facebook Graf Cari, anda mengajar komputer anda bagaimana untuk memahami 59 00:02:41,810 --> 00:02:42,730 pertanyaan juga. 60 00:02:42,730 --> 00:02:48,130 >> Jadi, jika anda berkata "itu gambar saya rakan-rakan. "Facebook tidak melayan yang 61 00:02:48,130 --> 00:02:51,130 sebagai rentetan keseluruhan yang mempunyai hanya sekumpulan perkataan. 62 00:02:51,130 --> 00:02:56,020 Ia sebenarnya memahami hubungan antara "gambar" dan "rakan-rakan saya" dan 63 00:02:56,020 --> 00:02:59,620 memahami bahawa "gambar" adalah harta "rakan-rakan saya." 64 00:02:59,620 --> 00:03:02,350 >> Jadi, itu sebahagian daripada, sebagai contoh, pemprosesan bahasa semula jadi. 65 00:03:02,350 --> 00:03:04,790 Ia cuba untuk memahami apa yang adalah hubungan antara 66 00:03:04,790 --> 00:03:07,520 perkataan dalam ayat. 67 00:03:07,520 --> 00:03:11,170 Dan persoalan yang besarnya ialah, boleh anda mengajar komputer bagaimana untuk bercakap 68 00:03:11,170 --> 00:03:12,650 bahasa secara umum? 69 00:03:12,650 --> 00:03:17,810 Yang merupakan satu soalan yang sangat menarik untuk berfikir, kerana jika mungkin pada masa akan datang, 70 00:03:17,810 --> 00:03:19,930 anda akan dapat bercakap dengan telefon bimbit anda. 71 00:03:19,930 --> 00:03:23,290 Jenis seperti apa yang kita lakukan dengan Siri tetapi sesuatu yang lebih seperti, anda boleh sebenarnya 72 00:03:23,290 --> 00:03:25,690 mengatakan apa sahaja yang anda mahu dan telefon akan memahami segala-galanya. 73 00:03:25,690 --> 00:03:28,350 Dan ia boleh mempunyai susulan soalan dan terus bercakap. 74 00:03:28,350 --> 00:03:30,880 Itu sesuatu benar-benar menarik, pada pendapat saya. 75 00:03:30,880 --> 00:03:33,070 >> Jadi, sesuatu tentang bahasa asli. 76 00:03:33,070 --> 00:03:36,220 Sesuatu yang menarik tentang bahasa asli ialah, dan ini adalah 77 00:03:36,220 --> 00:03:38,470 kredit kepada profesor linguistik saya, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Beliau memberikan contoh dan saya fikir ia benar-benar menarik. 79 00:03:40,830 --> 00:03:47,060 Kerana kita belajar bahasa apabila kita dilahirkan dan kemudian asli yang 80 00:03:47,060 --> 00:03:49,170 bahasa jenis tumbuh kepada kita. 81 00:03:49,170 --> 00:03:52,570 >> Dan pada dasarnya anda belajar bahasa daripada input yang minimum, bukan? 82 00:03:52,570 --> 00:03:56,700 Anda hanya mendapatkan input daripada anda ibu bapa apa bunyi bahasa anda 83 00:03:56,700 --> 00:03:58,770 suka dan anda hanya mempelajarinya. 84 00:03:58,770 --> 00:04:02,240 Jadi, ia menarik kerana jika anda melihat pada mereka ayat, sebagai contoh. 85 00:04:02,240 --> 00:04:06,980 Anda lihat, "Mary memakai kot setiap masa dia meninggalkan rumah. " 86 00:04:06,980 --> 00:04:10,650 >> Dalam kes ini, ia mungkin untuk mempunyai perkataan "dia" merujuk kepada Mary, bukan? 87 00:04:10,650 --> 00:04:13,500 Anda boleh berkata "Mary memakai kot setiap kali Mary meninggalkan 88 00:04:13,500 --> 00:04:14,960 rumah. "jadi itulah denda. 89 00:04:14,960 --> 00:04:19,370 Tetapi jika anda melihat hukuman itu "Dia memakai kot setiap kali Mary 90 00:04:19,370 --> 00:04:22,850 meninggalkan rumah. "anda tahu itu mustahil untuk mengatakan bahawa "dia" adalah 91 00:04:22,850 --> 00:04:24,260 merujuk kepada Mary. 92 00:04:24,260 --> 00:04:27,070 >> Tidak ada cara untuk mengatakan bahawa "Mary meletakkan pada kot setiap kali Mary meninggalkan 93 00:04:27,070 --> 00:04:30,790 rumah. "Jadi ia menarik kerana ini adalah jenis gerak hati 94 00:04:30,790 --> 00:04:32,890 bahawa setiap penutur asli mempunyai. 95 00:04:32,890 --> 00:04:36,370 Dan tiada siapa yang telah diajar bahawa ini adalah cara yang sintaks berfungsi. 96 00:04:36,370 --> 00:04:41,930 Dan anda hanya boleh mempunyai ini "dia" merujuk kepada Maria dalam kes pertama ini, 97 00:04:41,930 --> 00:04:44,260 dan benar-benar dalam ini selain juga, tetapi tidak dalam satu ini. 98 00:04:44,260 --> 00:04:46,500 Tetapi semua orang jenis mendapat untuk jawapan yang sama. 99 00:04:46,500 --> 00:04:48,580 Semua orang bersetuju pada itu. 100 00:04:48,580 --> 00:04:53,280 Jadi ia benar-benar menarik bagaimana walaupun anda tidak tahu semua peraturan 101 00:04:53,280 --> 00:04:55,575 dalam bahasa anda anda jenis memahami bagaimana bahasa ini berfungsi. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Jadi perkara yang menarik tentang semula jadi bahasa adalah bahawa anda tidak perlu 104 00:05:01,530 --> 00:05:06,970 tahu apa-apa sintaks tahu jika hukuman adalah tatabahasa atau ungrammatical untuk 105 00:05:06,970 --> 00:05:08,810 kebanyakan kes. 106 00:05:08,810 --> 00:05:13,220 Yang membuat anda berfikir bahawa mungkin apa yang berlaku ialah melalui kehidupan anda, anda 107 00:05:13,220 --> 00:05:17,410 hanya menyimpan semakin ayat memberitahu kepada anda. 108 00:05:17,410 --> 00:05:19,800 Dan kemudian anda terus menghafal semua ayat. 109 00:05:19,800 --> 00:05:24,230 Dan kemudian apabila seseorang memberitahu anda sesuatu, anda mendengar ayat itu dan 110 00:05:24,230 --> 00:05:27,040 anda melihat perbendaharaan kata anda ayat dan lihat jika 111 00:05:27,040 --> 00:05:28,270 ayat yang ada. 112 00:05:28,270 --> 00:05:29,830 Dan jika ia ada di sana anda mengatakan ia tatabahasa. 113 00:05:29,830 --> 00:05:31,740 Jika tidak anda mengatakan ia ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Jadi, dalam kes itu, anda akan berkata, oh, supaya anda mempunyai senarai besar semua 115 00:05:35,150 --> 00:05:36,140 ayat mungkin. 116 00:05:36,140 --> 00:05:38,240 Dan kemudian apabila mendengar ayat, anda tahu jika ia tatabahasa atau 117 00:05:38,240 --> 00:05:39,450 tidak berdasarkan itu. 118 00:05:39,450 --> 00:05:42,360 Masalahnya ialah bahawa jika anda melihat ayat, sebagai contoh, "The 119 00:05:42,360 --> 00:05:47,540 lima diketuai CS50 TFS dimasak buta sotong menggunakan cawan DAPA. "Ia 120 00:05:47,540 --> 00:05:49,630 pasti tidak hukuman yang anda dengar sebelum ini. 121 00:05:49,630 --> 00:05:52,380 Tetapi pada masa yang sama anda tahu ia adalah cukup banyak tatabahasa, bukan? 122 00:05:52,380 --> 00:05:55,570 Tiada kesilapan tatabahasa dan anda boleh mengatakan bahawa 123 00:05:55,570 --> 00:05:57,020 ia adalah satu hukuman mungkin. 124 00:05:57,020 --> 00:06:01,300 >> Jadi ia membuatkan kita berfikir bahawa sebenarnya cara yang kita belajar bahasa bukan sahaja 125 00:06:01,300 --> 00:06:07,090 dengan mempunyai pangkalan data yang besar daripada mungkin perkataan atau ayat, tetapi lebih kepada 126 00:06:07,090 --> 00:06:11,490 memahami hubungan antara perkataan dalam mereka ayat. 127 00:06:11,490 --> 00:06:14,570 Adakah ini masuk akal? 128 00:06:14,570 --> 00:06:19,370 Oleh itu, maka soalan itu, boleh komputer belajar bahasa? 129 00:06:19,370 --> 00:06:21,490 Bolehkah kita mengajar bahasa kepada bahasa komputer? 130 00:06:21,490 --> 00:06:24,230 >> Jadi, mari kita memikirkan perbezaan antara penceramah asli bahasa yang 131 00:06:24,230 --> 00:06:25,460 dan komputer. 132 00:06:25,460 --> 00:06:27,340 Jadi, apa yang berlaku kepada orang yang bercakap? 133 00:06:27,340 --> 00:06:30,430 Nah, penutur asli belajar yang bahasa dari pendedahan kepadanya. 134 00:06:30,430 --> 00:06:34,200 Biasanya tahun zaman kanak-kanak awal. 135 00:06:34,200 --> 00:06:38,570 Jadi, pada dasarnya, anda hanya mempunyai bayi, dan anda terus bercakap dengannya, dan ia 136 00:06:38,570 --> 00:06:40,540 hanya belajar bagaimana untuk bercakap bahasa, bukan? 137 00:06:40,540 --> 00:06:42,660 Jadi, anda pada asasnya memberi input kepada bayi. 138 00:06:42,660 --> 00:06:45,200 Oleh itu, maka anda boleh berhujah bahawa komputer boleh melakukan perkara yang sama, bukan? 139 00:06:45,200 --> 00:06:49,510 Anda hanya boleh memberi bahasa sebagai input ke komputer. 140 00:06:49,510 --> 00:06:53,410 >> Sebagai contoh sekumpulan fail yang mempunyai buku-buku dalam bahasa Inggeris. 141 00:06:53,410 --> 00:06:56,190 Mungkin itu salah satu cara yang anda mungkin boleh mengajar 142 00:06:56,190 --> 00:06:57,850 komputer Bahasa Inggeris, bukan? 143 00:06:57,850 --> 00:07:01,000 Dan sebenarnya, jika anda berfikir tentang hal itu, ia akan membawa anda mungkin pasangan 144 00:07:01,000 --> 00:07:02,680 hari untuk membaca buku. 145 00:07:02,680 --> 00:07:05,760 Untuk komputer yang ia mengambil masa kedua untuk melihat semua kata-kata di dalam buku. 146 00:07:05,760 --> 00:07:10,810 Jadi, anda boleh berfikir bahawa mungkin hanya ini hujah input dari seluruh anda, 147 00:07:10,810 --> 00:07:15,440 itu tidak cukup untuk mengatakan bahawa itulah sesuatu yang hanya manusia boleh lakukan. 148 00:07:15,440 --> 00:07:17,680 Anda boleh berfikir komputer juga boleh mendapatkan input. 149 00:07:17,680 --> 00:07:21,170 >> Perkara kedua ialah penutur asli juga mempunyai otak yang mempunyai 150 00:07:21,170 --> 00:07:23,870 keupayaan pembelajaran bahasa. 151 00:07:23,870 --> 00:07:27,020 Tetapi jika anda berfikir tentang hal itu, otak adalah satu perkara yang kukuh. 152 00:07:27,020 --> 00:07:30,450 Apabila anda dilahirkan, ia telah ditetapkan - 153 00:07:30,450 --> 00:07:31,320 ini adalah otak anda. 154 00:07:31,320 --> 00:07:34,660 Dan seperti yang anda membesar, anda hanya mendapatkan lebih banyak input bahasa dan mungkin nutrien 155 00:07:34,660 --> 00:07:35,960 dan barangan lain. 156 00:07:35,960 --> 00:07:38,170 Tetapi cukup banyak otak anda adalah satu perkara yang kukuh. 157 00:07:38,170 --> 00:07:41,290 >> Jadi, anda boleh berkata, baik, mungkin anda boleh membina sebuah komputer yang mempunyai sekumpulan 158 00:07:41,290 --> 00:07:45,890 fungsi dan kaedah yang hanya meniru keupayaan pembelajaran bahasa. 159 00:07:45,890 --> 00:07:49,630 Jadi dalam erti kata itu, anda boleh mengatakan, baik, saya boleh mempunyai komputer yang mempunyai semua 160 00:07:49,630 --> 00:07:52,270 perkara yang saya perlu belajar bahasa. 161 00:07:52,270 --> 00:07:56,200 Dan perkara yang terakhir ialah anak negeri penceramah belajar daripada percubaan dan kesilapan. 162 00:07:56,200 --> 00:08:01,090 Jadi, pada asasnya satu lagi perkara yang penting dalam pembelajaran bahasa ialah anda jenis 163 00:08:01,090 --> 00:08:05,340 daripada mempelajari perkara dengan membuat generalisasi daripada apa yang anda dengar. 164 00:08:05,340 --> 00:08:10,280 >> Jadi seperti yang anda membesar anda mengetahui bahawa beberapa perkataan lebih seperti kata nama, 165 00:08:10,280 --> 00:08:11,820 beberapa yang lain adalah kata sifat. 166 00:08:11,820 --> 00:08:14,250 Dan anda tidak perlu mempunyai apa-apa pengetahuan linguistik 167 00:08:14,250 --> 00:08:15,040 untuk memahami bahawa. 168 00:08:15,040 --> 00:08:18,560 Tetapi anda hanya tahu ada beberapa perkataan berada pada kedudukan dalam sesuatu bahagian daripada 169 00:08:18,560 --> 00:08:22,570 ayat dan beberapa orang lain dalam lain bahagian hukuman itu. 170 00:08:22,570 --> 00:08:26,110 >> Dan bahawa apabila anda melakukan sesuatu yang seperti hukuman yang tidak betul - 171 00:08:26,110 --> 00:08:28,770 mungkin kerana satu generalisasi ke atas sebagai contoh. 172 00:08:28,770 --> 00:08:32,210 Mungkin apabila anda membesar, anda notis yang majmuk biasanya 173 00:08:32,210 --> 00:08:35,809 dibentuk dengan meletakkan satu di S akhir perkataan. 174 00:08:35,809 --> 00:08:40,042 Dan kemudian anda cuba untuk melakukan jamak dari "Rusa" sebagai "rusa" atau "gigi" sebagai 175 00:08:40,042 --> 00:08:44,780 "Tooths." Demikian maka ibu bapa anda atau seseorang membetulkan kamu dan berkata, tidak, yang 176 00:08:44,780 --> 00:08:49,020 jamak dari "rusa" adalah "rusa," dan jamak dari "gigi" adalah "gigi." Dan kemudian 177 00:08:49,020 --> 00:08:50,060 anda belajar perkara-perkara. 178 00:08:50,060 --> 00:08:51,520 Jadi, anda belajar daripada percubaan dan kesilapan. 179 00:08:51,520 --> 00:08:53,100 >> Tetapi anda juga boleh berbuat demikian dengan komputer. 180 00:08:53,100 --> 00:08:55,310 Anda boleh mempunyai sesuatu yang dinamakan pengukuhan pembelajaran. 181 00:08:55,310 --> 00:08:58,560 Yang pada dasarnya seperti memberi komputer ganjaran setiap kali ia 182 00:08:58,560 --> 00:08:59,410 sesuatu yang betul. 183 00:08:59,410 --> 00:09:04,710 Dan memberi ia bertentangan dengan ganjaran dan apabila ia sesuatu yang salah. 184 00:09:04,710 --> 00:09:07,410 Anda sebenarnya boleh melihat bahawa jika anda pergi untuk Terjemahan Google dan anda cuba untuk 185 00:09:07,410 --> 00:09:10,220 menterjemahkan ayat, ia meminta anda untuk maklum balas. 186 00:09:10,220 --> 00:09:13,240 Jadi, jika anda berkata, oh, ada yang lebih baik terjemahan untuk ayat ini. 187 00:09:13,240 --> 00:09:18,140 Anda boleh menaip dan kemudian jika banyak orang menyimpan mengatakan bahawa adalah lebih baik 188 00:09:18,140 --> 00:09:21,560 terjemahan, ia hanya mendapat tahu bahawa ia perlu menggunakan terjemahan yang bukannya 189 00:09:21,560 --> 00:09:22,960 yang ia memberi. 190 00:09:22,960 --> 00:09:28,830 >> Jadi, ia adalah satu soalan yang sangat falsafah untuk melihat jika komputer akan menjadi 191 00:09:28,830 --> 00:09:30,340 dapat bercakap atau tidak pada masa hadapan. 192 00:09:30,340 --> 00:09:34,440 Tetapi saya mempunyai harapan yang tinggi bahawa mereka boleh hanya berdasarkan kepada hujah. 193 00:09:34,440 --> 00:09:38,570 Tetapi ia hanya lebih kepada falsafah soalan. 194 00:09:38,570 --> 00:09:43,460 >> Jadi manakala komputer masih tidak boleh bercakap, apakah perkara-perkara yang boleh kita lakukan? 195 00:09:43,460 --> 00:09:47,070 Beberapa perkara yang benar-benar sejuk adalah pengelasan data. 196 00:09:47,070 --> 00:09:53,210 Jadi, sebagai contoh, anda semua tahu bahawa perkhidmatan e-mel, bagi tujuan 197 00:09:53,210 --> 00:09:55,580 Sebagai contoh, penapisan spam. 198 00:09:55,580 --> 00:09:59,070 Jadi setiap kali anda menerima spam, ia cuba untuk menapis ke kotak yang lain. 199 00:09:59,070 --> 00:10:00,270 Jadi bagaimana ia berbuat demikian? 200 00:10:00,270 --> 00:10:06,080 Ia tidak seperti komputer hanya tahu alamat e-mel apa menghantar spam. 201 00:10:06,080 --> 00:10:09,130 Jadi ia lebih berasaskan kepada kandungan mesej, atau mungkin tajuk, atau 202 00:10:09,130 --> 00:10:11,310 mungkin beberapa corak yang anda ada. 203 00:10:11,310 --> 00:10:15,690 >> Jadi, pada dasarnya, apa yang anda boleh lakukan ialah mendapatkan banyak data e-mel yang spam, 204 00:10:15,690 --> 00:10:19,980 e-mel yang tidak spam, dan belajar apa jenis corak anda mempunyai dalam 205 00:10:19,980 --> 00:10:21,000 orang-orang yang spam. 206 00:10:21,000 --> 00:10:23,260 Dan ini adalah sebahagian daripada pengiraan linguistik. 207 00:10:23,260 --> 00:10:24,720 Ia dipanggil pengelasan data. 208 00:10:24,720 --> 00:10:28,100 Dan kita sebenarnya akan melihat contoh bahawa dalam slaid seterusnya. 209 00:10:28,100 --> 00:10:32,910 >> Perkara kedua adalah bahasa semula jadi pemprosesan yang merupakan perkara yang bahawa 210 00:10:32,910 --> 00:10:36,580 Graf Cari melakukan membiarkan anda menulis ayat. 211 00:10:36,580 --> 00:10:38,690 Dan ia percaya yang anda memahami apa yang makna dan memberikan 212 00:10:38,690 --> 00:10:39,940 anda hasil yang lebih baik. 213 00:10:39,940 --> 00:10:43,880 Sebenarnya, jika anda pergi ke Google atau Bing dan anda mencari sesuatu seperti Lady 214 00:10:43,880 --> 00:10:47,060 Ketinggian Gaga, anda sebenarnya akan untuk mendapatkan 5 '1 "dan bukannya maklumat 215 00:10:47,060 --> 00:10:50,170 dari dia kerana ia sebenarnya memahami apa yang anda bercakap tentang. 216 00:10:50,170 --> 00:10:52,140 Jadi, itu sebahagian daripada alam semula jadi pemprosesan bahasa. 217 00:10:52,140 --> 00:10:57,000 >> Atau juga apabila anda menggunakan Siri, pertama anda mempunyai algoritma yang cuba 218 00:10:57,000 --> 00:11:01,130 menterjemahkan apa yang anda katakan ke dalam kata-kata, dalam teks. 219 00:11:01,130 --> 00:11:03,690 Dan kemudian ia cuba untuk menterjemahkan itu ke dalam makna. 220 00:11:03,690 --> 00:11:06,570 Jadi, itu semua sebahagian daripada alam semula jadi pemprosesan bahasa. 221 00:11:06,570 --> 00:11:08,320 >> Kemudian ada terjemahan mesin - 222 00:11:08,320 --> 00:11:10,300 yang sebenarnya adalah salah kegemaran saya - 223 00:11:10,300 --> 00:11:14,060 yang hanya menterjemah daripada satu bahasa kepada bahasa lain. 224 00:11:14,060 --> 00:11:17,950 Jadi, anda boleh berfikir bahawa apabila anda lakukan terjemahan mesin, anda mempunyai 225 00:11:17,950 --> 00:11:19,750 kemungkinan tidak terhingga ayat. 226 00:11:19,750 --> 00:11:22,960 Jadi tidak ada cara hanya menyimpan setiap terjemahan tunggal. 227 00:11:22,960 --> 00:11:27,440 Jadi, anda perlu datang dengan menarik algoritma untuk dapat 228 00:11:27,440 --> 00:11:30,110 menterjemahkan setiap tunggal ayat dalam beberapa cara. 229 00:11:30,110 --> 00:11:32,483 >> Anda mempunyai sebarang soalan setakat ini? 230 00:11:32,483 --> 00:11:34,450 Tidak? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Jadi apa yang kita akan melihat hari ini? 233 00:11:36,900 --> 00:11:39,300 Pertama sekali, saya akan bercakap tentang masalah pengelasan. 234 00:11:39,300 --> 00:11:41,440 Jadi salah satu yang saya katakan tentang spam. 235 00:11:41,440 --> 00:11:46,820 Apa yang saya akan lakukan ialah, memandangkan lyrics untuk lagu, anda boleh cuba untuk memikirkan 236 00:11:46,820 --> 00:11:49,810 dengan kebarangkalian tinggi yang penyanyi? 237 00:11:49,810 --> 00:11:53,590 Mari kita mengatakan bahawa saya mempunyai lagu-lagu daripada Lady Gaga dan Katy Perry, jika saya memberikan anda 238 00:11:53,590 --> 00:11:58,130 lagu baru, anda boleh memahami jika ia Katy Perry atau Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Yang kedua, saya hanya akan bercakap tentang masalah segmentasi. 240 00:12:01,490 --> 00:12:05,780 Jadi, saya tidak tahu jika anda semua tahu, tetapi Cina, Jepun, Asia Timur yang lain 241 00:12:05,780 --> 00:12:08,090 bahasa, dan bahasa-bahasa lain secara umum, tidak mempunyai 242 00:12:08,090 --> 00:12:09,830 ruang di antara perkataan. 243 00:12:09,830 --> 00:12:13,540 Dan kemudian jika anda berfikir tentang cara yang jenis komputer anda daripada cuba untuk 244 00:12:13,540 --> 00:12:18,600 memahami pemprosesan bahasa semula jadi, ia kelihatan pada kata-kata dan 245 00:12:18,600 --> 00:12:21,500 cuba untuk memahami hubungan di antara mereka, bukan? 246 00:12:21,500 --> 00:12:25,440 Tetapi jika anda mempunyai China, dan anda mempunyai ruang sifar, ia benar-benar sukar untuk 247 00:12:25,440 --> 00:12:28,360 mengetahui apa yang hubungan antara kata-kata, kerana mereka tidak mempunyai apa-apa 248 00:12:28,360 --> 00:12:29,530 kata-kata pada mulanya. 249 00:12:29,530 --> 00:12:32,600 Jadi, anda perlu melakukan sesuatu yang dinamakan segmentasi yang hanya bermaksud meletakkan 250 00:12:32,600 --> 00:12:36,490 ruang di antara apa yang kita akan memanggil kata-kata dalam bahasa-bahasa. 251 00:12:36,490 --> 00:12:37,740 Masuk akal? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Dan kemudian kita akan bercakap tentang sintaksis. 254 00:12:41,540 --> 00:12:44,050 Jadi hanya sedikit tentang semula jadi pemprosesan bahasa. 255 00:12:44,050 --> 00:12:45,420 Ia akan hanya gambaran. 256 00:12:45,420 --> 00:12:50,700 Jadi hari ini, pada dasarnya apa yang saya mahu lakukan adalah memberikan anda semua sedikit satu 257 00:12:50,700 --> 00:12:53,930 dalam apakah kemungkinan yang anda boleh lakukan dengan pengiraan 258 00:12:53,930 --> 00:12:54,960 linguistik. 259 00:12:54,960 --> 00:13:00,410 Dan kemudian anda boleh melihat apa yang anda fikirkan sejuk di kalangan perkara-perkara. 260 00:13:00,410 --> 00:13:02,270 Dan mungkin anda boleh memikirkan projek dan datang bercakap dengan saya. 261 00:13:02,270 --> 00:13:05,260 Dan saya boleh memberi anda nasihat bagaimana untuk melaksanakannya. 262 00:13:05,260 --> 00:13:09,060 >> Jadi sintaks akan menjadi sedikit mengenai Graf Cari dan mesin 263 00:13:09,060 --> 00:13:09,670 terjemahan. 264 00:13:09,670 --> 00:13:13,650 Saya hanya akan memberikan satu contoh bagaimana anda boleh, sebagai contoh, menterjemah 265 00:13:13,650 --> 00:13:16,020 sesuatu dari Portugis ke Bahasa Inggeris. 266 00:13:16,020 --> 00:13:17,830 Bunyi yang baik? 267 00:13:17,830 --> 00:13:19,293 >> Jadi pertama, masalah klasifikasi. 268 00:13:19,293 --> 00:13:23,590 Saya akan mengatakan bahawa ini sebahagian daripada seminar yang akan menjadi yang paling mencabar 269 00:13:23,590 --> 00:13:27,560 satu hanya kerana ada akan ada beberapa pengekodan. 270 00:13:27,560 --> 00:13:29,470 Tetapi ia akan menjadi Python. 271 00:13:29,470 --> 00:13:34,380 Saya tahu anda semua tidak tahu Python, jadi Saya hanya akan menjelaskan pada yang tinggi 272 00:13:34,380 --> 00:13:35,750 tahap apa yang saya lakukan. 273 00:13:35,750 --> 00:13:40,900 Dan anda tidak perlu untuk benar-benar mengambil berat terlalu banyak mengenai sintaks kerana itulah 274 00:13:40,900 --> 00:13:42,140 sesuatu yang anda semua boleh belajar. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Bunyi yang baik. 277 00:13:43,580 --> 00:13:46,020 >> Jadi apa masalah klasifikasi? 278 00:13:46,020 --> 00:13:49,140 Jadi anda diberikan beberapa lirik lagu, dan anda mahu untuk meneka 279 00:13:49,140 --> 00:13:50,620 yang menyanyikannya. 280 00:13:50,620 --> 00:13:54,045 Dan ini boleh untuk apa-apa jenis masalah lain. 281 00:13:54,045 --> 00:13:59,980 Jadi boleh, sebagai contoh, anda mempunyai kempen presiden dan anda mempunyai 282 00:13:59,980 --> 00:14:02,610 ucapan, dan anda ingin mencari jika ia adalah, sebagai contoh, 283 00:14:02,610 --> 00:14:04,470 Obama atau Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Atau anda boleh mempunyai sekumpulan e-mel dan anda mahu untuk memikirkan jika mereka 285 00:14:07,700 --> 00:14:08,890 spam atau tidak. 286 00:14:08,890 --> 00:14:11,440 Jadi ia hanya mengklasifikasikan beberapa data berdasarkan perkataan 287 00:14:11,440 --> 00:14:13,790 bahawa anda mempunyai di sana. 288 00:14:13,790 --> 00:14:16,295 >> Jadi untuk berbuat demikian, anda perlu membuat beberapa andaian. 289 00:14:16,295 --> 00:14:20,570 Jadi banyak perkara mengenai linguistik pengiraan membuat andaian, 290 00:14:20,570 --> 00:14:24,100 andaian biasanya pintar, supaya anda boleh mendapatkan keputusan yang baik. 291 00:14:24,100 --> 00:14:26,670 Cuba untuk mewujudkan satu model untuk itu. 292 00:14:26,670 --> 00:14:31,290 Dan kemudian mencubanya dan lihat jika ia berfungsi, jika ia memberi anda ketepatan yang baik. 293 00:14:31,290 --> 00:14:33,940 Dan jika ia, maka anda cuba untuk memperbaikinya. 294 00:14:33,940 --> 00:14:37,640 Jika tidak, anda seperti, OK, mungkin saya perlu membuat andaian yang berbeza. 295 00:14:37,640 --> 00:14:44,030 >> Jadi andaian bahawa kita akan membuat ialah seorang artis biasanya menyanyi 296 00:14:44,030 --> 00:14:49,220 kira-kira satu kali pelbagai topik, dan mungkin menggunakan kata-kata beberapa kali hanya 297 00:14:49,220 --> 00:14:50,270 kerana mereka digunakan untuk ia. 298 00:14:50,270 --> 00:14:51,890 Anda hanya boleh berfikir rakan anda. 299 00:14:51,890 --> 00:14:57,350 Saya pasti anda semua mempunyai kawan-kawan semua yang mengatakan frasa tandatangan mereka, 300 00:14:57,350 --> 00:14:59,260 secara literal bagi setiap ayat - 301 00:14:59,260 --> 00:15:02,660 seperti beberapa perkataan tertentu atau beberapa tertentu frasa yang mereka katakan untuk 302 00:15:02,660 --> 00:15:04,020 setiap ayat. 303 00:15:04,020 --> 00:15:07,920 >> Dan apa yang anda boleh katakan ialah bahawa jika anda melihat hukuman yang mempunyai tandatangan 304 00:15:07,920 --> 00:15:11,450 frasa, anda boleh meneka yang mungkin rakan anda adalah 305 00:15:11,450 --> 00:15:13,310 satu berkata ia, bukan? 306 00:15:13,310 --> 00:15:18,410 Jadi, anda membuat andaian itu dan kemudian itulah bagaimana anda membuat model. 307 00:15:18,410 --> 00:15:24,440 >> Contoh yang saya akan berikan adalah pada bagaimana Lady Gaga, sebagai contoh, orang-orang 308 00:15:24,440 --> 00:15:27,430 mengatakan bahawa dia menggunakan "bayi" untuk semua dia nombor satu lagu. 309 00:15:27,430 --> 00:15:32,270 Dan sebenarnya ini adalah video yang menunjukkan beliau berkata perkataan "bayi" untuk 310 00:15:32,270 --> 00:15:33,410 lagu-lagu yang berbeza. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO MAIN SEMULA] 312 00:15:33,860 --> 00:15:34,310 >> - (Nyanyian) Bayi. 313 00:15:34,310 --> 00:15:36,220 Bayi. 314 00:15:36,220 --> 00:15:37,086 Bayi. 315 00:15:37,086 --> 00:15:37,520 Bayi. 316 00:15:37,520 --> 00:15:37,770 Bayi. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Bayi. 319 00:15:39,243 --> 00:15:40,085 Bayi. 320 00:15:40,085 --> 00:15:40,510 Bayi. 321 00:15:40,510 --> 00:15:40,850 Bayi. 322 00:15:40,850 --> 00:15:41,090 >> [END VIDEO MAIN SEMULA- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Freitas: Jadi ada, saya fikir, 40 lagu-lagu di sini di mana beliau berkata, 324 00:15:44,020 --> 00:15:48,690 perkataan "bayi." Jadi pada dasarnya anda boleh meneka bahawa jika anda melihat sebuah lagu yang mempunyai 325 00:15:48,690 --> 00:15:52,180 perkataan "bayi," ada beberapa tinggi kebarangkalian bahawa itu Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Tetapi mari kita cuba untuk membangunkan ini lagi lebih secara rasmi. 327 00:15:56,450 --> 00:16:00,470 >> Jadi ini adalah lirik lagu-lagu oleh Lady Gaga dan Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Jadi anda melihat Lady Gaga, anda melihat mereka mempunyai banyak kejadian "bayi," yang 329 00:16:04,120 --> 00:16:07,710 banyak kejadian "jalan." Dan kemudian Katy Perry mempunyai banyak kejadian 330 00:16:07,710 --> 00:16:10,360 "Itu," banyak kejadian "api." 331 00:16:10,360 --> 00:16:14,560 >> Jadi, pada asasnya apa yang kita mahu lakukan ialah, anda mendapat lirik yang. 332 00:16:14,560 --> 00:16:20,480 Mari kita mengatakan bahawa anda mendapatkan lirik untuk lagu yang "bayi," hanya "bayi." Jika 333 00:16:20,480 --> 00:16:24,750 anda hanya mendapat perkataan "bayi", dan ini semua data yang anda ada dari 334 00:16:24,750 --> 00:16:27,880 Lady Gaga dan Katy Perry, yang akan anda meneka adalah orang yang 335 00:16:27,880 --> 00:16:29,370 yang menyanyi lagu? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga atau Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, bukan? 338 00:16:33,150 --> 00:16:37,400 Kerana dia satu-satunya yang mengatakan "Bayi." Ini bunyi bodoh, bukan? 339 00:16:37,400 --> 00:16:38,760 OK, ini adalah benar-benar mudah. 340 00:16:38,760 --> 00:16:41,860 Saya hanya melihat dua buah lagu dan Sudah tentu, dia satu-satunya yang mempunyai 341 00:16:41,860 --> 00:16:42,660 "Bayi." 342 00:16:42,660 --> 00:16:44,740 >> Tetapi bagaimana jika anda mempunyai sekumpulan kata-kata? 343 00:16:44,740 --> 00:16:50,900 Jika anda mempunyai lirik sebenar, sesuatu seperti, "Bayi, saya hanya 344 00:16:50,900 --> 00:16:51,610 pergi untuk melihat [? CFT?] 345 00:16:51,610 --> 00:16:54,020 kuliah, "atau sesuatu seperti itu, dan maka anda sebenarnya perlu memikirkan - 346 00:16:54,020 --> 00:16:55,780 berdasarkan semua kata-kata - 347 00:16:55,780 --> 00:16:58,350 yang adalah seorang artis yang mungkin menyanyikan lagu ini? 348 00:16:58,350 --> 00:17:01,860 Jadi mari kita cuba untuk membangunkan ini sedikit lagi. 349 00:17:01,860 --> 00:17:05,630 >> OK, jadi berasaskan hanya pada data yang kita mendapat, ia kelihatan bahawa Gaga mungkin 350 00:17:05,630 --> 00:17:06,260 penyanyi. 351 00:17:06,260 --> 00:17:07,904 Tetapi bagaimana kita boleh menulis ini lebih secara rasmi? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Dan ada akan menjadi sedikit sedikit statistik. 354 00:17:13,140 --> 00:17:15,880 Jadi, jika anda hilang, hanya cuba untuk memahami konsep itu. 355 00:17:15,880 --> 00:17:18,700 Ia tidak kira jika anda memahami persamaan dengan baik. 356 00:17:18,700 --> 00:17:22,150 Ini semua akan berada dalam talian. 357 00:17:22,150 --> 00:17:25,490 >> Jadi, pada asasnya apa yang saya mengira adalah kebarangkalian bahawa lagu ini adalah dengan 358 00:17:25,490 --> 00:17:28,040 Lady Gaga memandangkan - 359 00:17:28,040 --> 00:17:30,660 jadi bar ini ertinya memandangkan - 360 00:17:30,660 --> 00:17:33,680 Saya melihat perkataan "bayi." Adakah ini masuk akal? 361 00:17:33,680 --> 00:17:35,540 Jadi saya cuba untuk mengira Kebarangkalian. 362 00:17:35,540 --> 00:17:38,540 >> Jadi ada teorem ini dipanggil Bayes teorem yang mengatakan bahawa 363 00:17:38,540 --> 00:17:43,330 kebarangkalian A B diberikan, adalah kebarangkalian B diberikan A, kali 364 00:17:43,330 --> 00:17:47,660 kebarangkalian A, lebih kebarangkalian B. Ini adalah persamaan yang panjang. 365 00:17:47,660 --> 00:17:51,970 Tetapi apa yang anda perlu memahami dari itu adalah bahawa ini adalah apa yang saya mahu 366 00:17:51,970 --> 00:17:52,830 mengira, bukan? 367 00:17:52,830 --> 00:17:56,570 Jadi kebarangkalian bahawa lagu itu adalah dengan Lady Gaga memandangkan saya melihat perkataan 368 00:17:56,570 --> 00:17:58,230 "Bayi." 369 00:17:58,230 --> 00:18:02,960 >> Dan kini apa yang saya mendapat adalah kebarangkalian perkataan "bayi" diberikan 370 00:18:02,960 --> 00:18:04,390 bahawa saya mempunyai Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Apakah itu yang pada dasarnya? 372 00:18:07,220 --> 00:18:10,500 Apa cara iaitu, apakah kebarangkalian melihat satu perkataan "bayi" 373 00:18:10,500 --> 00:18:12,130 dalam Gaga lyrics? 374 00:18:12,130 --> 00:18:16,240 Jika saya mahu untuk mengira bahawa dalam yang sangat cara yang mudah, ia hanya beberapa 375 00:18:16,240 --> 00:18:23,640 kali saya lihat "bayi" atas jumlah perkataan dalam Gaga lyrics, bukan? 376 00:18:23,640 --> 00:18:27,600 Apakah kekerapan yang saya lihat bahawa perkataan dalam kerja Gaga? 377 00:18:27,600 --> 00:18:30,530 Masuk akal? 378 00:18:30,530 --> 00:18:33,420 >> Istilah kedua ialah kebarangkalian Gaga. 379 00:18:33,420 --> 00:18:34,360 Apa maksudnya? 380 00:18:34,360 --> 00:18:38,550 Yang pada dasarnya bermakna, apakah kebarangkalian mengklasifikasikan 381 00:18:38,550 --> 00:18:40,690 beberapa lyrics sebagai Gaga? 382 00:18:40,690 --> 00:18:45,320 Dan ini adalah jenis pelik, tetapi mari kita memikirkan satu contoh. 383 00:18:45,320 --> 00:18:49,230 Jadi katakan bahawa kebarangkalian mempunyai "bayi" dalam lagu itu adalah sama 384 00:18:49,230 --> 00:18:51,760 untuk Gaga dan Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Tetapi Britney Spears mempunyai dua kali ganda lebih banyak lagu daripada Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Jadi, jika seseorang hanya secara rawak memberikan anda lirik "bayi," perkara pertama yang anda 387 00:19:00,570 --> 00:19:04,710 melihat adalah, apakah kebarangkalian mempunyai "bayi" dalam lagu Gaga, "bayi" 388 00:19:04,710 --> 00:19:05,410 dalam sebuah lagu Britney? 389 00:19:05,410 --> 00:19:06,460 Dan ia adalah perkara yang sama. 390 00:19:06,460 --> 00:19:10,040 >> Jadi perkara kedua yang anda akan lihat ialah, juga, apakah kebarangkalian 391 00:19:10,040 --> 00:19:13,770 lirik ini dengan sendirinya menjadi lirik Gaga, dan apakah kebarangkalian 392 00:19:13,770 --> 00:19:15,380 menjadi lirik Britney? 393 00:19:15,380 --> 00:19:18,950 Jadi sejak Britney mempunyai banyak lagi lyrics daripada Gaga, anda akan mungkin 394 00:19:18,950 --> 00:19:21,470 katakan, baik, ini mungkin lirik Britney. 395 00:19:21,470 --> 00:19:23,340 Jadi itulah sebabnya kita mempunyai sebut di sini. 396 00:19:23,340 --> 00:19:24,670 Kebarangkalian Gaga. 397 00:19:24,670 --> 00:19:26,950 Masuk akal? 398 00:19:26,950 --> 00:19:28,660 Adakah ia? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Dan yang terakhir adalah hanya kebarangkalian daripada "bayi" yang tidak 401 00:19:33,500 --> 00:19:34,810 benar-benar perkara yang banyak. 402 00:19:34,810 --> 00:19:39,940 Tetapi ia kebarangkalian melihat "bayi" dalam bahasa Inggeris. 403 00:19:39,940 --> 00:19:42,725 Kami biasanya tidak peduli bahawa banyak mengenai tempoh jawatan itu. 404 00:19:42,725 --> 00:19:44,490 Adakah ini masuk akal? 405 00:19:44,490 --> 00:19:48,110 Jadi kebarangkalian Gaga adalah dipanggil kebarangkalian sebelum 406 00:19:48,110 --> 00:19:49,530 daripada Gaga kelas. 407 00:19:49,530 --> 00:19:53,840 Oleh kerana itu hanya bererti bahawa, apakah kebarangkalian yang mempunyai kelas itu - 408 00:19:53,840 --> 00:19:55,520 yang Gaga - 409 00:19:55,520 --> 00:19:59,350 hanya secara umum, hanya tanpa syarat. 410 00:19:59,350 --> 00:20:02,560 >> Dan kemudian apabila saya mempunyai kebarangkalian Gaga diberikan "bayi," kita panggil ia ditambah 411 00:20:02,560 --> 00:20:06,160 teary kebarangkalian yang kerana ia kebarangkalian yang mempunyai 412 00:20:06,160 --> 00:20:08,300 Gaga diberikan beberapa bukti. 413 00:20:08,300 --> 00:20:11,050 Jadi, saya memberi anda bukti bahawa saya melihat bayi perkataan dan 414 00:20:11,050 --> 00:20:12,690 lagu masuk akal? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Jadi Sekiranya saya dikira bahawa bagi setiap daripada lagu-lagu untuk Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 apa yang akan menjadi - 419 00:20:25,916 --> 00:20:27,730 nampaknya, saya tidak boleh bergerak ini. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Kebarangkalian Gaga akan sesuatu seperti, 2 lebih daripada 24, masa 1/2, 422 00:20:36,920 --> 00:20:38,260 lebih 2 lebih 53. 423 00:20:38,260 --> 00:20:40,640 Ia tidak kira jika anda tahu apa nombor-nombor ini yang datang dari. 424 00:20:40,640 --> 00:20:44,750 Tetapi ia hanya beberapa yang akan untuk menjadi lebih daripada 0, betul? 425 00:20:44,750 --> 00:20:48,610 >> Dan kemudian apabila saya melakukan Katy Perry, kebarangkalian "bayi" diberikan Katy adalah 426 00:20:48,610 --> 00:20:49,830 sudah 0, bukan? 427 00:20:49,830 --> 00:20:52,820 Kerana tidak ada "bayi" di Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Demikian maka ini menjadi 0, dan Gaga menang, yang bermaksud bahawa Gaga adalah 429 00:20:56,360 --> 00:20:57,310 mungkin penyanyi. 430 00:20:57,310 --> 00:20:58,560 Adakah ini masuk akal? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Jadi jika saya ingin rasmi ini lebih, Saya benar-benar boleh melakukan model 435 00:21:11,750 --> 00:21:12,700 satu perkataan. 436 00:21:12,700 --> 00:21:14,610 Jadi mari kita mengatakan bahawa saya mempunyai sesuatu seperti, "Bayi, saya 437 00:21:14,610 --> 00:21:16,030 terbakar, "atau sesuatu. 438 00:21:16,030 --> 00:21:17,760 Jadi ia mempunyai pelbagai kata-kata. 439 00:21:17,760 --> 00:21:20,880 Dan dalam kes ini, anda boleh melihat bahawa "bayi" adalah dalam Gaga, 440 00:21:20,880 --> 00:21:21,710 tetapi ia bukan dalam Katy. 441 00:21:21,710 --> 00:21:24,940 Dan "api" adalah di Katy, tetapi ia bukan dalam Gaga, bukan? 442 00:21:24,940 --> 00:21:27,200 Jadi ia semakin sukar, bukan? 443 00:21:27,200 --> 00:21:31,440 Kerana ia seolah-olah bahawa anda hampir mempunyai hubungan antara kedua-dua. 444 00:21:31,440 --> 00:21:36,980 >> Jadi apa yang anda perlu lakukan adalah mengambil alih kebebasan antara kata-kata. 445 00:21:36,980 --> 00:21:41,210 Jadi, pada asasnya apa yang bermakna ialah Saya hanya mengira apakah 446 00:21:41,210 --> 00:21:44,330 kebarangkalian melihat "bayi," apa yang kebarangkalian melihat "Saya," dan 447 00:21:44,330 --> 00:21:46,670 "Aku", dan "di" dan "api," semua secara berasingan. 448 00:21:46,670 --> 00:21:48,670 Kemudian saya mendarabkan mereka semua. 449 00:21:48,670 --> 00:21:52,420 Dan saya melihat apakah kebarangkalian melihat keseluruhan ayat. 450 00:21:52,420 --> 00:21:55,210 Masuk akal? 451 00:21:55,210 --> 00:22:00,270 >> Jadi, pada asasnya, jika saya mempunyai hanya satu perkataan, apa yang saya ingin mencari adalah maks Arg itu, 452 00:22:00,270 --> 00:22:05,385 yang bermaksud, apa yang kelas yang memberi saya kebarangkalian yang paling tinggi? 453 00:22:05,385 --> 00:22:10,010 Jadi apa kelas yang memberi saya kebarangkalian tertinggi untuk 454 00:22:10,010 --> 00:22:11,940 kebarangkalian kelas diberikan perkataan. 455 00:22:11,940 --> 00:22:17,610 Jadi dalam kes ini, Gaga diberi "bayi." Atau Katy diberikan "bayi." Masuk akal? 456 00:22:17,610 --> 00:22:21,040 >> Dan hanya dari Bayes, yang persamaan yang saya menunjukkan, 457 00:22:21,040 --> 00:22:24,780 kita mewujudkan pecahan ini. 458 00:22:24,780 --> 00:22:28,750 Satu-satunya perkara adalah bahawa anda melihat bahawa kebarangkalian perkataan diberi 459 00:22:28,750 --> 00:22:31,370 perubahan kelas bergantung di kelas, bukan? 460 00:22:31,370 --> 00:22:34,260 Bilangan "bayi" s yang saya ada dalam Gaga adalah berbeza daripada Katy. 461 00:22:34,260 --> 00:22:37,640 Kebarangkalian kelas juga perubahan kerana ia hanya bilangan 462 00:22:37,640 --> 00:22:39,740 lagu-lagu setiap daripada mereka mempunyai. 463 00:22:39,740 --> 00:22:43,980 >> Tetapi kebarangkalian perkataan itu sendiri akan menjadi yang sama untuk semua 464 00:22:43,980 --> 00:22:44,740 artis, bukan? 465 00:22:44,740 --> 00:22:47,150 Jadi kebarangkalian dari perkataan ini adalah hanya, apakah kebarangkalian 466 00:22:47,150 --> 00:22:49,820 melihat perkataan yang dalam Bahasa Inggeris? 467 00:22:49,820 --> 00:22:51,420 Jadi ia yang sama untuk mereka semua. 468 00:22:51,420 --> 00:22:55,790 Jadi kerana ini adalah tetap, kita boleh hanya drop ini dan tidak mengambil berat tentang ia. 469 00:22:55,790 --> 00:23:00,230 Jadi ini akan menjadi sebenarnya persamaan yang kita cari. 470 00:23:00,230 --> 00:23:03,360 >> Dan jika saya mempunyai beberapa perkataan, saya masih akan perlu terlebih dahulu 471 00:23:03,360 --> 00:23:04,610 kebarangkalian di sini. 472 00:23:04,610 --> 00:23:06,980 Satu-satunya perkara adalah bahawa saya mendarabkan kebarangkalian 473 00:23:06,980 --> 00:23:08,490 semua kata-kata lain. 474 00:23:08,490 --> 00:23:10,110 Jadi saya mendarabkan mereka semua. 475 00:23:10,110 --> 00:23:12,610 Masuk akal? 476 00:23:12,610 --> 00:23:18,440 Ia kelihatan pelik tetapi pada dasarnya bermakna, mengira terlebih dahulu daripada kelas, dan 477 00:23:18,440 --> 00:23:22,100 kemudian darab dengan kebarangkalian setiap perkataan yang di dalam kelas itu. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Dan anda tahu bahawa kebarangkalian perkataan diberikan kelas yang akan menjadi 480 00:23:29,150 --> 00:23:34,520 beberapa kali anda melihat perkataan yang dalam kelas itu, dibahagikan dengan bilangan 481 00:23:34,520 --> 00:23:37,020 kata-kata yang ada di yang kelas secara amnya. 482 00:23:37,020 --> 00:23:37,990 Masuk akal? 483 00:23:37,990 --> 00:23:41,680 Ia hanya bagaimana "bayi" adalah 2 lebih bilangan perkataan yang 484 00:23:41,680 --> 00:23:43,020 Saya dalam lirik. 485 00:23:43,020 --> 00:23:45,130 Jadi kekerapan. 486 00:23:45,130 --> 00:23:46,260 >> Tetapi ada satu perkara. 487 00:23:46,260 --> 00:23:51,250 Ingat bagaimana saya telah menunjukkan bahawa kebarangkalian "bayi" yang lyrics 488 00:23:51,250 --> 00:23:56,350 daripada Katy Perry adalah 0 hanya kerana Katy Perry tidak mempunyai "bayi" di semua? 489 00:23:56,350 --> 00:24:04,900 Tetapi ia kedengaran agak kasar hanya hanya mengatakan bahawa lyrics tidak boleh dari 490 00:24:04,900 --> 00:24:10,040 seorang artis hanya kerana mereka tidak mempunyai bahawa perkataan khususnya pada sebarang masa. 491 00:24:10,040 --> 00:24:13,330 >> Jadi anda hanya boleh mengatakan, baik, jika anda tidak mempunyai perkataan ini, saya akan 492 00:24:13,330 --> 00:24:15,640 memberikan kebarangkalian yang lebih rendah, tetapi saya hanya tidak akan 493 00:24:15,640 --> 00:24:17,420 memberi anda 0 merta. 494 00:24:17,420 --> 00:24:21,040 Kerana mungkin ia adalah sesuatu seperti, "Api, api, api, api," yang merupakan 495 00:24:21,040 --> 00:24:21,990 sama sekali Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Dan kemudian "bayi", dan ia hanya pergi untuk 0 segera kerana terdapat satu 497 00:24:26,060 --> 00:24:27,250 "Bayi." 498 00:24:27,250 --> 00:24:31,440 >> Jadi, pada asasnya apa yang kita lakukan adalah sesuatu dipanggil Laplace pelicinan. 499 00:24:31,440 --> 00:24:36,260 Dan ini hanya bermakna bahawa saya memberi beberapa kebarangkalian walaupun dengan kata-kata 500 00:24:36,260 --> 00:24:37,850 yang tidak wujud. 501 00:24:37,850 --> 00:24:43,170 Jadi apa yang saya lakukan ialah apabila saya pengiraan ini, saya sentiasa menambah 1 kepada 502 00:24:43,170 --> 00:24:44,180 pembilang. 503 00:24:44,180 --> 00:24:48,060 Jadi, walaupun perkataan itu tidak wujud, dalam kes ini, jika ini adalah 0, saya masih 504 00:24:48,060 --> 00:24:51,250 mengira ini sebagai 1 atas Jumlah perkataan. 505 00:24:51,250 --> 00:24:55,060 Jika tidak, saya mendapat berapa banyak perkataan Yang saya ada dan saya menambah 1. 506 00:24:55,060 --> 00:24:58,300 Jadi, saya mengira untuk kedua-dua kes. 507 00:24:58,300 --> 00:25:00,430 Masuk akal? 508 00:25:00,430 --> 00:25:03,060 >> Jadi sekarang mari kita buat beberapa pengekodan. 509 00:25:03,060 --> 00:25:06,440 Saya akan mempunyai untuk melakukannya cukup cepat, tetapi ia hanya penting untuk anda 510 00:25:06,440 --> 00:25:08,600 lelaki memahami konsep-konsep. 511 00:25:08,600 --> 00:25:13,450 Jadi apa yang kita cuba lakukan adalah betul-betul melaksanakan ini 512 00:25:13,450 --> 00:25:14,330 perkara yang saya hanya berkata - 513 00:25:14,330 --> 00:25:19,110 Saya mahu anda meletakkan lirik dari Lady Gaga dan Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Dan program ini akan dapat mengatakan jika ini lyrics baru dari Gaga 515 00:25:22,980 --> 00:25:24,170 atau Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Masuk akal? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Jadi saya mempunyai program ini saya akan untuk memanggil classify.py. 519 00:25:30,710 --> 00:25:31,970 Jadi ini adalah Python. 520 00:25:31,970 --> 00:25:34,210 Ia adalah satu bahasa pengaturcaraan yang baru. 521 00:25:34,210 --> 00:25:38,020 Ia adalah sangat serupa dalam sesetengah cara-cara untuk C dan PHP. 522 00:25:38,020 --> 00:25:43,180 Ia adalah serupa kerana jika anda mahu belajar Python selepas mengetahui C, ia 523 00:25:43,180 --> 00:25:46,270 benar-benar tidak bahawa banyak cabaran hanya kerana Python adalah lebih mudah 524 00:25:46,270 --> 00:25:47,520 daripada C, pertama sekali. 525 00:25:47,520 --> 00:25:49,370 Dan banyak perkara-perkara yang sudah dilaksanakan untuk anda. 526 00:25:49,370 --> 00:25:56,820 Jadi bagaimana seperti PHP mempunyai fungsi-fungsi yang menyusun senarai, atau menambah sesuatu 527 00:25:56,820 --> 00:25:58,780 kepada pelbagai, atau blah, blah, blah. 528 00:25:58,780 --> 00:26:00,690 Python mempunyai semua orang-orang juga. 529 00:26:00,690 --> 00:26:05,960 >> Jadi saya hanya akan menerangkan dengan cepat bagaimana kita boleh melakukan klasifikasi 530 00:26:05,960 --> 00:26:07,860 masalah bagi di sini. 531 00:26:07,860 --> 00:26:13,230 Jadi mari kita mengatakan bahawa dalam kes ini, saya mempunyai lirik dari Gaga dan Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Cara yang saya mempunyai orang-orang lyrics ialah perkataan pertama lirik adalah 533 00:26:21,880 --> 00:26:25,250 nama artis, dan selebihnya adalah lirik. 534 00:26:25,250 --> 00:26:29,470 Jadi mari kita mengatakan bahawa saya mempunyai senarai ini dalam yang mana satu yang pertama adalah lirik oleh Gaga. 535 00:26:29,470 --> 00:26:31,930 Jadi di sini saya di landasan yang betul. 536 00:26:31,930 --> 00:26:35,270 Dan yang seterusnya adalah Katy, dan ia juga mempunyai lirik. 537 00:26:35,270 --> 00:26:38,040 >> Jadi ini adalah bagaimana anda mengisytiharkan pembolehubah dalam Python. 538 00:26:38,040 --> 00:26:40,200 Anda tidak perlu memberikan jenis data. 539 00:26:40,200 --> 00:26:43,150 Anda hanya menulis "lyrics," jenis suka dalam PHP. 540 00:26:43,150 --> 00:26:44,890 Masuk akal? 541 00:26:44,890 --> 00:26:47,770 >> Jadi apakah perkara-perkara yang saya perlu mengira dapat mengira 542 00:26:47,770 --> 00:26:49,360 kebarangkalian? 543 00:26:49,360 --> 00:26:55,110 Saya perlu mengira "prior" setiap yang berbeza 544 00:26:55,110 --> 00:26:56,710 kelas yang aku dapat. 545 00:26:56,710 --> 00:27:06,680 Saya perlu mengira "posteriors," atau cukup banyak kebarangkalian 546 00:27:06,680 --> 00:27:12,150 setiap perkataan yang berbeza yang Saya boleh mempunyai untuk setiap artis. 547 00:27:12,150 --> 00:27:17,210 Jadi dalam Gaga, sebagai contoh, saya akan untuk mempunyai senarai berapa kali saya melihat 548 00:27:17,210 --> 00:27:19,250 setiap satu daripada kata-kata. 549 00:27:19,250 --> 00:27:20,760 Masuk akal? 550 00:27:20,760 --> 00:27:25,370 >> Dan akhirnya, saya hanya akan mempunyai senarai yang dikenali sebagai "perkataan" yang hanya akan 551 00:27:25,370 --> 00:27:29,780 mempunyai berapa banyak perkataan saya ada untuk setiap artis. 552 00:27:29,780 --> 00:27:33,760 Jadi untuk Gaga, sebagai contoh, apabila saya melihat lirik, saya telah, saya fikir, 24 553 00:27:33,760 --> 00:27:34,750 perkataan dalam jumlah. 554 00:27:34,750 --> 00:27:38,970 Jadi senarai ini hanya akan mempunyai Gaga 24, dan Katy nombor lain. 555 00:27:38,970 --> 00:27:40,130 Masuk akal? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Jadi sekarang, sebenarnya, mari kita pergi ke pengekodan. 558 00:27:42,530 --> 00:27:45,270 Jadi dalam Python, anda boleh sebenarnya kembali sekumpulan berbeza 559 00:27:45,270 --> 00:27:46,630 perkara-perkara dari satu majlis. 560 00:27:46,630 --> 00:27:50,810 Jadi saya akan mewujudkan fungsi ini dipanggil "bersyarat," yang akan 561 00:27:50,810 --> 00:27:53,890 untuk kembali semua perkara-perkara ini, "Prior," yang "kebarangkalian," dan 562 00:27:53,890 --> 00:28:05,690 "Kata-kata." Jadi "bersyarat," dan ia akan memanggil ke dalam "lyrics." 563 00:28:05,690 --> 00:28:11,510 >> Jadi sekarang saya mahu anda untuk benar-benar menulis fungsi ini. 564 00:28:11,510 --> 00:28:17,750 Jadi cara yang saya boleh menulis ini fungsi adalah saya hanya ditakrifkan ini 565 00:28:17,750 --> 00:28:20,620 berfungsi dengan "def." Jadi saya "def bersyarat, "dan ia mengambil 566 00:28:20,620 --> 00:28:28,700 "Lyrics." Dan apa ini akan melakukan adalah, pertama sekali, saya mempunyai prior saya 567 00:28:28,700 --> 00:28:31,030 yang saya mahu untuk mengira. 568 00:28:31,030 --> 00:28:34,330 >> Jadi cara yang boleh saya lakukan ini adalah mewujudkan kamus dalam Python, yang 569 00:28:34,330 --> 00:28:37,320 adalah cukup banyak perkara yang sama seperti hash meja, atau ia seperti satu lelaran 570 00:28:37,320 --> 00:28:40,480 array dalam PHP. 571 00:28:40,480 --> 00:28:44,150 Ini adalah bagaimana saya mengisytiharkan kamus. 572 00:28:44,150 --> 00:28:53,580 Dan pada dasarnya apa ini bermakna bahawa prior daripada Gaga adalah 0.5, sebagai contoh, jika 573 00:28:53,580 --> 00:28:57,200 50% dalam lirik lagu dari Gaga, 50% adalah dari Katy. 574 00:28:57,200 --> 00:28:58,450 Masuk akal? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Jadi saya perlu memikirkan bagaimana untuk mengira prior. 577 00:29:03,680 --> 00:29:07,120 >> Orang-orang yang akan datang yang saya lakukan, juga, adalah kebarangkalian dan kata-kata. 578 00:29:07,120 --> 00:29:17,100 Jadi kebarangkalian Gaga adalah senarai semua kebarangkalian bahawa saya 579 00:29:17,100 --> 00:29:19,160 ada untuk setiap satu daripada kata-kata untuk Gaga. 580 00:29:19,160 --> 00:29:23,880 Jadi, jika saya pergi ke kebarangkalian Gaga "Bayi," sebagai contoh, ia akan memberi saya 581 00:29:23,880 --> 00:29:28,750 sesuatu seperti 2 lebih daripada 24 dalam kes itu. 582 00:29:28,750 --> 00:29:30,070 Masuk akal? 583 00:29:30,070 --> 00:29:36,120 Jadi saya pergi ke "kebarangkalian," pergi ke "Gaga" baldi yang mempunyai senarai semua 584 00:29:36,120 --> 00:29:40,550 perkataan Gaga, maka saya pergi ke "bayi," dan saya melihat kebarangkalian. 585 00:29:40,550 --> 00:29:45,940 >> Dan akhirnya saya ini "Kata-kata" kamus. 586 00:29:45,940 --> 00:29:53,620 Jadi di sini, "kebarangkalian." Dan kemudian "Kata-kata." Jadi, jika saya lakukan "kata-kata," "Gaga," 587 00:29:53,620 --> 00:29:58,330 apa yang akan berlaku ialah ia akan memberi saya 24, mengatakan bahawa saya 588 00:29:58,330 --> 00:30:01,990 mempunyai 24 perkataan dalam lirik dari Gaga. 589 00:30:01,990 --> 00:30:04,110 Masuk akal? 590 00:30:04,110 --> 00:30:07,070 Jadi di sini, "kata-kata" sama dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Jadi apa yang saya akan lakukan adalah saya akan melelar atas setiap lirik, jadi 593 00:30:12,210 --> 00:30:14,490 setiap daripada tali-tali yang Saya ada dalam senarai. 594 00:30:14,490 --> 00:30:18,040 Dan saya akan mengira perkara-perkara bagi setiap calon. 595 00:30:18,040 --> 00:30:19,950 Masuk akal? 596 00:30:19,950 --> 00:30:21,700 Jadi saya perlu melakukan untuk gelung. 597 00:30:21,700 --> 00:30:26,300 >> Jadi dalam Python apa yang boleh saya lakukan adalah "bagi talian dalam lirik. "Perkara yang sama sebagai 598 00:30:26,300 --> 00:30:28,000 "Untuk setiap" Kenyataan dalam PHP. 599 00:30:28,000 --> 00:30:33,420 Ingat bagaimana jika ia adalah PHP yang saya dapat berkata "bagi setiap lyrics sebagai 600 00:30:33,420 --> 00:30:35,220 line. "Masuk akal? 601 00:30:35,220 --> 00:30:38,900 Jadi, saya mengambil setiap satu daripada garisan, dalam ini kes, tali ini dan seterusnya 602 00:30:38,900 --> 00:30:44,540 rentetan demikian bagi setiap garis apa yang saya akan lakukan ialah pertama, saya akan 603 00:30:44,540 --> 00:30:49,150 berpecah baris ini ke dalam senarai kata-kata yang dipisahkan oleh ruang. 604 00:30:49,150 --> 00:30:53,730 >> Jadi perkara yang sejuk kira-kira Python ialah anda boleh hanya Google seperti "bagaimana boleh saya 605 00:30:53,730 --> 00:30:58,220 berpecah rentetan ke dalam kata-kata? "Dan ia akan memberitahu anda bagaimana untuk melakukannya. 606 00:30:58,220 --> 00:31:04,890 Dan cara untuk melakukannya, ia hanya "talian = Line.split () "dan ia pada dasarnya 607 00:31:04,890 --> 00:31:08,640 akan memberikan anda senarai dengan setiap perkataan di sini. 608 00:31:08,640 --> 00:31:09,620 Masuk akal? 609 00:31:09,620 --> 00:31:15,870 Jadi sekarang yang saya lakukan yang saya ingin tahu yang merupakan penyanyi lagu itu. 610 00:31:15,870 --> 00:31:20,130 Dan untuk itu saya hanya perlu mendapatkan Elemen pertama array, bukan? 611 00:31:20,130 --> 00:31:26,390 Jadi saya hanya boleh mengatakan bahawa saya "penyanyi = Line (0) "Masuk akal? 612 00:31:26,390 --> 00:31:32,010 >> Dan kemudian apa yang saya perlu lakukan ialah, pertama semua, saya akan mengemas kini berapa ramai 613 00:31:32,010 --> 00:31:36,130 kata-kata saya di bawah "Gaga." jadi saya hanya akan mengira berapa banyak kata-kata saya 614 00:31:36,130 --> 00:31:38,690 ada di dalam senarai ini, bukan? 615 00:31:38,690 --> 00:31:41,910 Kerana ini adalah berapa banyak perkataan saya dalam lirik dan saya hanya akan 616 00:31:41,910 --> 00:31:44,120 menambah kepada "Gaga" array. 617 00:31:44,120 --> 00:31:47,090 Adakah ini masuk akal? 618 00:31:47,090 --> 00:31:49,010 Tidak memberi tumpuan terlalu banyak pada sintaks. 619 00:31:49,010 --> 00:31:50,430 Berfikir lebih lanjut mengenai konsep-konsep. 620 00:31:50,430 --> 00:31:52,400 Itu sebahagian yang paling penting. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Jadi apa yang boleh saya lakukan adalah jika "Gaga" adalah telah berada dalam senarai itu, jadi "jika penyanyi dalam 623 00:32:00,260 --> 00:32:03,190 perkataan "yang bermaksud bahawa saya sudah mempunyai perkataan dengan Gaga. 624 00:32:03,190 --> 00:32:06,640 Saya hanya mahu untuk menambah tambahan Perkataan-perkataan. 625 00:32:06,640 --> 00:32:15,810 Jadi apa yang saya lakukan ialah "kata-kata (penyanyi) + = Len (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Dan kemudian saya hanya boleh melakukan perkara yang panjang baris. 627 00:32:18,250 --> 00:32:21,860 Jadi bagaimana banyak unsur saya ada di dalam array. 628 00:32:21,860 --> 00:32:27,060 Dan saya perlu melakukan tolak 1 hanya kerana elemen pertama array hanya 629 00:32:27,060 --> 00:32:29,180 seorang penyanyi dan mereka yang tidak adalah lyrics. 630 00:32:29,180 --> 00:32:31,420 Masuk akal? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Lagi," ia bermakna yang saya mahu sebenarnya memasukkan Gaga ke dalam senarai. 633 00:32:35,820 --> 00:32:45,990 Jadi saya hanya melakukan "kata-kata (penyanyi) = Len (line) - 1, "maaf. 634 00:32:45,990 --> 00:32:49,200 Jadi satu-satunya perbezaan antara kedua-dua garis adalah yang satu ini, ia tidak 635 00:32:49,200 --> 00:32:51,080 wujud lagi, jadi saya hanya Memulakan ia. 636 00:32:51,080 --> 00:32:53,820 Yang ini saya benar-benar menambah. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Jadi ini menambahkan kepadanya kata-kata. 639 00:32:59,480 --> 00:33:03,040 >> Sekarang saya ingin menambah kepada prior. 640 00:33:03,040 --> 00:33:05,480 Jadi bagaimana saya mengira prior? 641 00:33:05,480 --> 00:33:11,580 Yang prior boleh dikira oleh berapa kali. 642 00:33:11,580 --> 00:33:15,340 Jadi berapa kali anda melihat penyanyi yang di kalangan semua penyanyi yang anda 643 00:33:15,340 --> 00:33:16,380 mempunyai, bukan? 644 00:33:16,380 --> 00:33:18,810 Jadi bagi Gaga dan Katy Perry, dalam kes ini, saya melihat Gaga 645 00:33:18,810 --> 00:33:20,570 sekali, Katy Perry sekali. 646 00:33:20,570 --> 00:33:23,320 >> Jadi, pada asasnya prior untuk Gaga dan untuk Katy Perry akan 647 00:33:23,320 --> 00:33:24,390 hanya menjadi satu, kan? 648 00:33:24,390 --> 00:33:26,500 Anda hanya berapa kali Saya melihat artis. 649 00:33:26,500 --> 00:33:28,740 Jadi ini adalah sangat mudah untuk mengira. 650 00:33:28,740 --> 00:33:34,100 Saya boleh sesuatu yang hanya sama seperti seperti "jika penyanyi dalam prior, "Saya hanya akan 651 00:33:34,100 --> 00:33:38,970 untuk menambah 1 ke kotak prior mereka. 652 00:33:38,970 --> 00:33:51,000 Jadi, "prior (menyanyi)" + = 1 "dan kemudian" lain " Saya akan melakukan "prior (penyanyi) 653 00:33:51,000 --> 00:33:55,000 = 1. "Masuk akal? 654 00:33:55,000 --> 00:34:00,080 >> Jadi, jika ia tidak wujud saya hanya meletakkan sebagai 1, jika tidak, saya hanya tambah 1. 655 00:34:00,080 --> 00:34:11,280 OK, jadi sekarang semua yang saya telah meninggalkan untuk melakukan juga menambah setiap perkataan kepada 656 00:34:11,280 --> 00:34:12,290 kebarangkalian. 657 00:34:12,290 --> 00:34:14,889 Jadi saya perlu mengira berapa kali Saya melihat setiap satu daripada kata-kata. 658 00:34:14,889 --> 00:34:18,780 Jadi saya hanya perlu melakukan satu lagi untuk gelung dalam baris. 659 00:34:18,780 --> 00:34:25,190 >> Perkara pertama yang Jadi saya akan lakukan ialah memeriksa jika penyanyi yang sudah mempunyai 660 00:34:25,190 --> 00:34:26,969 kebarangkalian pelbagai. 661 00:34:26,969 --> 00:34:31,739 Jadi saya memeriksa jika penyanyi itu tidak mempunyai pelbagai kebarangkalian, saya hanya 662 00:34:31,739 --> 00:34:34,480 akan memulakan satu untuk mereka. 663 00:34:34,480 --> 00:34:36,400 Ia bukan juga satu pameran, maaf, ia kamus. 664 00:34:36,400 --> 00:34:43,080 Jadi kebarangkalian penyanyi akan menjadi kamus terbuka, jadi saya 665 00:34:43,080 --> 00:34:45,830 hanya Memulakan kamus untuk itu. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Dan sekarang saya benar-benar boleh melakukan untuk gelung untuk mengira setiap satu daripada kata-kata ' 668 00:34:58,330 --> 00:35:00,604 kebarangkalian. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Jadi apa yang boleh saya lakukan adalah untuk gelung. 671 00:35:04,160 --> 00:35:06,590 Jadi, saya hanya akan melelar lebih array. 672 00:35:06,590 --> 00:35:15,320 Oleh itu cara yang boleh saya lakukan bahawa dalam Python adalah "untuk i dalam jarak." Dari 1 673 00:35:15,320 --> 00:35:19,200 kerana saya ingin memulakan dalam kedua elemen kerana pertama adalah 674 00:35:19,200 --> 00:35:20,260 nama penyanyi. 675 00:35:20,260 --> 00:35:24,990 Jadi dari satu sehingga ke panjang baris. 676 00:35:24,990 --> 00:35:29,760 Dan apabila saya berkisar ia sebenarnya pergi dari seperti di sini dari 1 hingga len daripada 677 00:35:29,760 --> 00:35:30,740 garis tolak 1. 678 00:35:30,740 --> 00:35:33,810 Jadi ia sudah tidak bahawa perkara yang telah melakukan n tolak 1 untuk tatasusunan yang sangat 679 00:35:33,810 --> 00:35:35,500 mudah. 680 00:35:35,500 --> 00:35:37,850 Masuk akal? 681 00:35:37,850 --> 00:35:42,770 >> Jadi bagi setiap ini, apa yang saya akan lakukan ialah, seperti dalam yang lain, 682 00:35:42,770 --> 00:35:50,320 Saya akan memeriksa jika perkataan dalam ini kedudukan selari telah pun 683 00:35:50,320 --> 00:35:51,570 kebarangkalian. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Dan kemudian seperti yang saya katakan di sini, kebarangkalian kata-kata, seperti dalam saya meletakkan 686 00:35:57,260 --> 00:35:58,400 "Kebarangkalian (penyanyi)". 687 00:35:58,400 --> 00:35:59,390 Jadi nama penyanyi. 688 00:35:59,390 --> 00:36:03,450 Jadi, jika ia sudah di "Probabilit (penyanyi)", ia bermakna bahawa saya 689 00:36:03,450 --> 00:36:11,960 mahu menambah 1 kepadanya, jadi saya akan melakukan "kebarangkalian (penyanyi)", dan 690 00:36:11,960 --> 00:36:14,100 perkataan dipanggil "talian (i)". 691 00:36:14,100 --> 00:36:22,630 Saya akan tambah 1 dan "lain" Saya hanya akan memulakan ia dengan 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Masuk akal? 695 00:36:28,420 --> 00:36:30,180 >> Jadi, saya dikira semua tatasusunan. 696 00:36:30,180 --> 00:36:36,580 Jadi, apa yang saya perlu lakukan untuk satu ini hanya "kembali prior, 697 00:36:36,580 --> 00:36:43,230 kebarangkalian dan kata-kata. "Mari kita melihat jika terdapat apa-apa, OK. 698 00:36:43,230 --> 00:36:45,690 Ia seolah-olah semuanya bekerja setakat ini. 699 00:36:45,690 --> 00:36:46,900 Jadi, yang masuk akal? 700 00:36:46,900 --> 00:36:47,750 Dalam beberapa cara? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Jadi sekarang saya mempunyai semua kebarangkalian. 703 00:36:51,980 --> 00:36:55,100 Jadi sekarang hanya perkara yang aku telah meninggalkan adalah hanya untuk perkara yang yang 704 00:36:55,100 --> 00:36:58,650 mengira darab semua Kebarangkalian apabila saya lirik. 705 00:36:58,650 --> 00:37:06,270 >> Jadi mari kita mengatakan bahawa saya mahu sekarang panggilan fungsi ini "mengelaskan ()" dan 706 00:37:06,270 --> 00:37:08,880 perkara fungsi yang mengambil hanya pertengkaran. 707 00:37:08,880 --> 00:37:13,170 Katakan "Bayi, saya terbakar" dan ia akan memikirkan apakah 708 00:37:13,170 --> 00:37:14,490 Kebarangkalian ini adalah Gaga? 709 00:37:14,490 --> 00:37:16,405 Apakah kebarangkalian bahawa ini adalah Katie? 710 00:37:16,405 --> 00:37:19,690 Bunyi yang baik? 711 00:37:19,690 --> 00:37:25,750 Jadi saya hanya akan perlu untuk mewujudkan fungsi baru yang dinamakan "mengelaskan ()" dan 712 00:37:25,750 --> 00:37:29,180 ia akan mengambil beberapa lyrics juga. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Dan selain lirik saya juga perlu menghantar prior, yang 715 00:37:36,160 --> 00:37:37,700 kebarangkalian dan kata-kata. 716 00:37:37,700 --> 00:37:44,000 Jadi, saya akan menghantar lirik, prior, kebarangkalian, kata-kata. 717 00:37:44,000 --> 00:37:51,840 >> Jadi ini adalah mengambil lyrics, prior, kebarangkalian, kata-kata. 718 00:37:51,840 --> 00:37:53,530 Jadi, apa yang ia lakukan? 719 00:37:53,530 --> 00:37:57,180 Ia pada dasarnya akan melalui semua calon-calon yang mungkin anda 720 00:37:57,180 --> 00:37:58,510 mempunyai sebagai penyanyi. 721 00:37:58,510 --> 00:37:59,425 Dan di mana orang-orang calon? 722 00:37:59,425 --> 00:38:01,020 Mereka Dalam prior, bukan? 723 00:38:01,020 --> 00:38:02,710 Jadi saya mempunyai semua orang-orang di sana. 724 00:38:02,710 --> 00:38:07,870 Jadi saya akan mempunyai kamus daripada semua calon mungkin. 725 00:38:07,870 --> 00:38:14,220 Dan kemudian bagi setiap calon dalam prior, jadi ia bermakna bahawa ia akan 726 00:38:14,220 --> 00:38:17,740 menjadi Gaga, Katie jika saya mempunyai lebih banyak ia akan menjadi lebih. 727 00:38:17,740 --> 00:38:20,410 Saya akan mula mengira kebarangkalian ini. 728 00:38:20,410 --> 00:38:28,310 Kebarangkalian seperti yang kita lihat dalam PowerPoint adalah masa-masa sebelum ini 729 00:38:28,310 --> 00:38:30,800 produk dari masing-masing kebarangkalian lain. 730 00:38:30,800 --> 00:38:32,520 >> Jadi saya boleh melakukan perkara yang sama di sini. 731 00:38:32,520 --> 00:38:36,330 Saya hanya boleh melakukan kebarangkalian adalah pada mulanya hanya sebelumnya. 732 00:38:36,330 --> 00:38:40,340 Jadi prior calon. 733 00:38:40,340 --> 00:38:40,870 Betul? 734 00:38:40,870 --> 00:38:45,360 Dan sekarang saya perlu melelar atas semua kata-kata yang saya mempunyai dalam lirik sebagai 735 00:38:45,360 --> 00:38:48,820 dapat menambah kebarangkalian bagi setiap daripada mereka, OK? 736 00:38:48,820 --> 00:38:57,900 Jadi, "perkataan dalam lirik" apa yang saya akan lakukan adalah, jika perkataan ini adalah dalam 737 00:38:57,900 --> 00:39:01,640 "Kebarangkalian (calon)", yang bermakna ia kata bahawa 738 00:39:01,640 --> 00:39:03,640 calon mempunyai dalam lyrics mereka - 739 00:39:03,640 --> 00:39:05,940 sebagai contoh, "bayi" untuk Gaga - 740 00:39:05,940 --> 00:39:11,710 apa yang saya akan lakukan ialah bahawa kebarangkalian akan digandakan 741 00:39:11,710 --> 00:39:22,420 oleh 1 campur kebarangkalian calon bagi perkataan itu. 742 00:39:22,420 --> 00:39:25,710 Dan ia dipanggil "dengan perkataan". 743 00:39:25,710 --> 00:39:32,440 Ini dibahagikan dengan jumlah perkataan yang saya ada untuk calon itu. 744 00:39:32,440 --> 00:39:37,450 Jumlah perkataan yang saya mempunyai untuk penyanyi yang saya lihat. 745 00:39:37,450 --> 00:39:40,290 >> "Lagi." ia bermakna ia adalah satu perkataan baru jadi ia akan menjadi seperti sebagai contoh 746 00:39:40,290 --> 00:39:41,860 "Api" untuk Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Jadi saya hanya mahu melakukan lebih 1 "Dengan perkataan (calon)". 748 00:39:45,760 --> 00:39:47,710 Jadi, saya tidak mahu meletakkan istilah ini di sini. 749 00:39:47,710 --> 00:39:50,010 >> Jadi ia akan menjadi pada dasarnya menyalin dan menampal ini. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Tetapi saya akan memadam bahagian ini. 752 00:39:56,000 --> 00:39:57,610 Jadi ia hanya akan menjadi lebih 1 itu. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Bunyi yang baik? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Dan sekarang pada akhirnya, saya hanya akan mencetak nama calon dan 757 00:40:09,700 --> 00:40:15,750 kebarangkalian bahawa anda mempunyai satu mempunyai S pada lirik mereka. 758 00:40:15,750 --> 00:40:16,200 Masuk akal? 759 00:40:16,200 --> 00:40:18,390 Dan saya benar-benar melakukannya tidak perlu kamus ini. 760 00:40:18,390 --> 00:40:19,510 Masuk akal? 761 00:40:19,510 --> 00:40:21,810 >> Jadi, mari kita lihat jika ini sebenarnya berfungsi. 762 00:40:21,810 --> 00:40:24,880 Jadi jika saya menjalankan ini, ia tidak berjaya. 763 00:40:24,880 --> 00:40:26,130 Tunggu satu saat. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Perkataan (calon)", "kata-kata (calon)", itulah 766 00:40:31,720 --> 00:40:33,750 nama array. 767 00:40:33,750 --> 00:40:41,435 OK Jadi, ia berkata ada beberapa bug untuk calon dalam prior. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Biarlah saya hanya berehat sedikit. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Mari kita cuba. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Jadi ia memberi Katy Perry telah ini kebarangkalian ini kali 10 kepada 774 00:40:58,710 --> 00:41:02,200 tolak 7, dan Gaga telah ini kali 10 untuk tolak 6. 775 00:41:02,200 --> 00:41:05,610 Jadi anda lihat ia menunjukkan bahawa Gaga mempunyai kebarangkalian yang lebih tinggi. 776 00:41:05,610 --> 00:41:09,260 Jadi "Baby, Saya kini di neraka" adalah mungkin sebuah lagu Gaga. 777 00:41:09,260 --> 00:41:10,580 Masuk akal? 778 00:41:10,580 --> 00:41:12,030 Jadi ini adalah apa yang kita lakukan. 779 00:41:12,030 --> 00:41:16,010 >> Kod ini akan disiarkan dalam talian, jadi anda semua boleh check it out. 780 00:41:16,010 --> 00:41:20,720 Mungkin menggunakan beberapa untuk jika anda mahu melakukan projek atau sesuatu yang serupa. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Ini hanya untuk menunjukkan apa pengiraan 783 00:41:25,930 --> 00:41:27,230 kod linguistik kelihatan seperti. 784 00:41:27,230 --> 00:41:33,040 Tetapi sekarang mari kita pergi kepada lebih barangan yang tinggi. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Jadi masalah lain saya bercakap tentang - 787 00:41:35,150 --> 00:41:37,550 masalah segmentasi adalah yang pertama daripada mereka. 788 00:41:37,550 --> 00:41:40,820 Jadi anda ada di sini Jepun. 789 00:41:40,820 --> 00:41:43,420 Dan kemudian anda melihat bahawa tidak ada ruang. 790 00:41:43,420 --> 00:41:49,110 Jadi ini adalah pada dasarnya bermakna bahawa itu bahagian atas kerusi, bukan? 791 00:41:49,110 --> 00:41:50,550 Anda bercakap Jepun? 792 00:41:50,550 --> 00:41:52,840 Ia adalah atas kerusi, bukan? 793 00:41:52,840 --> 00:41:54,480 >> PELAJAR: Saya tidak tahu apa yang kanji yang lebih ada. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Freitas: Ia [BERCAKAP JEPUN] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Jadi pada asasnya bermakna pengerusi atas. 797 00:42:00,960 --> 00:42:03,620 Jadi, jika anda terpaksa meletakkan ruang yang ia akan berada di sini. 798 00:42:03,620 --> 00:42:05,970 Dan kemudian anda perlu [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Yang pada asasnya bermakna Mr Ueda. 800 00:42:09,040 --> 00:42:13,180 Dan anda melihat bahawa "Ueda" dan anda mempunyai ruang dan kemudian "san." Jadi anda lihat bahawa 801 00:42:13,180 --> 00:42:15,470 di sini anda "ue" adalah seperti dengan sendirinya. 802 00:42:15,470 --> 00:42:17,750 Dan di sini ia mempunyai watak yang sebelahnya. 803 00:42:17,750 --> 00:42:21,720 >> Jadi ia bukan seperti dalam bahasa-bahasa watak-watak yang bermakna perkataan supaya anda 804 00:42:21,720 --> 00:42:23,980 hanya meletakkan banyak ruang. 805 00:42:23,980 --> 00:42:25,500 Watak berkaitan antara satu sama lain. 806 00:42:25,500 --> 00:42:28,680 Dan mereka boleh bersama-sama seperti dua, tiga, satu. 807 00:42:28,680 --> 00:42:34,520 Jadi anda sebenarnya perlu mewujudkan beberapa jenis cara meletakkan mereka ruang. 808 00:42:34,520 --> 00:42:38,850 >> Dan perkara ini adalah bahawa apabila anda mendapat data dari bahasa-bahasa Asia, 809 00:42:38,850 --> 00:42:40,580 segala-galanya datang unsegmented. 810 00:42:40,580 --> 00:42:45,940 Oleh kerana tiada siapa yang menulis Jepun atau Cina menulis dengan ruang. 811 00:42:45,940 --> 00:42:48,200 Setiap kali anda menulis Cina, Jepun anda hanya menulis segala-galanya 812 00:42:48,200 --> 00:42:48,710 tanpa ruang. 813 00:42:48,710 --> 00:42:52,060 Ia juga tidak masuk akal untuk meletakkan ruang. 814 00:42:52,060 --> 00:42:57,960 Demikian maka apabila anda mendapat data dari, beberapa Bahasa Asia Timur, jika anda mahu 815 00:42:57,960 --> 00:43:00,760 sebenarnya melakukan sesuatu dengan yang anda perlu segmen pertama. 816 00:43:00,760 --> 00:43:05,130 >> Fikirkan melakukan contoh lirik tanpa ruang. 817 00:43:05,130 --> 00:43:07,950 Jadi satu-satunya lirik yang anda mempunyai akan ayat, betul? 818 00:43:07,950 --> 00:43:09,470 Dipisahkan oleh tempoh. 819 00:43:09,470 --> 00:43:13,930 Tetapi mempunyai hanya hukuman yang akan tidak benar-benar membantu dengan memberi maklumat 820 00:43:13,930 --> 00:43:17,760 daripada yang mereka lirik lagu oleh. 821 00:43:17,760 --> 00:43:18,120 Betul? 822 00:43:18,120 --> 00:43:20,010 Jadi anda perlu meletakkan ruang pertama. 823 00:43:20,010 --> 00:43:21,990 Jadi bagaimana anda boleh berbuat demikian? 824 00:43:21,990 --> 00:43:24,920 >> Jadi kemudian datang idea bahasa model yang benar-benar adalah sesuatu 825 00:43:24,920 --> 00:43:26,870 penting bagi pengiraan linguistik. 826 00:43:26,870 --> 00:43:32,790 Jadi model bahasa pada asasnya jadual kebarangkalian bahawa rancangan 827 00:43:32,790 --> 00:43:36,260 pertama sekali apakah kebarangkalian mempunyai perkataan dalam bahasa? 828 00:43:36,260 --> 00:43:39,590 Jadi menunjukkan bagaimana kerap perkataan adalah. 829 00:43:39,590 --> 00:43:43,130 Dan kemudian juga menunjukkan hubungan antara perkataan dalam ayat. 830 00:43:43,130 --> 00:43:51,500 >> Jadi idea utama adalah, jika orang yang tidak dikenali datang kepada kamu dan berkata hukuman kepada 831 00:43:51,500 --> 00:43:55,600 anda, apakah kebarangkalian di mana, Sebagai contoh, "ini adalah adik saya [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 adalah ayat yang orang tersebut? 833 00:43:57,480 --> 00:44:00,380 Jadi jelas beberapa ayat adalah lebih biasa daripada yang lain. 834 00:44:00,380 --> 00:44:04,450 Sebagai contoh, "selamat pagi," atau "baik malam, "atau" hey di sana, "adalah lebih 835 00:44:04,450 --> 00:44:08,260 biasa daripada yang ayat bahawa kita mempunyai bahasa Inggeris. 836 00:44:08,260 --> 00:44:11,060 Jadi kenapa mereka ayat lebih kerap? 837 00:44:11,060 --> 00:44:14,060 >> Pertama sekali, ia adalah kerana anda mempunyai kata-kata yang lebih kerap. 838 00:44:14,060 --> 00:44:20,180 Jadi, sebagai contoh, jika anda berkata, anjing itu adalah besar, dan anjing itu adalah gergasi, anda 839 00:44:20,180 --> 00:44:23,880 biasanya mungkin mendengar anjing itu adalah besar lebih kerap kerana "besar" adalah lebih 840 00:44:23,880 --> 00:44:27,260 kerap dalam Bahasa Inggeris daripada "raksasa." Jadi, salah satu 841 00:44:27,260 --> 00:44:30,100 perkara ini adalah kekerapan perkataan. 842 00:44:30,100 --> 00:44:34,490 >> Perkara kedua yang benar-benar penting sahaja 843 00:44:34,490 --> 00:44:35,490 perintah perkataan. 844 00:44:35,490 --> 00:44:39,500 Jadi, ia adalah biasa untuk mengatakan "kucing itu di dalam kotak. "tetapi anda biasanya tidak 845 00:44:39,500 --> 00:44:44,250 lihat dalam "kotak Bahagian dalam adalah kucing." jadi anda melihat bahawa terdapat beberapa kepentingan 846 00:44:44,250 --> 00:44:46,030 dalam susunan kata-kata. 847 00:44:46,030 --> 00:44:50,160 Anda tidak boleh hanya mengatakan bahawa kedua-dua ayat mempunyai kebarangkalian yang sama 848 00:44:50,160 --> 00:44:53,010 hanya kerana mereka mempunyai perkataan yang sama. 849 00:44:53,010 --> 00:44:55,550 Anda sebenarnya perlu mengambil berat tentang perintah juga. 850 00:44:55,550 --> 00:44:57,650 Masuk akal? 851 00:44:57,650 --> 00:44:59,490 >> Jadi apa yang kita lakukan? 852 00:44:59,490 --> 00:45:01,550 Jadi apa yang saya mungkin cuba untuk mendapatkan anda? 853 00:45:01,550 --> 00:45:04,400 Saya cuba untuk mendapatkan apa yang kita memanggil model n-gram. 854 00:45:04,400 --> 00:45:09,095 Jadi model n-gram pada dasarnya menganggap bahawa bagi setiap perkataan yang 855 00:45:09,095 --> 00:45:10,960 anda mempunyai dalam ayat. 856 00:45:10,960 --> 00:45:15,020 Ia kebarangkalian mempunyai yang perkataan ada bergantung bukan sahaja kepada yang 857 00:45:15,020 --> 00:45:18,395 kekerapan bahawa perkataan dalam bahasa itu, tetapi juga pada kata-kata yang 858 00:45:18,395 --> 00:45:19,860 sedang mengelilinginya. 859 00:45:19,860 --> 00:45:25,810 >> Jadi, sebagai contoh, biasanya apabila anda melihat sesuatu seperti pada atau di anda 860 00:45:25,810 --> 00:45:28,040 mungkin akan melihat kata nama selepas itu, bukan? 861 00:45:28,040 --> 00:45:31,750 Kerana apabila anda mempunyai kata depan biasanya ia mengambil kata nama selepas itu. 862 00:45:31,750 --> 00:45:35,540 Atau jika anda mempunyai kata kerja transitif yang anda biasanya akan 863 00:45:35,540 --> 00:45:36,630 mempunyai frasa nama. 864 00:45:36,630 --> 00:45:38,780 Jadi ia akan mempunyai kata nama di suatu tempat di sekelilingnya. 865 00:45:38,780 --> 00:45:44,950 >> Jadi, pada dasarnya, apa yang ia adalah bahawa ia menganggap kebarangkalian mempunyai 866 00:45:44,950 --> 00:45:47,960 perkataan bersebelahan antara satu sama lain, apabila anda mengira 867 00:45:47,960 --> 00:45:49,050 kebarangkalian ayat. 868 00:45:49,050 --> 00:45:50,960 Dan itulah yang bahasa model pada dasarnya. 869 00:45:50,960 --> 00:45:54,620 Hanya mengatakan apa yang kebarangkalian mempunyai tertentu yang 870 00:45:54,620 --> 00:45:57,120 ayat dalam bahasa? 871 00:45:57,120 --> 00:45:59,110 Jadi mengapa yang berguna, pada dasarnya? 872 00:45:59,110 --> 00:46:02,390 Dan pertama sekali apa yang model n-gram, maka? 873 00:46:02,390 --> 00:46:08,850 >> Jadi model n-gram bermakna setiap perkataan bergantung kepada 874 00:46:08,850 --> 00:46:12,700 N seterusnya tolak 1 perkataan. 875 00:46:12,700 --> 00:46:18,150 Jadi, pada dasarnya, ini bermakna bahawa jika saya melihat, sebagai contoh, di TF CS50 apabila 876 00:46:18,150 --> 00:46:21,500 Saya mengira kebarangkalian hukuman itu, anda akan menjadi seperti "yang 877 00:46:21,500 --> 00:46:25,280 kebarangkalian yang mempunyai perkataan "yang" kali kebarangkalian mempunyai "yang 878 00:46:25,280 --> 00:46:31,720 CS50 "kali kebarangkalian mempunyai "The TF CS50." Jadi, pada dasarnya, saya mengira 879 00:46:31,720 --> 00:46:35,720 semua cara yang mungkin regangan ia. 880 00:46:35,720 --> 00:46:41,870 >> Dan kemudian biasanya apabila anda melakukan ini, seperti dalam projek, anda meletakkan N menjadi 881 00:46:41,870 --> 00:46:42,600 nilai yang rendah. 882 00:46:42,600 --> 00:46:45,930 Jadi, biasanya mempunyai bigrams atau trigram. 883 00:46:45,930 --> 00:46:51,090 Supaya anda hanya mengira dua perkataan, yang kumpulan dua perkataan, atau tiga kata-kata, 884 00:46:51,090 --> 00:46:52,620 hanya untuk isu-isu prestasi. 885 00:46:52,620 --> 00:46:56,395 Dan juga kerana mungkin jika anda mempunyai sesuatu seperti "The TF CS50." Apabila anda 886 00:46:56,395 --> 00:47:00,510 mempunyai "TF," ia amat penting yang "CS50" adalah sebelahnya, bukan? 887 00:47:00,510 --> 00:47:04,050 Kedua-dua perkara yang biasanya bersebelahan antara satu sama lain. 888 00:47:04,050 --> 00:47:06,410 >> Jika anda berfikir "TF," ia mungkin akan mempunyai apa 889 00:47:06,410 --> 00:47:07,890 kelas ia TF'ing untuk. 890 00:47:07,890 --> 00:47:11,330 Juga "" adalah benar-benar penting untuk CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Tetapi jika anda mempunyai sesuatu seperti "The CS50 TF pergi ke kelas dan memberi mereka 892 00:47:14,570 --> 00:47:20,060 pelajar beberapa gula-gula. "" gula-gula "dan" " tidak mempunyai hubungan benar-benar, bukan? 893 00:47:20,060 --> 00:47:23,670 Mereka begitu jauh dari satu sama lain bahawa ia tidak benar-benar perkara apa yang 894 00:47:23,670 --> 00:47:25,050 kata-kata anda. 895 00:47:25,050 --> 00:47:31,210 >> Jadi dengan melakukan bigram atau trigram, ia hanya bermaksud bahawa anda mengehadkan 896 00:47:31,210 --> 00:47:33,430 diri anda dengan beberapa perkataan yang berada di sekeliling. 897 00:47:33,430 --> 00:47:35,810 Masuk akal? 898 00:47:35,810 --> 00:47:40,630 Oleh itu, apabila anda mahu melakukan segmentasi, pada dasarnya, apa yang anda mahu lakukan adalah melihat 899 00:47:40,630 --> 00:47:44,850 apakah semua cara yang mungkin yang anda boleh segmen hukuman itu. 900 00:47:44,850 --> 00:47:49,090 >> Seperti yang anda lihat apakah kebarangkalian setiap orang-orang hukuman 901 00:47:49,090 --> 00:47:50,880 yang sedia ada dalam bahasa? 902 00:47:50,880 --> 00:47:53,410 Jadi apa yang anda lakukan adalah seperti, baik, mari saya cuba untuk meletakkan ruang di sini. 903 00:47:53,410 --> 00:47:55,570 Jadi anda meletakkan ruang yang ada dan anda melihat apa yang 904 00:47:55,570 --> 00:47:57,590 kebarangkalian ayat itu? 905 00:47:57,590 --> 00:48:00,240 Kemudian anda adalah seperti, OK, mungkin yang tidak begitu baik. 906 00:48:00,240 --> 00:48:03,420 Jadi saya meletakkan ruang yang ada dan ruang yang sana, dan anda mengira 907 00:48:03,420 --> 00:48:06,240 kebarangkalian sekarang, dan anda melihat bahawa ia kebarangkalian yang lebih tinggi. 908 00:48:06,240 --> 00:48:12,160 >> Jadi ini adalah satu algoritma dipanggil TANGO algoritma segmentasi, yang merupakan 909 00:48:12,160 --> 00:48:14,990 sebenarnya sesuatu yang akan menjadi benar-benar sejuk untuk projek, yang 910 00:48:14,990 --> 00:48:20,860 pada dasarnya mengambil teks unsegmented yang boleh Jepun atau Cina atau mungkin 911 00:48:20,860 --> 00:48:26,080 Inggeris tanpa ruang dan cuba untuk meletakkan ruang di antara perkataan dan ia 912 00:48:26,080 --> 00:48:29,120 bahawa dengan menggunakan model bahasa dan cuba untuk melihat apa yang paling tinggi 913 00:48:29,120 --> 00:48:31,270 kebarangkalian anda boleh mendapatkan. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Jadi ini adalah segmentasi. 916 00:48:33,800 --> 00:48:35,450 >> Sekarang sintaksis. 917 00:48:35,450 --> 00:48:40,940 Jadi, sintaksis digunakan untuk jadi banyak perkara sekarang. 918 00:48:40,940 --> 00:48:44,880 Jadi bagi Graf Cari, untuk Siri untuk cukup banyak apa-apa jenis semula jadi 919 00:48:44,880 --> 00:48:46,490 pemprosesan bahasa anda. 920 00:48:46,490 --> 00:48:49,140 Jadi apakah penting perkara mengenai sintaks? 921 00:48:49,140 --> 00:48:52,390 Jadi, ayat umumnya mempunyai apa yang kita panggil pengundi. 922 00:48:52,390 --> 00:48:57,080 Yang jenis seperti kumpulan kata-kata yang mempunyai fungsi dalam ayat. 923 00:48:57,080 --> 00:49:02,220 Dan mereka tidak dapat menjadi selain daripada satu sama lain. 924 00:49:02,220 --> 00:49:07,380 >> Jadi, jika saya berkata, sebagai contoh, "Lauren suka Milo. "Saya tahu bahawa" Lauren "adalah 925 00:49:07,380 --> 00:49:10,180 konstituen dan kemudian "suka Milo "juga adalah satu sama lain. 926 00:49:10,180 --> 00:49:16,860 Kerana anda tidak boleh berkata seperti "Lauren Milo suka "mempunyai makna yang sama. 927 00:49:16,860 --> 00:49:18,020 Ia tidak akan mempunyai pengertian sama. 928 00:49:18,020 --> 00:49:22,500 Atau saya tidak boleh berkata seperti "Milo Lauren suka. "Tidak semua yang mempunyai yang sama 929 00:49:22,500 --> 00:49:25,890 bermaksud melakukan itu. 930 00:49:25,890 --> 00:49:31,940 >> Jadi kedua-dua perkara yang lebih penting tentang sintaks adalah jenis leksikal yang 931 00:49:31,940 --> 00:49:35,390 pada dasarnya fungsi yang anda mempunyai kata-kata sendiri. 932 00:49:35,390 --> 00:49:39,180 Jadi, anda perlu tahu bahawa "Lauren" dan "Milo" adalah kata nama. 933 00:49:39,180 --> 00:49:41,040 "Cinta" adalah kata kerja. 934 00:49:41,040 --> 00:49:45,660 Dan perkara yang kedua penting ialah bahawa mereka jenis phrasal. 935 00:49:45,660 --> 00:49:48,990 Jadi, anda tahu bahawa "suka Milo" sebenarnya adalah frasa lisan. 936 00:49:48,990 --> 00:49:52,390 Oleh itu, apabila saya berkata "Lauren," Saya tahu bahawa Lauren melakukan sesuatu. 937 00:49:52,390 --> 00:49:53,620 Apa yang dia buat? 938 00:49:53,620 --> 00:49:54,570 Dia penyayang Milo. 939 00:49:54,570 --> 00:49:56,440 Jadi ia adalah satu perkara keseluruhan. 940 00:49:56,440 --> 00:50:01,640 Tetapi komponen-komponennya ialah kata nama dan kata kerja. 941 00:50:01,640 --> 00:50:04,210 Tetapi bersama-sama, mereka membuat satu frasa kata kerja. 942 00:50:04,210 --> 00:50:08,680 >> Jadi, apa yang boleh kita benar-benar melakukan dengan linguistik pengiraan? 943 00:50:08,680 --> 00:50:13,810 Jadi, jika saya mempunyai sesuatu sebagai contoh "Rakan-rakan Allison." Saya melihat jika saya hanya 944 00:50:13,810 --> 00:50:17,440 adakah pokok sintaksis saya akan tahu bahawa "Kawan" adalah frasa kata nama ia adalah satu 945 00:50:17,440 --> 00:50:21,480 kata nama dan kemudian "daripada Allison" adalah frasa sendi nama di mana "satu" adalah 946 00:50:21,480 --> 00:50:24,810 cadangan dan "Allison" adalah kata nama. 947 00:50:24,810 --> 00:50:30,910 Apa yang saya boleh lakukan adalah mengajar komputer saya bahawa apabila saya mempunyai frasa nama satu dan 948 00:50:30,910 --> 00:50:33,080 maka frasa sendi nama. 949 00:50:33,080 --> 00:50:39,020 Jadi dalam kes ini, "kawan" dan kemudian "daripada Milo "Saya tahu bahawa ini bermakna bahawa 950 00:50:39,020 --> 00:50:43,110 NP2, yang kedua, memiliki NP1. 951 00:50:43,110 --> 00:50:47,680 >> Jadi saya boleh membuat beberapa jenis hubungan, beberapa jenis fungsi untuk itu. 952 00:50:47,680 --> 00:50:52,370 Jadi setiap kali saya melihat struktur ini, yang sepadan dengan tepat dengan "rakan-rakan 953 00:50:52,370 --> 00:50:56,030 Allison, "Saya tahu bahawa Allison memiliki rakan-rakan. 954 00:50:56,030 --> 00:50:58,830 Jadi rakan-rakan adalah sesuatu yang Allison mempunyai. 955 00:50:58,830 --> 00:50:59,610 Masuk akal? 956 00:50:59,610 --> 00:51:01,770 Jadi ini adalah pada dasarnya apa yang Graf Carian tidak. 957 00:51:01,770 --> 00:51:04,360 Ia hanya mewujudkan kaedah-kaedah untuk banyak perkara. 958 00:51:04,360 --> 00:51:08,190 Jadi "rakan-rakan Allison," "rakan-rakan saya yang tinggal di Cambridge, "" rakan-rakan saya 959 00:51:08,190 --> 00:51:12,970 yang pergi ke Harvard. "Ia mewujudkan peraturan untuk semua perkara-perkara. 960 00:51:12,970 --> 00:51:14,930 >> Sekarang terjemahan mesin. 961 00:51:14,930 --> 00:51:18,850 Jadi, terjemahan mesin juga sesuatu statistik. 962 00:51:18,850 --> 00:51:21,340 Dan sebenarnya jika anda melibatkan diri dalam linguistik pengiraan, banyak 963 00:51:21,340 --> 00:51:23,580 barangan anda akan menjadi statistik. 964 00:51:23,580 --> 00:51:26,670 Jadi seperti yang saya lakukan contoh dengan banyak kebarangkalian bahawa saya adalah 965 00:51:26,670 --> 00:51:30,540 mengira, dan kemudian anda dapat ini jumlah yang sangat kecil itulah akhir 966 00:51:30,540 --> 00:51:33,180 kebarangkalian, dan itulah yang memberikan anda jawapannya. 967 00:51:33,180 --> 00:51:37,540 Terjemahan Mesin juga menggunakan model statistik. 968 00:51:37,540 --> 00:51:44,790 Dan jika anda mahu berfikir mesin terjemahan dalam yang paling mudah 969 00:51:44,790 --> 00:51:48,970 cara, apa yang anda boleh berfikir hanya menterjemahkan perkataan dengan perkataan, bukan? 970 00:51:48,970 --> 00:51:52,150 >> Apabila anda sedang belajar bahasa untuk kali pertama, itu biasanya apa 971 00:51:52,150 --> 00:51:52,910 anda lakukan, bukan? 972 00:51:52,910 --> 00:51:57,050 Jika anda mahu anda menterjemah ayat dalam bahasa anda kepada bahasa yang 973 00:51:57,050 --> 00:52:00,060 anda sedang belajar, biasanya pertama, anda menterjemahkan setiap perkataan 974 00:52:00,060 --> 00:52:03,180 secara individu, dan kemudian anda cuba untuk meletakkan perkataan ke dalam tempat. 975 00:52:03,180 --> 00:52:07,100 >> Jadi, jika saya mahu untuk menterjemahkan ini, [BERCAKAP Bahasa Portugis] 976 00:52:07,100 --> 00:52:10,430 yang bermaksud "kucing putih melarikan diri." Jika saya mahu menterjemahkannya dari 977 00:52:10,430 --> 00:52:13,650 Bahasa Portugis ke Bahasa Inggeris, apa yang saya boleh lakukan ialah, pertama, saya hanya 978 00:52:13,650 --> 00:52:14,800 menterjemahkan perkataan demi perkataan. 979 00:52:14,800 --> 00:52:20,570 Jadi "o" adalah "," "Gato", "kucing" "Branco," "putih" dan "fugio" adalah 980 00:52:20,570 --> 00:52:21,650 "Melarikan diri." 981 00:52:21,650 --> 00:52:26,130 >> Jadi maka saya mempunyai semua perkataan di sini, tetapi mereka tidak teratur. 982 00:52:26,130 --> 00:52:29,590 Ia seperti "putih kucing melarikan diri" yang ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Oleh itu, maka saya boleh mempunyai langkah kedua, yang akan akan mencari yang ideal 984 00:52:34,490 --> 00:52:36,610 kedudukan untuk setiap satu daripada kata-kata. 985 00:52:36,610 --> 00:52:40,240 Jadi saya tahu bahawa saya benar-benar ingin mempunyai "Kucing putih" dan bukannya "kucing putih." Jadi 986 00:52:40,240 --> 00:52:46,050 apa yang boleh saya lakukan ialah, kaedah yang paling naif adalah untuk mewujudkan semua 987 00:52:46,050 --> 00:52:49,720 pilih atur yang mungkin daripada kata-kata, jawatan. 988 00:52:49,720 --> 00:52:53,300 Dan kemudian melihat yang mana satu mempunyai kebarangkalian tertinggi mengikut 989 00:52:53,300 --> 00:52:54,970 untuk model bahasa saya. 990 00:52:54,970 --> 00:52:58,390 Dan kemudian apabila saya mencari satu yang mempunyai kebarangkalian tertinggi, yang menjadi 991 00:52:58,390 --> 00:53:01,910 mungkin "kucing putih melarikan diri," itulah terjemahan saya. 992 00:53:01,910 --> 00:53:06,710 >> Dan ini adalah cara yang mudah untuk menjelaskan bagaimana banyak penterjemahan mesin 993 00:53:06,710 --> 00:53:07,910 algoritma bekerja. 994 00:53:07,910 --> 00:53:08,920 Adakah ini masuk akal? 995 00:53:08,920 --> 00:53:12,735 Ini juga sesuatu yang benar-benar menarik bahawa kalian mungkin boleh meneroka untuk 996 00:53:12,735 --> 00:53:13,901 projek akhir, yeah? 997 00:53:13,901 --> 00:53:15,549 >> PELAJAR: Nah, anda berkata adalah cara naif, jadi apa 998 00:53:15,549 --> 00:53:17,200 cara bukan naif? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Freitas: Cara bukan naif? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Jadi perkara pertama yang tidak baik mengenai kaedah ini adalah bahawa saya hanya diterjemahkan 1002 00:53:22,860 --> 00:53:24,330 perkataan, perkataan demi perkataan. 1003 00:53:24,330 --> 00:53:30,570 Tetapi kadang-kadang anda mempunyai kata-kata yang boleh mempunyai pelbagai terjemahan. 1004 00:53:30,570 --> 00:53:32,210 Saya akan cuba untuk berfikir sesuatu. 1005 00:53:32,210 --> 00:53:37,270 Sebagai contoh, "manga" dalam Portugis tin sama ada "mengoyak-ngoyakkan" atau "lengan." Jadi 1006 00:53:37,270 --> 00:53:40,450 apabila anda cuba untuk menterjemahkan perkataan oleh perkataan, ia mungkin memberi anda 1007 00:53:40,450 --> 00:53:42,050 sesuatu yang tidak masuk akal. 1008 00:53:42,050 --> 00:53:45,770 >> Jadi anda benar-benar mahu anda melihat semua terjemahan kemungkinan 1009 00:53:45,770 --> 00:53:49,840 kata-kata dan lihat, pertama sekali, apa yang perintah itu. 1010 00:53:49,840 --> 00:53:52,000 Kami bercakap mengenai permutating perkara? 1011 00:53:52,000 --> 00:53:54,150 Untuk melihat semua pesanan mungkin dan memilih yang dengan yang tertinggi 1012 00:53:54,150 --> 00:53:54,990 kebarangkalian? 1013 00:53:54,990 --> 00:53:57,860 Anda juga boleh memilih semua mungkin terjemahan untuk setiap 1014 00:53:57,860 --> 00:54:00,510 perkataan dan kemudian melihat - 1015 00:54:00,510 --> 00:54:01,950 digabungkan dengan pilih atur - 1016 00:54:01,950 --> 00:54:03,710 yang mana satu mempunyai kebarangkalian tertinggi. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, anda juga boleh melihat tidak hanya kata-kata tetapi frasa. 1018 00:54:08,590 --> 00:54:11,700 supaya anda boleh menganalisis hubungan antara perkataan dan kemudian mendapatkan 1019 00:54:11,700 --> 00:54:13,210 terjemahan yang lebih baik. 1020 00:54:13,210 --> 00:54:16,690 Juga sesuatu yang lain, jadi semester ini Saya sebenarnya melakukan penyelidikan dalam 1021 00:54:16,690 --> 00:54:19,430 Cina-Inggeris terjemahan mesin, jadi menterjemah daripada 1022 00:54:19,430 --> 00:54:20,940 Cina ke dalam bahasa Inggeris. 1023 00:54:20,940 --> 00:54:26,760 >> Dan sesuatu yang kita lakukan adalah, selain menggunakan model statistik, yang hanya 1024 00:54:26,760 --> 00:54:30,570 melihat kebarangkalian melihat kedudukan tertentu dalam ayat, saya 1025 00:54:30,570 --> 00:54:35,360 sebenarnya juga menambah beberapa sintaks untuk saya model, berkata, oh, jika saya melihat ini jenis 1026 00:54:35,360 --> 00:54:39,420 pembinaan, ini adalah apa yang saya mahu untuk menukar kepada apabila saya menterjemahkan. 1027 00:54:39,420 --> 00:54:43,880 Jadi, anda juga boleh menambah beberapa jenis elemen sintaks untuk membuat 1028 00:54:43,880 --> 00:54:47,970 terjemahan yang lebih cekap dan lebih tepat. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Jadi bagaimana anda boleh memulakan, jika anda mahu melakukan sesuatu dalam pengiraan 1031 00:54:51,010 --> 00:54:51,980 linguistik? 1032 00:54:51,980 --> 00:54:54,560 >> Pertama, anda memilih projek yang yang melibatkan bahasa. 1033 00:54:54,560 --> 00:54:56,310 Jadi, terdapat begitu banyak di luar sana. 1034 00:54:56,310 --> 00:54:58,420 Terdapat begitu banyak perkara yang boleh dilakukan. 1035 00:54:58,420 --> 00:55:00,510 Dan kemudian boleh berfikir model yang boleh anda gunakan. 1036 00:55:00,510 --> 00:55:04,710 Biasanya ini bermakna pemikiran andaian, seperti seperti, oh, apabila saya 1037 00:55:04,710 --> 00:55:05,770 seperti pemikiran lirik. 1038 00:55:05,770 --> 00:55:09,510 Saya seperti, baik, jika saya mahu memikirkan keluar yang menulis ini, saya mungkin mahu 1039 00:55:09,510 --> 00:55:15,400 untuk melihat perkataan orang yang digunakan dan melihat yang menggunakan perkataan yang sangat kerap. 1040 00:55:15,400 --> 00:55:18,470 Oleh itu, cuba untuk membuat andaian dan cuba fikirkan model. 1041 00:55:18,470 --> 00:55:21,395 Dan kemudian anda juga boleh mencari dalam talian untuk jenis masalah yang anda ada, 1042 00:55:21,395 --> 00:55:24,260 dan ia akan mencadangkan kepada anda model yang mungkin 1043 00:55:24,260 --> 00:55:26,560 dimodelkan perkara yang baik. 1044 00:55:26,560 --> 00:55:29,080 >> Dan juga anda boleh e-mel saya. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Dan saya hanya boleh menjawab soalan anda. 1047 00:55:34,940 --> 00:55:38,600 Kami boleh juga mungkin bertemu supaya saya boleh memberi cadangan mengenai cara-cara 1048 00:55:38,600 --> 00:55:41,490 melaksanakan projek anda. 1049 00:55:41,490 --> 00:55:45,610 Dan saya maksudkan jika anda terlibat dengan linguistik pengiraan, ia akan 1050 00:55:45,610 --> 00:55:46,790 menjadi besar. 1051 00:55:46,790 --> 00:55:48,370 Anda akan melihat terdapat potensi begitu banyak. 1052 00:55:48,370 --> 00:55:52,060 Dan industri mahu mengupah anda begitu buruk kerana itu. 1053 00:55:52,060 --> 00:55:54,720 Jadi saya berharap anda semua menikmati ini. 1054 00:55:54,720 --> 00:55:57,030 Jika anda mempunyai sebarang soalan, anda boleh bertanya kepada saya selepas ini. 1055 00:55:57,030 --> 00:55:58,280 Tetapi terima kasih. 1056 00:55:58,280 --> 00:56:00,150