1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS Freitas: Hey.

3
00:00:08,870 --> 00:00:09,980
Selamat datang semua orang.

4
00:00:09,980 --> 00:00:11,216
Nama saya Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Saya junior di [didengar] belajar
sains komputer dengan tumpuan dalam

6
00:00:15,220 --> 00:00:16,410
linguistik pengiraan.

7
00:00:16,410 --> 00:00:19,310
Jadi menengah saya adalah dalam bahasa
dan teori linguistik.

8
00:00:19,310 --> 00:00:21,870
Saya benar-benar teruja untuk mengajar anda semua
sedikit tentang bidang ini.

9
00:00:21,870 --> 00:00:24,300
Ia adalah satu kawasan yang sangat menarik untuk belajar.

10
00:00:24,300 --> 00:00:27,260
Juga dengan banyak potensi
untuk masa hadapan.

11
00:00:27,260 --> 00:00:30,160
Oleh itu, saya benar-benar teruja bahawa kalian
sedang mempertimbangkan projek-projek di

12
00:00:30,160 --> 00:00:31,160
linguistik pengiraan.

13
00:00:31,160 --> 00:00:35,460
Dan saya akan menjadi lebih daripada gembira untuk memberi nasihat
mana-mana anda jika anda membuat keputusan untuk

14
00:00:35,460 --> 00:00:37,090
mengejar salah seorang daripada mereka.

15
00:00:37,090 --> 00:00:40,010
>> Jadi pertama sekali apakah pengiraan
linguistik?

16
00:00:40,010 --> 00:00:44,630
Linguistik Jadi pengiraan adalah
persimpangan antara linguistik dan

17
00:00:44,630 --> 00:00:46,390
sains komputer.

18
00:00:46,390 --> 00:00:47,415
Jadi, apa yang linguistik?

19
00:00:47,415 --> 00:00:48,490
Apakah bukti sains komputer?

20
00:00:48,490 --> 00:00:51,580
Baik dari linguistik, apa
kami ambil bahasa.

21
00:00:51,580 --> 00:00:54,960
Jadi linguistik sebenarnya kajian
bahasa semula jadi secara amnya.

22
00:00:54,960 --> 00:00:58,330
Bahasa begitu semula jadi - kita bercakap mengenai
bahasa yang kita sebenarnya gunakan untuk

23
00:00:58,330 --> 00:00:59,770
berkomunikasi antara satu sama lain.

24
00:00:59,770 --> 00:01:02,200
Jadi, kita tidak betul-betul bercakap
kira-kira C atau Jawa.

25
00:01:02,200 --> 00:01:05,900
Kami bercakap lebih lanjut mengenai bahasa Inggeris dan
Bahasa Cina dan lain-lain yang kita

26
00:01:05,900 --> 00:01:07,780
gunakan untuk berkomunikasi antara satu sama lain.

27
00:01:07,780 --> 00:01:12,470
>> Perkara yang mencabar tentang itu adalah bahawa
sekarang kita mempunyai hampir 7,000

28
00:01:12,470 --> 00:01:14,260
bahasa di dunia.

29
00:01:14,260 --> 00:01:19,520
Jadi, terdapat pelbagai yang agak tinggi
bahasa yang kita boleh belajar.

30
00:01:19,520 --> 00:01:22,600
Dan kemudian anda berfikir bahawa ia mungkin
sangat sukar untuk dilakukan, sebagai contoh,

31
00:01:22,600 --> 00:01:26,960
terjemahan dari satu bahasa kepada bahasa yang
lain, memandangkan anda mempunyai

32
00:01:26,960 --> 00:01:28,240
hampir 7,000 daripada mereka.

33
00:01:28,240 --> 00:01:31,450
Jadi, jika anda berfikir untuk berbuat terjemahan
dari satu bahasa kepada bahasa yang lain yang anda

34
00:01:31,450 --> 00:01:35,840
mempunyai hampir lebih daripada satu juta
kombinasi yang berbeza yang anda boleh

35
00:01:35,840 --> 00:01:37,330
mempunyai dari bahasa kepada bahasa.

36
00:01:37,330 --> 00:01:40,820
Jadi ia benar-benar mencabar untuk melakukan
jenis sistem terjemahan contoh untuk

37
00:01:40,820 --> 00:01:43,540
setiap bahasa tunggal.

38
00:01:43,540 --> 00:01:47,120
>> Jadi, linguistik merawat dengan sintaks,
semantik, pragmatik.

39
00:01:47,120 --> 00:01:49,550
Kamu semua tidak betul-betul perlukan
untuk mengetahui apa yang mereka berada.

40
00:01:49,550 --> 00:01:55,090
Tetapi perkara yang sangat menarik ialah
sebagai penceramah asli, apabila anda belajar

41
00:01:55,090 --> 00:01:59,010
bahasa sebagai kanak-kanak, anda sebenarnya belajar
semua perkara-perkara - semantik sintaks

42
00:01:59,010 --> 00:02:00,500
dan pragmatik -

43
00:02:00,500 --> 00:02:01,430
oleh diri sendiri.

44
00:02:01,430 --> 00:02:04,820
Dan tiada siapa yang mempunyai untuk mengajar anda untuk sintaks
anda untuk memahami bagaimana ayat adalah

45
00:02:04,820 --> 00:02:05,290
berstruktur.

46
00:02:05,290 --> 00:02:07,980
Jadi, ia benar-benar menarik kerana
ia sesuatu yang datang sangat

47
00:02:07,980 --> 00:02:10,389
intuitif.

48
00:02:10,389 --> 00:02:13,190
>> Dan apa yang anda mengambil dari
sains komputer?

49
00:02:13,190 --> 00:02:16,700
Nah, perkara yang paling penting untuk kita
mempunyai dalam bidang sains komputer adalah pertama

50
00:02:16,700 --> 00:02:19,340
semua, kecerdasan buatan
dan pembelajaran mesin.

51
00:02:19,340 --> 00:02:22,610
Jadi, apa yang kita cuba untuk melakukan
linguistik pengiraan adalah mengajar

52
00:02:22,610 --> 00:02:26,990
komputer anda bagaimana untuk melakukan sesuatu
dengan bahasa.

53
00:02:26,990 --> 00:02:28,630
>> Jadi, sebagai contoh, di dalam mesin
terjemahan.

54
00:02:28,630 --> 00:02:32,490
Saya cuba untuk mengajar bagaimana komputer saya
tahu bagaimana untuk beralih dari satu

55
00:02:32,490 --> 00:02:33,310
bahasa kepada yang lain.

56
00:02:33,310 --> 00:02:35,790
Jadi, pada dasarnya suka pengajaran
komputer dua bahasa.

57
00:02:35,790 --> 00:02:38,870
Jika saya melakukan pemprosesan bahasa semula jadi,
yang adalah kes untuk contoh

58
00:02:38,870 --> 00:02:41,810
Facebook Graf Cari, anda mengajar
komputer anda bagaimana untuk memahami

59
00:02:41,810 --> 00:02:42,730
pertanyaan juga.

60
00:02:42,730 --> 00:02:48,130
>> Jadi, jika anda berkata "itu gambar saya
rakan-rakan. "Facebook tidak melayan yang

61
00:02:48,130 --> 00:02:51,130
sebagai rentetan keseluruhan yang mempunyai
hanya sekumpulan perkataan.

62
00:02:51,130 --> 00:02:56,020
Ia sebenarnya memahami hubungan
antara "gambar" dan "rakan-rakan saya" dan

63
00:02:56,020 --> 00:02:59,620
memahami bahawa "gambar" adalah
harta "rakan-rakan saya."

64
00:02:59,620 --> 00:03:02,350
>> Jadi, itu sebahagian daripada, sebagai contoh,
pemprosesan bahasa semula jadi.

65
00:03:02,350 --> 00:03:04,790
Ia cuba untuk memahami apa yang
adalah hubungan antara

66
00:03:04,790 --> 00:03:07,520
perkataan dalam ayat.

67
00:03:07,520 --> 00:03:11,170
Dan persoalan yang besarnya ialah, boleh anda
mengajar komputer bagaimana untuk bercakap

68
00:03:11,170 --> 00:03:12,650
bahasa secara umum?

69
00:03:12,650 --> 00:03:17,810
Yang merupakan satu soalan yang sangat menarik untuk
berfikir, kerana jika mungkin pada masa akan datang,

70
00:03:17,810 --> 00:03:19,930
anda akan dapat
bercakap dengan telefon bimbit anda.

71
00:03:19,930 --> 00:03:23,290
Jenis seperti apa yang kita lakukan dengan Siri tetapi
sesuatu yang lebih seperti, anda boleh sebenarnya

72
00:03:23,290 --> 00:03:25,690
mengatakan apa sahaja yang anda mahu dan telefon
akan memahami segala-galanya.

73
00:03:25,690 --> 00:03:28,350
Dan ia boleh mempunyai susulan soalan
dan terus bercakap.

74
00:03:28,350 --> 00:03:30,880
Itu sesuatu benar-benar menarik,
pada pendapat saya.

75
00:03:30,880 --> 00:03:33,070
>> Jadi, sesuatu tentang bahasa asli.

76
00:03:33,070 --> 00:03:36,220
Sesuatu yang menarik tentang
bahasa asli ialah, dan ini adalah

77
00:03:36,220 --> 00:03:38,470
kredit kepada profesor linguistik saya,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Beliau memberikan contoh dan saya fikir
ia benar-benar menarik.

79
00:03:40,830 --> 00:03:47,060
Kerana kita belajar bahasa apabila
kita dilahirkan dan kemudian asli yang

80
00:03:47,060 --> 00:03:49,170
bahasa jenis tumbuh kepada kita.

81
00:03:49,170 --> 00:03:52,570
>> Dan pada dasarnya anda belajar bahasa
daripada input yang minimum, bukan?

82
00:03:52,570 --> 00:03:56,700
Anda hanya mendapatkan input daripada anda
ibu bapa apa bunyi bahasa anda

83
00:03:56,700 --> 00:03:58,770
suka dan anda hanya mempelajarinya.

84
00:03:58,770 --> 00:04:02,240
Jadi, ia menarik kerana jika anda melihat
pada mereka ayat, sebagai contoh.

85
00:04:02,240 --> 00:04:06,980
Anda lihat, "Mary memakai kot setiap
masa dia meninggalkan rumah. "

86
00:04:06,980 --> 00:04:10,650
>> Dalam kes ini, ia mungkin untuk mempunyai
perkataan "dia" merujuk kepada Mary, bukan?

87
00:04:10,650 --> 00:04:13,500
Anda boleh berkata "Mary memakai kot
setiap kali Mary meninggalkan

88
00:04:13,500 --> 00:04:14,960
rumah. "jadi itulah denda.

89
00:04:14,960 --> 00:04:19,370
Tetapi jika anda melihat hukuman itu
"Dia memakai kot setiap kali Mary

90
00:04:19,370 --> 00:04:22,850
meninggalkan rumah. "anda tahu itu
mustahil untuk mengatakan bahawa "dia" adalah

91
00:04:22,850 --> 00:04:24,260
merujuk kepada Mary.

92
00:04:24,260 --> 00:04:27,070
>> Tidak ada cara untuk mengatakan bahawa "Mary meletakkan
pada kot setiap kali Mary meninggalkan

93
00:04:27,070 --> 00:04:30,790
rumah. "Jadi ia menarik kerana
ini adalah jenis gerak hati

94
00:04:30,790 --> 00:04:32,890
bahawa setiap penutur asli mempunyai.

95
00:04:32,890 --> 00:04:36,370
Dan tiada siapa yang telah diajar bahawa ini adalah
cara yang sintaks berfungsi.

96
00:04:36,370 --> 00:04:41,930
Dan anda hanya boleh mempunyai ini "dia"
merujuk kepada Maria dalam kes pertama ini,

97
00:04:41,930 --> 00:04:44,260
dan benar-benar dalam ini selain
juga, tetapi tidak dalam satu ini.

98
00:04:44,260 --> 00:04:46,500
Tetapi semua orang jenis mendapat
untuk jawapan yang sama.

99
00:04:46,500 --> 00:04:48,580
Semua orang bersetuju pada itu.

100
00:04:48,580 --> 00:04:53,280
Jadi ia benar-benar menarik bagaimana walaupun
anda tidak tahu semua peraturan

101
00:04:53,280 --> 00:04:55,575
dalam bahasa anda anda jenis memahami
bagaimana bahasa ini berfungsi.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Jadi perkara yang menarik tentang semula jadi
bahasa adalah bahawa anda tidak perlu

104
00:05:01,530 --> 00:05:06,970
tahu apa-apa sintaks tahu jika hukuman
adalah tatabahasa atau ungrammatical untuk

105
00:05:06,970 --> 00:05:08,810
kebanyakan kes.

106
00:05:08,810 --> 00:05:13,220
Yang membuat anda berfikir bahawa mungkin apa yang
berlaku ialah melalui kehidupan anda, anda

107
00:05:13,220 --> 00:05:17,410
hanya menyimpan semakin
ayat memberitahu kepada anda.

108
00:05:17,410 --> 00:05:19,800
Dan kemudian anda terus menghafal
semua ayat.

109
00:05:19,800 --> 00:05:24,230
Dan kemudian apabila seseorang memberitahu anda
sesuatu, anda mendengar ayat itu dan

110
00:05:24,230 --> 00:05:27,040
anda melihat perbendaharaan kata anda
ayat dan lihat jika

111
00:05:27,040 --> 00:05:28,270
ayat yang ada.

112
00:05:28,270 --> 00:05:29,830
Dan jika ia ada di sana anda
mengatakan ia tatabahasa.

113
00:05:29,830 --> 00:05:31,740
Jika tidak anda mengatakan ia
ungrammatical.

114
00:05:31,740 --> 00:05:35,150
>> Jadi, dalam kes itu, anda akan berkata, oh,
supaya anda mempunyai senarai besar semua

115
00:05:35,150 --> 00:05:36,140
ayat mungkin.

116
00:05:36,140 --> 00:05:38,240
Dan kemudian apabila mendengar ayat,
anda tahu jika ia tatabahasa atau

117
00:05:38,240 --> 00:05:39,450
tidak berdasarkan itu.

118
00:05:39,450 --> 00:05:42,360
Masalahnya ialah bahawa jika anda melihat
ayat, sebagai contoh, "The

119
00:05:42,360 --> 00:05:47,540
lima diketuai CS50 TFS dimasak buta
sotong menggunakan cawan DAPA. "Ia

120
00:05:47,540 --> 00:05:49,630
pasti tidak hukuman
yang anda dengar sebelum ini.

121
00:05:49,630 --> 00:05:52,380
Tetapi pada masa yang sama anda tahu ia adalah
cukup banyak tatabahasa, bukan?

122
00:05:52,380 --> 00:05:55,570
Tiada kesilapan tatabahasa
dan anda boleh mengatakan bahawa

123
00:05:55,570 --> 00:05:57,020
ia adalah satu hukuman mungkin.

124
00:05:57,020 --> 00:06:01,300
>> Jadi ia membuatkan kita berfikir bahawa sebenarnya
cara yang kita belajar bahasa bukan sahaja

125
00:06:01,300 --> 00:06:07,090
dengan mempunyai pangkalan data yang besar daripada mungkin
perkataan atau ayat, tetapi lebih kepada

126
00:06:07,090 --> 00:06:11,490
memahami hubungan antara
perkataan dalam mereka ayat.

127
00:06:11,490 --> 00:06:14,570
Adakah ini masuk akal?

128
00:06:14,570 --> 00:06:19,370
Oleh itu, maka soalan itu, boleh
komputer belajar bahasa?

129
00:06:19,370 --> 00:06:21,490
Bolehkah kita mengajar bahasa kepada bahasa komputer?

130
00:06:21,490 --> 00:06:24,230
>> Jadi, mari kita memikirkan perbezaan
antara penceramah asli bahasa yang

131
00:06:24,230 --> 00:06:25,460
dan komputer.

132
00:06:25,460 --> 00:06:27,340
Jadi, apa yang berlaku kepada orang yang bercakap?

133
00:06:27,340 --> 00:06:30,430
Nah, penutur asli belajar yang
bahasa dari pendedahan kepadanya.

134
00:06:30,430 --> 00:06:34,200
Biasanya tahun zaman kanak-kanak awal.

135
00:06:34,200 --> 00:06:38,570
Jadi, pada dasarnya, anda hanya mempunyai bayi,
dan anda terus bercakap dengannya, dan ia

136
00:06:38,570 --> 00:06:40,540
hanya belajar bagaimana untuk bercakap
bahasa, bukan?

137
00:06:40,540 --> 00:06:42,660
Jadi, anda pada asasnya memberi
input kepada bayi.

138
00:06:42,660 --> 00:06:45,200
Oleh itu, maka anda boleh berhujah bahawa komputer
boleh melakukan perkara yang sama, bukan?

139
00:06:45,200 --> 00:06:49,510
Anda hanya boleh memberi bahasa
sebagai input ke komputer.

140
00:06:49,510 --> 00:06:53,410
>> Sebagai contoh sekumpulan fail
yang mempunyai buku-buku dalam bahasa Inggeris.

141
00:06:53,410 --> 00:06:56,190
Mungkin itu salah satu cara yang anda
mungkin boleh mengajar

142
00:06:56,190 --> 00:06:57,850
komputer Bahasa Inggeris, bukan?

143
00:06:57,850 --> 00:07:01,000
Dan sebenarnya, jika anda berfikir tentang hal itu,
ia akan membawa anda mungkin pasangan

144
00:07:01,000 --> 00:07:02,680
hari untuk membaca buku.

145
00:07:02,680 --> 00:07:05,760
Untuk komputer yang ia mengambil masa kedua untuk
melihat semua kata-kata di dalam buku.

146
00:07:05,760 --> 00:07:10,810
Jadi, anda boleh berfikir bahawa mungkin hanya ini
hujah input dari seluruh anda,

147
00:07:10,810 --> 00:07:15,440
itu tidak cukup untuk mengatakan bahawa itulah
sesuatu yang hanya manusia boleh lakukan.

148
00:07:15,440 --> 00:07:17,680
Anda boleh berfikir komputer
juga boleh mendapatkan input.

149
00:07:17,680 --> 00:07:21,170
>> Perkara kedua ialah penutur asli
juga mempunyai otak yang mempunyai

150
00:07:21,170 --> 00:07:23,870
keupayaan pembelajaran bahasa.

151
00:07:23,870 --> 00:07:27,020
Tetapi jika anda berfikir tentang hal itu,
otak adalah satu perkara yang kukuh.

152
00:07:27,020 --> 00:07:30,450
Apabila anda dilahirkan, ia telah ditetapkan -

153
00:07:30,450 --> 00:07:31,320
ini adalah otak anda.

154
00:07:31,320 --> 00:07:34,660
Dan seperti yang anda membesar, anda hanya mendapatkan lebih banyak
input bahasa dan mungkin nutrien

155
00:07:34,660 --> 00:07:35,960
dan barangan lain.

156
00:07:35,960 --> 00:07:38,170
Tetapi cukup banyak otak anda
adalah satu perkara yang kukuh.

157
00:07:38,170 --> 00:07:41,290
>> Jadi, anda boleh berkata, baik, mungkin anda boleh
membina sebuah komputer yang mempunyai sekumpulan

158
00:07:41,290 --> 00:07:45,890
fungsi dan kaedah yang hanya meniru
keupayaan pembelajaran bahasa.

159
00:07:45,890 --> 00:07:49,630
Jadi dalam erti kata itu, anda boleh mengatakan, baik, saya
boleh mempunyai komputer yang mempunyai semua

160
00:07:49,630 --> 00:07:52,270
perkara yang saya perlu belajar bahasa.

161
00:07:52,270 --> 00:07:56,200
Dan perkara yang terakhir ialah anak negeri
penceramah belajar daripada percubaan dan kesilapan.

162
00:07:56,200 --> 00:08:01,090
Jadi, pada asasnya satu lagi perkara yang penting dalam
pembelajaran bahasa ialah anda jenis

163
00:08:01,090 --> 00:08:05,340
daripada mempelajari perkara dengan membuat
generalisasi daripada apa yang anda dengar.

164
00:08:05,340 --> 00:08:10,280
>> Jadi seperti yang anda membesar anda mengetahui bahawa
beberapa perkataan lebih seperti kata nama,

165
00:08:10,280 --> 00:08:11,820
beberapa yang lain adalah kata sifat.

166
00:08:11,820 --> 00:08:14,250
Dan anda tidak perlu mempunyai apa-apa
pengetahuan linguistik

167
00:08:14,250 --> 00:08:15,040
untuk memahami bahawa.

168
00:08:15,040 --> 00:08:18,560
Tetapi anda hanya tahu ada beberapa perkataan
berada pada kedudukan dalam sesuatu bahagian daripada

169
00:08:18,560 --> 00:08:22,570
ayat dan beberapa orang lain dalam lain
bahagian hukuman itu.

170
00:08:22,570 --> 00:08:26,110
>> Dan bahawa apabila anda melakukan sesuatu yang
seperti hukuman yang tidak betul -

171
00:08:26,110 --> 00:08:28,770
mungkin kerana satu generalisasi ke atas
sebagai contoh.

172
00:08:28,770 --> 00:08:32,210
Mungkin apabila anda membesar, anda notis
yang majmuk biasanya

173
00:08:32,210 --> 00:08:35,809
dibentuk dengan meletakkan satu di S
akhir perkataan.

174
00:08:35,809 --> 00:08:40,042
Dan kemudian anda cuba untuk melakukan jamak dari
"Rusa" sebagai "rusa" atau "gigi" sebagai

175
00:08:40,042 --> 00:08:44,780
"Tooths." Demikian maka ibu bapa anda atau
seseorang membetulkan kamu dan berkata, tidak, yang

176
00:08:44,780 --> 00:08:49,020
jamak dari "rusa" adalah "rusa," dan
jamak dari "gigi" adalah "gigi." Dan kemudian

177
00:08:49,020 --> 00:08:50,060
anda belajar perkara-perkara.

178
00:08:50,060 --> 00:08:51,520
Jadi, anda belajar daripada percubaan dan kesilapan.

179
00:08:51,520 --> 00:08:53,100
>> Tetapi anda juga boleh berbuat demikian
dengan komputer.

180
00:08:53,100 --> 00:08:55,310
Anda boleh mempunyai sesuatu yang dinamakan
pengukuhan pembelajaran.

181
00:08:55,310 --> 00:08:58,560
Yang pada dasarnya seperti memberi
komputer ganjaran setiap kali ia

182
00:08:58,560 --> 00:08:59,410
sesuatu yang betul.

183
00:08:59,410 --> 00:09:04,710
Dan memberi ia bertentangan dengan ganjaran
dan apabila ia sesuatu yang salah.

184
00:09:04,710 --> 00:09:07,410
Anda sebenarnya boleh melihat bahawa jika anda pergi
untuk Terjemahan Google dan anda cuba untuk

185
00:09:07,410 --> 00:09:10,220
menterjemahkan ayat, ia
meminta anda untuk maklum balas.

186
00:09:10,220 --> 00:09:13,240
Jadi, jika anda berkata, oh, ada yang lebih baik
terjemahan untuk ayat ini.

187
00:09:13,240 --> 00:09:18,140
Anda boleh menaip dan kemudian jika banyak
orang menyimpan mengatakan bahawa adalah lebih baik

188
00:09:18,140 --> 00:09:21,560
terjemahan, ia hanya mendapat tahu bahawa ia
perlu menggunakan terjemahan yang bukannya

189
00:09:21,560 --> 00:09:22,960
yang ia memberi.

190
00:09:22,960 --> 00:09:28,830
>> Jadi, ia adalah satu soalan yang sangat falsafah
untuk melihat jika komputer akan menjadi

191
00:09:28,830 --> 00:09:30,340
dapat bercakap atau tidak pada masa hadapan.

192
00:09:30,340 --> 00:09:34,440
Tetapi saya mempunyai harapan yang tinggi bahawa mereka boleh
hanya berdasarkan kepada hujah.

193
00:09:34,440 --> 00:09:38,570
Tetapi ia hanya lebih kepada falsafah
soalan.

194
00:09:38,570 --> 00:09:43,460
>> Jadi manakala komputer masih tidak boleh bercakap,
apakah perkara-perkara yang boleh kita lakukan?

195
00:09:43,460 --> 00:09:47,070
Beberapa perkara yang benar-benar sejuk adalah
pengelasan data.

196
00:09:47,070 --> 00:09:53,210
Jadi, sebagai contoh, anda semua tahu
bahawa perkhidmatan e-mel, bagi tujuan

197
00:09:53,210 --> 00:09:55,580
Sebagai contoh, penapisan spam.

198
00:09:55,580 --> 00:09:59,070
Jadi setiap kali anda menerima spam, ia
cuba untuk menapis ke kotak yang lain.

199
00:09:59,070 --> 00:10:00,270
Jadi bagaimana ia berbuat demikian?

200
00:10:00,270 --> 00:10:06,080
Ia tidak seperti komputer hanya tahu
alamat e-mel apa menghantar spam.

201
00:10:06,080 --> 00:10:09,130
Jadi ia lebih berasaskan kepada kandungan
mesej, atau mungkin tajuk, atau

202
00:10:09,130 --> 00:10:11,310
mungkin beberapa corak yang anda ada.

203
00:10:11,310 --> 00:10:15,690
>> Jadi, pada dasarnya, apa yang anda boleh lakukan ialah mendapatkan
banyak data e-mel yang spam,

204
00:10:15,690 --> 00:10:19,980
e-mel yang tidak spam, dan belajar apa
jenis corak anda mempunyai dalam

205
00:10:19,980 --> 00:10:21,000
orang-orang yang spam.

206
00:10:21,000 --> 00:10:23,260
Dan ini adalah sebahagian daripada pengiraan
linguistik.

207
00:10:23,260 --> 00:10:24,720
Ia dipanggil pengelasan data.

208
00:10:24,720 --> 00:10:28,100
Dan kita sebenarnya akan melihat
contoh bahawa dalam slaid seterusnya.

209
00:10:28,100 --> 00:10:32,910
>> Perkara kedua adalah bahasa semula jadi
pemprosesan yang merupakan perkara yang bahawa

210
00:10:32,910 --> 00:10:36,580
Graf Cari melakukan membiarkan
anda menulis ayat.

211
00:10:36,580 --> 00:10:38,690
Dan ia percaya yang anda memahami apa yang
makna dan memberikan

212
00:10:38,690 --> 00:10:39,940
anda hasil yang lebih baik.

213
00:10:39,940 --> 00:10:43,880
Sebenarnya, jika anda pergi ke Google atau Bing
dan anda mencari sesuatu seperti Lady

214
00:10:43,880 --> 00:10:47,060
Ketinggian Gaga, anda sebenarnya akan
untuk mendapatkan 5 '1 "dan bukannya maklumat

215
00:10:47,060 --> 00:10:50,170
dari dia kerana ia sebenarnya memahami
apa yang anda bercakap tentang.

216
00:10:50,170 --> 00:10:52,140
Jadi, itu sebahagian daripada alam semula jadi
pemprosesan bahasa.

217
00:10:52,140 --> 00:10:57,000
>> Atau juga apabila anda menggunakan Siri, pertama
anda mempunyai algoritma yang cuba

218
00:10:57,000 --> 00:11:01,130
menterjemahkan apa yang anda katakan
ke dalam kata-kata, dalam teks.

219
00:11:01,130 --> 00:11:03,690
Dan kemudian ia cuba untuk menterjemahkan
itu ke dalam makna.

220
00:11:03,690 --> 00:11:06,570
Jadi, itu semua sebahagian daripada alam semula jadi
pemprosesan bahasa.

221
00:11:06,570 --> 00:11:08,320
>> Kemudian ada terjemahan mesin -

222
00:11:08,320 --> 00:11:10,300
yang sebenarnya adalah salah
kegemaran saya -

223
00:11:10,300 --> 00:11:14,060
yang hanya menterjemah daripada
satu bahasa kepada bahasa lain.

224
00:11:14,060 --> 00:11:17,950
Jadi, anda boleh berfikir bahawa apabila anda lakukan
terjemahan mesin, anda mempunyai

225
00:11:17,950 --> 00:11:19,750
kemungkinan tidak terhingga ayat.

226
00:11:19,750 --> 00:11:22,960
Jadi tidak ada cara hanya menyimpan
setiap terjemahan tunggal.

227
00:11:22,960 --> 00:11:27,440
Jadi, anda perlu datang dengan menarik
algoritma untuk dapat

228
00:11:27,440 --> 00:11:30,110
menterjemahkan setiap tunggal
ayat dalam beberapa cara.

229
00:11:30,110 --> 00:11:32,483
>> Anda mempunyai sebarang soalan setakat ini?

230
00:11:32,483 --> 00:11:34,450
Tidak?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> Jadi apa yang kita akan melihat hari ini?

233
00:11:36,900 --> 00:11:39,300
Pertama sekali, saya akan bercakap tentang
masalah pengelasan.

234
00:11:39,300 --> 00:11:41,440
Jadi salah satu yang saya
katakan tentang spam.

235
00:11:41,440 --> 00:11:46,820
Apa yang saya akan lakukan ialah, memandangkan lyrics
untuk lagu, anda boleh cuba untuk memikirkan

236
00:11:46,820 --> 00:11:49,810
dengan kebarangkalian tinggi
yang penyanyi?

237
00:11:49,810 --> 00:11:53,590
Mari kita mengatakan bahawa saya mempunyai lagu-lagu daripada Lady
Gaga dan Katy Perry, jika saya memberikan anda

238
00:11:53,590 --> 00:11:58,130
lagu baru, anda boleh memahami jika
ia Katy Perry atau Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> Yang kedua, saya hanya akan bercakap
tentang masalah segmentasi.

240
00:12:01,490 --> 00:12:05,780
Jadi, saya tidak tahu jika anda semua tahu, tetapi
Cina, Jepun, Asia Timur yang lain

241
00:12:05,780 --> 00:12:08,090
bahasa, dan bahasa-bahasa lain
secara umum, tidak mempunyai

242
00:12:08,090 --> 00:12:09,830
ruang di antara perkataan.

243
00:12:09,830 --> 00:12:13,540
Dan kemudian jika anda berfikir tentang cara yang
jenis komputer anda daripada cuba untuk

244
00:12:13,540 --> 00:12:18,600
memahami pemprosesan bahasa semula jadi,
ia kelihatan pada kata-kata dan

245
00:12:18,600 --> 00:12:21,500
cuba untuk memahami hubungan
di antara mereka, bukan?

246
00:12:21,500 --> 00:12:25,440
Tetapi jika anda mempunyai China, dan anda
mempunyai ruang sifar, ia benar-benar sukar untuk

247
00:12:25,440 --> 00:12:28,360
mengetahui apa yang hubungan antara
kata-kata, kerana mereka tidak mempunyai apa-apa

248
00:12:28,360 --> 00:12:29,530
kata-kata pada mulanya.

249
00:12:29,530 --> 00:12:32,600
Jadi, anda perlu melakukan sesuatu yang dinamakan
segmentasi yang hanya bermaksud meletakkan

250
00:12:32,600 --> 00:12:36,490
ruang di antara apa yang kita akan memanggil
kata-kata dalam bahasa-bahasa.

251
00:12:36,490 --> 00:12:37,740
Masuk akal?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> Dan kemudian kita akan
bercakap tentang sintaksis.

254
00:12:41,540 --> 00:12:44,050
Jadi hanya sedikit tentang semula jadi
pemprosesan bahasa.

255
00:12:44,050 --> 00:12:45,420
Ia akan hanya gambaran.

256
00:12:45,420 --> 00:12:50,700
Jadi hari ini, pada dasarnya apa yang saya mahu lakukan
adalah memberikan anda semua sedikit satu

257
00:12:50,700 --> 00:12:53,930
dalam apakah kemungkinan
yang anda boleh lakukan dengan pengiraan

258
00:12:53,930 --> 00:12:54,960
linguistik.

259
00:12:54,960 --> 00:13:00,410
Dan kemudian anda boleh melihat apa yang anda fikirkan
sejuk di kalangan perkara-perkara.

260
00:13:00,410 --> 00:13:02,270
Dan mungkin anda boleh memikirkan projek
dan datang bercakap dengan saya.

261
00:13:02,270 --> 00:13:05,260
Dan saya boleh memberi anda nasihat
bagaimana untuk melaksanakannya.

262
00:13:05,260 --> 00:13:09,060
>> Jadi sintaks akan menjadi sedikit
mengenai Graf Cari dan mesin

263
00:13:09,060 --> 00:13:09,670
terjemahan.

264
00:13:09,670 --> 00:13:13,650
Saya hanya akan memberikan satu contoh bagaimana
anda boleh, sebagai contoh, menterjemah

265
00:13:13,650 --> 00:13:16,020
sesuatu dari Portugis ke Bahasa Inggeris.

266
00:13:16,020 --> 00:13:17,830
Bunyi yang baik?

267
00:13:17,830 --> 00:13:19,293
>> Jadi pertama, masalah klasifikasi.

268
00:13:19,293 --> 00:13:23,590
Saya akan mengatakan bahawa ini sebahagian daripada seminar yang
akan menjadi yang paling mencabar

269
00:13:23,590 --> 00:13:27,560
satu hanya kerana ada akan
ada beberapa pengekodan.

270
00:13:27,560 --> 00:13:29,470
Tetapi ia akan menjadi Python.

271
00:13:29,470 --> 00:13:34,380
Saya tahu anda semua tidak tahu Python, jadi
Saya hanya akan menjelaskan pada yang tinggi

272
00:13:34,380 --> 00:13:35,750
tahap apa yang saya lakukan.

273
00:13:35,750 --> 00:13:40,900
Dan anda tidak perlu untuk benar-benar mengambil berat terlalu
banyak mengenai sintaks kerana itulah

274
00:13:40,900 --> 00:13:42,140
sesuatu yang anda semua boleh belajar.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
Bunyi yang baik.

277
00:13:43,580 --> 00:13:46,020
>> Jadi apa masalah klasifikasi?

278
00:13:46,020 --> 00:13:49,140
Jadi anda diberikan beberapa lirik
lagu, dan anda mahu untuk meneka

279
00:13:49,140 --> 00:13:50,620
yang menyanyikannya.

280
00:13:50,620 --> 00:13:54,045
Dan ini boleh untuk apa-apa jenis
masalah lain.

281
00:13:54,045 --> 00:13:59,980
Jadi boleh, sebagai contoh, anda mempunyai
kempen presiden dan anda mempunyai

282
00:13:59,980 --> 00:14:02,610
ucapan, dan anda ingin mencari
jika ia adalah, sebagai contoh,

283
00:14:02,610 --> 00:14:04,470
Obama atau Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Atau anda boleh mempunyai sekumpulan e-mel dan
anda mahu untuk memikirkan jika mereka

285
00:14:07,700 --> 00:14:08,890
spam atau tidak.

286
00:14:08,890 --> 00:14:11,440
Jadi ia hanya mengklasifikasikan beberapa
data berdasarkan perkataan

287
00:14:11,440 --> 00:14:13,790
bahawa anda mempunyai di sana.

288
00:14:13,790 --> 00:14:16,295
>> Jadi untuk berbuat demikian, anda perlu
membuat beberapa andaian.

289
00:14:16,295 --> 00:14:20,570
Jadi banyak perkara mengenai linguistik pengiraan
membuat andaian,

290
00:14:20,570 --> 00:14:24,100
andaian biasanya pintar, supaya
anda boleh mendapatkan keputusan yang baik.

291
00:14:24,100 --> 00:14:26,670
Cuba untuk mewujudkan satu model untuk itu.

292
00:14:26,670 --> 00:14:31,290
Dan kemudian mencubanya dan lihat jika ia berfungsi,
jika ia memberi anda ketepatan yang baik.

293
00:14:31,290 --> 00:14:33,940
Dan jika ia, maka anda
cuba untuk memperbaikinya.

294
00:14:33,940 --> 00:14:37,640
Jika tidak, anda seperti, OK, mungkin saya
perlu membuat andaian yang berbeza.

295
00:14:37,640 --> 00:14:44,030
>> Jadi andaian bahawa kita akan
membuat ialah seorang artis biasanya menyanyi

296
00:14:44,030 --> 00:14:49,220
kira-kira satu kali pelbagai topik, dan mungkin
menggunakan kata-kata beberapa kali hanya

297
00:14:49,220 --> 00:14:50,270
kerana mereka digunakan untuk ia.

298
00:14:50,270 --> 00:14:51,890
Anda hanya boleh berfikir rakan anda.

299
00:14:51,890 --> 00:14:57,350
Saya pasti anda semua mempunyai kawan-kawan semua
yang mengatakan frasa tandatangan mereka,

300
00:14:57,350 --> 00:14:59,260
secara literal bagi setiap ayat -

301
00:14:59,260 --> 00:15:02,660
seperti beberapa perkataan tertentu atau beberapa tertentu
frasa yang mereka katakan untuk

302
00:15:02,660 --> 00:15:04,020
setiap ayat.

303
00:15:04,020 --> 00:15:07,920
>> Dan apa yang anda boleh katakan ialah bahawa jika anda melihat
hukuman yang mempunyai tandatangan

304
00:15:07,920 --> 00:15:11,450
frasa, anda boleh meneka yang mungkin
rakan anda adalah

305
00:15:11,450 --> 00:15:13,310
satu berkata ia, bukan?

306
00:15:13,310 --> 00:15:18,410
Jadi, anda membuat andaian itu dan kemudian
itulah bagaimana anda membuat model.

307
00:15:18,410 --> 00:15:24,440
>> Contoh yang saya akan berikan adalah pada
bagaimana Lady Gaga, sebagai contoh, orang-orang

308
00:15:24,440 --> 00:15:27,430
mengatakan bahawa dia menggunakan "bayi" untuk
semua dia nombor satu lagu.

309
00:15:27,430 --> 00:15:32,270
Dan sebenarnya ini adalah video yang menunjukkan
beliau berkata perkataan "bayi" untuk

310
00:15:32,270 --> 00:15:33,410
lagu-lagu yang berbeza.

311
00:15:33,410 --> 00:15:33,860
>> [VIDEO MAIN SEMULA]

312
00:15:33,860 --> 00:15:34,310
>> - (Nyanyian) Bayi.

313
00:15:34,310 --> 00:15:36,220
Bayi.

314
00:15:36,220 --> 00:15:37,086
Bayi.

315
00:15:37,086 --> 00:15:37,520
Bayi.

316
00:15:37,520 --> 00:15:37,770
Bayi.

317
00:15:37,770 --> 00:15:38,822
Babe.

318
00:15:38,822 --> 00:15:39,243
Bayi.

319
00:15:39,243 --> 00:15:40,085
Bayi.

320
00:15:40,085 --> 00:15:40,510
Bayi.

321
00:15:40,510 --> 00:15:40,850
Bayi.

322
00:15:40,850 --> 00:15:41,090
>> [END VIDEO MAIN SEMULA-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS Freitas: Jadi ada, saya fikir,
40 lagu-lagu di sini di mana beliau berkata,

324
00:15:44,020 --> 00:15:48,690
perkataan "bayi." Jadi pada dasarnya anda boleh meneka
bahawa jika anda melihat sebuah lagu yang mempunyai

325
00:15:48,690 --> 00:15:52,180
perkataan "bayi," ada beberapa tinggi
kebarangkalian bahawa itu Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Tetapi mari kita cuba untuk membangunkan ini
lagi lebih secara rasmi.

327
00:15:56,450 --> 00:16:00,470
>> Jadi ini adalah lirik lagu-lagu oleh
Lady Gaga dan Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Jadi anda melihat Lady Gaga, anda melihat mereka
mempunyai banyak kejadian "bayi," yang

329
00:16:04,120 --> 00:16:07,710
banyak kejadian "jalan." Dan kemudian
Katy Perry mempunyai banyak kejadian

330
00:16:07,710 --> 00:16:10,360
"Itu," banyak kejadian "api."

331
00:16:10,360 --> 00:16:14,560
>> Jadi, pada asasnya apa yang kita mahu
lakukan ialah, anda mendapat lirik yang.

332
00:16:14,560 --> 00:16:20,480
Mari kita mengatakan bahawa anda mendapatkan lirik untuk
lagu yang "bayi," hanya "bayi." Jika

333
00:16:20,480 --> 00:16:24,750
anda hanya mendapat perkataan "bayi", dan ini
semua data yang anda ada dari

334
00:16:24,750 --> 00:16:27,880
Lady Gaga dan Katy Perry, yang akan
anda meneka adalah orang yang

335
00:16:27,880 --> 00:16:29,370
yang menyanyi lagu?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga atau Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, bukan?

338
00:16:33,150 --> 00:16:37,400
Kerana dia satu-satunya yang mengatakan
"Bayi." Ini bunyi bodoh, bukan?

339
00:16:37,400 --> 00:16:38,760
OK, ini adalah benar-benar mudah.

340
00:16:38,760 --> 00:16:41,860
Saya hanya melihat dua buah lagu dan
Sudah tentu, dia satu-satunya yang mempunyai

341
00:16:41,860 --> 00:16:42,660
"Bayi."

342
00:16:42,660 --> 00:16:44,740
>> Tetapi bagaimana jika anda mempunyai sekumpulan kata-kata?

343
00:16:44,740 --> 00:16:50,900
Jika anda mempunyai lirik sebenar, sesuatu
seperti, "Bayi, saya hanya

344
00:16:50,900 --> 00:16:51,610
pergi untuk melihat [? CFT?]

345
00:16:51,610 --> 00:16:54,020
kuliah, "atau sesuatu seperti itu, dan
maka anda sebenarnya perlu memikirkan -

346
00:16:54,020 --> 00:16:55,780
berdasarkan semua kata-kata -

347
00:16:55,780 --> 00:16:58,350
yang adalah seorang artis yang mungkin
menyanyikan lagu ini?

348
00:16:58,350 --> 00:17:01,860
Jadi mari kita cuba untuk membangunkan
ini sedikit lagi.

349
00:17:01,860 --> 00:17:05,630
>> OK, jadi berasaskan hanya pada data yang kita
mendapat, ia kelihatan bahawa Gaga mungkin

350
00:17:05,630 --> 00:17:06,260
penyanyi.

351
00:17:06,260 --> 00:17:07,904
Tetapi bagaimana kita boleh menulis
ini lebih secara rasmi?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
Dan ada akan menjadi sedikit
sedikit statistik.

354
00:17:13,140 --> 00:17:15,880
Jadi, jika anda hilang, hanya cuba
untuk memahami konsep itu.

355
00:17:15,880 --> 00:17:18,700
Ia tidak kira jika anda memahami
persamaan dengan baik.

356
00:17:18,700 --> 00:17:22,150
Ini semua akan berada dalam talian.

357
00:17:22,150 --> 00:17:25,490
>> Jadi, pada asasnya apa yang saya mengira adalah
kebarangkalian bahawa lagu ini adalah dengan

358
00:17:25,490 --> 00:17:28,040
Lady Gaga memandangkan -

359
00:17:28,040 --> 00:17:30,660
jadi bar ini ertinya memandangkan -

360
00:17:30,660 --> 00:17:33,680
Saya melihat perkataan "bayi."
Adakah ini masuk akal?

361
00:17:33,680 --> 00:17:35,540
Jadi saya cuba untuk mengira
Kebarangkalian.

362
00:17:35,540 --> 00:17:38,540
>> Jadi ada teorem ini dipanggil
Bayes teorem yang mengatakan bahawa

363
00:17:38,540 --> 00:17:43,330
kebarangkalian A B diberikan, adalah
kebarangkalian B diberikan A, kali

364
00:17:43,330 --> 00:17:47,660
kebarangkalian A, lebih kebarangkalian
B. Ini adalah persamaan yang panjang.

365
00:17:47,660 --> 00:17:51,970
Tetapi apa yang anda perlu memahami dari
itu adalah bahawa ini adalah apa yang saya mahu

366
00:17:51,970 --> 00:17:52,830
mengira, bukan?

367
00:17:52,830 --> 00:17:56,570
Jadi kebarangkalian bahawa lagu itu adalah dengan
Lady Gaga memandangkan saya melihat perkataan

368
00:17:56,570 --> 00:17:58,230
"Bayi."

369
00:17:58,230 --> 00:18:02,960
>> Dan kini apa yang saya mendapat adalah
kebarangkalian perkataan "bayi" diberikan

370
00:18:02,960 --> 00:18:04,390
bahawa saya mempunyai Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
Apakah itu yang pada dasarnya?

372
00:18:07,220 --> 00:18:10,500
Apa cara iaitu, apakah
kebarangkalian melihat satu perkataan "bayi"

373
00:18:10,500 --> 00:18:12,130
dalam Gaga lyrics?

374
00:18:12,130 --> 00:18:16,240
Jika saya mahu untuk mengira bahawa dalam yang sangat
cara yang mudah, ia hanya beberapa

375
00:18:16,240 --> 00:18:23,640
kali saya lihat "bayi" atas jumlah
perkataan dalam Gaga lyrics, bukan?

376
00:18:23,640 --> 00:18:27,600
Apakah kekerapan yang saya lihat
bahawa perkataan dalam kerja Gaga?

377
00:18:27,600 --> 00:18:30,530
Masuk akal?

378
00:18:30,530 --> 00:18:33,420
>> Istilah kedua ialah
kebarangkalian Gaga.

379
00:18:33,420 --> 00:18:34,360
Apa maksudnya?

380
00:18:34,360 --> 00:18:38,550
Yang pada dasarnya bermakna, apakah
kebarangkalian mengklasifikasikan

381
00:18:38,550 --> 00:18:40,690
beberapa lyrics sebagai Gaga?

382
00:18:40,690 --> 00:18:45,320
Dan ini adalah jenis pelik, tetapi
mari kita memikirkan satu contoh.

383
00:18:45,320 --> 00:18:49,230
Jadi katakan bahawa kebarangkalian
mempunyai "bayi" dalam lagu itu adalah sama

384
00:18:49,230 --> 00:18:51,760
untuk Gaga dan Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Tetapi Britney Spears mempunyai dua kali ganda
lebih banyak lagu daripada Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Jadi, jika seseorang hanya secara rawak memberikan anda
lirik "bayi," perkara pertama yang anda

387
00:19:00,570 --> 00:19:04,710
melihat adalah, apakah kebarangkalian
mempunyai "bayi" dalam lagu Gaga, "bayi"

388
00:19:04,710 --> 00:19:05,410
dalam sebuah lagu Britney?

389
00:19:05,410 --> 00:19:06,460
Dan ia adalah perkara yang sama.

390
00:19:06,460 --> 00:19:10,040
>> Jadi perkara kedua yang anda akan lihat ialah,
juga, apakah kebarangkalian

391
00:19:10,040 --> 00:19:13,770
lirik ini dengan sendirinya menjadi lirik Gaga,
dan apakah kebarangkalian

392
00:19:13,770 --> 00:19:15,380
menjadi lirik Britney?

393
00:19:15,380 --> 00:19:18,950
Jadi sejak Britney mempunyai banyak lagi lyrics
daripada Gaga, anda akan mungkin

394
00:19:18,950 --> 00:19:21,470
katakan, baik, ini mungkin
lirik Britney.

395
00:19:21,470 --> 00:19:23,340
Jadi itulah sebabnya kita mempunyai
sebut di sini.

396
00:19:23,340 --> 00:19:24,670
Kebarangkalian Gaga.

397
00:19:24,670 --> 00:19:26,950
Masuk akal?

398
00:19:26,950 --> 00:19:28,660
Adakah ia?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> Dan yang terakhir adalah hanya kebarangkalian
daripada "bayi" yang tidak

401
00:19:33,500 --> 00:19:34,810
benar-benar perkara yang banyak.

402
00:19:34,810 --> 00:19:39,940
Tetapi ia kebarangkalian
melihat "bayi" dalam bahasa Inggeris.

403
00:19:39,940 --> 00:19:42,725
Kami biasanya tidak peduli bahawa
banyak mengenai tempoh jawatan itu.

404
00:19:42,725 --> 00:19:44,490
Adakah ini masuk akal?

405
00:19:44,490 --> 00:19:48,110
Jadi kebarangkalian Gaga adalah
dipanggil kebarangkalian sebelum

406
00:19:48,110 --> 00:19:49,530
daripada Gaga kelas.

407
00:19:49,530 --> 00:19:53,840
Oleh kerana itu hanya bererti bahawa, apakah
kebarangkalian yang mempunyai kelas itu -

408
00:19:53,840 --> 00:19:55,520
yang Gaga -

409
00:19:55,520 --> 00:19:59,350
hanya secara umum, hanya
tanpa syarat.

410
00:19:59,350 --> 00:20:02,560
>> Dan kemudian apabila saya mempunyai kebarangkalian
Gaga diberikan "bayi," kita panggil ia ditambah

411
00:20:02,560 --> 00:20:06,160
teary kebarangkalian yang kerana ia
kebarangkalian yang mempunyai

412
00:20:06,160 --> 00:20:08,300
Gaga diberikan beberapa bukti.

413
00:20:08,300 --> 00:20:11,050
Jadi, saya memberi anda bukti
bahawa saya melihat bayi perkataan dan

414
00:20:11,050 --> 00:20:12,690
lagu masuk akal?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> Jadi Sekiranya saya dikira bahawa bagi setiap
daripada lagu-lagu untuk Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
apa yang akan menjadi -

419
00:20:25,916 --> 00:20:27,730
nampaknya, saya tidak boleh bergerak ini.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Kebarangkalian Gaga akan
sesuatu seperti, 2 lebih daripada 24, masa 1/2,

422
00:20:36,920 --> 00:20:38,260
lebih 2 lebih 53.

423
00:20:38,260 --> 00:20:40,640
Ia tidak kira jika anda tahu apa
nombor-nombor ini yang datang dari.

424
00:20:40,640 --> 00:20:44,750
Tetapi ia hanya beberapa yang akan
untuk menjadi lebih daripada 0, betul?

425
00:20:44,750 --> 00:20:48,610
>> Dan kemudian apabila saya melakukan Katy Perry,
kebarangkalian "bayi" diberikan Katy adalah

426
00:20:48,610 --> 00:20:49,830
sudah 0, bukan?

427
00:20:49,830 --> 00:20:52,820
Kerana tidak ada "bayi"
di Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Demikian maka ini menjadi 0, dan Gaga
menang, yang bermaksud bahawa Gaga adalah

429
00:20:56,360 --> 00:20:57,310
mungkin penyanyi.

430
00:20:57,310 --> 00:20:58,560
Adakah ini masuk akal?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Jadi jika saya ingin rasmi ini lebih,
Saya benar-benar boleh melakukan model

435
00:21:11,750 --> 00:21:12,700
satu perkataan.

436
00:21:12,700 --> 00:21:14,610
Jadi mari kita mengatakan bahawa saya mempunyai sesuatu
seperti, "Bayi, saya

437
00:21:14,610 --> 00:21:16,030
terbakar, "atau sesuatu.

438
00:21:16,030 --> 00:21:17,760
Jadi ia mempunyai pelbagai kata-kata.

439
00:21:17,760 --> 00:21:20,880
Dan dalam kes ini, anda boleh melihat
bahawa "bayi" adalah dalam Gaga,

440
00:21:20,880 --> 00:21:21,710
tetapi ia bukan dalam Katy.

441
00:21:21,710 --> 00:21:24,940
Dan "api" adalah di Katy, tetapi
ia bukan dalam Gaga, bukan?

442
00:21:24,940 --> 00:21:27,200
Jadi ia semakin sukar, bukan?

443
00:21:27,200 --> 00:21:31,440
Kerana ia seolah-olah bahawa anda hampir
mempunyai hubungan antara kedua-dua.

444
00:21:31,440 --> 00:21:36,980
>> Jadi apa yang anda perlu lakukan adalah mengambil alih
kebebasan antara kata-kata.

445
00:21:36,980 --> 00:21:41,210
Jadi, pada asasnya apa yang bermakna ialah
Saya hanya mengira apakah

446
00:21:41,210 --> 00:21:44,330
kebarangkalian melihat "bayi," apa yang
kebarangkalian melihat "Saya," dan

447
00:21:44,330 --> 00:21:46,670
"Aku", dan "di" dan "api,"
semua secara berasingan.

448
00:21:46,670 --> 00:21:48,670
Kemudian saya mendarabkan mereka semua.

449
00:21:48,670 --> 00:21:52,420
Dan saya melihat apakah kebarangkalian
melihat keseluruhan ayat.

450
00:21:52,420 --> 00:21:55,210
Masuk akal?

451
00:21:55,210 --> 00:22:00,270
>> Jadi, pada asasnya, jika saya mempunyai hanya satu perkataan,
apa yang saya ingin mencari adalah maks Arg itu,

452
00:22:00,270 --> 00:22:05,385
yang bermaksud, apa yang kelas yang
memberi saya kebarangkalian yang paling tinggi?

453
00:22:05,385 --> 00:22:10,010
Jadi apa kelas yang memberi
saya kebarangkalian tertinggi untuk

454
00:22:10,010 --> 00:22:11,940
kebarangkalian kelas diberikan perkataan.

455
00:22:11,940 --> 00:22:17,610
Jadi dalam kes ini, Gaga diberi "bayi."
Atau Katy diberikan "bayi." Masuk akal?

456
00:22:17,610 --> 00:22:21,040
>> Dan hanya dari Bayes, yang
persamaan yang saya menunjukkan,

457
00:22:21,040 --> 00:22:24,780
kita mewujudkan pecahan ini.

458
00:22:24,780 --> 00:22:28,750
Satu-satunya perkara adalah bahawa anda melihat bahawa
kebarangkalian perkataan diberi

459
00:22:28,750 --> 00:22:31,370
perubahan kelas bergantung
di kelas, bukan?

460
00:22:31,370 --> 00:22:34,260
Bilangan "bayi" s yang saya ada
dalam Gaga adalah berbeza daripada Katy.

461
00:22:34,260 --> 00:22:37,640
Kebarangkalian kelas juga
perubahan kerana ia hanya bilangan

462
00:22:37,640 --> 00:22:39,740
lagu-lagu setiap daripada mereka mempunyai.

463
00:22:39,740 --> 00:22:43,980
>> Tetapi kebarangkalian perkataan itu sendiri
akan menjadi yang sama untuk semua

464
00:22:43,980 --> 00:22:44,740
artis, bukan?

465
00:22:44,740 --> 00:22:47,150
Jadi kebarangkalian dari perkataan ini adalah
hanya, apakah kebarangkalian

466
00:22:47,150 --> 00:22:49,820
melihat perkataan yang dalam
Bahasa Inggeris?

467
00:22:49,820 --> 00:22:51,420
Jadi ia yang sama untuk mereka semua.

468
00:22:51,420 --> 00:22:55,790
Jadi kerana ini adalah tetap, kita boleh hanya
drop ini dan tidak mengambil berat tentang ia.

469
00:22:55,790 --> 00:23:00,230
Jadi ini akan menjadi sebenarnya
persamaan yang kita cari.

470
00:23:00,230 --> 00:23:03,360
>> Dan jika saya mempunyai beberapa perkataan, saya
masih akan perlu terlebih dahulu

471
00:23:03,360 --> 00:23:04,610
kebarangkalian di sini.

472
00:23:04,610 --> 00:23:06,980
Satu-satunya perkara adalah bahawa saya mendarabkan
kebarangkalian

473
00:23:06,980 --> 00:23:08,490
semua kata-kata lain.

474
00:23:08,490 --> 00:23:10,110
Jadi saya mendarabkan mereka semua.

475
00:23:10,110 --> 00:23:12,610
Masuk akal?

476
00:23:12,610 --> 00:23:18,440
Ia kelihatan pelik tetapi pada dasarnya bermakna,
mengira terlebih dahulu daripada kelas, dan

477
00:23:18,440 --> 00:23:22,100
kemudian darab dengan kebarangkalian setiap
perkataan yang di dalam kelas itu.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> Dan anda tahu bahawa kebarangkalian
perkataan diberikan kelas yang akan menjadi

480
00:23:29,150 --> 00:23:34,520
beberapa kali anda melihat perkataan yang dalam
kelas itu, dibahagikan dengan bilangan

481
00:23:34,520 --> 00:23:37,020
kata-kata yang ada di yang
kelas secara amnya.

482
00:23:37,020 --> 00:23:37,990
Masuk akal?

483
00:23:37,990 --> 00:23:41,680
Ia hanya bagaimana "bayi" adalah 2 lebih
bilangan perkataan yang

484
00:23:41,680 --> 00:23:43,020
Saya dalam lirik.

485
00:23:43,020 --> 00:23:45,130
Jadi kekerapan.

486
00:23:45,130 --> 00:23:46,260
>> Tetapi ada satu perkara.

487
00:23:46,260 --> 00:23:51,250
Ingat bagaimana saya telah menunjukkan bahawa
kebarangkalian "bayi" yang lyrics

488
00:23:51,250 --> 00:23:56,350
daripada Katy Perry adalah 0 hanya kerana Katy
Perry tidak mempunyai "bayi" di semua?

489
00:23:56,350 --> 00:24:04,900
Tetapi ia kedengaran agak kasar hanya
hanya mengatakan bahawa lyrics tidak boleh dari

490
00:24:04,900 --> 00:24:10,040
seorang artis hanya kerana mereka tidak mempunyai
bahawa perkataan khususnya pada sebarang masa.

491
00:24:10,040 --> 00:24:13,330
>> Jadi anda hanya boleh mengatakan, baik, jika anda
tidak mempunyai perkataan ini, saya akan

492
00:24:13,330 --> 00:24:15,640
memberikan kebarangkalian yang lebih rendah,
tetapi saya hanya tidak akan

493
00:24:15,640 --> 00:24:17,420
memberi anda 0 merta.

494
00:24:17,420 --> 00:24:21,040
Kerana mungkin ia adalah sesuatu seperti,
"Api, api, api, api," yang merupakan

495
00:24:21,040 --> 00:24:21,990
sama sekali Katy Perry.

496
00:24:21,990 --> 00:24:26,060
Dan kemudian "bayi", dan ia hanya pergi untuk
0 segera kerana terdapat satu

497
00:24:26,060 --> 00:24:27,250
"Bayi."

498
00:24:27,250 --> 00:24:31,440
>> Jadi, pada asasnya apa yang kita lakukan adalah sesuatu
dipanggil Laplace pelicinan.

499
00:24:31,440 --> 00:24:36,260
Dan ini hanya bermakna bahawa saya memberi
beberapa kebarangkalian walaupun dengan kata-kata

500
00:24:36,260 --> 00:24:37,850
yang tidak wujud.

501
00:24:37,850 --> 00:24:43,170
Jadi apa yang saya lakukan ialah apabila saya
pengiraan ini, saya sentiasa menambah 1 kepada

502
00:24:43,170 --> 00:24:44,180
pembilang.

503
00:24:44,180 --> 00:24:48,060
Jadi, walaupun perkataan itu tidak wujud, dalam
kes ini, jika ini adalah 0, saya masih

504
00:24:48,060 --> 00:24:51,250
mengira ini sebagai 1 atas
Jumlah perkataan.

505
00:24:51,250 --> 00:24:55,060
Jika tidak, saya mendapat berapa banyak perkataan
Yang saya ada dan saya menambah 1.

506
00:24:55,060 --> 00:24:58,300
Jadi, saya mengira untuk kedua-dua kes.

507
00:24:58,300 --> 00:25:00,430
Masuk akal?

508
00:25:00,430 --> 00:25:03,060
>> Jadi sekarang mari kita buat beberapa pengekodan.

509
00:25:03,060 --> 00:25:06,440
Saya akan mempunyai untuk melakukannya cukup cepat,
tetapi ia hanya penting untuk anda

510
00:25:06,440 --> 00:25:08,600
lelaki memahami konsep-konsep.

511
00:25:08,600 --> 00:25:13,450
Jadi apa yang kita cuba lakukan
adalah betul-betul melaksanakan ini

512
00:25:13,450 --> 00:25:14,330
perkara yang saya hanya berkata -

513
00:25:14,330 --> 00:25:19,110
Saya mahu anda meletakkan lirik dari
Lady Gaga dan Katy Perry.

514
00:25:19,110 --> 00:25:22,980
Dan program ini akan dapat
mengatakan jika ini lyrics baru dari Gaga

515
00:25:22,980 --> 00:25:24,170
atau Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Masuk akal?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> Jadi saya mempunyai program ini saya akan
untuk memanggil classify.py.

519
00:25:30,710 --> 00:25:31,970
Jadi ini adalah Python.

520
00:25:31,970 --> 00:25:34,210
Ia adalah satu bahasa pengaturcaraan yang baru.

521
00:25:34,210 --> 00:25:38,020
Ia adalah sangat serupa dalam sesetengah
cara-cara untuk C dan PHP.

522
00:25:38,020 --> 00:25:43,180
Ia adalah serupa kerana jika anda mahu
belajar Python selepas mengetahui C, ia

523
00:25:43,180 --> 00:25:46,270
benar-benar tidak bahawa banyak cabaran
hanya kerana Python adalah lebih mudah

524
00:25:46,270 --> 00:25:47,520
daripada C, pertama sekali.

525
00:25:47,520 --> 00:25:49,370
Dan banyak perkara-perkara yang sudah
dilaksanakan untuk anda.

526
00:25:49,370 --> 00:25:56,820
Jadi bagaimana seperti PHP mempunyai fungsi-fungsi yang
menyusun senarai, atau menambah sesuatu

527
00:25:56,820 --> 00:25:58,780
kepada pelbagai, atau blah, blah, blah.

528
00:25:58,780 --> 00:26:00,690
Python mempunyai semua orang-orang juga.

529
00:26:00,690 --> 00:26:05,960
>> Jadi saya hanya akan menerangkan dengan cepat
bagaimana kita boleh melakukan klasifikasi

530
00:26:05,960 --> 00:26:07,860
masalah bagi di sini.

531
00:26:07,860 --> 00:26:13,230
Jadi mari kita mengatakan bahawa dalam kes ini, saya mempunyai
lirik dari Gaga dan Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Cara yang saya mempunyai orang-orang lyrics ialah
perkataan pertama lirik adalah

533
00:26:21,880 --> 00:26:25,250
nama artis, dan
selebihnya adalah lirik.

534
00:26:25,250 --> 00:26:29,470
Jadi mari kita mengatakan bahawa saya mempunyai senarai ini dalam
yang mana satu yang pertama adalah lirik oleh Gaga.

535
00:26:29,470 --> 00:26:31,930
Jadi di sini saya di landasan yang betul.

536
00:26:31,930 --> 00:26:35,270
Dan yang seterusnya adalah Katy, dan
ia juga mempunyai lirik.

537
00:26:35,270 --> 00:26:38,040
>> Jadi ini adalah bagaimana anda mengisytiharkan
pembolehubah dalam Python.

538
00:26:38,040 --> 00:26:40,200
Anda tidak perlu memberikan jenis data.

539
00:26:40,200 --> 00:26:43,150
Anda hanya menulis "lyrics,"
jenis suka dalam PHP.

540
00:26:43,150 --> 00:26:44,890
Masuk akal?

541
00:26:44,890 --> 00:26:47,770
>> Jadi apakah perkara-perkara yang saya perlu
mengira dapat mengira

542
00:26:47,770 --> 00:26:49,360
kebarangkalian?

543
00:26:49,360 --> 00:26:55,110
Saya perlu mengira "prior"
setiap yang berbeza

544
00:26:55,110 --> 00:26:56,710
kelas yang aku dapat.

545
00:26:56,710 --> 00:27:06,680
Saya perlu mengira "posteriors,"
atau cukup banyak kebarangkalian

546
00:27:06,680 --> 00:27:12,150
setiap perkataan yang berbeza yang
Saya boleh mempunyai untuk setiap artis.

547
00:27:12,150 --> 00:27:17,210
Jadi dalam Gaga, sebagai contoh, saya akan
untuk mempunyai senarai berapa kali saya melihat

548
00:27:17,210 --> 00:27:19,250
setiap satu daripada kata-kata.

549
00:27:19,250 --> 00:27:20,760
Masuk akal?

550
00:27:20,760 --> 00:27:25,370
>> Dan akhirnya, saya hanya akan mempunyai
senarai yang dikenali sebagai "perkataan" yang hanya akan

551
00:27:25,370 --> 00:27:29,780
mempunyai berapa banyak perkataan saya
ada untuk setiap artis.

552
00:27:29,780 --> 00:27:33,760
Jadi untuk Gaga, sebagai contoh, apabila saya melihat
lirik, saya telah, saya fikir, 24

553
00:27:33,760 --> 00:27:34,750
perkataan dalam jumlah.

554
00:27:34,750 --> 00:27:38,970
Jadi senarai ini hanya akan mempunyai
Gaga 24, dan Katy nombor lain.

555
00:27:38,970 --> 00:27:40,130
Masuk akal?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> Jadi sekarang, sebenarnya, mari kita
pergi ke pengekodan.

558
00:27:42,530 --> 00:27:45,270
Jadi dalam Python, anda boleh sebenarnya
kembali sekumpulan berbeza

559
00:27:45,270 --> 00:27:46,630
perkara-perkara dari satu majlis.

560
00:27:46,630 --> 00:27:50,810
Jadi saya akan mewujudkan fungsi ini
dipanggil "bersyarat," yang akan

561
00:27:50,810 --> 00:27:53,890
untuk kembali semua perkara-perkara ini,
"Prior," yang "kebarangkalian," dan

562
00:27:53,890 --> 00:28:05,690
"Kata-kata." Jadi "bersyarat," dan ia
akan memanggil ke dalam "lyrics."

563
00:28:05,690 --> 00:28:11,510
>> Jadi sekarang saya mahu anda untuk benar-benar
menulis fungsi ini.

564
00:28:11,510 --> 00:28:17,750
Jadi cara yang saya boleh menulis ini
fungsi adalah saya hanya ditakrifkan ini

565
00:28:17,750 --> 00:28:20,620
berfungsi dengan "def." Jadi saya "def
bersyarat, "dan ia mengambil

566
00:28:20,620 --> 00:28:28,700
"Lyrics." Dan apa ini akan melakukan
adalah, pertama sekali, saya mempunyai prior saya

567
00:28:28,700 --> 00:28:31,030
yang saya mahu untuk mengira.

568
00:28:31,030 --> 00:28:34,330
>> Jadi cara yang boleh saya lakukan ini adalah mewujudkan
kamus dalam Python, yang

569
00:28:34,330 --> 00:28:37,320
adalah cukup banyak perkara yang sama seperti hash
meja, atau ia seperti satu lelaran

570
00:28:37,320 --> 00:28:40,480
array dalam PHP.

571
00:28:40,480 --> 00:28:44,150
Ini adalah bagaimana saya mengisytiharkan kamus.

572
00:28:44,150 --> 00:28:53,580
Dan pada dasarnya apa ini bermakna bahawa
prior daripada Gaga adalah 0.5, sebagai contoh, jika

573
00:28:53,580 --> 00:28:57,200
50% dalam lirik lagu dari
Gaga, 50% adalah dari Katy.

574
00:28:57,200 --> 00:28:58,450
Masuk akal?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Jadi saya perlu memikirkan bagaimana
untuk mengira prior.

577
00:29:03,680 --> 00:29:07,120
>> Orang-orang yang akan datang yang saya lakukan, juga,
adalah kebarangkalian dan kata-kata.

578
00:29:07,120 --> 00:29:17,100
Jadi kebarangkalian Gaga adalah senarai
semua kebarangkalian bahawa saya

579
00:29:17,100 --> 00:29:19,160
ada untuk setiap satu daripada kata-kata untuk Gaga.

580
00:29:19,160 --> 00:29:23,880
Jadi, jika saya pergi ke kebarangkalian Gaga
"Bayi," sebagai contoh, ia akan memberi saya

581
00:29:23,880 --> 00:29:28,750
sesuatu seperti 2 lebih daripada 24 dalam kes itu.

582
00:29:28,750 --> 00:29:30,070
Masuk akal?

583
00:29:30,070 --> 00:29:36,120
Jadi saya pergi ke "kebarangkalian," pergi ke
"Gaga" baldi yang mempunyai senarai semua

584
00:29:36,120 --> 00:29:40,550
perkataan Gaga, maka saya pergi ke "bayi,"
dan saya melihat kebarangkalian.

585
00:29:40,550 --> 00:29:45,940
>> Dan akhirnya saya ini
"Kata-kata" kamus.

586
00:29:45,940 --> 00:29:53,620
Jadi di sini, "kebarangkalian." Dan kemudian
"Kata-kata." Jadi, jika saya lakukan "kata-kata," "Gaga,"

587
00:29:53,620 --> 00:29:58,330
apa yang akan berlaku ialah ia
akan memberi saya 24, mengatakan bahawa saya

588
00:29:58,330 --> 00:30:01,990
mempunyai 24 perkataan dalam lirik dari Gaga.

589
00:30:01,990 --> 00:30:04,110
Masuk akal?

590
00:30:04,110 --> 00:30:07,070
Jadi di sini, "kata-kata" sama dah-dah-dah.

591
00:30:07,070 --> 00:30:07,620
OK

592
00:30:07,620 --> 00:30:12,210
>> Jadi apa yang saya akan lakukan adalah saya akan
melelar atas setiap lirik, jadi

593
00:30:12,210 --> 00:30:14,490
setiap daripada tali-tali yang
Saya ada dalam senarai.

594
00:30:14,490 --> 00:30:18,040
Dan saya akan mengira perkara-perkara
bagi setiap calon.

595
00:30:18,040 --> 00:30:19,950
Masuk akal?

596
00:30:19,950 --> 00:30:21,700
Jadi saya perlu melakukan untuk gelung.

597
00:30:21,700 --> 00:30:26,300
>> Jadi dalam Python apa yang boleh saya lakukan adalah "bagi talian
dalam lirik. "Perkara yang sama sebagai

598
00:30:26,300 --> 00:30:28,000
"Untuk setiap" Kenyataan dalam PHP.

599
00:30:28,000 --> 00:30:33,420
Ingat bagaimana jika ia adalah PHP yang saya dapat
berkata "bagi setiap lyrics sebagai

600
00:30:33,420 --> 00:30:35,220
line. "Masuk akal?

601
00:30:35,220 --> 00:30:38,900
Jadi, saya mengambil setiap satu daripada garisan, dalam ini
kes, tali ini dan seterusnya

602
00:30:38,900 --> 00:30:44,540
rentetan demikian bagi setiap garis apa yang saya
akan lakukan ialah pertama, saya akan

603
00:30:44,540 --> 00:30:49,150
berpecah baris ini ke dalam senarai
kata-kata yang dipisahkan oleh ruang.

604
00:30:49,150 --> 00:30:53,730
>> Jadi perkara yang sejuk kira-kira Python ialah
anda boleh hanya Google seperti "bagaimana boleh saya

605
00:30:53,730 --> 00:30:58,220
berpecah rentetan ke dalam kata-kata? "Dan ia
akan memberitahu anda bagaimana untuk melakukannya.

606
00:30:58,220 --> 00:31:04,890
Dan cara untuk melakukannya, ia hanya "talian
= Line.split () "dan ia pada dasarnya

607
00:31:04,890 --> 00:31:08,640
akan memberikan anda senarai dengan
setiap perkataan di sini.

608
00:31:08,640 --> 00:31:09,620
Masuk akal?

609
00:31:09,620 --> 00:31:15,870
Jadi sekarang yang saya lakukan yang saya ingin tahu
yang merupakan penyanyi lagu itu.

610
00:31:15,870 --> 00:31:20,130
Dan untuk itu saya hanya perlu mendapatkan
Elemen pertama array, bukan?

611
00:31:20,130 --> 00:31:26,390
Jadi saya hanya boleh mengatakan bahawa saya "penyanyi
= Line (0) "Masuk akal?

612
00:31:26,390 --> 00:31:32,010
>> Dan kemudian apa yang saya perlu lakukan ialah, pertama
semua, saya akan mengemas kini berapa ramai

613
00:31:32,010 --> 00:31:36,130
kata-kata saya di bawah "Gaga." jadi saya hanya
akan mengira berapa banyak kata-kata saya

614
00:31:36,130 --> 00:31:38,690
ada di dalam senarai ini, bukan?

615
00:31:38,690 --> 00:31:41,910
Kerana ini adalah berapa banyak perkataan saya
dalam lirik dan saya hanya akan

616
00:31:41,910 --> 00:31:44,120
menambah kepada "Gaga" array.

617
00:31:44,120 --> 00:31:47,090
Adakah ini masuk akal?

618
00:31:47,090 --> 00:31:49,010
Tidak memberi tumpuan terlalu banyak pada sintaks.

619
00:31:49,010 --> 00:31:50,430
Berfikir lebih lanjut mengenai konsep-konsep.

620
00:31:50,430 --> 00:31:52,400
Itu sebahagian yang paling penting.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> Jadi apa yang boleh saya lakukan adalah jika "Gaga" adalah
telah berada dalam senarai itu, jadi "jika penyanyi dalam

623
00:32:00,260 --> 00:32:03,190
perkataan "yang bermaksud bahawa saya sudah
mempunyai perkataan dengan Gaga.

624
00:32:03,190 --> 00:32:06,640
Saya hanya mahu untuk menambah tambahan
Perkataan-perkataan.

625
00:32:06,640 --> 00:32:15,810
Jadi apa yang saya lakukan ialah "kata-kata (penyanyi)
+ = Len (line) - 1 ".

626
00:32:15,810 --> 00:32:18,250
Dan kemudian saya hanya boleh melakukan perkara yang
panjang baris.

627
00:32:18,250 --> 00:32:21,860
Jadi bagaimana banyak unsur saya
ada di dalam array.

628
00:32:21,860 --> 00:32:27,060
Dan saya perlu melakukan tolak 1 hanya kerana
elemen pertama array hanya

629
00:32:27,060 --> 00:32:29,180
seorang penyanyi dan mereka yang tidak adalah lyrics.

630
00:32:29,180 --> 00:32:31,420
Masuk akal?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "Lagi," ia bermakna yang saya mahu sebenarnya
memasukkan Gaga ke dalam senarai.

633
00:32:35,820 --> 00:32:45,990
Jadi saya hanya melakukan "kata-kata (penyanyi)
= Len (line) - 1, "maaf.

634
00:32:45,990 --> 00:32:49,200
Jadi satu-satunya perbezaan antara kedua-dua
garis adalah yang satu ini, ia tidak

635
00:32:49,200 --> 00:32:51,080
wujud lagi, jadi saya hanya
Memulakan ia.

636
00:32:51,080 --> 00:32:53,820
Yang ini saya benar-benar menambah.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
Jadi ini menambahkan kepadanya kata-kata.

639
00:32:59,480 --> 00:33:03,040
>> Sekarang saya ingin menambah kepada prior.

640
00:33:03,040 --> 00:33:05,480
Jadi bagaimana saya mengira prior?

641
00:33:05,480 --> 00:33:11,580
Yang prior boleh dikira
oleh berapa kali.

642
00:33:11,580 --> 00:33:15,340
Jadi berapa kali anda melihat penyanyi yang
di kalangan semua penyanyi yang anda

643
00:33:15,340 --> 00:33:16,380
mempunyai, bukan?

644
00:33:16,380 --> 00:33:18,810
Jadi bagi Gaga dan Katy Perry,
dalam kes ini, saya melihat Gaga

645
00:33:18,810 --> 00:33:20,570
sekali, Katy Perry sekali.

646
00:33:20,570 --> 00:33:23,320
>> Jadi, pada asasnya prior untuk Gaga
dan untuk Katy Perry akan

647
00:33:23,320 --> 00:33:24,390
hanya menjadi satu, kan?

648
00:33:24,390 --> 00:33:26,500
Anda hanya berapa kali
Saya melihat artis.

649
00:33:26,500 --> 00:33:28,740
Jadi ini adalah sangat mudah untuk mengira.

650
00:33:28,740 --> 00:33:34,100
Saya boleh sesuatu yang hanya sama seperti seperti "jika
penyanyi dalam prior, "Saya hanya akan

651
00:33:34,100 --> 00:33:38,970
untuk menambah 1 ke kotak prior mereka.

652
00:33:38,970 --> 00:33:51,000
Jadi, "prior (menyanyi)" + = 1 "dan kemudian" lain "
Saya akan melakukan "prior (penyanyi)

653
00:33:51,000 --> 00:33:55,000
= 1. "Masuk akal?

654
00:33:55,000 --> 00:34:00,080
>> Jadi, jika ia tidak wujud saya hanya meletakkan
sebagai 1, jika tidak, saya hanya tambah 1.

655
00:34:00,080 --> 00:34:11,280
OK, jadi sekarang semua yang saya telah meninggalkan untuk melakukan
juga menambah setiap perkataan kepada

656
00:34:11,280 --> 00:34:12,290
kebarangkalian.

657
00:34:12,290 --> 00:34:14,889
Jadi saya perlu mengira berapa kali
Saya melihat setiap satu daripada kata-kata.

658
00:34:14,889 --> 00:34:18,780
Jadi saya hanya perlu melakukan satu lagi
untuk gelung dalam baris.

659
00:34:18,780 --> 00:34:25,190
>> Perkara pertama yang Jadi saya akan lakukan ialah
memeriksa jika penyanyi yang sudah mempunyai

660
00:34:25,190 --> 00:34:26,969
kebarangkalian pelbagai.

661
00:34:26,969 --> 00:34:31,739
Jadi saya memeriksa jika penyanyi itu tidak
mempunyai pelbagai kebarangkalian, saya hanya

662
00:34:31,739 --> 00:34:34,480
akan memulakan satu untuk mereka.

663
00:34:34,480 --> 00:34:36,400
Ia bukan juga satu pameran, maaf,
ia kamus.

664
00:34:36,400 --> 00:34:43,080
Jadi kebarangkalian penyanyi akan
menjadi kamus terbuka, jadi saya

665
00:34:43,080 --> 00:34:45,830
hanya Memulakan kamus untuk itu.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> Dan sekarang saya benar-benar boleh melakukan untuk gelung
untuk mengira setiap satu daripada kata-kata '

668
00:34:58,330 --> 00:35:00,604
kebarangkalian.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
Jadi apa yang boleh saya lakukan adalah untuk gelung.

671
00:35:04,160 --> 00:35:06,590
Jadi, saya hanya akan melelar
lebih array.

672
00:35:06,590 --> 00:35:15,320
Oleh itu cara yang boleh saya lakukan bahawa dalam Python
adalah "untuk i dalam jarak." Dari 1

673
00:35:15,320 --> 00:35:19,200
kerana saya ingin memulakan dalam kedua
elemen kerana pertama adalah

674
00:35:19,200 --> 00:35:20,260
nama penyanyi.

675
00:35:20,260 --> 00:35:24,990
Jadi dari satu sehingga ke
panjang baris.

676
00:35:24,990 --> 00:35:29,760
Dan apabila saya berkisar ia sebenarnya pergi dari
seperti di sini dari 1 hingga len daripada

677
00:35:29,760 --> 00:35:30,740
garis tolak 1.

678
00:35:30,740 --> 00:35:33,810
Jadi ia sudah tidak bahawa perkara yang telah melakukan
n tolak 1 untuk tatasusunan yang sangat

679
00:35:33,810 --> 00:35:35,500
mudah.

680
00:35:35,500 --> 00:35:37,850
Masuk akal?

681
00:35:37,850 --> 00:35:42,770
>> Jadi bagi setiap ini, apa yang saya akan
lakukan ialah, seperti dalam yang lain,

682
00:35:42,770 --> 00:35:50,320
Saya akan memeriksa jika perkataan dalam ini
kedudukan selari telah pun

683
00:35:50,320 --> 00:35:51,570
kebarangkalian.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
Dan kemudian seperti yang saya katakan di sini, kebarangkalian
kata-kata, seperti dalam saya meletakkan

686
00:35:57,260 --> 00:35:58,400
"Kebarangkalian (penyanyi)".

687
00:35:58,400 --> 00:35:59,390
Jadi nama penyanyi.

688
00:35:59,390 --> 00:36:03,450
Jadi, jika ia sudah di
"Probabilit (penyanyi)", ia bermakna bahawa saya

689
00:36:03,450 --> 00:36:11,960
mahu menambah 1 kepadanya, jadi saya akan
melakukan "kebarangkalian (penyanyi)", dan

690
00:36:11,960 --> 00:36:14,100
perkataan dipanggil "talian (i)".

691
00:36:14,100 --> 00:36:22,630
Saya akan tambah 1 dan "lain" Saya hanya
akan memulakan ia dengan 1.

692
00:36:22,630 --> 00:36:23,880
"Line (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Masuk akal?

695
00:36:28,420 --> 00:36:30,180
>> Jadi, saya dikira semua tatasusunan.

696
00:36:30,180 --> 00:36:36,580
Jadi, apa yang saya perlu lakukan untuk
satu ini hanya "kembali prior,

697
00:36:36,580 --> 00:36:43,230
kebarangkalian dan kata-kata. "Mari kita
melihat jika terdapat apa-apa, OK.

698
00:36:43,230 --> 00:36:45,690
Ia seolah-olah semuanya bekerja setakat ini.

699
00:36:45,690 --> 00:36:46,900
Jadi, yang masuk akal?

700
00:36:46,900 --> 00:36:47,750
Dalam beberapa cara?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
Jadi sekarang saya mempunyai semua kebarangkalian.

703
00:36:51,980 --> 00:36:55,100
Jadi sekarang hanya perkara yang aku telah meninggalkan
adalah hanya untuk perkara yang yang

704
00:36:55,100 --> 00:36:58,650
mengira darab semua
Kebarangkalian apabila saya lirik.

705
00:36:58,650 --> 00:37:06,270
>> Jadi mari kita mengatakan bahawa saya mahu sekarang panggilan
fungsi ini "mengelaskan ()" dan

706
00:37:06,270 --> 00:37:08,880
perkara fungsi yang mengambil
hanya pertengkaran.

707
00:37:08,880 --> 00:37:13,170
Katakan "Bayi, saya terbakar" dan ia
akan memikirkan apakah

708
00:37:13,170 --> 00:37:14,490
Kebarangkalian ini adalah Gaga?

709
00:37:14,490 --> 00:37:16,405
Apakah kebarangkalian
bahawa ini adalah Katie?

710
00:37:16,405 --> 00:37:19,690
Bunyi yang baik?

711
00:37:19,690 --> 00:37:25,750
Jadi saya hanya akan perlu untuk mewujudkan
fungsi baru yang dinamakan "mengelaskan ()" dan

712
00:37:25,750 --> 00:37:29,180
ia akan mengambil beberapa
lyrics juga.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
Dan selain lirik saya juga
perlu menghantar prior, yang

715
00:37:36,160 --> 00:37:37,700
kebarangkalian dan kata-kata.

716
00:37:37,700 --> 00:37:44,000
Jadi, saya akan menghantar lirik, prior,
kebarangkalian, kata-kata.

717
00:37:44,000 --> 00:37:51,840
>> Jadi ini adalah mengambil lyrics, prior,
kebarangkalian, kata-kata.

718
00:37:51,840 --> 00:37:53,530
Jadi, apa yang ia lakukan?

719
00:37:53,530 --> 00:37:57,180
Ia pada dasarnya akan melalui semua
calon-calon yang mungkin anda

720
00:37:57,180 --> 00:37:58,510
mempunyai sebagai penyanyi.

721
00:37:58,510 --> 00:37:59,425
Dan di mana orang-orang calon?

722
00:37:59,425 --> 00:38:01,020
Mereka Dalam prior, bukan?

723
00:38:01,020 --> 00:38:02,710
Jadi saya mempunyai semua orang-orang di sana.

724
00:38:02,710 --> 00:38:07,870
Jadi saya akan mempunyai kamus
daripada semua calon mungkin.

725
00:38:07,870 --> 00:38:14,220
Dan kemudian bagi setiap calon dalam
prior, jadi ia bermakna bahawa ia akan

726
00:38:14,220 --> 00:38:17,740
menjadi Gaga, Katie jika saya mempunyai
lebih banyak ia akan menjadi lebih.

727
00:38:17,740 --> 00:38:20,410
Saya akan mula mengira
kebarangkalian ini.

728
00:38:20,410 --> 00:38:28,310
Kebarangkalian seperti yang kita lihat dalam
PowerPoint adalah masa-masa sebelum ini

729
00:38:28,310 --> 00:38:30,800
produk dari masing-masing
kebarangkalian lain.

730
00:38:30,800 --> 00:38:32,520
>> Jadi saya boleh melakukan perkara yang sama di sini.

731
00:38:32,520 --> 00:38:36,330
Saya hanya boleh melakukan kebarangkalian adalah
pada mulanya hanya sebelumnya.

732
00:38:36,330 --> 00:38:40,340
Jadi prior calon.

733
00:38:40,340 --> 00:38:40,870
Betul?

734
00:38:40,870 --> 00:38:45,360
Dan sekarang saya perlu melelar atas semua
kata-kata yang saya mempunyai dalam lirik sebagai

735
00:38:45,360 --> 00:38:48,820
dapat menambah kebarangkalian
bagi setiap daripada mereka, OK?

736
00:38:48,820 --> 00:38:57,900
Jadi, "perkataan dalam lirik" apa yang saya akan
lakukan adalah, jika perkataan ini adalah dalam

737
00:38:57,900 --> 00:39:01,640
"Kebarangkalian (calon)", yang
bermakna ia kata bahawa

738
00:39:01,640 --> 00:39:03,640
calon mempunyai dalam lyrics mereka -

739
00:39:03,640 --> 00:39:05,940
sebagai contoh, "bayi" untuk Gaga -

740
00:39:05,940 --> 00:39:11,710
apa yang saya akan lakukan ialah bahawa
kebarangkalian akan digandakan

741
00:39:11,710 --> 00:39:22,420
oleh 1 campur kebarangkalian
calon bagi perkataan itu.

742
00:39:22,420 --> 00:39:25,710
Dan ia dipanggil "dengan perkataan".

743
00:39:25,710 --> 00:39:32,440
Ini dibahagikan dengan jumlah perkataan
yang saya ada untuk calon itu.

744
00:39:32,440 --> 00:39:37,450
Jumlah perkataan yang saya mempunyai
untuk penyanyi yang saya lihat.

745
00:39:37,450 --> 00:39:40,290
>> "Lagi." ia bermakna ia adalah satu perkataan baru
jadi ia akan menjadi seperti sebagai contoh

746
00:39:40,290 --> 00:39:41,860
"Api" untuk Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Jadi saya hanya mahu melakukan lebih 1
"Dengan perkataan (calon)".

748
00:39:45,760 --> 00:39:47,710
Jadi, saya tidak mahu meletakkan istilah ini di sini.

749
00:39:47,710 --> 00:39:50,010
>> Jadi ia akan menjadi pada dasarnya
menyalin dan menampal ini.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Tetapi saya akan memadam bahagian ini.

752
00:39:56,000 --> 00:39:57,610
Jadi ia hanya akan menjadi lebih 1 itu.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Bunyi yang baik?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
Dan sekarang pada akhirnya, saya hanya akan
mencetak nama calon dan

757
00:40:09,700 --> 00:40:15,750
kebarangkalian bahawa anda mempunyai satu
mempunyai S pada lirik mereka.

758
00:40:15,750 --> 00:40:16,200
Masuk akal?

759
00:40:16,200 --> 00:40:18,390
Dan saya benar-benar melakukannya tidak
perlu kamus ini.

760
00:40:18,390 --> 00:40:19,510
Masuk akal?

761
00:40:19,510 --> 00:40:21,810
>> Jadi, mari kita lihat jika ini sebenarnya berfungsi.

762
00:40:21,810 --> 00:40:24,880
Jadi jika saya menjalankan ini, ia tidak berjaya.

763
00:40:24,880 --> 00:40:26,130
Tunggu satu saat.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Perkataan (calon)", "kata-kata (calon)",
itulah

766
00:40:31,720 --> 00:40:33,750
nama array.

767
00:40:33,750 --> 00:40:41,435
OK Jadi, ia berkata ada beberapa bug
untuk calon dalam prior.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Biarlah saya hanya berehat sedikit.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
Mari kita cuba.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> Jadi ia memberi Katy Perry telah ini
kebarangkalian ini kali 10 kepada

774
00:40:58,710 --> 00:41:02,200
tolak 7, dan Gaga telah ini
kali 10 untuk tolak 6.

775
00:41:02,200 --> 00:41:05,610
Jadi anda lihat ia menunjukkan bahawa Gaga
mempunyai kebarangkalian yang lebih tinggi.

776
00:41:05,610 --> 00:41:09,260
Jadi "Baby, Saya kini di neraka" adalah
mungkin sebuah lagu Gaga.

777
00:41:09,260 --> 00:41:10,580
Masuk akal?

778
00:41:10,580 --> 00:41:12,030
Jadi ini adalah apa yang kita lakukan.

779
00:41:12,030 --> 00:41:16,010
>> Kod ini akan disiarkan dalam talian,
jadi anda semua boleh check it out.

780
00:41:16,010 --> 00:41:20,720
Mungkin menggunakan beberapa untuk jika anda mahu
melakukan projek atau sesuatu yang serupa.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
Ini hanya untuk menunjukkan
apa pengiraan

783
00:41:25,930 --> 00:41:27,230
kod linguistik kelihatan seperti.

784
00:41:27,230 --> 00:41:33,040
Tetapi sekarang mari kita pergi kepada lebih
barangan yang tinggi.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> Jadi masalah lain saya
bercakap tentang -

787
00:41:35,150 --> 00:41:37,550
masalah segmentasi
adalah yang pertama daripada mereka.

788
00:41:37,550 --> 00:41:40,820
Jadi anda ada di sini Jepun.

789
00:41:40,820 --> 00:41:43,420
Dan kemudian anda melihat bahawa
tidak ada ruang.

790
00:41:43,420 --> 00:41:49,110
Jadi ini adalah pada dasarnya bermakna bahawa itu
bahagian atas kerusi, bukan?

791
00:41:49,110 --> 00:41:50,550
Anda bercakap Jepun?

792
00:41:50,550 --> 00:41:52,840
Ia adalah atas kerusi, bukan?

793
00:41:52,840 --> 00:41:54,480
>> PELAJAR: Saya tidak tahu apa yang
kanji yang lebih ada.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS Freitas: Ia [BERCAKAP JEPUN]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
Jadi pada asasnya bermakna pengerusi atas.

797
00:42:00,960 --> 00:42:03,620
Jadi, jika anda terpaksa meletakkan ruang yang
ia akan berada di sini.

798
00:42:03,620 --> 00:42:05,970
Dan kemudian anda perlu [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Yang pada asasnya bermakna Mr Ueda.

800
00:42:09,040 --> 00:42:13,180
Dan anda melihat bahawa "Ueda" dan anda mempunyai
ruang dan kemudian "san." Jadi anda lihat bahawa

801
00:42:13,180 --> 00:42:15,470
di sini anda "ue" adalah seperti dengan sendirinya.

802
00:42:15,470 --> 00:42:17,750
Dan di sini ia mempunyai watak yang
sebelahnya.

803
00:42:17,750 --> 00:42:21,720
>> Jadi ia bukan seperti dalam bahasa-bahasa
watak-watak yang bermakna perkataan supaya anda

804
00:42:21,720 --> 00:42:23,980
hanya meletakkan banyak ruang.

805
00:42:23,980 --> 00:42:25,500
Watak berkaitan antara satu sama lain.

806
00:42:25,500 --> 00:42:28,680
Dan mereka boleh bersama-sama
seperti dua, tiga, satu.

807
00:42:28,680 --> 00:42:34,520
Jadi anda sebenarnya perlu mewujudkan beberapa jenis
cara meletakkan mereka ruang.

808
00:42:34,520 --> 00:42:38,850
>> Dan perkara ini adalah bahawa apabila anda mendapat
data dari bahasa-bahasa Asia,

809
00:42:38,850 --> 00:42:40,580
segala-galanya datang unsegmented.

810
00:42:40,580 --> 00:42:45,940
Oleh kerana tiada siapa yang menulis Jepun
atau Cina menulis dengan ruang.

811
00:42:45,940 --> 00:42:48,200
Setiap kali anda menulis Cina,
Jepun anda hanya menulis segala-galanya

812
00:42:48,200 --> 00:42:48,710
tanpa ruang.

813
00:42:48,710 --> 00:42:52,060
Ia juga tidak masuk akal
untuk meletakkan ruang.

814
00:42:52,060 --> 00:42:57,960
Demikian maka apabila anda mendapat data dari, beberapa
Bahasa Asia Timur, jika anda mahu

815
00:42:57,960 --> 00:43:00,760
sebenarnya melakukan sesuatu dengan yang
anda perlu segmen pertama.

816
00:43:00,760 --> 00:43:05,130
>> Fikirkan melakukan contoh
lirik tanpa ruang.

817
00:43:05,130 --> 00:43:07,950
Jadi satu-satunya lirik yang anda mempunyai
akan ayat, betul?

818
00:43:07,950 --> 00:43:09,470
Dipisahkan oleh tempoh.

819
00:43:09,470 --> 00:43:13,930
Tetapi mempunyai hanya hukuman yang akan
tidak benar-benar membantu dengan memberi maklumat

820
00:43:13,930 --> 00:43:17,760
daripada yang mereka lirik lagu oleh.

821
00:43:17,760 --> 00:43:18,120
Betul?

822
00:43:18,120 --> 00:43:20,010
Jadi anda perlu meletakkan ruang pertama.

823
00:43:20,010 --> 00:43:21,990
Jadi bagaimana anda boleh berbuat demikian?

824
00:43:21,990 --> 00:43:24,920
>> Jadi kemudian datang idea bahasa
model yang benar-benar adalah sesuatu

825
00:43:24,920 --> 00:43:26,870
penting bagi pengiraan
linguistik.

826
00:43:26,870 --> 00:43:32,790
Jadi model bahasa pada asasnya
jadual kebarangkalian bahawa rancangan

827
00:43:32,790 --> 00:43:36,260
pertama sekali apakah kebarangkalian
mempunyai perkataan dalam bahasa?

828
00:43:36,260 --> 00:43:39,590
Jadi menunjukkan bagaimana kerap perkataan adalah.

829
00:43:39,590 --> 00:43:43,130
Dan kemudian juga menunjukkan hubungan
antara perkataan dalam ayat.

830
00:43:43,130 --> 00:43:51,500
>> Jadi idea utama adalah, jika orang yang tidak dikenali datang
kepada kamu dan berkata hukuman kepada

831
00:43:51,500 --> 00:43:55,600
anda, apakah kebarangkalian di mana,
Sebagai contoh, "ini adalah adik saya [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
adalah ayat yang orang tersebut?

833
00:43:57,480 --> 00:44:00,380
Jadi jelas beberapa ayat adalah
lebih biasa daripada yang lain.

834
00:44:00,380 --> 00:44:04,450
Sebagai contoh, "selamat pagi," atau "baik
malam, "atau" hey di sana, "adalah lebih

835
00:44:04,450 --> 00:44:08,260
biasa daripada yang ayat
bahawa kita mempunyai bahasa Inggeris.

836
00:44:08,260 --> 00:44:11,060
Jadi kenapa mereka ayat
lebih kerap?

837
00:44:11,060 --> 00:44:14,060
>> Pertama sekali, ia adalah kerana anda mempunyai
kata-kata yang lebih kerap.

838
00:44:14,060 --> 00:44:20,180
Jadi, sebagai contoh, jika anda berkata, anjing itu adalah
besar, dan anjing itu adalah gergasi, anda

839
00:44:20,180 --> 00:44:23,880
biasanya mungkin mendengar anjing itu adalah besar
lebih kerap kerana "besar" adalah lebih

840
00:44:23,880 --> 00:44:27,260
kerap dalam Bahasa Inggeris daripada "raksasa."
Jadi, salah satu

841
00:44:27,260 --> 00:44:30,100
perkara ini adalah kekerapan perkataan.

842
00:44:30,100 --> 00:44:34,490
>> Perkara kedua yang benar-benar
penting sahaja

843
00:44:34,490 --> 00:44:35,490
perintah perkataan.

844
00:44:35,490 --> 00:44:39,500
Jadi, ia adalah biasa untuk mengatakan "kucing itu
di dalam kotak. "tetapi anda biasanya tidak

845
00:44:39,500 --> 00:44:44,250
lihat dalam "kotak Bahagian dalam adalah kucing." jadi
anda melihat bahawa terdapat beberapa kepentingan

846
00:44:44,250 --> 00:44:46,030
dalam susunan kata-kata.

847
00:44:46,030 --> 00:44:50,160
Anda tidak boleh hanya mengatakan bahawa kedua-dua
ayat mempunyai kebarangkalian yang sama

848
00:44:50,160 --> 00:44:53,010
hanya kerana mereka mempunyai perkataan yang sama.

849
00:44:53,010 --> 00:44:55,550
Anda sebenarnya perlu mengambil berat
tentang perintah juga.

850
00:44:55,550 --> 00:44:57,650
Masuk akal?

851
00:44:57,650 --> 00:44:59,490
>> Jadi apa yang kita lakukan?

852
00:44:59,490 --> 00:45:01,550
Jadi apa yang saya mungkin cuba untuk mendapatkan anda?

853
00:45:01,550 --> 00:45:04,400
Saya cuba untuk mendapatkan apa yang kita
memanggil model n-gram.

854
00:45:04,400 --> 00:45:09,095
Jadi model n-gram pada dasarnya menganggap
bahawa bagi setiap perkataan yang

855
00:45:09,095 --> 00:45:10,960
anda mempunyai dalam ayat.

856
00:45:10,960 --> 00:45:15,020
Ia kebarangkalian mempunyai yang
perkataan ada bergantung bukan sahaja kepada yang

857
00:45:15,020 --> 00:45:18,395
kekerapan bahawa perkataan dalam bahasa itu,
tetapi juga pada kata-kata yang

858
00:45:18,395 --> 00:45:19,860
sedang mengelilinginya.

859
00:45:19,860 --> 00:45:25,810
>> Jadi, sebagai contoh, biasanya apabila anda melihat
sesuatu seperti pada atau di anda

860
00:45:25,810 --> 00:45:28,040
mungkin akan melihat
kata nama selepas itu, bukan?

861
00:45:28,040 --> 00:45:31,750
Kerana apabila anda mempunyai kata depan
biasanya ia mengambil kata nama selepas itu.

862
00:45:31,750 --> 00:45:35,540
Atau jika anda mempunyai kata kerja transitif yang
anda biasanya akan

863
00:45:35,540 --> 00:45:36,630
mempunyai frasa nama.

864
00:45:36,630 --> 00:45:38,780
Jadi ia akan mempunyai kata nama
di suatu tempat di sekelilingnya.

865
00:45:38,780 --> 00:45:44,950
>> Jadi, pada dasarnya, apa yang ia adalah bahawa ia
menganggap kebarangkalian mempunyai

866
00:45:44,950 --> 00:45:47,960
perkataan bersebelahan antara satu sama lain, apabila
anda mengira

867
00:45:47,960 --> 00:45:49,050
kebarangkalian ayat.

868
00:45:49,050 --> 00:45:50,960
Dan itulah yang bahasa
model pada dasarnya.

869
00:45:50,960 --> 00:45:54,620
Hanya mengatakan apa yang kebarangkalian
mempunyai tertentu yang

870
00:45:54,620 --> 00:45:57,120
ayat dalam bahasa?

871
00:45:57,120 --> 00:45:59,110
Jadi mengapa yang berguna, pada dasarnya?

872
00:45:59,110 --> 00:46:02,390
Dan pertama sekali apa yang
model n-gram, maka?

873
00:46:02,390 --> 00:46:08,850
>> Jadi model n-gram bermakna
setiap perkataan bergantung kepada

874
00:46:08,850 --> 00:46:12,700
N seterusnya tolak 1 perkataan.

875
00:46:12,700 --> 00:46:18,150
Jadi, pada dasarnya, ini bermakna bahawa jika saya melihat,
sebagai contoh, di TF CS50 apabila

876
00:46:18,150 --> 00:46:21,500
Saya mengira kebarangkalian
hukuman itu, anda akan menjadi seperti "yang

877
00:46:21,500 --> 00:46:25,280
kebarangkalian yang mempunyai perkataan "yang"
kali kebarangkalian mempunyai "yang

878
00:46:25,280 --> 00:46:31,720
CS50 "kali kebarangkalian mempunyai
"The TF CS50." Jadi, pada dasarnya, saya mengira

879
00:46:31,720 --> 00:46:35,720
semua cara yang mungkin regangan ia.

880
00:46:35,720 --> 00:46:41,870
>> Dan kemudian biasanya apabila anda melakukan ini,
seperti dalam projek, anda meletakkan N menjadi

881
00:46:41,870 --> 00:46:42,600
nilai yang rendah.

882
00:46:42,600 --> 00:46:45,930
Jadi, biasanya mempunyai bigrams atau trigram.

883
00:46:45,930 --> 00:46:51,090
Supaya anda hanya mengira dua perkataan, yang
kumpulan dua perkataan, atau tiga kata-kata,

884
00:46:51,090 --> 00:46:52,620
hanya untuk isu-isu prestasi.

885
00:46:52,620 --> 00:46:56,395
Dan juga kerana mungkin jika anda mempunyai
sesuatu seperti "The TF CS50." Apabila anda

886
00:46:56,395 --> 00:47:00,510
mempunyai "TF," ia amat penting yang
"CS50" adalah sebelahnya, bukan?

887
00:47:00,510 --> 00:47:04,050
Kedua-dua perkara yang biasanya
bersebelahan antara satu sama lain.

888
00:47:04,050 --> 00:47:06,410
>> Jika anda berfikir "TF," ia mungkin
akan mempunyai apa

889
00:47:06,410 --> 00:47:07,890
kelas ia TF'ing untuk.

890
00:47:07,890 --> 00:47:11,330
Juga "" adalah benar-benar penting
untuk CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Tetapi jika anda mempunyai sesuatu seperti "The CS50
TF pergi ke kelas dan memberi mereka

892
00:47:14,570 --> 00:47:20,060
pelajar beberapa gula-gula. "" gula-gula "dan" "
tidak mempunyai hubungan benar-benar, bukan?

893
00:47:20,060 --> 00:47:23,670
Mereka begitu jauh dari satu sama lain bahawa
ia tidak benar-benar perkara apa yang

894
00:47:23,670 --> 00:47:25,050
kata-kata anda.

895
00:47:25,050 --> 00:47:31,210
>> Jadi dengan melakukan bigram atau trigram, ia
hanya bermaksud bahawa anda mengehadkan

896
00:47:31,210 --> 00:47:33,430
diri anda dengan beberapa perkataan
yang berada di sekeliling.

897
00:47:33,430 --> 00:47:35,810
Masuk akal?

898
00:47:35,810 --> 00:47:40,630
Oleh itu, apabila anda mahu melakukan segmentasi,
pada dasarnya, apa yang anda mahu lakukan adalah melihat

899
00:47:40,630 --> 00:47:44,850
apakah semua cara yang mungkin yang
anda boleh segmen hukuman itu.

900
00:47:44,850 --> 00:47:49,090
>> Seperti yang anda lihat apakah
kebarangkalian setiap orang-orang hukuman

901
00:47:49,090 --> 00:47:50,880
yang sedia ada dalam bahasa?

902
00:47:50,880 --> 00:47:53,410
Jadi apa yang anda lakukan adalah seperti, baik, mari
saya cuba untuk meletakkan ruang di sini.

903
00:47:53,410 --> 00:47:55,570
Jadi anda meletakkan ruang yang ada
dan anda melihat apa yang

904
00:47:55,570 --> 00:47:57,590
kebarangkalian ayat itu?

905
00:47:57,590 --> 00:48:00,240
Kemudian anda adalah seperti, OK, mungkin
yang tidak begitu baik.

906
00:48:00,240 --> 00:48:03,420
Jadi saya meletakkan ruang yang ada dan ruang yang
sana, dan anda mengira

907
00:48:03,420 --> 00:48:06,240
kebarangkalian sekarang, dan anda melihat bahawa
ia kebarangkalian yang lebih tinggi.

908
00:48:06,240 --> 00:48:12,160
>> Jadi ini adalah satu algoritma dipanggil TANGO
algoritma segmentasi, yang merupakan

909
00:48:12,160 --> 00:48:14,990
sebenarnya sesuatu yang akan menjadi benar-benar
sejuk untuk projek, yang

910
00:48:14,990 --> 00:48:20,860
pada dasarnya mengambil teks unsegmented yang
boleh Jepun atau Cina atau mungkin

911
00:48:20,860 --> 00:48:26,080
Inggeris tanpa ruang dan cuba untuk meletakkan
ruang di antara perkataan dan ia

912
00:48:26,080 --> 00:48:29,120
bahawa dengan menggunakan model bahasa dan
cuba untuk melihat apa yang paling tinggi

913
00:48:29,120 --> 00:48:31,270
kebarangkalian anda boleh mendapatkan.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
Jadi ini adalah segmentasi.

916
00:48:33,800 --> 00:48:35,450
>> Sekarang sintaksis.

917
00:48:35,450 --> 00:48:40,940
Jadi, sintaksis digunakan untuk
jadi banyak perkara sekarang.

918
00:48:40,940 --> 00:48:44,880
Jadi bagi Graf Cari, untuk Siri untuk
cukup banyak apa-apa jenis semula jadi

919
00:48:44,880 --> 00:48:46,490
pemprosesan bahasa anda.

920
00:48:46,490 --> 00:48:49,140
Jadi apakah penting
perkara mengenai sintaks?

921
00:48:49,140 --> 00:48:52,390
Jadi, ayat umumnya mempunyai
apa yang kita panggil pengundi.

922
00:48:52,390 --> 00:48:57,080
Yang jenis seperti kumpulan kata-kata
yang mempunyai fungsi dalam ayat.

923
00:48:57,080 --> 00:49:02,220
Dan mereka tidak dapat menjadi
selain daripada satu sama lain.

924
00:49:02,220 --> 00:49:07,380
>> Jadi, jika saya berkata, sebagai contoh, "Lauren suka
Milo. "Saya tahu bahawa" Lauren "adalah

925
00:49:07,380 --> 00:49:10,180
konstituen dan kemudian "suka
Milo "juga adalah satu sama lain.

926
00:49:10,180 --> 00:49:16,860
Kerana anda tidak boleh berkata seperti "Lauren Milo
suka "mempunyai makna yang sama.

927
00:49:16,860 --> 00:49:18,020
Ia tidak akan mempunyai
pengertian sama.

928
00:49:18,020 --> 00:49:22,500
Atau saya tidak boleh berkata seperti "Milo Lauren
suka. "Tidak semua yang mempunyai yang sama

929
00:49:22,500 --> 00:49:25,890
bermaksud melakukan itu.

930
00:49:25,890 --> 00:49:31,940
>> Jadi kedua-dua perkara yang lebih penting tentang
sintaks adalah jenis leksikal yang

931
00:49:31,940 --> 00:49:35,390
pada dasarnya fungsi yang anda
mempunyai kata-kata sendiri.

932
00:49:35,390 --> 00:49:39,180
Jadi, anda perlu tahu bahawa "Lauren"
dan "Milo" adalah kata nama.

933
00:49:39,180 --> 00:49:41,040
"Cinta" adalah kata kerja.

934
00:49:41,040 --> 00:49:45,660
Dan perkara yang kedua penting ialah
bahawa mereka jenis phrasal.

935
00:49:45,660 --> 00:49:48,990
Jadi, anda tahu bahawa "suka Milo"
sebenarnya adalah frasa lisan.

936
00:49:48,990 --> 00:49:52,390
Oleh itu, apabila saya berkata "Lauren," Saya tahu bahawa
Lauren melakukan sesuatu.

937
00:49:52,390 --> 00:49:53,620
Apa yang dia buat?

938
00:49:53,620 --> 00:49:54,570
Dia penyayang Milo.

939
00:49:54,570 --> 00:49:56,440
Jadi ia adalah satu perkara keseluruhan.

940
00:49:56,440 --> 00:50:01,640
Tetapi komponen-komponennya ialah
kata nama dan kata kerja.

941
00:50:01,640 --> 00:50:04,210
Tetapi bersama-sama, mereka membuat satu frasa kata kerja.

942
00:50:04,210 --> 00:50:08,680
>> Jadi, apa yang boleh kita benar-benar melakukan dengan
linguistik pengiraan?

943
00:50:08,680 --> 00:50:13,810
Jadi, jika saya mempunyai sesuatu sebagai contoh
"Rakan-rakan Allison." Saya melihat jika saya hanya

944
00:50:13,810 --> 00:50:17,440
adakah pokok sintaksis saya akan tahu bahawa
"Kawan" adalah frasa kata nama ia adalah satu

945
00:50:17,440 --> 00:50:21,480
kata nama dan kemudian "daripada Allison" adalah
frasa sendi nama di mana "satu" adalah

946
00:50:21,480 --> 00:50:24,810
cadangan dan "Allison" adalah kata nama.

947
00:50:24,810 --> 00:50:30,910
Apa yang saya boleh lakukan adalah mengajar komputer saya
bahawa apabila saya mempunyai frasa nama satu dan

948
00:50:30,910 --> 00:50:33,080
maka frasa sendi nama.

949
00:50:33,080 --> 00:50:39,020
Jadi dalam kes ini, "kawan" dan kemudian "daripada
Milo "Saya tahu bahawa ini bermakna bahawa

950
00:50:39,020 --> 00:50:43,110
NP2, yang kedua, memiliki NP1.

951
00:50:43,110 --> 00:50:47,680
>> Jadi saya boleh membuat beberapa jenis hubungan,
beberapa jenis fungsi untuk itu.

952
00:50:47,680 --> 00:50:52,370
Jadi setiap kali saya melihat struktur ini, yang
sepadan dengan tepat dengan "rakan-rakan

953
00:50:52,370 --> 00:50:56,030
Allison, "Saya tahu bahawa Allison
memiliki rakan-rakan.

954
00:50:56,030 --> 00:50:58,830
Jadi rakan-rakan adalah sesuatu
yang Allison mempunyai.

955
00:50:58,830 --> 00:50:59,610
Masuk akal?

956
00:50:59,610 --> 00:51:01,770
Jadi ini adalah pada dasarnya apa yang
Graf Carian tidak.

957
00:51:01,770 --> 00:51:04,360
Ia hanya mewujudkan kaedah-kaedah
untuk banyak perkara.

958
00:51:04,360 --> 00:51:08,190
Jadi "rakan-rakan Allison," "rakan-rakan saya
yang tinggal di Cambridge, "" rakan-rakan saya

959
00:51:08,190 --> 00:51:12,970
yang pergi ke Harvard. "Ia mewujudkan peraturan
untuk semua perkara-perkara.

960
00:51:12,970 --> 00:51:14,930
>> Sekarang terjemahan mesin.

961
00:51:14,930 --> 00:51:18,850
Jadi, terjemahan mesin juga
sesuatu statistik.

962
00:51:18,850 --> 00:51:21,340
Dan sebenarnya jika anda melibatkan diri dalam
linguistik pengiraan, banyak

963
00:51:21,340 --> 00:51:23,580
barangan anda akan menjadi statistik.

964
00:51:23,580 --> 00:51:26,670
Jadi seperti yang saya lakukan contoh dengan
banyak kebarangkalian bahawa saya adalah

965
00:51:26,670 --> 00:51:30,540
mengira, dan kemudian anda dapat ini
jumlah yang sangat kecil itulah akhir

966
00:51:30,540 --> 00:51:33,180
kebarangkalian, dan itulah yang
memberikan anda jawapannya.

967
00:51:33,180 --> 00:51:37,540
Terjemahan Mesin juga menggunakan
model statistik.

968
00:51:37,540 --> 00:51:44,790
Dan jika anda mahu berfikir mesin
terjemahan dalam yang paling mudah

969
00:51:44,790 --> 00:51:48,970
cara, apa yang anda boleh berfikir hanya
menterjemahkan perkataan dengan perkataan, bukan?

970
00:51:48,970 --> 00:51:52,150
>> Apabila anda sedang belajar bahasa untuk
kali pertama, itu biasanya apa

971
00:51:52,150 --> 00:51:52,910
anda lakukan, bukan?

972
00:51:52,910 --> 00:51:57,050
Jika anda mahu anda menterjemah ayat
dalam bahasa anda kepada bahasa yang

973
00:51:57,050 --> 00:52:00,060
anda sedang belajar, biasanya pertama, anda
menterjemahkan setiap perkataan

974
00:52:00,060 --> 00:52:03,180
secara individu, dan kemudian anda cuba
untuk meletakkan perkataan ke dalam tempat.

975
00:52:03,180 --> 00:52:07,100
>> Jadi, jika saya mahu untuk menterjemahkan ini,
[BERCAKAP Bahasa Portugis]

976
00:52:07,100 --> 00:52:10,430
yang bermaksud "kucing putih melarikan diri."
Jika saya mahu menterjemahkannya dari

977
00:52:10,430 --> 00:52:13,650
Bahasa Portugis ke Bahasa Inggeris, apa yang saya
boleh lakukan ialah, pertama, saya hanya

978
00:52:13,650 --> 00:52:14,800
menterjemahkan perkataan demi perkataan.

979
00:52:14,800 --> 00:52:20,570
Jadi "o" adalah "," "Gato", "kucing"
"Branco," "putih" dan "fugio" adalah

980
00:52:20,570 --> 00:52:21,650
"Melarikan diri."

981
00:52:21,650 --> 00:52:26,130
>> Jadi maka saya mempunyai semua perkataan di sini,
tetapi mereka tidak teratur.

982
00:52:26,130 --> 00:52:29,590
Ia seperti "putih kucing melarikan diri"
yang ungrammatical.

983
00:52:29,590 --> 00:52:34,490
Oleh itu, maka saya boleh mempunyai langkah kedua, yang
akan akan mencari yang ideal

984
00:52:34,490 --> 00:52:36,610
kedudukan untuk setiap satu daripada kata-kata.

985
00:52:36,610 --> 00:52:40,240
Jadi saya tahu bahawa saya benar-benar ingin mempunyai
"Kucing putih" dan bukannya "kucing putih." Jadi

986
00:52:40,240 --> 00:52:46,050
apa yang boleh saya lakukan ialah, kaedah yang paling naif
adalah untuk mewujudkan semua

987
00:52:46,050 --> 00:52:49,720
pilih atur yang mungkin daripada
kata-kata, jawatan.

988
00:52:49,720 --> 00:52:53,300
Dan kemudian melihat yang mana satu mempunyai
kebarangkalian tertinggi mengikut

989
00:52:53,300 --> 00:52:54,970
untuk model bahasa saya.

990
00:52:54,970 --> 00:52:58,390
Dan kemudian apabila saya mencari satu yang mempunyai
kebarangkalian tertinggi, yang menjadi

991
00:52:58,390 --> 00:53:01,910
mungkin "kucing putih melarikan diri,"
itulah terjemahan saya.

992
00:53:01,910 --> 00:53:06,710
>> Dan ini adalah cara yang mudah untuk menjelaskan
bagaimana banyak penterjemahan mesin

993
00:53:06,710 --> 00:53:07,910
algoritma bekerja.

994
00:53:07,910 --> 00:53:08,920
Adakah ini masuk akal?

995
00:53:08,920 --> 00:53:12,735
Ini juga sesuatu yang benar-benar menarik
bahawa kalian mungkin boleh meneroka untuk

996
00:53:12,735 --> 00:53:13,901
projek akhir, yeah?

997
00:53:13,901 --> 00:53:15,549
>> PELAJAR: Nah, anda berkata adalah
cara naif, jadi apa

998
00:53:15,549 --> 00:53:17,200
cara bukan naif?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS Freitas: Cara bukan naif?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
Jadi perkara pertama yang tidak baik mengenai
kaedah ini adalah bahawa saya hanya diterjemahkan

1002
00:53:22,860 --> 00:53:24,330
perkataan, perkataan demi perkataan.

1003
00:53:24,330 --> 00:53:30,570
Tetapi kadang-kadang anda mempunyai kata-kata yang
boleh mempunyai pelbagai terjemahan.

1004
00:53:30,570 --> 00:53:32,210
Saya akan cuba untuk berfikir
sesuatu.

1005
00:53:32,210 --> 00:53:37,270
Sebagai contoh, "manga" dalam Portugis tin
sama ada "mengoyak-ngoyakkan" atau "lengan." Jadi

1006
00:53:37,270 --> 00:53:40,450
apabila anda cuba untuk menterjemahkan perkataan
oleh perkataan, ia mungkin memberi anda

1007
00:53:40,450 --> 00:53:42,050
sesuatu yang tidak masuk akal.

1008
00:53:42,050 --> 00:53:45,770
>> Jadi anda benar-benar mahu anda melihat semua
terjemahan kemungkinan

1009
00:53:45,770 --> 00:53:49,840
kata-kata dan lihat, pertama sekali,
apa yang perintah itu.

1010
00:53:49,840 --> 00:53:52,000
Kami bercakap mengenai permutating
perkara?

1011
00:53:52,000 --> 00:53:54,150
Untuk melihat semua pesanan mungkin dan
memilih yang dengan yang tertinggi

1012
00:53:54,150 --> 00:53:54,990
kebarangkalian?

1013
00:53:54,990 --> 00:53:57,860
Anda juga boleh memilih semua mungkin
terjemahan untuk setiap

1014
00:53:57,860 --> 00:54:00,510
perkataan dan kemudian melihat -

1015
00:54:00,510 --> 00:54:01,950
digabungkan dengan pilih atur -

1016
00:54:01,950 --> 00:54:03,710
yang mana satu mempunyai kebarangkalian tertinggi.

1017
00:54:03,710 --> 00:54:08,590
>> Plus, anda juga boleh melihat tidak
hanya kata-kata tetapi frasa.

1018
00:54:08,590 --> 00:54:11,700
supaya anda boleh menganalisis hubungan antara
perkataan dan kemudian mendapatkan

1019
00:54:11,700 --> 00:54:13,210
terjemahan yang lebih baik.

1020
00:54:13,210 --> 00:54:16,690
Juga sesuatu yang lain, jadi semester ini
Saya sebenarnya melakukan penyelidikan dalam

1021
00:54:16,690 --> 00:54:19,430
Cina-Inggeris terjemahan mesin,
jadi menterjemah daripada

1022
00:54:19,430 --> 00:54:20,940
Cina ke dalam bahasa Inggeris.

1023
00:54:20,940 --> 00:54:26,760
>> Dan sesuatu yang kita lakukan adalah, selain menggunakan
model statistik, yang hanya

1024
00:54:26,760 --> 00:54:30,570
melihat kebarangkalian melihat
kedudukan tertentu dalam ayat, saya

1025
00:54:30,570 --> 00:54:35,360
sebenarnya juga menambah beberapa sintaks untuk saya
model, berkata, oh, jika saya melihat ini jenis

1026
00:54:35,360 --> 00:54:39,420
pembinaan, ini adalah apa yang saya mahu
untuk menukar kepada apabila saya menterjemahkan.

1027
00:54:39,420 --> 00:54:43,880
Jadi, anda juga boleh menambah beberapa jenis
elemen sintaks untuk membuat

1028
00:54:43,880 --> 00:54:47,970
terjemahan yang lebih cekap
dan lebih tepat.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> Jadi bagaimana anda boleh memulakan, jika anda mahu
melakukan sesuatu dalam pengiraan

1031
00:54:51,010 --> 00:54:51,980
linguistik?

1032
00:54:51,980 --> 00:54:54,560
>> Pertama, anda memilih projek yang
yang melibatkan bahasa.

1033
00:54:54,560 --> 00:54:56,310
Jadi, terdapat begitu banyak di luar sana.

1034
00:54:56,310 --> 00:54:58,420
Terdapat begitu banyak perkara yang boleh dilakukan.

1035
00:54:58,420 --> 00:55:00,510
Dan kemudian boleh berfikir model
yang boleh anda gunakan.

1036
00:55:00,510 --> 00:55:04,710
Biasanya ini bermakna pemikiran
andaian, seperti seperti, oh, apabila saya

1037
00:55:04,710 --> 00:55:05,770
seperti pemikiran lirik.

1038
00:55:05,770 --> 00:55:09,510
Saya seperti, baik, jika saya mahu memikirkan
keluar yang menulis ini, saya mungkin mahu

1039
00:55:09,510 --> 00:55:15,400
untuk melihat perkataan orang yang digunakan dan
melihat yang menggunakan perkataan yang sangat kerap.

1040
00:55:15,400 --> 00:55:18,470
Oleh itu, cuba untuk membuat andaian dan
cuba fikirkan model.

1041
00:55:18,470 --> 00:55:21,395
Dan kemudian anda juga boleh mencari dalam talian untuk
jenis masalah yang anda ada,

1042
00:55:21,395 --> 00:55:24,260
dan ia akan mencadangkan
kepada anda model yang mungkin

1043
00:55:24,260 --> 00:55:26,560
dimodelkan perkara yang baik.

1044
00:55:26,560 --> 00:55:29,080
>> Dan juga anda boleh e-mel saya.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
Dan saya hanya boleh menjawab soalan anda.

1047
00:55:34,940 --> 00:55:38,600
Kami boleh juga mungkin bertemu supaya saya boleh
memberi cadangan mengenai cara-cara

1048
00:55:38,600 --> 00:55:41,490
melaksanakan projek anda.

1049
00:55:41,490 --> 00:55:45,610
Dan saya maksudkan jika anda terlibat dengan
linguistik pengiraan, ia akan

1050
00:55:45,610 --> 00:55:46,790
menjadi besar.

1051
00:55:46,790 --> 00:55:48,370
Anda akan melihat terdapat
potensi begitu banyak.

1052
00:55:48,370 --> 00:55:52,060
Dan industri mahu mengupah
anda begitu buruk kerana itu.

1053
00:55:52,060 --> 00:55:54,720
Jadi saya berharap anda semua menikmati ini.

1054
00:55:54,720 --> 00:55:57,030
Jika anda mempunyai sebarang soalan,
anda boleh bertanya kepada saya selepas ini.

1055
00:55:57,030 --> 00:55:58,280
Tetapi terima kasih.

1056
00:55:58,280 --> 00:56:00,150