1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS FREITAS：嘿。

3
00:00:08,870 --> 00:00:09,980
歡迎大家。

4
00:00:09,980 --> 00:00:11,216
我的名字是盧卡斯塔斯。

5
00:00:11,216 --> 00:00:15,220
我是一個大三學生[聽不清]研究
計算機科學與重點

6
00:00:15,220 --> 00:00:16,410
計算語言學。

7
00:00:16,410 --> 00:00:19,310
所以，我的中學是在語言
和語言學理論。

8
00:00:19,310 --> 00:00:21,870
我真的很興奮，教你們
關於外地一點點。

9
00:00:21,870 --> 00:00:24,300
這是一個非常激動人心的領域來研究。

10
00:00:24,300 --> 00:00:27,260
也有很大的潛力
為將來。

11
00:00:27,260 --> 00:00:30,160
所以，我真的很興奮，你的傢伙
正在考慮中的項目

12
00:00:30,160 --> 00:00:31,160
計算語言學。

13
00:00:31,160 --> 00:00:35,460
我會很樂意提供意見
任何的你，如果你決定

14
00:00:35,460 --> 00:00:37,090
追求其中的一個。

15
00:00:37,090 --> 00:00:40,010
>> 所以首先什麼是計算的
語言學？

16
00:00:40,010 --> 00:00:44,630
因此，計算語言學是
語言學和之間的交集

17
00:00:44,630 --> 00:00:46,390
計算機科學。

18
00:00:46,390 --> 00:00:47,415
那麼，什麼是語言學？

19
00:00:47,415 --> 00:00:48,490
什麼是計算機科學？

20
00:00:48,490 --> 00:00:51,580
以及從語言學，是什麼
我們採取的是語言。

21
00:00:51,580 --> 00:00:54,960
因此，語言學實際上是研究
在一般的自然語言。

22
00:00:54,960 --> 00:00:58,330
所以，自然語言 - 大家說說
我們實際使用的語言

23
00:00:58,330 --> 00:00:59,770
相互通信。

24
00:00:59,770 --> 00:01:02,200
因此，我們不正是在說
關於C或Java。

25
00:01:02,200 --> 00:01:05,900
我們談論更多關於英語和
中國和其他語言，我們

26
00:01:05,900 --> 00:01:07,780
用於彼此進行通信。

27
00:01:07,780 --> 00:01:12,470
>> 有關的具有挑戰性的事情是，
現在我們有近7000

28
00:01:12,470 --> 00:01:14,260
語言在世界上。

29
00:01:14,260 --> 00:01:19,520
因此，有相當高的品種
的語言，我們可以研究。

30
00:01:19,520 --> 00:01:22,600
然後你認為它可能是
很難做到，比如，

31
00:01:22,600 --> 00:01:26,960
翻譯從一種語言到
另外，考慮到你有

32
00:01:26,960 --> 00:01:28,240
其中近7000人。

33
00:01:28,240 --> 00:01:31,450
所以，如果你想這樣做的翻譯
從一種語言到另你

34
00:01:31,450 --> 00:01:35,840
幾乎超過一百萬
不同的組合，你可以

35
00:01:35,840 --> 00:01:37,330
必須從語言到語言。

36
00:01:37,330 --> 00:01:40,820
所以它的真正挑戰做了一些
類的實例翻譯系統的

37
00:01:40,820 --> 00:01:43,540
每一個語言。

38
00:01:43,540 --> 00:01:47,120
>> 所以，對待語言學與語法，
語義，語用學。

39
00:01:47,120 --> 00:01:49,550
你們不完全需要
要知道什麼是他們的。

40
00:01:49,550 --> 00:01:55,090
但非常有趣的是，
作為母語的人，當你學會

41
00:01:55,090 --> 00:01:59,010
語言作為孩子，你居然學會
所有這些事情 - 語法語義

42
00:01:59,010 --> 00:02:00,500
和語用 - 

43
00:02:00,500 --> 00:02:01,430
由你自己。

44
00:02:01,430 --> 00:02:04,820
和任何人都沒有教你語法
你明白的句子是如何

45
00:02:04,820 --> 00:02:05,290
結構。

46
00:02:05,290 --> 00:02:07,980
所以，這真的很有趣，因為
它的東西，來非常

47
00:02:07,980 --> 00:02:10,389
直觀。

48
00:02:10,389 --> 00:02:13,190
>> 和你在服用
計算機科學？

49
00:02:13,190 --> 00:02:16,700
好了，最重要的事情是我們
在計算機科學，首先是

50
00:02:16,700 --> 00:02:19,340
總之，人工智能
和機器學習。

51
00:02:19,340 --> 00:02:22,610
所以，我們正在努力做
計算語言學是教

52
00:02:22,610 --> 00:02:26,990
您的計算機如何做
用的語言。

53
00:02:26,990 --> 00:02:28,630
>> 因此，例如，在機
翻譯。

54
00:02:28,630 --> 00:02:32,490
我想教我的電腦怎麼
知道如何從一個過渡

55
00:02:32,490 --> 00:02:33,310
語言到另一邊。

56
00:02:33,310 --> 00:02:35,790
所以，基本上喜歡教學
一台電腦兩種語言。

57
00:02:35,790 --> 00:02:38,870
如果我這樣做自然語言處理，
這是示例的情況下

58
00:02:38,870 --> 00:02:41,810
Facebook的圖搜索，你教
你的電腦怎麼理解

59
00:02:41,810 --> 00:02:42,730
查詢好。

60
00:02:42,730 --> 00:02:48,130
>> 所以，如果你說“的照片我的
朋友。“Facebook並沒有把那

61
00:02:48,130 --> 00:02:51,130
作為具有整個字符串
只是一堆話。

62
00:02:51,130 --> 00:02:56,020
它實際上是理解的關係
“照片”和“我的朋友”之間

63
00:02:56,020 --> 00:02:59,620
了解到，“照片”是
物業“我的朋友。”

64
00:02:59,620 --> 00:03:02,350
>> 所以，這部分，例如
自然語言處理。

65
00:03:02,350 --> 00:03:04,790
它試圖了解什麼
之間的關係是

66
00:03:04,790 --> 00:03:07,520
詞語的句子。

67
00:03:07,520 --> 00:03:11,170
而最大的問題是，你可以
教電腦如何說話

68
00:03:11,170 --> 00:03:12,650
在一般的語言？

69
00:03:12,650 --> 00:03:17,810
這是一個非常有趣的問題
想想，好像，也許在未來，

70
00:03:17,810 --> 00:03:19,930
你要能
談談您的手機。

71
00:03:19,930 --> 00:03:23,290
有點像我們做什麼用的Siri，但
更多的東西一樣，你實際上可以

72
00:03:23,290 --> 00:03:25,690
說任何你想要的手機
是要明白一切。

73
00:03:25,690 --> 00:03:28,350
而且它可以有後續問題
並繼續談判。

74
00:03:28,350 --> 00:03:30,880
這件事情真的很令人興奮，
在我看來。

75
00:03:30,880 --> 00:03:33,070
>> 因此，一些關於自然語言。

76
00:03:33,070 --> 00:03:36,220
一些真正有趣
自然語言是說，這是

77
00:03:36,220 --> 00:03:38,470
信用到我的語言學教授，
瑪麗亞Polinsky。

78
00:03:38,470 --> 00:03:40,830
她舉了一個例子，我認為
這真的很有趣。

79
00:03:40,830 --> 00:03:47,060
因為我們學語文時，從
我們出生，然後我們的母語

80
00:03:47,060 --> 00:03:49,170
一種語言的生長在我們。

81
00:03:49,170 --> 00:03:52,570
>> 基本上你學習語言
從最小的投入，對不對？

82
00:03:52,570 --> 00:03:56,700
你剛剛從輸入您的
您的語言聽起來父母什麼

83
00:03:56,700 --> 00:03:58,770
喜歡和你只是學習它。

84
00:03:58,770 --> 00:04:02,240
所以，這很有趣，因為如果你看一下
在這些句子，例如。

85
00:04:02,240 --> 00:04:06,980
你看，“瑪麗穿上大衣每
一次，她離開家。“

86
00:04:06,980 --> 00:04:10,650
>> 在這種情況下，有可能有
單詞“她”指的是瑪麗，對不對？

87
00:04:10,650 --> 00:04:13,500
你可以說“瑪麗穿上大衣
每次瑪麗離開

88
00:04:13,500 --> 00:04:14,960
房子。“，這樣很好。

89
00:04:14,960 --> 00:04:19,370
但是如果你看一下這句話
“她每次穿上大衣瑪麗

90
00:04:19,370 --> 00:04:22,850
離開房子。“你知道這是
不可能說“她”是

91
00:04:22,850 --> 00:04:24,260
提及瑪麗。

92
00:04:24,260 --> 00:04:27,070
>> 有沒有辦法說，“瑪麗把
一件大衣，每次離開瑪麗

93
00:04:27,070 --> 00:04:30,790
房子，“所以這很有趣，因為
這是一種直覺

94
00:04:30,790 --> 00:04:32,890
每一個母語了。

95
00:04:32,890 --> 00:04:36,370
也沒有人告訴我們，這是
該語法的工作方式。

96
00:04:36,370 --> 00:04:41,930
而且，你只能擁有這件“她”
提及瑪麗在第一種情況下，

97
00:04:41,930 --> 00:04:44,260
實際上在這等
過，但不是在這一個。

98
00:04:44,260 --> 00:04:46,500
但每個人都種得
以相同的答案。

99
00:04:46,500 --> 00:04:48,580
每個人都同意這一點。

100
00:04:48,580 --> 00:04:53,280
所以，這真的很有趣，雖然如何
你不知道所有的規則

101
00:04:53,280 --> 00:04:55,575
那種在你的語言你懂
語言如何工作的。

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> 因此，關於自然的有趣的事情
語言是你不必

104
00:05:01,530 --> 00:05:06,970
知道任何語法知道，如果一個句子
是語法或不合語法的

105
00:05:06,970 --> 00:05:08,810
大多數情況下。

106
00:05:08,810 --> 00:05:13,220
它讓你覺得，也許什麼
發生的情況是通過你的生活，你

107
00:05:13,220 --> 00:05:17,410
只是不斷變得越來越
句子告訴你。

108
00:05:17,410 --> 00:05:19,800
然後你保持記憶
所有的句子。

109
00:05:19,800 --> 00:05:24,230
然後當有人告訴你
什麼，你聽到這句話，並

110
00:05:24,230 --> 00:05:27,040
你看看你的詞彙量
的句子，看看是否

111
00:05:27,040 --> 00:05:28,270
那句話是存在的。

112
00:05:28,270 --> 00:05:29,830
如果是有你
說這是語法。

113
00:05:29,830 --> 00:05:31,740
如果它不是你說這是
不合語法。

114
00:05:31,740 --> 00:05:35,150
>> 所以，在這種情況下，你會說，哦，
讓您擁有一個龐大的所有列表

115
00:05:35,150 --> 00:05:36,140
可能的句子。

116
00:05:36,140 --> 00:05:38,240
然後，當你聽到一個句子，
你知道它的語法或

117
00:05:38,240 --> 00:05:39,450
不基於這一點。

118
00:05:39,450 --> 00:05:42,360
問題是，如果你看一下
一個句子，例如“該

119
00:05:42,360 --> 00:05:47,540
五頭CS50轉錄因子煮熟的盲
使用DAPA杯章魚。“這是

120
00:05:47,540 --> 00:05:49,630
絕對不是一句
你聽說過。

121
00:05:49,630 --> 00:05:52,380
但在同一時間，你知道這是
相當多的語法，對不對？

122
00:05:52,380 --> 00:05:55,570
有沒有語法錯誤
你可以說，

123
00:05:55,570 --> 00:05:57,020
這是一個可能的句子。

124
00:05:57,020 --> 00:06:01,300
>> 因此，它使我們覺得實際上是
這樣，我們學習語言不僅是

125
00:06:01,300 --> 00:06:07,090
由具有巨大的可能的數據庫
詞或句子，但更多的

126
00:06:07,090 --> 00:06:11,490
理解的關係
也就是說在那些句子。

127
00:06:11,490 --> 00:06:14,570
這是否有道理？

128
00:06:14,570 --> 00:06:19,370
因此，接下來的問題是，能
電腦學習語言？

129
00:06:19,370 --> 00:06:21,490
我們可以教語言的計算機？

130
00:06:21,490 --> 00:06:24,230
>> 所以，讓我們想到的差異
一種語言的母語之間

131
00:06:24,230 --> 00:06:25,460
和一台計算機。

132
00:06:25,460 --> 00:06:27,340
那麼，究竟發生了揚聲器？

133
00:06:27,340 --> 00:06:30,430
那麼，母語學習一
從接觸到它的語言。

134
00:06:30,430 --> 00:06:34,200
通常早期的童年歲月。

135
00:06:34,200 --> 00:06:38,570
所以，基本上，你只要有一個孩子，
你一直說要它，它

136
00:06:38,570 --> 00:06:40,540
剛剛學會如何說話
語言，對不對？

137
00:06:40,540 --> 00:06:42,660
所以，你基本上放棄
輸入到嬰兒。

138
00:06:42,660 --> 00:06:45,200
這樣，那麼你可以說，一台電腦
可以做同樣的事情，對不對？

139
00:06:45,200 --> 00:06:49,510
你可以只給語言
作為輸入到計算機中。

140
00:06:49,510 --> 00:06:53,410
>> 作為例子一堆文件
有英語書籍。

141
00:06:53,410 --> 00:06:56,190
也許這是一種方式，你
也可能教

142
00:06:56,190 --> 00:06:57,850
計算機英語，對不對？

143
00:06:57,850 --> 00:07:01,000
而事實上，如果你仔細想想，
它需要你，也許一對夫婦

144
00:07:01,000 --> 00:07:02,680
天讀一本書。

145
00:07:02,680 --> 00:07:05,760
對於一台電腦需要一秒鐘
看著一本書的所有單詞。

146
00:07:05,760 --> 00:07:10,810
所以，你可以認為這或許正是這
從你周圍的輸入參數，

147
00:07:10,810 --> 00:07:15,440
這還不夠，說這是
東西，只有人類可以做到的。

148
00:07:15,440 --> 00:07:17,680
你能想到的電腦
還可以得到輸入。

149
00:07:17,680 --> 00:07:21,170
>> 第二件事是，母語
也有大腦，有

150
00:07:21,170 --> 00:07:23,870
語言學習能力。

151
00:07:23,870 --> 00:07:27,020
但是，如果你仔細想想，
大腦是一個堅實的事情。

152
00:07:27,020 --> 00:07:30,450
當你出生時，它已經被設置 - 

153
00:07:30,450 --> 00:07:31,320
這是你的大腦。

154
00:07:31,320 --> 00:07:34,660
而當你長大了，你只會得到更多的
語言的輸入，也許營養素

155
00:07:34,660 --> 00:07:35,960
和其他的東西。

156
00:07:35,960 --> 00:07:38,170
但幾乎​​你的大腦
是一個堅實的事情。

157
00:07:38,170 --> 00:07:41,290
>> 所以，你可以說，好吧，也許你可以
構建有一堆電腦

158
00:07:41,290 --> 00:07:45,890
功能和剛模仿方法
語言學習能力。

159
00:07:45,890 --> 00:07:49,630
所以在這個意義上，你可以說，好，我
能有一個具有所有電腦

160
00:07:49,630 --> 00:07:52,270
事情我需要學習的語言。

161
00:07:52,270 --> 00:07:56,200
而最後一件事情是，原生
揚聲器學會從試驗和錯誤。

162
00:07:56,200 --> 00:08:01,090
在所以基本上另一個重要的事情
語言的學習是你那種

163
00:08:01,090 --> 00:08:05,340
通過使學習的東西
你所聽到的概括。

164
00:08:05,340 --> 00:08:10,280
>> 所以當你在成長過程中你學到了
有些話更像是名詞，

165
00:08:10,280 --> 00:08:11,820
一些其他的都是形容詞。

166
00:08:11,820 --> 00:08:14,250
而且你不必有任何
語言學知識

167
00:08:14,250 --> 00:08:15,040
要理解這一點。

168
00:08:15,040 --> 00:08:18,560
但你只是知道有一些單詞
被定位在的某些部分

169
00:08:18,560 --> 00:08:22,570
句子和其他一些人在其他
部分的句子。

170
00:08:22,570 --> 00:08:26,110
>> 並且，當你做的東西是
就像一個句子是不正確的 - 

171
00:08:26,110 --> 00:08:28,770
也許是因為過度泛化
例如。

172
00:08:28,770 --> 00:08:32,210
也許當你長大了，你注意到
該複數通常是

173
00:08:32,210 --> 00:08:35,809
通過把一個S在形成
字的結尾。

174
00:08:35,809 --> 00:08:40,042
然後嘗試做的複數
“鹿”為“鹿”或“牙”為

175
00:08:40,042 --> 00:08:44,780
“tooths。”這樣的話你的父母或
有人糾正你，說，不，

176
00:08:44,780 --> 00:08:49,020
“鹿”的複數是“鹿”和
的“牙齒”複數是“牙齒”。進而

177
00:08:49,020 --> 00:08:50,060
你學那些東西。

178
00:08:50,060 --> 00:08:51,520
所以，如果你嘗試和錯誤中學習。

179
00:08:51,520 --> 00:08:53,100
>> 但你也可以做到這一點
用一台計算機。

180
00:08:53,100 --> 00:08:55,310
你可以有一些所謂
強化學習。

181
00:08:55,310 --> 00:08:58,560
這基本上就像給一個
計算機時，它做了獎勵

182
00:08:58,560 --> 00:08:59,410
正確的東西。

183
00:08:59,410 --> 00:09:04,710
並給它獎勵的對面
當它做錯了事。

184
00:09:04,710 --> 00:09:07,410
實際上，你可以看到，如果你走
到谷歌翻譯，並試圖

185
00:09:07,410 --> 00:09:10,220
翻譯一個句子，它
要求您提供反饋意見。

186
00:09:10,220 --> 00:09:13,240
所以，如果你說，哦，還有更好的
翻譯這句話。

187
00:09:13,240 --> 00:09:18,140
您可以鍵入它，然後如果有很多
人們一直說這是一個更好的

188
00:09:18,140 --> 00:09:21,560
翻譯，它只是學習它
應使用的翻譯，而不是

189
00:09:21,560 --> 00:09:22,960
一個它是給。

190
00:09:22,960 --> 00:09:28,830
>> 所以，這是一個非常哲學問題
看是否計算機都將是

191
00:09:28,830 --> 00:09:30,340
談得來與否的未來。

192
00:09:30,340 --> 00:09:34,440
但我有很高的期望，他們可以
只是根據這些參數。

193
00:09:34,440 --> 00:09:38,570
但它只是更多的是一種哲學
問題。

194
00:09:38,570 --> 00:09:43,460
>> 因此，儘管電腦仍無法說話，
什麼樣的事情，我們可以做什麼？

195
00:09:43,460 --> 00:09:47,070
一些非常酷的東西是
數據分類。

196
00:09:47,070 --> 00:09:53,210
因此，舉例來說，你們知道
該電子郵件服務做的，為

197
00:09:53,210 --> 00:09:55,580
例如，垃圾郵件過濾。

198
00:09:55,580 --> 00:09:59,070
所以每當你收到垃圾郵件，它
試圖篩選到另一個框。

199
00:09:59,070 --> 00:10:00,270
那麼它是怎樣做到這一點？

200
00:10:00,270 --> 00:10:06,080
它不象電腦才知道
什麼電子郵件地址發送垃圾郵件。

201
00:10:06,080 --> 00:10:09,130
因此，它更是以內容
消息，或者標題，或

202
00:10:09,130 --> 00:10:11,310
也許你有一些圖案。

203
00:10:11,310 --> 00:10:15,690
>> 所以，基本上，你所能做的就是得到一個
大量的電子郵件是垃圾郵件的數據，

204
00:10:15,690 --> 00:10:19,980
郵件是不是垃圾郵件，並了解
樣的模式，你必須在

205
00:10:19,980 --> 00:10:21,000
那些是垃圾郵件。

206
00:10:21,000 --> 00:10:23,260
這是計算的一部分
語言學。

207
00:10:23,260 --> 00:10:24,720
這就是所謂的數據分類。

208
00:10:24,720 --> 00:10:28,100
而我們實際上將看到一個
例如，在接下來的幻燈片。

209
00:10:28,100 --> 00:10:32,910
>> 第二件事是自然語言
處理這是事情的

210
00:10:32,910 --> 00:10:36,580
圖搜索是做又讓
你寫一個句子。

211
00:10:36,580 --> 00:10:38,690
它相信你明白
的含義，並給出

212
00:10:38,690 --> 00:10:39,940
你一個更好的結果。

213
00:10:39,940 --> 00:10:43,880
其實，如果你去谷歌或Bing
你搜索的東西像Lady

214
00:10:43,880 --> 00:10:47,060
Gaga的高度，你實際上會
得到5'，而不是信息1“

215
00:10:47,060 --> 00:10:50,170
從她的，因為它實際上理解
你在說什麼。

216
00:10:50,170 --> 00:10:52,140
所以這是自然的一部分，
語言處理。

217
00:10:52,140 --> 00:10:57,000
>> 或者也當你使用Siri的，第一
你有一個算法，試圖

218
00:10:57,000 --> 00:11:01,130
翻譯你在說什麼
成文字，在文字。

219
00:11:01,130 --> 00:11:03,690
然後它會嘗試翻譯
到那個意思。

220
00:11:03,690 --> 00:11:06,570
所以這是所有自然的一部分
語言處理。

221
00:11:06,570 --> 00:11:08,320
>> 那麼你有機器翻譯 - 

222
00:11:08,320 --> 00:11:10,300
這實際上是1
我的最愛 - 

223
00:11:10,300 --> 00:11:14,060
這是剛剛從翻譯
一種語言到另一種。

224
00:11:14,060 --> 00:11:17,950
所以，你可以認為，當你正在做的
機器翻譯，你有

225
00:11:17,950 --> 00:11:19,750
句子的無限可能性。

226
00:11:19,750 --> 00:11:22,960
因此，有沒有辦法只存儲
每一個翻譯。

227
00:11:22,960 --> 00:11:27,440
所以，你必須想出有趣
算法能夠

228
00:11:27,440 --> 00:11:30,110
翻譯每一個
句子以某種方式。

229
00:11:30,110 --> 00:11:32,483
>> 你們有什麼問題這麼遠嗎？

230
00:11:32,483 --> 00:11:34,450
沒有？

231
00:11:34,450 --> 00:11:34,830
確定。

232
00:11:34,830 --> 00:11:36,900
>> 那麼，我們要看到今天？

233
00:11:36,900 --> 00:11:39,300
首先，我要說說
分類問題。

234
00:11:39,300 --> 00:11:41,440
這樣一說我是
說關於垃圾郵件。

235
00:11:41,440 --> 00:11:46,820
我什麼都做的是，給定的歌詞
一首歌，你可以揣摩

236
00:11:46,820 --> 00:11:49,810
以高概率
誰是歌手？

237
00:11:49,810 --> 00:11:53,590
比方說，我從夫人的歌
Gaga和Katy Perry的，如果我給你一個

238
00:11:53,590 --> 00:11:58,130
新的歌曲，你可以計算出，如果
這是凱蒂·佩里還是Lady Gaga的？

239
00:11:58,130 --> 00:12:01,490
>> 第二個，我只是要談
關於分割問題。

240
00:12:01,490 --> 00:12:05,780
所以，我不知道，如果你們知道，但
中國，日本，其他東亞

241
00:12:05,780 --> 00:12:08,090
語言和其它語言
在一般情況下，不必

242
00:12:08,090 --> 00:12:09,830
單詞之間的空格。

243
00:12:09,830 --> 00:12:13,540
然後，如果你想的方式，
你的電腦親切的嘗試，以

244
00:12:13,540 --> 00:12:18,600
理解自然語言處理，
它著眼於單詞和

245
00:12:18,600 --> 00:12:21,500
試圖了解關係
他們之間，對不對？

246
00:12:21,500 --> 00:12:25,440
但是，如果你有中國人，你
具有零位，這真的很難

247
00:12:25,440 --> 00:12:28,360
搞清楚什麼是之間的關係
也就是說，因為它們不具有任何

248
00:12:28,360 --> 00:12:29,530
也就是說在第一。

249
00:12:29,530 --> 00:12:32,600
所以，你必須做一些所謂的
分割這只是意味著把

250
00:12:32,600 --> 00:12:36,490
我們所說的空間
也就是說在這些語言。

251
00:12:36,490 --> 00:12:37,740
有意義嗎？

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> 然後我們要
說說語法。

254
00:12:41,540 --> 00:12:44,050
關於自然的，因此只是一點點
語言處理。

255
00:12:44,050 --> 00:12:45,420
這將只是一個概述。

256
00:12:45,420 --> 00:12:50,700
所以今天，基本上是我想要做的
是給你們的一點點

257
00:12:50,700 --> 00:12:53,930
什麼是內部的可能性
你可以用做計算

258
00:12:53,930 --> 00:12:54,960
語言學。

259
00:12:54,960 --> 00:13:00,410
然後你就可以看到你的想法
涼爽的那些東西。

260
00:13:00,410 --> 00:13:02,270
也許你能想到的一個項目
和來跟我說話。

261
00:13:02,270 --> 00:13:05,260
我可以給你建議
關於如何實現它。

262
00:13:05,260 --> 00:13:09,060
>> 所以語法將是一點點
關於圖搜索和機器

263
00:13:09,060 --> 00:13:09,670
翻譯。

264
00:13:09,670 --> 00:13:13,650
我只是想給怎樣一個例子
你可以，例如，翻譯

265
00:13:13,650 --> 00:13:16,020
從東西到葡萄牙語英語。

266
00:13:16,020 --> 00:13:17,830
聽起來不錯？

267
00:13:17,830 --> 00:13:19,293
>> 因此，首先，在分類問題。

268
00:13:19,293 --> 00:13:23,590
我會說，這部分研討會
將是最具挑戰性的

269
00:13:23,590 --> 00:13:27,560
一個只因為那裡是怎麼回事
是一些編碼。

270
00:13:27,560 --> 00:13:29,470
但它的將是Python的。

271
00:13:29,470 --> 00:13:34,380
我知道你們不知道的Python，所以
我只是要對高解釋

272
00:13:34,380 --> 00:13:35,750
平我在做什麼。

273
00:13:35,750 --> 00:13:40,900
而你沒有真正在乎過
很多關於語法，因為這是

274
00:13:40,900 --> 00:13:42,140
東西你們可以學習。

275
00:13:42,140 --> 00:13:42,540
好不好？

276
00:13:42,540 --> 00:13:43,580
聽起來不錯。

277
00:13:43,580 --> 00:13:46,020
>> 那麼什麼是分類問題？

278
00:13:46,020 --> 00:13:49,140
所以，你給一些歌詞
一首歌曲，你要猜

279
00:13:49,140 --> 00:13:50,620
誰在唱。

280
00:13:50,620 --> 00:13:54,045
這可以是任何類型的
的其他問題。

281
00:13:54,045 --> 00:13:59,980
所以可以，例如，你有一個
總統競選和你有一個

282
00:13:59,980 --> 00:14:02,610
講話，你想找到
出，如果它是，例如，

283
00:14:02,610 --> 00:14:04,470
奧巴馬或羅姆尼。

284
00:14:04,470 --> 00:14:07,700
或者你可以有一大堆的電子郵件和
你要搞清楚，如果他們是

285
00:14:07,700 --> 00:14:08,890
垃圾郵件。

286
00:14:08,890 --> 00:14:11,440
所以它只是一些分類
基於該字的數據

287
00:14:11,440 --> 00:14:13,790
你有沒有。

288
00:14:13,790 --> 00:14:16,295
>> 因此，要做到這一點，你必須
做一些假設。

289
00:14:16,295 --> 00:14:20,570
所以很多關於計算語言學
正在假設，

290
00:14:20,570 --> 00:14:24,100
通常聰明的假設，從而使
你可以得到很好的效果。

291
00:14:24,100 --> 00:14:26,670
試圖建立一個模型了。

292
00:14:26,670 --> 00:14:31,290
然後再嘗試一下，看看它是否工作，
如果它給你很好的精度。

293
00:14:31,290 --> 00:14:33,940
如果確實如此，那麼你
嘗試改善它。

294
00:14:33,940 --> 00:14:37,640
如果沒有，你肯定在想：好吧，也許我
應該做出不同的假設。

295
00:14:37,640 --> 00:14:44,030
>> 讓我們將假設
提出的是一個藝術家通常唱

296
00:14:44,030 --> 00:14:49,220
的一個話題多次，也許
使用的話多次剛

297
00:14:49,220 --> 00:14:50,270
因為他們已經習慣了它。

298
00:14:50,270 --> 00:14:51,890
你可以認為你的朋友的。

299
00:14:51,890 --> 00:14:57,350
我敢肯定，你們都有朋友
那說，他們的簽名短語，

300
00:14:57,350 --> 00:14:59,260
從字面上每一個句子 - 

301
00:14:59,260 --> 00:15:02,660
像一些特定的詞或某些特定
短語，他們說的

302
00:15:02,660 --> 00:15:04,020
每一個句子。

303
00:15:04,020 --> 00:15:07,920
>> 什麼可以說的是，如果你看
一個句子，有一個簽名

304
00:15:07,920 --> 00:15:11,450
詞組，你可以猜測，大概
你的朋友是

305
00:15:11,450 --> 00:15:13,310
有一句話說，對不對？

306
00:15:13,310 --> 00:15:18,410
所以，你做這樣的假設，然後
這就是你如何創建一個模型。

307
00:15:18,410 --> 00:15:24,440
>> 那我要舉的例子是
如何Lady Gaga的，例如，人

308
00:15:24,440 --> 00:15:27,430
說，她使用“寶貝”的
她所有的頭號歌曲。

309
00:15:27,430 --> 00:15:32,270
而實際上，這是一個視頻，顯示
她說這個詞“寶貝”的

310
00:15:32,270 --> 00:15:33,410
不同的歌曲。

311
00:15:33,410 --> 00:15:33,860
>> [視頻回放]

312
00:15:33,860 --> 00:15:34,310
>>  - （唱）嬰兒。

313
00:15:34,310 --> 00:15:36,220
寶貝。

314
00:15:36,220 --> 00:15:37,086
寶貝。

315
00:15:37,086 --> 00:15:37,520
寶貝。

316
00:15:37,520 --> 00:15:37,770
寶貝。

317
00:15:37,770 --> 00:15:38,822
貝貝。

318
00:15:38,822 --> 00:15:39,243
寶貝。

319
00:15:39,243 --> 00:15:40,085
寶貝。

320
00:15:40,085 --> 00:15:40,510
寶貝。

321
00:15:40,510 --> 00:15:40,850
寶貝。

322
00:15:40,850 --> 00:15:41,090
>> [完錄像​​回放 - 

323
00:15:41,090 --> 00:15:44,020
>> LUCAS FREITAS：所以有，我認為，
40首歌曲在這裡，她說，

324
00:15:44,020 --> 00:15:48,690
詞“寶貝”。所以，你基本上可以猜到
如果你看到一首歌，有

325
00:15:48,690 --> 00:15:52,180
單詞“寶寶”有一些高
概率，它是Lady Gaga的。

326
00:15:52,180 --> 00:15:56,450
但是，讓我們嘗試開發這樣
進一步更正式。

327
00:15:56,450 --> 00:16:00,470
>> 所以這些都是歌詞歌曲
Lady Gaga和Katy Perry的。

328
00:16:00,470 --> 00:16:04,120
所以，你看Lady Gaga的，你看他們
有很多事件的“寶貝”，一

329
00:16:04,120 --> 00:16:07,710
大量出現的“方式”。進而
凱蒂·佩里有很多事件的發生

330
00:16:07,710 --> 00:16:10,360
“對，”很多事件的發生“火災”。

331
00:16:10,360 --> 00:16:14,560
>> 所以基本上我們想要
做的是，你會得到一首抒情詩。

332
00:16:14,560 --> 00:16:20,480
比方說，你會得到一個抒情的
歌曲是“寶貝”，只是“寶貝”。如果

333
00:16:20,480 --> 00:16:24,750
你剛剛得到了這個詞“寶貝”，這
是你的所有，從數據

334
00:16:24,750 --> 00:16:27,880
Lady Gaga和凱蒂·佩里，誰也
你猜是人

335
00:16:27,880 --> 00:16:29,370
是誰唱這首歌？

336
00:16:29,370 --> 00:16:32,360
Lady Gaga的還是凱蒂·佩里？

337
00:16:32,360 --> 00:16:33,150
Lady Gaga的，對不對？

338
00:16:33,150 --> 00:16:37,400
因為她是唯一一個說誰
“寶貝”。這聽起來很愚蠢，對吧？

339
00:16:37,400 --> 00:16:38,760
OK，這是很容易的。

340
00:16:38,760 --> 00:16:41,860
我只是在看的兩首歌曲，並
當然，她是誰的唯一

341
00:16:41,860 --> 00:16:42,660
“寶貝”。

342
00:16:42,660 --> 00:16:44,740
>> 但是，如果你有一堆話？

343
00:16:44,740 --> 00:16:50,900
如果你有一個實際的歌詞，東西
一樣，“寶貝，我只是

344
00:16:50,900 --> 00:16:51,610
去看了[？ CFT？]

345
00:16:51,610 --> 00:16:54,020
講座“，或者類似的東西，和
那麼你實際上必須弄清楚 - 

346
00:16:54,020 --> 00:16:55,780
基於所有這些話 - 

347
00:16:55,780 --> 00:16:58,350
誰是誰的藝術家可能
唱這首歌？

348
00:16:58,350 --> 00:17:01,860
所以讓我們嘗試開發
這遠一點。

349
00:17:01,860 --> 00:17:05,630
>> 好了，根據剛剛的數據​​，我們
得到了，似乎加加可能是

350
00:17:05,630 --> 00:17:06,260
歌手。

351
00:17:06,260 --> 00:17:07,904
但如何才能寫
這更正式？

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
並有將是一個小
統計位。

354
00:17:13,140 --> 00:17:15,880
所以，如果你迷路了，只要嘗試
要理解這個概念。

355
00:17:15,880 --> 00:17:18,700
如果你理解不要緊，
方程非常清楚。

356
00:17:18,700 --> 00:17:22,150
這是所有要上線了。

357
00:17:22,150 --> 00:17:25,490
>> 所以基本上就是我計算的是
概率，這首歌是由

358
00:17:25,490 --> 00:17:28,040
Lady Gaga的因為 - 

359
00:17:28,040 --> 00:17:30,660
所以這條表示因為 - 

360
00:17:30,660 --> 00:17:33,680
我看到這個詞“寶貝”。
這是否有道理？

361
00:17:33,680 --> 00:17:35,540
所以我試圖計算
這種可能性。

362
00:17:35,540 --> 00:17:38,540
>> 所以有這個定理稱為
貝葉斯定理是說，

363
00:17:38,540 --> 00:17:43,330
一個給定的B的概率，是
乙的概率給出A，倍

364
00:17:43,330 --> 00:17:47,660
概率A的，超過的概率
B.這是一個長期的方程。

365
00:17:47,660 --> 00:17:51,970
但是，你有什麼從理解
這是，這是我想要的

366
00:17:51,970 --> 00:17:52,830
計算，對不對？

367
00:17:52,830 --> 00:17:56,570
讓這首歌是由概率
Lady Gaga的因為我看到這個詞

368
00:17:56,570 --> 00:17:58,230
“寶貝”。

369
00:17:58,230 --> 00:18:02,960
>> 現在有什麼我得到的是
單詞“寶貝”的概率給出

370
00:18:02,960 --> 00:18:04,390
我有Lady Gaga的。

371
00:18:04,390 --> 00:18:07,220
什麼是基本？

372
00:18:07,220 --> 00:18:10,500
這也就意味著，有什麼
看到這個詞“寶貝”的概率

373
00:18:10,500 --> 00:18:12,130
在Gaga的歌詞？

374
00:18:12,130 --> 00:18:16,240
如果我想計算出在一個非常
簡單的方法，它只是數

375
00:18:16,240 --> 00:18:23,640
次我看到“寶貝”在總數
在加加歌詞的話，對不對？

376
00:18:23,640 --> 00:18:27,600
什麼是我看到的頻率
在Gaga的工作這個詞？

377
00:18:27,600 --> 00:18:30,530
有意義嗎？

378
00:18:30,530 --> 00:18:33,420
>> 第二項是
概率加加。

379
00:18:33,420 --> 00:18:34,360
這是什麼意思？

380
00:18:34,360 --> 00:18:38,550
這基本上意味著，請問是什麼
分類的概率

381
00:18:38,550 --> 00:18:40,690
有些歌詞加加？

382
00:18:40,690 --> 00:18:45,320
那就是很怪，但
讓我們想到的一個例子。

383
00:18:45,320 --> 00:18:49,230
因此，讓我們說的概率
在一首歌曲有“寶貝”是一樣的

384
00:18:49,230 --> 00:18:51,760
對於Gaga和布蘭妮斯皮爾斯。

385
00:18:51,760 --> 00:18:54,950
但布蘭妮斯皮爾斯有兩次
比Lady Gaga的多首歌曲。

386
00:18:54,950 --> 00:19:00,570
因此，如果有人只是隨機給你
“寶貝”的第一件事歌詞你

387
00:19:00,570 --> 00:19:04,710
看的是，什麼是概率
在Gaga的歌曲有“寶貝”，“寶貝”

388
00:19:04,710 --> 00:19:05,410
在布蘭妮的歌？

389
00:19:05,410 --> 00:19:06,460
它是同樣的事情。

390
00:19:06,460 --> 00:19:10,040
>> 所以，你會看到的第二件事情是，
那麼，什麼是概率

391
00:19:10,040 --> 00:19:13,770
這歌詞本身是一個Gaga的歌詞，
是什麼的概率

392
00:19:13,770 --> 00:19:15,380
作為布蘭妮的歌詞？

393
00:19:15,380 --> 00:19:18,950
所以自從布蘭妮有那麼多的歌詞
比加加，你可能會

394
00:19:18,950 --> 00:19:21,470
比方說，好了，這可能是
布蘭妮的歌詞。

395
00:19:21,470 --> 00:19:23,340
所以這就是為什麼我們有這個
該詞在這裡。

396
00:19:23,340 --> 00:19:24,670
概率加加。

397
00:19:24,670 --> 00:19:26,950
有道理？

398
00:19:26,950 --> 00:19:28,660
不是嗎？

399
00:19:28,660 --> 00:19:29,370
確定。

400
00:19:29,370 --> 00:19:33,500
>> 和最後一個是剛才的概率
“嬰​​兒”的不

401
00:19:33,500 --> 00:19:34,810
真正的問題那麼多。

402
00:19:34,810 --> 00:19:39,940
但它的概率
看到“寶貝”的英文。

403
00:19:39,940 --> 00:19:42,725
我們通常不關心
很多關於這個詞。

404
00:19:42,725 --> 00:19:44,490
這是否有道理？

405
00:19:44,490 --> 00:19:48,110
所以加加的概率是
稱為先驗概率

406
00:19:48,110 --> 00:19:49,530
之類的加加。

407
00:19:49,530 --> 00:19:53,840
因為它只是意味著，請問是什麼
有那個類的概率 - 

408
00:19:53,840 --> 00:19:55,520
這是加加 - 

409
00:19:55,520 --> 00:19:59,350
只是在一般情況下，剛
沒有條件。

410
00:19:59,350 --> 00:20:02,560
>> 然後當我有概率
加加給“寶貝”，我們把它叫做加

411
00:20:02,560 --> 00:20:06,160
流淚的概率，因為它是
具有的概率

412
00:20:06,160 --> 00:20:08,300
加加給出了一些證據。

413
00:20:08,300 --> 00:20:11,050
所以我給你證據
我看到這個詞的嬰兒和

414
00:20:11,050 --> 00:20:12,690
這首歌有意義嗎？

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
確定。

417
00:20:16,410 --> 00:20:22,400
>> 所以，如果我計算過，每個
該歌曲的Lady Gaga，

418
00:20:22,400 --> 00:20:25,916
是什麼將是 - 

419
00:20:25,916 --> 00:20:27,730
顯然，我不能動了。

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
加加的概率將是
類似，在2 24，次數的1/2，

422
00:20:36,920 --> 00:20:38,260
在2比53。

423
00:20:38,260 --> 00:20:40,640
如果你知道它什麼都無所謂
這些數字的來源。

424
00:20:40,640 --> 00:20:44,750
但它只是一個數字，是怎麼回事
為大於0，對不對？

425
00:20:44,750 --> 00:20:48,610
>> 然後當我做凱蒂·佩里，該
“寶寶”的概率給出卡提現

426
00:20:48,610 --> 00:20:49,830
已經為0，對不對？

427
00:20:49,830 --> 00:20:52,820
因為沒有“寶貝”
在凱蒂·佩里。

428
00:20:52,820 --> 00:20:56,360
是這樣，那麼這變成0，並且加加
勝，這意味著Gaga是

429
00:20:56,360 --> 00:20:57,310
大概是歌手。

430
00:20:57,310 --> 00:20:58,560
這是否有道理？

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
確定。

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> 所以，如果我想使這個更正式，
我其實可以做一個模型

435
00:21:11,750 --> 00:21:12,700
多個單詞。

436
00:21:12,700 --> 00:21:14,610
因此，讓我們說我有話
一樣，“寶貝，我

437
00:21:14,610 --> 00:21:16,030
著火了，“什麼的。

438
00:21:16,030 --> 00:21:17,760
因此，它具有多個單詞。

439
00:21:17,760 --> 00:21:20,880
在這種情況下，你可以看到
這“寶貝”是加加，

440
00:21:20,880 --> 00:21:21,710
但它不是在凱蒂。

441
00:21:21,710 --> 00:21:24,940
與“火”是凱蒂，但
它不是在Gaga的，對不對？

442
00:21:24,940 --> 00:21:27,200
因此，它變得棘手，對吧？

443
00:21:27,200 --> 00:21:31,440
因為它似乎，你幾乎
有兩者之間的領帶。

444
00:21:31,440 --> 00:21:36,980
>> 所以你要做的就是承擔
獨立性的話之一。

445
00:21:36,980 --> 00:21:41,210
所以基本上這是什麼意思是，
我只是計算是什麼

446
00:21:41,210 --> 00:21:44,330
看到的概率“寶貝”，什麼是
看到的可能性“我”和

447
00:21:44,330 --> 00:21:46,670
“是”和“上”和“火”
所有獨立。

448
00:21:46,670 --> 00:21:48,670
然後我乘他們。

449
00:21:48,670 --> 00:21:52,420
而我看​​到的是概率
的看到整個句子。

450
00:21:52,420 --> 00:21:55,210
有意義嗎？

451
00:21:55,210 --> 00:22:00,270
>> 所以基本上，如果我只有一個字，
我想要找的是阿根廷最大，

452
00:22:00,270 --> 00:22:05,385
這意味著，那是什麼是類
給我最高的概率是多少？

453
00:22:05,385 --> 00:22:10,010
那麼，什麼是給類
我的最高概率

454
00:22:10,010 --> 00:22:11,940
類的概率給定的單詞。

455
00:22:11,940 --> 00:22:17,610
因此，在這種情況下，給予加加“寶貝”。
或凱蒂給“寶貝”。有意義嗎？

456
00:22:17,610 --> 00:22:21,040
>> 而剛剛從貝葉斯，那
方程式我發現，

457
00:22:21,040 --> 00:22:24,780
我們創建這個分數。

458
00:22:24,780 --> 00:22:28,750
唯一的一點是，你看到
字中給出的概率

459
00:22:28,750 --> 00:22:31,370
根據班級的變化
在類的吧？

460
00:22:31,370 --> 00:22:34,260
的“寶貝”s表示我有多少
在Gaga是從凱蒂不同。

461
00:22:34,260 --> 00:22:37,640
類的概率也
的變化，因為它只是數

462
00:22:37,640 --> 00:22:39,740
歌曲他們每個人都有。

463
00:22:39,740 --> 00:22:43,980
>> 但這個詞本身的概率
將是相同的所有的

464
00:22:43,980 --> 00:22:44,740
藝術家，對不對？

465
00:22:44,740 --> 00:22:47,150
這樣的單詞的概率是
只是，什麼是概率

466
00:22:47,150 --> 00:22:49,820
看到在這個詞
英語？

467
00:22:49,820 --> 00:22:51,420
因此，它是相同的所有的人。

468
00:22:51,420 --> 00:22:55,790
所以，因為這是不變的，我們可以只
下降的，根本沒有在意它。

469
00:22:55,790 --> 00:23:00,230
因此，這將是真正的
方程我們正在尋找。

470
00:23:00,230 --> 00:23:03,360
>> 如果我有多個的話，我
仍然會有事先

471
00:23:03,360 --> 00:23:04,610
概率在這裡。

472
00:23:04,610 --> 00:23:06,980
唯一的一點是，我乘
的概率

473
00:23:06,980 --> 00:23:08,490
所有其他的話。

474
00:23:08,490 --> 00:23:10,110
所以我乘他們。

475
00:23:10,110 --> 00:23:12,610
有意義嗎？

476
00:23:12,610 --> 00:23:18,440
它看起來很奇怪，但基本上意味著，
計算前的類，並

477
00:23:18,440 --> 00:23:22,100
然後由每個的概率相乘
在這個類是的話。

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> 而且你知道的概率
給定一類字將是對

480
00:23:29,150 --> 00:23:34,520
你看到這個詞次數
該類別，由數除以

481
00:23:34,520 --> 00:23:37,020
也就是說你必須在這
類一般。

482
00:23:37,020 --> 00:23:37,990
有意義嗎？

483
00:23:37,990 --> 00:23:41,680
這是在多麼“寶貝”是2
字的數目是

484
00:23:41,680 --> 00:23:43,020
我在歌詞中。

485
00:23:43,020 --> 00:23:45,130
因此，只要頻率。

486
00:23:45,130 --> 00:23:46,260
>> 但有一件事。

487
00:23:46,260 --> 00:23:51,250
還記得我是怎麼顯示的
的“寶貝”是概率的歌詞

488
00:23:51,250 --> 00:23:56,350
從凱蒂·佩里為0，只是因為凱蒂
佩里並沒有在所有有“寶貝”？

489
00:23:56,350 --> 00:24:04,900
但它聽起來有點刺耳，只是
簡單地說，歌詞不能從

490
00:24:04,900 --> 00:24:10,040
只是因為它們沒有一個藝術家
該單詞在特定隨時。

491
00:24:10,040 --> 00:24:13,330
>> 所以你可以只說，好吧，如果你
沒有這個字，我要去

492
00:24:13,330 --> 00:24:15,640
給你一個較低的概率，
但我只是不打算

493
00:24:15,640 --> 00:24:17,420
給你0的時候了。

494
00:24:17,420 --> 00:24:21,040
因為也許是類似，
“火，火，火，火，”這是

495
00:24:21,040 --> 00:24:21,990
完全凱蒂·佩里。

496
00:24:21,990 --> 00:24:26,060
然後“寶貝”，它只是去
0的時候了，因為有一個

497
00:24:26,060 --> 00:24:27,250
“寶貝”。

498
00:24:27,250 --> 00:24:31,440
>> 所以基本上我們做的是什麼
所謂的拉普拉斯平滑。

499
00:24:31,440 --> 00:24:36,260
這只是意味著我放棄
有些甚至可能的話

500
00:24:36,260 --> 00:24:37,850
不存在的。

501
00:24:37,850 --> 00:24:43,170
因此，我要做的是，當我
計算這個，我總是加1

502
00:24:43,170 --> 00:24:44,180
分子。

503
00:24:44,180 --> 00:24:48,060
所以即使單詞不存在，在
這種情況下，如果是0，我還是

504
00:24:48,060 --> 00:24:51,250
計算此為1比
單詞總數。

505
00:24:51,250 --> 00:24:55,060
否則，我得到多少個字
我已經和我加1。

506
00:24:55,060 --> 00:24:58,300
所以我就指望這兩種情況。

507
00:24:58,300 --> 00:25:00,430
有意義嗎？

508
00:25:00,430 --> 00:25:03,060
>> 所以，現在讓我們做一些編碼。

509
00:25:03,060 --> 00:25:06,440
我將不得不這樣做相當快，
但它只是重要的是你

510
00:25:06,440 --> 00:25:08,600
人理解的概念。

511
00:25:08,600 --> 00:25:13,450
所以，我們正在試圖做的
也正是實施這一

512
00:25:13,450 --> 00:25:14,330
的事情，我只是說 - 

513
00:25:14,330 --> 00:25:19,110
我希望你把歌詞從
Lady Gaga和Katy Perry的。

514
00:25:19,110 --> 00:25:22,980
和節目是要能夠
說，如果這些新的歌詞是從加加

515
00:25:22,980 --> 00:25:24,170
或凱蒂·佩里。

516
00:25:24,170 --> 00:25:25,800
有意義嗎？

517
00:25:25,800 --> 00:25:27,530
確定。

518
00:25:27,530 --> 00:25:30,710
>> 所以，我有這個計劃我要去
打電話classify.py。

519
00:25:30,710 --> 00:25:31,970
所以這是Python的。

520
00:25:31,970 --> 00:25:34,210
這是一種新的編程語言。

521
00:25:34,210 --> 00:25:38,020
它是在某些非常相似
方式到C和PHP。

522
00:25:38,020 --> 00:25:43,180
這是類似的，因為如果你想
明知℃之後學習Python，它的

523
00:25:43,180 --> 00:25:46,270
真的沒有那麼多的挑戰
只是因為Python是容易得多

524
00:25:46,270 --> 00:25:47,520
比C，首先。

525
00:25:47,520 --> 00:25:49,370
和很多東西都已經
實現你。

526
00:25:49,370 --> 00:25:56,820
那麼究竟像PHP有函數
排序的列表，或是添加一些東西

527
00:25:56,820 --> 00:25:58,780
到一個數組，或者胡說，胡說，胡說。

528
00:25:58,780 --> 00:26:00,690
Python有所有這些為好。

529
00:26:00,690 --> 00:26:05,960
>> 所以我只是要迅速解釋
我們如何能做到分類

530
00:26:05,960 --> 00:26:07,860
問題在這裡。

531
00:26:07,860 --> 00:26:13,230
所以我們可以說，在這種情況下，我有
從Gaga和Katy Perry的歌詞。

532
00:26:13,230 --> 00:26:21,880
我有那些歌詞的方式是，
歌詞的第一個字是

533
00:26:21,880 --> 00:26:25,250
藝術家的名字，以及
剩下的就是歌詞。

534
00:26:25,250 --> 00:26:29,470
所以我們可以說，我在這個名單
其中第一個是歌詞由加加。

535
00:26:29,470 --> 00:26:31,930
所以在這裡，我在正確的軌道。

536
00:26:31,930 --> 00:26:35,270
而下一個是凱蒂和
它也有歌詞。

537
00:26:35,270 --> 00:26:38,040
>> 所以，你這是怎麼聲明
在Python中的變量。

538
00:26:38,040 --> 00:26:40,200
你不必給的數據類型。

539
00:26:40,200 --> 00:26:43,150
你只寫“的歌詞，”
那種喜歡在PHP。

540
00:26:43,150 --> 00:26:44,890
有意義嗎？

541
00:26:44,890 --> 00:26:47,770
>> 那麼，什麼是我的事
計算，以便能夠計算出

542
00:26:47,770 --> 00:26:49,360
概率？

543
00:26:49,360 --> 00:26:55,110
我要計算“先驗”
每一個不同的

544
00:26:55,110 --> 00:26:56,710
類，我有。

545
00:26:56,710 --> 00:27:06,680
我要計算“後驗”
或相當多的概率

546
00:27:06,680 --> 00:27:12,150
每一個不同的詞
我可以為每個藝術家。

547
00:27:12,150 --> 00:27:17,210
所以在加加，例如，我要去
到有多少次我看到一個列表

548
00:27:17,210 --> 00:27:19,250
每個單詞。

549
00:27:19,250 --> 00:27:20,760
有意義嗎？

550
00:27:20,760 --> 00:27:25,370
>> 最後，我只是有一個
列表被稱為“字”，也就是剛準備

551
00:27:25,370 --> 00:27:29,780
有多少字我
為每個藝術家。

552
00:27:29,780 --> 00:27:33,760
因此，對於加加，例如，當我看
的歌詞，我，我想，24

553
00:27:33,760 --> 00:27:34,750
字總。

554
00:27:34,750 --> 00:27:38,970
所以這個列表只是將不得不
加加24，和Katy另一個號碼。

555
00:27:38,970 --> 00:27:40,130
有意義嗎？

556
00:27:40,130 --> 00:27:40,560
確定。

557
00:27:40,560 --> 00:27:42,530
>> 所以，現在，居然，讓我們
去編碼。

558
00:27:42,530 --> 00:27:45,270
所以在Python中，你實際上可以
返回一堆不同

559
00:27:45,270 --> 00:27:46,630
活動從一個函數。

560
00:27:46,630 --> 00:27:50,810
所以我打算創造這個功能
稱為“有條件的”，這是打算

561
00:27:50,810 --> 00:27:53,890
返回所有這些事情時，
“先驗”的“概率”，並

562
00:27:53,890 --> 00:28:05,690
“字樣。”因此，“有條件的”，它是
將要調入“的歌詞。”

563
00:28:05,690 --> 00:28:11,510
>> 所以，現在我要你真正
寫這個函數。

564
00:28:11,510 --> 00:28:17,750
所以，我可以寫這個的方式
功能是我剛才定義這

565
00:28:17,750 --> 00:28:20,620
功能與“高清”。所以我做了“高清
有條件的，“和它的服用

566
00:28:20,620 --> 00:28:28,700
“的歌詞。”以及這是要幹什麼
是，首先，我有我的先驗

567
00:28:28,700 --> 00:28:31,030
我想計算。

568
00:28:31,030 --> 00:28:34,330
>> 這樣我可以做到這一點的方法是創建
在Python中，字典的

569
00:28:34,330 --> 00:28:37,320
幾乎是同樣的事情作為一個哈希
表，或者它就像一個迭代

570
00:28:37,320 --> 00:28:40,480
數組在PHP。

571
00:28:40,480 --> 00:28:44,150
這是我聲明一個字典。

572
00:28:44,150 --> 00:28:53,580
基本上這是什麼意思是，
加加的先驗概率是0.5，例如，如果

573
00:28:53,580 --> 00:28:57,200
歌詞50％是由
加加，50％是由凱蒂。

574
00:28:57,200 --> 00:28:58,450
有意義嗎？

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
所以，我必須弄清楚如何
計算先驗。

577
00:29:03,680 --> 00:29:07,120
>> 接下來的那些我必須做的，還可以，
是概率和單詞。

578
00:29:07,120 --> 00:29:17,100
所以加加的概率是列表
所有的概率，我

579
00:29:17,100 --> 00:29:19,160
對每個單詞為加加。

580
00:29:19,160 --> 00:29:23,880
所以，如果我去加加的概率
“寶貝”為例，它會給我

581
00:29:23,880 --> 00:29:28,750
像2比24在這種情況下。

582
00:29:28,750 --> 00:29:30,070
有意義嗎？

583
00:29:30,070 --> 00:29:36,120
於是我去“概率”，進入
“加加”鬥具有所有列表

584
00:29:36,120 --> 00:29:40,550
加加的話，那我去“寶貝”
而我看​​到的概率。

585
00:29:40,550 --> 00:29:45,940
>> 最後我有這個
“字”字典。

586
00:29:45,940 --> 00:29:53,620
所以在這裡，“概率”。進而
“字樣。”所以，如果我這樣做“的話，”“嘎嘎，”

587
00:29:53,620 --> 00:29:58,330
什麼將要發生的是它的
要給我24，說我

588
00:29:58,330 --> 00:30:01,990
有內Gaga的歌詞24個字。

589
00:30:01,990 --> 00:30:04,110
有道理？

590
00:30:04,110 --> 00:30:07,070
所以在這裡，“話”等於DAH-DAH-DAH。

591
00:30:07,070 --> 00:30:07,620
行

592
00:30:07,620 --> 00:30:12,210
>> 所以，我什麼都做的是我要去
遍歷每個歌詞，所以

593
00:30:12,210 --> 00:30:14,490
每個串的那
我已經在列表中。

594
00:30:14,490 --> 00:30:18,040
我要去計算那些事
每個候選人。

595
00:30:18,040 --> 00:30:19,950
有道理？

596
00:30:19,950 --> 00:30:21,700
所以，我必須做一個for循環。

597
00:30:21,700 --> 00:30:26,300
>> 所以在Python中有什麼我可以做的是“線路
在抒情詩。“同樣的事，作為一個

598
00:30:26,300 --> 00:30:28,000
“為每一個”在PHP語句。

599
00:30:28,000 --> 00:30:33,420
記住我，如果它是PHP怎麼可能
說“每個歌詞

600
00:30:33,420 --> 00:30:35,220
線。“有道理？

601
00:30:35,220 --> 00:30:38,900
所以我每次走的線路，在這個
情況下，這個字符串和下一

602
00:30:38,900 --> 00:30:44,540
字符串，以便為每個什麼我是線
要做的是首先，我要

603
00:30:44,540 --> 00:30:49,150
拆分此行成的名單
字以空格分隔。

604
00:30:49,150 --> 00:30:53,730
>> 所以，關於Python的很酷的事情是，
你可能只是谷歌像“我怎麼能

605
00:30:53,730 --> 00:30:58,220
字符串分割成單詞？ “和它的
要告訴你如何做到這一點。

606
00:30:58,220 --> 00:31:04,890
而做到這一點的方式，它只是“行
= line.split（）“，它基本上是

607
00:31:04,890 --> 00:31:08,640
將會給你一個列表
每個在這裡的話。

608
00:31:08,640 --> 00:31:09,620
有道理？

609
00:31:09,620 --> 00:31:15,870
所以，現在我這樣做，我想知道
誰是那首歌的歌手。

610
00:31:15,870 --> 00:31:20,130
要做到這一點我必須得到
數組的第一個元素，對不對？

611
00:31:20,130 --> 00:31:26,390
所以，我只能說我“歌手
=行（0）“有道理？

612
00:31:26,390 --> 00:31:32,010
>> 然後我需要做的是，首先
所有，我要更新多少

613
00:31:32,010 --> 00:31:36,130
也就是說我有下“加加”。所以我只是
要計算多少字我

614
00:31:36,130 --> 00:31:38,690
在這個列表中，右鍵？

615
00:31:38,690 --> 00:31:41,910
因為這是我多少字有
在歌詞中，我只是要

616
00:31:41,910 --> 00:31:44,120
將它添加到“加加”陣列。

617
00:31:44,120 --> 00:31:47,090
這是否有道理？

618
00:31:47,090 --> 00:31:49,010
太不注重語法。

619
00:31:49,010 --> 00:31:50,430
多思考的概念。

620
00:31:50,430 --> 00:31:52,400
這是最重要的部分。

621
00:31:52,400 --> 00:31:52,720
確定。

622
00:31:52,720 --> 00:32:00,260
>> 因此，我可以做到這一點的是，如果“加加”是
已經在該列表中，因此“如果歌手在

623
00:32:00,260 --> 00:32:03,190
話“，這意味著我已經
由加加有話。

624
00:32:03,190 --> 00:32:06,640
我只是想添加額外的
是這個意思。

625
00:32:06,640 --> 00:32:15,810
所以，我要做的就是“字（歌手）
+ = LEN（線路） -  1“。

626
00:32:15,810 --> 00:32:18,250
然後我可以做的
長行。

627
00:32:18,250 --> 00:32:21,860
那麼有多少個元素我
在陣列中。

628
00:32:21,860 --> 00:32:27,060
而我所要做的零下1只是因為
該陣列的第一個元素是剛

629
00:32:27,060 --> 00:32:29,180
一個歌手，這些都不是歌詞。

630
00:32:29,180 --> 00:32:31,420
有道理？

631
00:32:31,420 --> 00:32:32,780
確定。

632
00:32:32,780 --> 00:32:35,820
>> “否則，”這意味著我要實際
加加插入到列表中。

633
00:32:35,820 --> 00:32:45,990
所以，我只是做“字（歌手）
= LEN（線路） -  1，“對不起。

634
00:32:45,990 --> 00:32:49,200
因此，兩者之間的唯一區別
行的是，這一次，它不

635
00:32:49,200 --> 00:32:51,080
還存在，所以我只是
初始化它。

636
00:32:51,080 --> 00:32:53,820
這其中實際上，我加入。

637
00:32:53,820 --> 00:32:55,570
確定。

638
00:32:55,570 --> 00:32:59,480
因此，這是增加的話。

639
00:32:59,480 --> 00:33:03,040
>> 現在我想添加到先驗。

640
00:33:03,040 --> 00:33:05,480
所以，我怎麼計算先驗？

641
00:33:05,480 --> 00:33:11,580
先驗概率可以計算
通過多少次。

642
00:33:11,580 --> 00:33:15,340
你這麼有多少次看到歌手
在所有的歌手，你的

643
00:33:15,340 --> 00:33:16,380
有，對不對？

644
00:33:16,380 --> 00:33:18,810
因此，對於Gaga和凱蒂·佩里，
在這種情況下，我看到加加

645
00:33:18,810 --> 00:33:20,570
一次，Katy Perry的一次。

646
00:33:20,570 --> 00:33:23,320
>> 所以基本上是先驗的加加
和凱蒂·佩里會

647
00:33:23,320 --> 00:33:24,390
僅僅是一個，對不對？

648
00:33:24,390 --> 00:33:26,500
你有多少次
我看到了藝術家。

649
00:33:26,500 --> 00:33:28,740
所以這是很容易計算。

650
00:33:28,740 --> 00:33:34,100
我可以只是一些類似，像“如果
歌手先驗，“我只是去

651
00:33:34,100 --> 00:33:38,970
加入1〜他們的先驗箱。

652
00:33:38,970 --> 00:33:51,000
所以，“先驗（唱）”+ = 1“，然後”其他“
我該怎麼辦“先驗（歌手）

653
00:33:51,000 --> 00:33:55,000
= 1“。有道理？

654
00:33:55,000 --> 00:34:00,080
>> 所以，如果它不存在，我只是把
為1，否則我只加1。

655
00:34:00,080 --> 00:34:11,280
好了，現在所有的，我已經離開辦
也是每個單詞添加到

656
00:34:11,280 --> 00:34:12,290
概率。

657
00:34:12,290 --> 00:34:14,889
所以，我必須指望有多少次
我看到每個單詞。

658
00:34:14,889 --> 00:34:18,780
所以，我只是需要做的另一
for循環中的行。

659
00:34:18,780 --> 00:34:25,190
>> 我要去這樣做的第一件事就是
檢查的歌手已經有

660
00:34:25,190 --> 00:34:26,969
概率數組。

661
00:34:26,969 --> 00:34:31,739
所以我檢查，如果歌手不
有一個概率的數組，我只是

662
00:34:31,739 --> 00:34:34,480
要初始化一個用於它們。

663
00:34:34,480 --> 00:34:36,400
它甚至不是一個數組，對不起，
這是一本字典。

664
00:34:36,400 --> 00:34:43,080
所以歌手的概率是怎麼回事
是一個開放的字典，所以我

665
00:34:43,080 --> 00:34:45,830
只是初始化字典吧。

666
00:34:45,830 --> 00:34:46,820
好不好？

667
00:34:46,820 --> 00:34:58,330
>> 現在我可以真正做一個for循環
計算每個單詞'

668
00:34:58,330 --> 00:35:00,604
概率。

669
00:35:00,604 --> 00:35:01,540
確定。

670
00:35:01,540 --> 00:35:04,160
因此，我所能做的就是一個for循環。

671
00:35:04,160 --> 00:35:06,590
所以我只是去遍歷
在陣列。

672
00:35:06,590 --> 00:35:15,320
這樣我可以做到這一點在Python的方式
是“因為我在範圍內。”從1

673
00:35:15,320 --> 00:35:19,200
因為我要開始第二
元件，因為第一個是

674
00:35:19,200 --> 00:35:20,260
歌手名。

675
00:35:20,260 --> 00:35:24,990
所以從1至
長行。

676
00:35:24,990 --> 00:35:29,760
當我做它的範圍實際上從去
喜歡這裡從1到的LEN

677
00:35:29,760 --> 00:35:30,740
行減1。

678
00:35:30,740 --> 00:35:33,810
所以它已經這樣做這樣做的那件事
Ñ​​減1為數組，這是非常

679
00:35:33,810 --> 00:35:35,500
方便。

680
00:35:35,500 --> 00:35:37,850
有道理？

681
00:35:37,850 --> 00:35:42,770
>> 因此，對於每一個這些，有什麼我要去
做的是，就像在另外一個，

682
00:35:42,770 --> 00:35:50,320
我要檢查，如果在這個字
在該線的位置已在

683
00:35:50,320 --> 00:35:51,570
概率。

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
然後我說在這裡，概率
也就是說，在我把

686
00:35:57,260 --> 00:35:58,400
“概率（歌手）”。

687
00:35:58,400 --> 00:35:59,390
這樣的歌手的名字。

688
00:35:59,390 --> 00:36:03,450
所以，如果它已經在
“probabilit（歌手）”，這意味著我

689
00:36:03,450 --> 00:36:11,960
要加1，所以我要去
做“的概率（歌手）”，以及

690
00:36:11,960 --> 00:36:14,100
字被稱為“線（一）”。

691
00:36:14,100 --> 00:36:22,630
我要加1和“其他”我只是
將它初始化為1。

692
00:36:22,630 --> 00:36:23,880
“行（一）”。

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
有道理？

695
00:36:28,420 --> 00:36:30,180
>> 所以，我計算出的所有陣列。

696
00:36:30,180 --> 00:36:36,580
所以，現在的一切，我所要做的
這個人是剛剛“回歸先驗，

697
00:36:36,580 --> 00:36:43,230
概率和單詞。“讓我們
看看是否有任何好不好。

698
00:36:43,230 --> 00:36:45,690
似乎一切工作至今。

699
00:36:45,690 --> 00:36:46,900
所以，這是有道理的？

700
00:36:46,900 --> 00:36:47,750
以某種方式？

701
00:36:47,750 --> 00:36:49,280
確定。

702
00:36:49,280 --> 00:36:51,980
所以，現在我把所有的可能性。

703
00:36:51,980 --> 00:36:55,100
所以，現在我已經離開的唯一的事
只是有這種事情，

704
00:36:55,100 --> 00:36:58,650
計算出的所有產品
當我拿到歌詞的概率。

705
00:36:58,650 --> 00:37:06,270
>> 因此，讓我們說，我想現在打電話
這個功能“分類（）”和

706
00:37:06,270 --> 00:37:08,880
東西函數接受
只是一個說法。

707
00:37:08,880 --> 00:37:13,170
比方說，“寶貝，我著火了”，它的
要弄清楚什麼是

708
00:37:13,170 --> 00:37:14,490
概率，這是加加？

709
00:37:14,490 --> 00:37:16,405
這是概率
這是凱蒂？

710
00:37:16,405 --> 00:37:19,690
聽起來不錯？

711
00:37:19,690 --> 00:37:25,750
所以我只是將不得不創建一個
所謂的新功能“分類（）”和

712
00:37:25,750 --> 00:37:29,180
它會採取一些
歌詞也是如此。

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
而除了歌詞我也
有送先驗的

715
00:37:36,160 --> 00:37:37,700
概率和單詞。

716
00:37:37,700 --> 00:37:44,000
所以我打算送歌詞，先驗，
概率的話。

717
00:37:44,000 --> 00:37:51,840
>> 因此，這是採取的歌詞，先驗，
概率的話。

718
00:37:51,840 --> 00:37:53,530
那麼，它有什麼作用？

719
00:37:53,530 --> 00:37:57,180
它基本上是要通過所有
可能的候選人，你

720
00:37:57,180 --> 00:37:58,510
有作為一名歌手。

721
00:37:58,510 --> 00:37:59,425
和那些人在那裡候選人？

722
00:37:59,425 --> 00:38:01,020
他們是在先驗，對不對？

723
00:38:01,020 --> 00:38:02,710
所以，我有所有這些存在的。

724
00:38:02,710 --> 00:38:07,870
所以，我要準備一本字典
所有可能的候選人。

725
00:38:07,870 --> 00:38:14,220
然後在每個候選
先驗概率，因此它意味著它要

726
00:38:14,220 --> 00:38:17,740
是加加，凱蒂如果我有
更會比較。

727
00:38:17,740 --> 00:38:20,410
我要開始計算
這個概率。

728
00:38:20,410 --> 00:38:28,310
正如我們在看到的概率
PowerPoint是事先倍

729
00:38:28,310 --> 00:38:30,800
每一個的產品
其他可能性。

730
00:38:30,800 --> 00:38:32,520
>> 所以，我在這裡可以這樣做。

731
00:38:32,520 --> 00:38:36,330
我可以做的是概率
剛開始之前。

732
00:38:36,330 --> 00:38:40,340
因此，先驗的候選人。

733
00:38:40,340 --> 00:38:40,870
對不對？

734
00:38:40,870 --> 00:38:45,360
現在我不得不遍歷所有的
我有在歌詞是詞

735
00:38:45,360 --> 00:38:48,820
能夠添加的概率
為他們每個人，好不好？

736
00:38:48,820 --> 00:38:57,900
因此，“為字的歌詞”我什麼都
做的是，如果該字是在

737
00:38:57,900 --> 00:39:01,640
“概率（候選人）”，這
也就是說，它是一個字的

738
00:39:01,640 --> 00:39:03,640
候選人在他們的歌詞 - 

739
00:39:03,640 --> 00:39:05,940
例如，“嬰兒”的加加 - 

740
00:39:05,940 --> 00:39:11,710
我現在要做的是，
概率將被乘以

741
00:39:11,710 --> 00:39:22,420
由加的概率1
候選人的那個詞。

742
00:39:22,420 --> 00:39:25,710
它被稱為“字”。

743
00:39:25,710 --> 00:39:32,440
這除以單詞數
我對那個候選人。

744
00:39:32,440 --> 00:39:37,450
字的總數，我有
對於我期待的歌手。

745
00:39:37,450 --> 00:39:40,290
>> “否則”。這意味著它是一個新詞
所以它會像例如

746
00:39:40,290 --> 00:39:41,860
“火”的Lady Gaga的。

747
00:39:41,860 --> 00:39:45,760
所以，我只想做超過1
“字（候選人）”。

748
00:39:45,760 --> 00:39:47,710
所以，我不希望把這個詞在這裡。

749
00:39:47,710 --> 00:39:50,010
>> 所以它的將是基本
複製並粘貼此。

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
但我要刪除這部分。

752
00:39:56,000 --> 00:39:57,610
所以它只是將是1比那。

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
聽起來不錯？

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
現在到了最後，我只是要
印上候選人的名字和

757
00:40:09,700 --> 00:40:15,750
你有概率
在他們的歌詞有標。

758
00:40:15,750 --> 00:40:16,200
有道理？

759
00:40:16,200 --> 00:40:18,390
我其實不連
需要這本詞典。

760
00:40:18,390 --> 00:40:19,510
有道理？

761
00:40:19,510 --> 00:40:21,810
>> 所以，讓我們看看這個實際工作。

762
00:40:21,810 --> 00:40:24,880
所以，如果我運行這個，也沒有工作。

763
00:40:24,880 --> 00:40:26,130
等待一秒鐘。

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
“言（候選人）”，“字（候選人）”，
這是

766
00:40:31,720 --> 00:40:33,750
該數組的名稱。

767
00:40:33,750 --> 00:40:41,435
好了，所以，它說，有一些bug
候選的先驗。

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
讓我冷靜下來一點點。

770
00:40:48,760 --> 00:40:50,360
確定。

771
00:40:50,360 --> 00:40:51,305
讓我們試試。

772
00:40:51,305 --> 00:40:51,720
確定。

773
00:40:51,720 --> 00:40:58,710
>> 所以，它給了凱蒂·佩里有這個
在此乘以10的概率

774
00:40:58,710 --> 00:41:02,200
減去7，和加加有這個
乘以10的負6。

775
00:41:02,200 --> 00:41:05,610
所以你看它表明加加
具有更高的概率。

776
00:41:05,610 --> 00:41:09,260
因此，“寶貝，我在火”是
可能是Gaga的歌。

777
00:41:09,260 --> 00:41:10,580
有道理？

778
00:41:10,580 --> 00:41:12,030
所以這就是我們所做的。

779
00:41:12,030 --> 00:41:16,010
>> 此代碼將被發布到網上，
所以你們可以檢查出來。

780
00:41:16,010 --> 00:41:20,720
也許用一些它，如果你想
做一個項目或類似的東西。

781
00:41:20,720 --> 00:41:22,150
確定。

782
00:41:22,150 --> 00:41:25,930
這只是為了顯示
怎樣計算

783
00:41:25,930 --> 00:41:27,230
語言學的代碼如下所示。

784
00:41:27,230 --> 00:41:33,040
但是，現在讓我們去更多
高層次的東西。

785
00:41:33,040 --> 00:41:33,340
確定。

786
00:41:33,340 --> 00:41:35,150
>> 因此，其他的問題我
說的是 - 

787
00:41:35,150 --> 00:41:37,550
分割問題
是第一人。

788
00:41:37,550 --> 00:41:40,820
所以，你必須在這裡的日本。

789
00:41:40,820 --> 00:41:43,420
然後就看到了
有沒有空格。

790
00:41:43,420 --> 00:41:49,110
因此，這基本上意味著它
椅子的頂部，對不對？

791
00:41:49,110 --> 00:41:50,550
你說日語嗎？

792
00:41:50,550 --> 00:41:52,840
這是椅子的頂部，對不對？

793
00:41:52,840 --> 00:41:54,480
>> 學生：我不知道是什麼
漢字那邊。

794
00:41:54,480 --> 00:41:57,010
>> LUCAS FREITAS：這是[操日語]

795
00:41:57,010 --> 00:41:57,950
確定。

796
00:41:57,950 --> 00:42:00,960
所以它基本上意味著頂部的椅子。

797
00:42:00,960 --> 00:42:03,620
所以，如果你不得不把一個空間
這將是在這裡。

798
00:42:03,620 --> 00:42:05,970
然後你有[？上田山。 ？]

799
00:42:05,970 --> 00:42:09,040
這基本上意味著上田先生。

800
00:42:09,040 --> 00:42:13,180
而你看到的“田”和你有一個
空間，然後“聖”。所以你看到，

801
00:42:13,180 --> 00:42:15,470
在這裡你“UE”就像本身。

802
00:42:15,470 --> 00:42:17,750
在這裡，它有一個字符
在它旁邊。

803
00:42:17,750 --> 00:42:21,720
>> 所以它不像這些語言
字義的單詞，這樣你

804
00:42:21,720 --> 00:42:23,980
剛剛投入了大量的空間。

805
00:42:23,980 --> 00:42:25,500
字符之間的相互關係。

806
00:42:25,500 --> 00:42:28,680
他們能在一起
像二，三，一。

807
00:42:28,680 --> 00:42:34,520
所以，你實際上必須建立某種
的方式把這些空間。

808
00:42:34,520 --> 00:42:38,850
>> 而這件事情是，每當你得到
從這些亞洲語言的數據，

809
00:42:38,850 --> 00:42:40,580
一切都無節。

810
00:42:40,580 --> 00:42:45,940
因為沒有人誰寫日本
還是中國寫為空格。

811
00:42:45,940 --> 00:42:48,200
當你在寫中國，
日本你剛才寫的一切

812
00:42:48,200 --> 00:42:48,710
沒有空格。

813
00:42:48,710 --> 00:42:52,060
它甚至沒有任何意義
把空間。

814
00:42:52,060 --> 00:42:57,960
這樣的話，當你從得到的數據，一些
東亞語言，如果你想

815
00:42:57,960 --> 00:43:00,760
其實做一些與
你必須先分段。

816
00:43:00,760 --> 00:43:05,130
>> 認為這樣做的實例中的
不帶空格的歌詞。

817
00:43:05,130 --> 00:43:07,950
所以，你擁有的唯一歌詞
將句子，對不對？

818
00:43:07,950 --> 00:43:09,470
用句點分隔。

819
00:43:09,470 --> 00:43:13,930
但是剛走了句會
沒有真正在給予信息幫助

820
00:43:13,930 --> 00:43:17,760
是誰的歌詞是由。

821
00:43:17,760 --> 00:43:18,120
對不對？

822
00:43:18,120 --> 00:43:20,010
所以，你應該首先將空間。

823
00:43:20,010 --> 00:43:21,990
你那麼如何才能做到這一點？

824
00:43:21,990 --> 00:43:24,920
>> 所以後來談到語言的想法
模型這是真的東西

825
00:43:24,920 --> 00:43:26,870
用於計算重要
語言學。

826
00:43:26,870 --> 00:43:32,790
所以一個語言模型基本上是一個
表概率的表演

827
00:43:32,790 --> 00:43:36,260
首先什麼是概率
具有一種語言的單詞？

828
00:43:36,260 --> 00:43:39,590
那麼如何展示頻繁的一句話就是。

829
00:43:39,590 --> 00:43:43,130
然後還展示了關係
在一個句子中詞與詞之間。

830
00:43:43,130 --> 00:43:51,500
>> 所以主要的想法是，如果一個陌生人來到
給你說了一句話

831
00:43:51,500 --> 00:43:55,600
你，什麼是概率，對於
例如，“這是我妹妹[？GTF”？]

832
00:43:55,600 --> 00:43:57,480
是那句話的人說的嗎？

833
00:43:57,480 --> 00:44:00,380
所以，很顯然有些句子
比其他人更常見。

834
00:44:00,380 --> 00:44:04,450
例如，“早上好”或“好
晚上，“或”嘿，“得多

835
00:44:04,450 --> 00:44:08,260
比最常見的句子
我們有一個英語。

836
00:44:08,260 --> 00:44:11,060
那麼，為什麼那些句子
更頻繁？

837
00:44:11,060 --> 00:44:14,060
>> 首先，這是因為你有
話是更頻繁。

838
00:44:14,060 --> 00:44:20,180
因此，舉例來說，如果你說，狗是
大，而狗是巨大的，你

839
00:44:20,180 --> 00:44:23,880
通常可能聽到狗是大
更多的時候，因為“大”更

840
00:44:23,880 --> 00:44:27,260
頻繁的英語不是“巨大”。
所以，1的

841
00:44:27,260 --> 00:44:30,100
事情是這個詞的頻率。

842
00:44:30,100 --> 00:44:34,490
>> 這是真正的第二件事
重要的僅僅是

843
00:44:34,490 --> 00:44:35,490
順序的話。

844
00:44:35,490 --> 00:44:39,500
所以，經常會說“貓是
裡面的箱子。“但你通常不

845
00:44:39,500 --> 00:44:44,250
見“盒子裡面是貓。”所以
你看，有一些重要

846
00:44:44,250 --> 00:44:46,030
中的詞的順序。

847
00:44:46,030 --> 00:44:50,160
你不能只是說，這兩個
句子具有相同的概率

848
00:44:50,160 --> 00:44:53,010
僅僅是因為他們具有相同的話。

849
00:44:53,010 --> 00:44:55,550
實際上，你要關心
關於秩序良好。

850
00:44:55,550 --> 00:44:57,650
有意義嗎？

851
00:44:57,650 --> 00:44:59,490
>> 那麼，我們該怎麼辦？

852
00:44:59,490 --> 00:45:01,550
所以我可能會嘗試幫你嗎？

853
00:45:01,550 --> 00:45:04,400
我試圖讓你我們
調用的n-gram模型。

854
00:45:04,400 --> 00:45:09,095
所以，一個n-gram模型的基本假設
對於每個字

855
00:45:09,095 --> 00:45:10,960
你在一個句子裡。

856
00:45:10,960 --> 00:45:15,020
它具有的概率
字不僅有依賴於

857
00:45:15,020 --> 00:45:18,395
頻率在語言文字的，
同時也對詞

858
00:45:18,395 --> 00:45:19,860
都圍繞著它。

859
00:45:19,860 --> 00:45:25,810
>> 因此，舉例來說，通常當你看到
像上或在你

860
00:45:25,810 --> 00:45:28,040
可能會看到一個
名詞之後，對不對？

861
00:45:28,040 --> 00:45:31,750
因為當你有一個介詞
通常它需要後一個名詞。

862
00:45:31,750 --> 00:45:35,540
或者如果你有一個動詞是及物動詞
你通常要

863
00:45:35,540 --> 00:45:36,630
有一個名詞短語。

864
00:45:36,630 --> 00:45:38,780
因此，這將有一個名詞
圍繞它的地方。

865
00:45:38,780 --> 00:45:44,950
>> 所以，基本上，它的作用在於，它
認為具有的概率

866
00:45:44,950 --> 00:45:47,960
話彼此相鄰，當
你的計算

867
00:45:47,960 --> 00:45:49,050
概率句子。

868
00:45:49,050 --> 00:45:50,960
而這正是一種語言
模型基本上是。

869
00:45:50,960 --> 00:45:54,620
只是說有什麼可能性
的具有特定

870
00:45:54,620 --> 00:45:57,120
句子的語言？

871
00:45:57,120 --> 00:45:59,110
那麼，為什麼是有用的，基本上是？

872
00:45:59,110 --> 00:46:02,390
並首先什麼是
一個n-gram模型，然後呢？

873
00:46:02,390 --> 00:46:08,850
>> 所以，一個n-gram模型意味著，
每個字取決於

874
00:46:08,850 --> 00:46:12,700
接下來的N減1的話。

875
00:46:12,700 --> 00:46:18,150
所以，基本上，這意味著如果我看起來，
例如，在CS50 TF時

876
00:46:18,150 --> 00:46:21,500
我計算的概率
這句話，你會像“

877
00:46:21,500 --> 00:46:25,280
具有單詞“the”的概率
具有次的概率“的

878
00:46:25,280 --> 00:46:31,720
具有CS50“時間的概率
“該CS50 TF。”所以，基本上，我算

879
00:46:31,720 --> 00:46:35,720
伸展它的所有可能的方式。

880
00:46:35,720 --> 00:46:41,870
>> 然後通常當你這樣做，
作為一個項目，你把電量為

881
00:46:41,870 --> 00:46:42,600
一個低的值。

882
00:46:42,600 --> 00:46:45,930
所以，通常有雙字母組或卦。

883
00:46:45,930 --> 00:46:51,090
所以，你只算兩個詞，一個
組兩個詞，或者三個字，

884
00:46:51,090 --> 00:46:52,620
只為性能問題。

885
00:46:52,620 --> 00:46:56,395
也因為也許如果你有
像“的CS50 TF。”當你

886
00:46:56,395 --> 00:47:00,510
有“TF”，這是非常重要的，
“CS50”是在它旁邊，對不對？

887
00:47:00,510 --> 00:47:04,050
這兩件事通常是
彼此相鄰。

888
00:47:04,050 --> 00:47:06,410
>> 如果你覺得“TF”，它可能
將有哪些

889
00:47:06,410 --> 00:47:07,890
類它TF'ing的。

890
00:47:07,890 --> 00:47:11,330
也是“”真的很重要
為CS50 TF。

891
00:47:11,330 --> 00:47:14,570
但是，如果你有一些像“CS50
TF去上課，並給了他們

892
00:47:14,570 --> 00:47:20,060
學生們一些糖果。“”糖果“和”the“
沒有關係真的，對不對？

893
00:47:20,060 --> 00:47:23,670
他們是彼此如此遙遠的
它並不真正的問題是什麼

894
00:47:23,670 --> 00:47:25,050
也就是說你有。

895
00:47:25,050 --> 00:47:31,210
>> 所以，做一個兩字或卦，它
只是意味著你限制

896
00:47:31,210 --> 00:47:33,430
自己的一些話
這是各地。

897
00:47:33,430 --> 00:47:35,810
有意義嗎？

898
00:47:35,810 --> 00:47:40,630
所以，當你想要做的分割，
基本上，你想要做什麼見

899
00:47:40,630 --> 00:47:44,850
什麼都是可能的方式，
你可以分段的句子。

900
00:47:44,850 --> 00:47:49,090
>> 這樣，你看到的是什麼
每個句子的概率

901
00:47:49,090 --> 00:47:50,880
現有的語言嗎？

902
00:47:50,880 --> 00:47:53,410
所以，你做什麼就好了，好了，讓
我試圖把一個空間在這裡。

903
00:47:53,410 --> 00:47:55,570
所以，你把一個空間有
和你看到的是什麼

904
00:47:55,570 --> 00:47:57,590
那句話的概率是多少？

905
00:47:57,590 --> 00:48:00,240
那麼你是喜歡，好吧，也許
這不太好。

906
00:48:00,240 --> 00:48:03,420
所以我把一個空間有一個空格
在那裡，你的計算

907
00:48:03,420 --> 00:48:06,240
概率現在，你看到
這是一個更高的概率。

908
00:48:06,240 --> 00:48:12,160
>> 所以，這就是所謂的TANGO的算法
分割算法，這是

909
00:48:12,160 --> 00:48:14,990
實際的東西，會是真的
涼爽的項目，該項目

910
00:48:14,990 --> 00:48:20,860
基本上採取不分段全文
可能是日本人還是中國人也許

911
00:48:20,860 --> 00:48:26,080
英語沒有空格，並試圖把
字和它之間的空間

912
00:48:26,080 --> 00:48:29,120
通過使用一個語言模型，並
想看看是最高的

913
00:48:29,120 --> 00:48:31,270
概率可以得到。

914
00:48:31,270 --> 00:48:32,230
確定。

915
00:48:32,230 --> 00:48:33,800
因此，這是分割。

916
00:48:33,800 --> 00:48:35,450
>> 現在的語法。

917
00:48:35,450 --> 00:48:40,940
這樣，句法被用於
這麼多東西現在。

918
00:48:40,940 --> 00:48:44,880
因此，對於圖搜索，對於Siri的供
幾乎任何類型的自然

919
00:48:44,880 --> 00:48:46,490
語言處理你。

920
00:48:46,490 --> 00:48:49,140
那麼什麼是重要的
有關語法的東西呢？

921
00:48:49,140 --> 00:48:52,390
因此，句子一般有
就是我們所說的成分。

922
00:48:52,390 --> 00:48:57,080
這是一種像組詞
有在句中的功能。

923
00:48:57,080 --> 00:49:02,220
他們不能真正
彼此分開。

924
00:49:02,220 --> 00:49:07,380
>> 所以，如果我說，例如，“勞倫愛
米洛。“我知道，”勞倫“是一個

925
00:49:07,380 --> 00:49:10,180
成分，然後“愛
米洛“也是一個又一個。

926
00:49:10,180 --> 00:49:16,860
因為你不能說像“勞倫米洛
喜歡“具有相同的含義。

927
00:49:16,860 --> 00:49:18,020
它不會有
相同的含義。

928
00:49:18,020 --> 00:49:22,500
或者，我不能說像“米洛·勞倫
愛。“不是任何事物都有相同的

929
00:49:22,500 --> 00:49:25,890
這意味著這樣做。

930
00:49:25,890 --> 00:49:31,940
>> 因此，這兩個更重要的事情
語法是詞法類型是

931
00:49:31,940 --> 00:49:35,390
基本的功能，你
自己有話。

932
00:49:35,390 --> 00:49:39,180
所以，你要知道，“勞倫”
與“米洛”都是名詞。

933
00:49:39,180 --> 00:49:41,040
“愛”是一個動詞。

934
00:49:41,040 --> 00:49:45,660
第二重要的是
他們是短語的類型。

935
00:49:45,660 --> 00:49:48,990
所以，你知道，“愛米洛”
實際上是一個口頭短語。

936
00:49:48,990 --> 00:49:52,390
所以，當我說“勞倫，”我知道，
勞倫是做什麼的。

937
00:49:52,390 --> 00:49:53,620
她在幹什麼？

938
00:49:53,620 --> 00:49:54,570
她愛米洛。

939
00:49:54,570 --> 00:49:56,440
所以這是一個整體的東西。

940
00:49:56,440 --> 00:50:01,640
但它的成分是
一個名詞和一個動詞。

941
00:50:01,640 --> 00:50:04,210
但同時，他們提出了一個動詞短語。

942
00:50:04,210 --> 00:50:08,680
>> 所以，我們可以真正做
計算語言學？

943
00:50:08,680 --> 00:50:13,810
所以，如果我有東西，例如
“朋友佳佳的。”我認為如果我只是

944
00:50:13,810 --> 00:50:17,440
沒有一個語法樹我想知道
“朋友”是一個名詞短語是

945
00:50:17,440 --> 00:50:21,480
“艾里遜的”名詞，然後是
“的”介詞短語在這

946
00:50:21,480 --> 00:50:24,810
一個主張和“佳佳”是一個名詞。

947
00:50:24,810 --> 00:50:30,910
有什麼我可以做的是教給我的電腦
當我有一個名詞短語之一，

948
00:50:30,910 --> 00:50:33,080
然後一個介詞短語。

949
00:50:33,080 --> 00:50:39,020
所以在這種情況下，“朋友”，然後“
米洛“我知道這意味著

950
00:50:39,020 --> 00:50:43,110
NP2，第二個，擁有NP1。

951
00:50:43,110 --> 00:50:47,680
>> 所以，我可以創造某種關係，
某種功能吧。

952
00:50:47,680 --> 00:50:52,370
所以每當我看到這個結構，
正好與“朋友的匹配

953
00:50:52,370 --> 00:50:56,030
佳佳，“我知道佳佳
擁有朋友。

954
00:50:56,030 --> 00:50:58,830
所以，朋友們的東西
佳佳了。

955
00:50:58,830 --> 00:50:59,610
有道理？

956
00:50:59,610 --> 00:51:01,770
因此，這基本上是什麼
圖搜索一樣。

957
00:51:01,770 --> 00:51:04,360
它只是創建規則
對於很多事情。

958
00:51:04,360 --> 00:51:08,190
所以，“朋友阿利森的”，“我的朋友們
誰住在劍橋“，”我的朋友們

959
00:51:08,190 --> 00:51:12,970
誰去哈佛。“它創造規則
對於所有這些事情。

960
00:51:12,970 --> 00:51:14,930
>> 現在的機器翻譯。

961
00:51:14,930 --> 00:51:18,850
因此，機器翻譯也
一些統計。

962
00:51:18,850 --> 00:51:21,340
而實際上，如果你涉足
計算語言學，很多

963
00:51:21,340 --> 00:51:23,580
你的東西將是統計數據。

964
00:51:23,580 --> 00:51:26,670
所以當我在做的例子有
有很多可能性的，我是

965
00:51:26,670 --> 00:51:30,540
計算，然後你到這個
極少數這是最後的

966
00:51:30,540 --> 00:51:33,180
概率，這就是
給你答案。

967
00:51:33,180 --> 00:51:37,540
機器翻譯還使用
統計模型。

968
00:51:37,540 --> 00:51:44,790
如果你要考慮機器的
翻譯在最簡單的可能

969
00:51:44,790 --> 00:51:48,970
順便問一下，你能想到的僅僅是
翻譯一字一句，對不對？

970
00:51:48,970 --> 00:51:52,150
>> 當你學習一門語言的
第一次，這通常是什麼

971
00:51:52,150 --> 00:51:52,910
你這樣做，對不對？

972
00:51:52,910 --> 00:51:57,050
如果你想你翻譯一個句子
在你的語言的語言

973
00:51:57,050 --> 00:52:00,060
你正在學習，通常首先，你
翻譯的每個字

974
00:52:00,060 --> 00:52:03,180
個別地，然後嘗試
把單詞到位。

975
00:52:03,180 --> 00:52:07,100
>> 所以，如果我想翻譯這個，
[發言葡萄牙語]

976
00:52:07,100 --> 00:52:10,430
這意味著“白貓跑掉了。”
如果我想從翻譯

977
00:52:10,430 --> 00:52:13,650
葡萄牙語到英語，我
可以做的是，第一，我只是

978
00:52:13,650 --> 00:52:14,800
逐字翻譯單詞。

979
00:52:14,800 --> 00:52:20,570
因此，“O”是“，”“加托”，“貓”
“布蘭科”，“白”，然後“fugio”是

980
00:52:20,570 --> 00:52:21,650
“跑了。”

981
00:52:21,650 --> 00:52:26,130
>> 於是我把所有的話在這裡，
但他們不是為了。

982
00:52:26,130 --> 00:52:29,590
這就像“貓白跑了”
這是不合語法。

983
00:52:29,590 --> 00:52:34,490
這樣的話，我可以有第二個步驟，即
將要尋找的理想

984
00:52:34,490 --> 00:52:36,610
對於每個字的位置。

985
00:52:36,610 --> 00:52:40,240
所以我知道，其實我是想有
“白貓”，而不是“貓白。”所以

986
00:52:40,240 --> 00:52:46,050
有什麼我可以做的是，最天真的方法
將創建所有

987
00:52:46,050 --> 00:52:49,720
可能的排列
字位置。

988
00:52:49,720 --> 00:52:53,300
然後看看哪一個具有
根據概率最高

989
00:52:53,300 --> 00:52:54,970
我的語言模型。

990
00:52:54,970 --> 00:52:58,390
然後當我找到一個有
概率最高的，這是

991
00:52:58,390 --> 00:53:01,910
可能是“白貓跑了，”
這是我的翻譯。

992
00:53:01,910 --> 00:53:06,710
>> 這是說明一個簡單的方法
怎麼了很多機器翻譯

993
00:53:06,710 --> 00:53:07,910
算法工作。

994
00:53:07,910 --> 00:53:08,920
這是否有道理？

995
00:53:08,920 --> 00:53:12,735
這也是一些真正令人興奮的
那你們也許可以探索一個

996
00:53:12,735 --> 00:53:13,901
最後的項目，是嗎？

997
00:53:13,901 --> 00:53:15,549
>> 學生：嗯，你說這是
天真的方式，有啥

998
00:53:15,549 --> 00:53:17,200
非幼稚的方式？

999
00:53:17,200 --> 00:53:18,400
>> LUCAS FREITAS：非幼稚的方式？

1000
00:53:18,400 --> 00:53:19,050
確定。

1001
00:53:19,050 --> 00:53:22,860
所以這是壞的第一件事
這個方法是我剛翻譯

1002
00:53:22,860 --> 00:53:24,330
也就是說，一個字一個字。

1003
00:53:24,330 --> 00:53:30,570
但有時你必須說的話
可以有多種譯文。

1004
00:53:30,570 --> 00:53:32,210
我會盡量想
的東西。

1005
00:53:32,210 --> 00:53:37,270
例如，在葡萄牙可以“漫畫”
要么是“裂傷”或“套筒”。所以

1006
00:53:37,270 --> 00:53:40,450
當你試圖翻譯單詞
通過文字，它可能給你

1007
00:53:40,450 --> 00:53:42,050
東西是沒有意義的。

1008
00:53:42,050 --> 00:53:45,770
>> 所以，你其實是要你在所有
的可能的翻譯

1009
00:53:45,770 --> 00:53:49,840
單詞和看，首先，
什麼是順序。

1010
00:53:49,840 --> 00:53:52,000
我們都在談論permutating
事情？

1011
00:53:52,000 --> 00:53:54,150
要查看所有可能的訂單，
選擇一個具有最高

1012
00:53:54,150 --> 00:53:54,990
概率是多少？

1013
00:53:54,990 --> 00:53:57,860
您也可以選擇所有可能的
翻譯每個

1014
00:53:57,860 --> 00:54:00,510
單詞，然後看 - 

1015
00:54:00,510 --> 00:54:01,950
結合的排列 - 

1016
00:54:01,950 --> 00:54:03,710
哪一個具有最高的概率。

1017
00:54:03,710 --> 00:54:08,590
>> 另外，你也可以看看不
只字，但短語。

1018
00:54:08,590 --> 00:54:11,700
這樣你就可以分析之間的關係
這些詞彙，然後得到一個

1019
00:54:11,700 --> 00:54:13,210
更好的翻譯建議。

1020
00:54:13,210 --> 00:54:16,690
另外別的東西，所以這學期
實際上，我在做研究

1021
00:54:16,690 --> 00:54:19,430
中國英語機器翻譯，
從這麼翻譯

1022
00:54:19,430 --> 00:54:20,940
中國成英文。

1023
00:54:20,940 --> 00:54:26,760
>> 而我們做的事情是，除了使用
一個統計模型，它只是

1024
00:54:26,760 --> 00:54:30,570
再看到的可能性
在一個句子中的某個位置，我

1025
00:54:30,570 --> 00:54:35,360
居然還加入一些語法來我
模型，說，哦，如果我看到這樣的

1026
00:54:35,360 --> 00:54:39,420
建築，這就是我想要的
改變它，當我翻譯。

1027
00:54:39,420 --> 00:54:43,880
所以，你也可以添加某種
語法元素以使

1028
00:54:43,880 --> 00:54:47,970
翻譯更高效
和更精確。

1029
00:54:47,970 --> 00:54:48,550
確定。

1030
00:54:48,550 --> 00:54:51,010
>> 所以你怎麼能上手，如果你想
做一下計算

1031
00:54:51,010 --> 00:54:51,980
語言學？

1032
00:54:51,980 --> 00:54:54,560
>> 首先，你選擇一個項目
涉及語言。

1033
00:54:54,560 --> 00:54:56,310
因此，有這麼多的在那裡。

1034
00:54:56,310 --> 00:54:58,420
有這麼多的事情可以做。

1035
00:54:58,420 --> 00:55:00,510
然後可以把一個模型
您可以使用。

1036
00:55:00,510 --> 00:55:04,710
通常，這意味著思維
假設，因為喜歡，呵呵，當我

1037
00:55:04,710 --> 00:55:05,770
喜歡的歌詞思維。

1038
00:55:05,770 --> 00:55:09,510
我當時想，好吧，如果我想弄清楚
出是誰寫的，我可能要

1039
00:55:09,510 --> 00:55:15,400
看的話的人使用，
看看誰使用這個詞非常頻繁。

1040
00:55:15,400 --> 00:55:18,470
所以盡量作出假設及
再想想模型。

1041
00:55:18,470 --> 00:55:21,395
然後你也可以在網上搜索
什麼樣的問題，你有，

1042
00:55:21,395 --> 00:55:24,260
而且它要建議
你的模型，也許

1043
00:55:24,260 --> 00:55:26,560
仿照那個東西好。

1044
00:55:26,560 --> 00:55:29,080
>> ，你也可以隨時給我發電子郵件。

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com。

1046
00:55:31,140 --> 00:55:34,940
而且我可以回答你的問題。

1047
00:55:34,940 --> 00:55:38,600
我們甚至可能會碰見這樣我就可以
給對方法的建議

1048
00:55:38,600 --> 00:55:41,490
實施項目。

1049
00:55:41,490 --> 00:55:45,610
我的意思是，如果你捲入到
計算語言學，這是怎麼回事

1050
00:55:45,610 --> 00:55:46,790
是巨大的。

1051
00:55:46,790 --> 00:55:48,370
你會看到有
這麼多的潛力。

1052
00:55:48,370 --> 00:55:52,060
和業界都希望僱傭
你是因為有那麼糟糕。

1053
00:55:52,060 --> 00:55:54,720
所以，我希望你們喜歡這個。

1054
00:55:54,720 --> 00:55:57,030
如果你們有任何問題，
您可以在此之後問我。

1055
00:55:57,030 --> 00:55:58,280
但是謝謝你。

1056
00:55:58,280 --> 00:56:00,150