1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS FREITAS：嘿。

3
00:00:08,870 --> 00:00:09,980
欢迎大家。

4
00:00:09,980 --> 00:00:11,216
我的名字是卢卡斯塔斯。

5
00:00:11,216 --> 00:00:15,220
我是一个大三学生[听不清]研究
计算机科学与重点

6
00:00:15,220 --> 00:00:16,410
计算语言学。

7
00:00:16,410 --> 00:00:19,310
所以，我的中学是在语言
和语言学理论。

8
00:00:19,310 --> 00:00:21,870
我真的很兴奋，教你们
关于外地一点点。

9
00:00:21,870 --> 00:00:24,300
这是一个非常激动人心的领域来研究。

10
00:00:24,300 --> 00:00:27,260
也有很大的潜力
为将来。

11
00:00:27,260 --> 00:00:30,160
所以，我真的很兴奋，你的家伙
正在考虑中的项目

12
00:00:30,160 --> 00:00:31,160
计算语言学。

13
00:00:31,160 --> 00:00:35,460
我会很乐意提供意见
任何的你，如果你决定

14
00:00:35,460 --> 00:00:37,090
追求其中的一个。

15
00:00:37,090 --> 00:00:40,010
>> 所以首先什么是计算的
语言学？

16
00:00:40,010 --> 00:00:44,630
因此，计算语言学是
语言学和之间的交集

17
00:00:44,630 --> 00:00:46,390
计算机科学。

18
00:00:46,390 --> 00:00:47,415
那么，什么是语言学？

19
00:00:47,415 --> 00:00:48,490
什么是计算机科学？

20
00:00:48,490 --> 00:00:51,580
以及从语言学，是什么
我们采取的是语言。

21
00:00:51,580 --> 00:00:54,960
因此，语言学实际上是研究
在一般的自然语言。

22
00:00:54,960 --> 00:00:58,330
所以，自然语言 - 大家说说
我们实际使用的语言

23
00:00:58,330 --> 00:00:59,770
相互通信。

24
00:00:59,770 --> 00:01:02,200
因此，我们不正是在说
关于C或Java。

25
00:01:02,200 --> 00:01:05,900
我们谈论更多关于英语和
中国和其他语言，我们

26
00:01:05,900 --> 00:01:07,780
用于彼此进行通信。

27
00:01:07,780 --> 00:01:12,470
>> 有关的具有挑战性的事情是，
现在我们有近7000

28
00:01:12,470 --> 00:01:14,260
语言在世界上。

29
00:01:14,260 --> 00:01:19,520
因此，有相当高的品种
的语言，我们可以研究。

30
00:01:19,520 --> 00:01:22,600
然后你认为它可能是
很难做到，比如，

31
00:01:22,600 --> 00:01:26,960
翻译从一种语言到
另外，考虑到你有

32
00:01:26,960 --> 00:01:28,240
其中近7000人。

33
00:01:28,240 --> 00:01:31,450
所以，如果你想这样做的翻译
从一种语言到另你

34
00:01:31,450 --> 00:01:35,840
几乎超过一百万
不同的组合，你可以

35
00:01:35,840 --> 00:01:37,330
必须从语言到语言。

36
00:01:37,330 --> 00:01:40,820
所以它的真正挑战做了一些
类的实例翻译系统的

37
00:01:40,820 --> 00:01:43,540
每一个语言。

38
00:01:43,540 --> 00:01:47,120
>> 所以，对待语言学与语法，
语义，语用学。

39
00:01:47,120 --> 00:01:49,550
你们不完全需要
要知道什么是他们的。

40
00:01:49,550 --> 00:01:55,090
但非常有趣的是，
作为母语的人，当你学会

41
00:01:55,090 --> 00:01:59,010
语言作为孩子，你居然学会
所有这些事情 - 语法语义

42
00:01:59,010 --> 00:02:00,500
和语用 - 

43
00:02:00,500 --> 00:02:01,430
由你自己。

44
00:02:01,430 --> 00:02:04,820
和任何人都没有教你语法
你明白的句子是如何

45
00:02:04,820 --> 00:02:05,290
结构。

46
00:02:05,290 --> 00:02:07,980
所以，这真的很有趣，因为
它的东西，来非常

47
00:02:07,980 --> 00:02:10,389
直观。

48
00:02:10,389 --> 00:02:13,190
>> 和你在服用
计算机科学？

49
00:02:13,190 --> 00:02:16,700
好了，最重要的事情是我们
在计算机科学，首先是

50
00:02:16,700 --> 00:02:19,340
总之，人工智能
和机器学习。

51
00:02:19,340 --> 00:02:22,610
所以，我们正在努力做
计算语言学是教

52
00:02:22,610 --> 00:02:26,990
您的计算机如何做
用的语言。

53
00:02:26,990 --> 00:02:28,630
>> 因此，例如，在机
翻译。

54
00:02:28,630 --> 00:02:32,490
我想教我的电脑怎么
知道如何从一个过渡

55
00:02:32,490 --> 00:02:33,310
语言到另一边。

56
00:02:33,310 --> 00:02:35,790
所以，基本上喜欢教学
一台电脑两种语言。

57
00:02:35,790 --> 00:02:38,870
如果我这样做自然语言处理，
这是示例的情况下

58
00:02:38,870 --> 00:02:41,810
Facebook的图搜索，你教
你的电脑怎么理解

59
00:02:41,810 --> 00:02:42,730
查询好。

60
00:02:42,730 --> 00:02:48,130
>> 所以，如果你说“的照片我的
朋友。“Facebook并没有把那

61
00:02:48,130 --> 00:02:51,130
作为具有整个字符串
只是一堆话。

62
00:02:51,130 --> 00:02:56,020
它实际上是理解的关系
“照片”和“我的朋友”之间

63
00:02:56,020 --> 00:02:59,620
了解到，“照片”是
物业“我的朋友。”

64
00:02:59,620 --> 00:03:02,350
>> 所以，这部分，例如
自然语言处理。

65
00:03:02,350 --> 00:03:04,790
它试图了解什么
之间的关系是

66
00:03:04,790 --> 00:03:07,520
词语的句子。

67
00:03:07,520 --> 00:03:11,170
而最大的问题是，你可以
教电脑如何说话

68
00:03:11,170 --> 00:03:12,650
在一般的语言？

69
00:03:12,650 --> 00:03:17,810
这是一个非常有趣的问题
想想，好像，也许在未来，

70
00:03:17,810 --> 00:03:19,930
你要能
谈谈您的手机。

71
00:03:19,930 --> 00:03:23,290
有点像我们做什么用的Siri，但
更多的东西一样，你实际上可以

72
00:03:23,290 --> 00:03:25,690
说任何你想要的手机
是要明白一切。

73
00:03:25,690 --> 00:03:28,350
而且它可以有后续问题
并继续谈判。

74
00:03:28,350 --> 00:03:30,880
这件事情真的很令人兴奋，
在我看来。

75
00:03:30,880 --> 00:03:33,070
>> 因此，一些关于自然语言。

76
00:03:33,070 --> 00:03:36,220
一些真正有趣
自然语言是说，这是

77
00:03:36,220 --> 00:03:38,470
信用到我的语言学教授，
玛丽亚Polinsky。

78
00:03:38,470 --> 00:03:40,830
她举了一个例子，我认为
这真的很有趣。

79
00:03:40,830 --> 00:03:47,060
因为我们学语文时，从
我们出生，然后我们的母语

80
00:03:47,060 --> 00:03:49,170
一种语言的生长在我们。

81
00:03:49,170 --> 00:03:52,570
>> 基本上你学习语言
从最小的投入，对不对？

82
00:03:52,570 --> 00:03:56,700
你刚刚从输入您的
您的语言听起来父母什么

83
00:03:56,700 --> 00:03:58,770
喜欢和你只是学习它。

84
00:03:58,770 --> 00:04:02,240
所以，这很有趣，因为如果你看一下
在这些句子，例如。

85
00:04:02,240 --> 00:04:06,980
你看，“玛丽穿上大衣每
一次，她离开家。“

86
00:04:06,980 --> 00:04:10,650
>> 在这种情况下，有可能有
单词“她”指的是玛丽，对不对？

87
00:04:10,650 --> 00:04:13,500
你可以说“玛丽穿上大衣
每次玛丽离开

88
00:04:13,500 --> 00:04:14,960
房子。“，这样很好。

89
00:04:14,960 --> 00:04:19,370
但是如果你看一下这句话
“她每次穿上大衣玛丽

90
00:04:19,370 --> 00:04:22,850
离开房子。“你知道这是
不可能说“她”是

91
00:04:22,850 --> 00:04:24,260
提及玛丽。

92
00:04:24,260 --> 00:04:27,070
>> 有没有办法说，“玛丽把
一件大衣，每次离开玛丽

93
00:04:27,070 --> 00:04:30,790
房子，“所以这很有趣，因为
这是一种直觉

94
00:04:30,790 --> 00:04:32,890
每一个母语了。

95
00:04:32,890 --> 00:04:36,370
也没有人告诉我们，这是
该语法的工作方式。

96
00:04:36,370 --> 00:04:41,930
而且，你只能拥有这件“她”
提及玛丽在第一种情况下，

97
00:04:41,930 --> 00:04:44,260
实际上在这等
过，但不是在这一个。

98
00:04:44,260 --> 00:04:46,500
但每个人都种得
以相同的答案。

99
00:04:46,500 --> 00:04:48,580
每个人都同意这一点。

100
00:04:48,580 --> 00:04:53,280
所以，这真的很有趣，虽然如何
你不知道所有的规则

101
00:04:53,280 --> 00:04:55,575
那种在你的语言你懂
语言如何工作的。

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> 因此，关于自然的有趣的事情
语言是你不必

104
00:05:01,530 --> 00:05:06,970
知道任何语法知道，如果一个句子
是语法或不合语法的

105
00:05:06,970 --> 00:05:08,810
大多数情况下。

106
00:05:08,810 --> 00:05:13,220
它让你觉得，也许什么
发生的情况是通过你的生活，你

107
00:05:13,220 --> 00:05:17,410
只是不断变得越来越
句子告诉你。

108
00:05:17,410 --> 00:05:19,800
然后你保持记忆
所有的句子。

109
00:05:19,800 --> 00:05:24,230
然后当有人告诉你
什么，你听到这句话，并

110
00:05:24,230 --> 00:05:27,040
你看看你的词汇量
的句子，看看是否

111
00:05:27,040 --> 00:05:28,270
那句话是存在的。

112
00:05:28,270 --> 00:05:29,830
如果是有你
说这是语法。

113
00:05:29,830 --> 00:05:31,740
如果它不是你说这是
不合语法。

114
00:05:31,740 --> 00:05:35,150
>> 所以，在这种情况下，你会说，哦，
让您拥有一个庞大的所有列表

115
00:05:35,150 --> 00:05:36,140
可能的句子。

116
00:05:36,140 --> 00:05:38,240
然后，当你听到一个句子，
你知道它的语法或

117
00:05:38,240 --> 00:05:39,450
不基于这一点。

118
00:05:39,450 --> 00:05:42,360
问题是，如果你看一下
一个句子，例如“该

119
00:05:42,360 --> 00:05:47,540
五头CS50转录因子煮熟的盲
使用DAPA杯章鱼。“这是

120
00:05:47,540 --> 00:05:49,630
绝对不是一句
你听说过。

121
00:05:49,630 --> 00:05:52,380
但在同一时间，你知道这是
相当多的语法，对不对？

122
00:05:52,380 --> 00:05:55,570
有没有语法错误
你可以说，

123
00:05:55,570 --> 00:05:57,020
这是一个可能的句子。

124
00:05:57,020 --> 00:06:01,300
>> 因此，它使我们觉得实际上是
这样，我们学习语言不仅是

125
00:06:01,300 --> 00:06:07,090
由具有巨大的可能的数据库
词或句子，但更多的

126
00:06:07,090 --> 00:06:11,490
理解的关系
也就是说在那些句子。

127
00:06:11,490 --> 00:06:14,570
这是否有道理？

128
00:06:14,570 --> 00:06:19,370
因此，接下来的问题是，能
电脑学习语言？

129
00:06:19,370 --> 00:06:21,490
我们可以教语言的计算机？

130
00:06:21,490 --> 00:06:24,230
>> 所以，让我们想到的差异
一种语言的母语之间

131
00:06:24,230 --> 00:06:25,460
和一台计算机。

132
00:06:25,460 --> 00:06:27,340
那么，究竟发生了扬声器？

133
00:06:27,340 --> 00:06:30,430
那么，母语学习一
从接触到它的语言。

134
00:06:30,430 --> 00:06:34,200
通常早期的童年岁月。

135
00:06:34,200 --> 00:06:38,570
所以，基本上，你只要有一个孩子，
你一直说要它，它

136
00:06:38,570 --> 00:06:40,540
刚刚学会如何说话
语言，对不对？

137
00:06:40,540 --> 00:06:42,660
所以，你基本上放弃
输入到婴儿。

138
00:06:42,660 --> 00:06:45,200
这样，那么你可以说，一台电脑
可以做同样的事情，对不对？

139
00:06:45,200 --> 00:06:49,510
你可以只给语言
作为输入到计算机中。

140
00:06:49,510 --> 00:06:53,410
>> 作为例子一堆文件
有英语书籍。

141
00:06:53,410 --> 00:06:56,190
也许这是一种方式，你
也可能教

142
00:06:56,190 --> 00:06:57,850
计算机英语，对不对？

143
00:06:57,850 --> 00:07:01,000
而事实上，如果你仔细想想，
它需要你，也许一对夫妇

144
00:07:01,000 --> 00:07:02,680
天读一本书。

145
00:07:02,680 --> 00:07:05,760
对于一台电脑需要一秒钟
看着一本书的所有单词。

146
00:07:05,760 --> 00:07:10,810
所以，你可以认为这或许正是这
从你周围的输入参数，

147
00:07:10,810 --> 00:07:15,440
这还不够，说这是
东西，只有人类可以做到的。

148
00:07:15,440 --> 00:07:17,680
你能想到的电脑
还可以得到输入。

149
00:07:17,680 --> 00:07:21,170
>> 第二件事是，母语
也有大脑，有

150
00:07:21,170 --> 00:07:23,870
语言学习能力。

151
00:07:23,870 --> 00:07:27,020
但是，如果你仔细想想，
大脑是一个坚实的事情。

152
00:07:27,020 --> 00:07:30,450
当你出生时，它已经被设置 - 

153
00:07:30,450 --> 00:07:31,320
这是你的大脑。

154
00:07:31,320 --> 00:07:34,660
而当你长大了，你只会得到更多的
语言的输入，也许营养素

155
00:07:34,660 --> 00:07:35,960
和其他的东西。

156
00:07:35,960 --> 00:07:38,170
但几乎你的大脑
是一个坚实的事情。

157
00:07:38,170 --> 00:07:41,290
>> 所以，你可以说，好吧，也许你可以
构建有一堆电脑

158
00:07:41,290 --> 00:07:45,890
功能和刚模仿方法
语言学习能力。

159
00:07:45,890 --> 00:07:49,630
所以在这个意义上，你可以说，好，我
能有一个具有所有电脑

160
00:07:49,630 --> 00:07:52,270
事情我需要学习的语言。

161
00:07:52,270 --> 00:07:56,200
而最后一件事情是，原生
扬声器学会从试验和错误。

162
00:07:56,200 --> 00:08:01,090
在所以基本上另一个重要的事情
语言的学习是你那种

163
00:08:01,090 --> 00:08:05,340
通过使学习的东西
你所听到的概括。

164
00:08:05,340 --> 00:08:10,280
>> 所以当你在成长过程中你学到了
有些话更像是名词，

165
00:08:10,280 --> 00:08:11,820
一些其他的都是形容词。

166
00:08:11,820 --> 00:08:14,250
而且你不必有任何
语言学知识

167
00:08:14,250 --> 00:08:15,040
要理解这一点。

168
00:08:15,040 --> 00:08:18,560
但你只是知道有一些单词
被定位在的某些部分

169
00:08:18,560 --> 00:08:22,570
句子和其他一些人在其他
部分的句子。

170
00:08:22,570 --> 00:08:26,110
>> 并且，当你做的东西是
就像一个句子是不正确的 - 

171
00:08:26,110 --> 00:08:28,770
也许是因为过度泛化
例如。

172
00:08:28,770 --> 00:08:32,210
也许当你长大了，你注意到
该复数通常是

173
00:08:32,210 --> 00:08:35,809
通过把一个S在形成
字的结尾。

174
00:08:35,809 --> 00:08:40,042
然后尝试做的复数
“鹿”为“鹿”或“牙”为

175
00:08:40,042 --> 00:08:44,780
“tooths。”这样的话你的父母或
有人纠正你，说，不，

176
00:08:44,780 --> 00:08:49,020
“鹿”的复数是“鹿”和
的“牙齿”复数是“牙齿”。进而

177
00:08:49,020 --> 00:08:50,060
你学那些东西。

178
00:08:50,060 --> 00:08:51,520
所以，如果你尝试和错误中学习。

179
00:08:51,520 --> 00:08:53,100
>> 但你也可以做到这一点
用一台计算机。

180
00:08:53,100 --> 00:08:55,310
你可以有一些所谓
强化学习。

181
00:08:55,310 --> 00:08:58,560
这基本上就像给一个
计算机时，它做了奖励

182
00:08:58,560 --> 00:08:59,410
正确的东西。

183
00:08:59,410 --> 00:09:04,710
并给它奖励的对面
当它做错了事。

184
00:09:04,710 --> 00:09:07,410
实际上，你可以看到，如果你走
到谷歌翻译，并试图

185
00:09:07,410 --> 00:09:10,220
翻译一个句子，它
要求您提供反馈意见。

186
00:09:10,220 --> 00:09:13,240
所以，如果你说，哦，还有更好的
翻译这句话。

187
00:09:13,240 --> 00:09:18,140
您可以键入它，然后如果有很多
人们一直说这是一个更好的

188
00:09:18,140 --> 00:09:21,560
翻译，它只是学习它
应使用的翻译，而不是

189
00:09:21,560 --> 00:09:22,960
一个它是给。

190
00:09:22,960 --> 00:09:28,830
>> 所以，这是一个非常哲学问题
看是否计算机都将是

191
00:09:28,830 --> 00:09:30,340
谈得来与否的未来。

192
00:09:30,340 --> 00:09:34,440
但我有很高的期望，他们可以
只是根据这些参数。

193
00:09:34,440 --> 00:09:38,570
但它只是更多的是一种哲学
问题。

194
00:09:38,570 --> 00:09:43,460
>> 因此，尽管电脑仍无法说话，
什么样的事情，我们可以做什么？

195
00:09:43,460 --> 00:09:47,070
一些非常酷的东西是
数据分类。

196
00:09:47,070 --> 00:09:53,210
因此，举例来说，你们知道
该电子邮件服务做的，为

197
00:09:53,210 --> 00:09:55,580
例如，垃圾邮件过滤。

198
00:09:55,580 --> 00:09:59,070
所以每当你收到垃圾邮件，它
试图筛选到另一个框。

199
00:09:59,070 --> 00:10:00,270
那么它是怎样做到这一点？

200
00:10:00,270 --> 00:10:06,080
它不象电脑才知道
什么电子邮件地址发送垃圾邮件。

201
00:10:06,080 --> 00:10:09,130
因此，它更是以内容
消息，或者标题，或

202
00:10:09,130 --> 00:10:11,310
也许你有一些图案。

203
00:10:11,310 --> 00:10:15,690
>> 所以，基本上，你所能做的就是得到一个
大量的电子邮件是垃圾邮件的数据，

204
00:10:15,690 --> 00:10:19,980
邮件是不是垃圾邮件，并了解
样的模式，你必须在

205
00:10:19,980 --> 00:10:21,000
那些是垃圾邮件。

206
00:10:21,000 --> 00:10:23,260
这是计算的一部分
语言学。

207
00:10:23,260 --> 00:10:24,720
这就是所谓的数据分类。

208
00:10:24,720 --> 00:10:28,100
而我们实际上将看到一个
例如，在接下来的幻灯片。

209
00:10:28,100 --> 00:10:32,910
>> 第二件事是自然语言
处理这是事情的

210
00:10:32,910 --> 00:10:36,580
图搜索是做又让
你写一个句子。

211
00:10:36,580 --> 00:10:38,690
它相信你明白
的含义，并给出

212
00:10:38,690 --> 00:10:39,940
你一个更好的结果。

213
00:10:39,940 --> 00:10:43,880
其实，如果你去谷歌或Bing
你搜索的东西像Lady

214
00:10:43,880 --> 00:10:47,060
Gaga的高度，你实际上会
得到5'，而不是信息1“

215
00:10:47,060 --> 00:10:50,170
从她的，因为它实际上理解
你在说什么。

216
00:10:50,170 --> 00:10:52,140
所以这是自然的一部分，
语言处理。

217
00:10:52,140 --> 00:10:57,000
>> 或者也当你使用Siri的，第一
你有一个算法，试图

218
00:10:57,000 --> 00:11:01,130
翻译你在说什么
成文字，在文字。

219
00:11:01,130 --> 00:11:03,690
然后它会尝试翻译
到那个意思。

220
00:11:03,690 --> 00:11:06,570
所以这是所有自然的一部分
语言处理。

221
00:11:06,570 --> 00:11:08,320
>> 那么你有机器翻译 - 

222
00:11:08,320 --> 00:11:10,300
这实际上是1
我的最爱 - 

223
00:11:10,300 --> 00:11:14,060
这是刚刚从翻译
一种语言到另一种。

224
00:11:14,060 --> 00:11:17,950
所以，你可以认为，当你正在做的
机器翻译，你有

225
00:11:17,950 --> 00:11:19,750
句子的无限可能性。

226
00:11:19,750 --> 00:11:22,960
因此，有没有办法只存储
每一个翻译。

227
00:11:22,960 --> 00:11:27,440
所以，你必须想出有趣
算法能够

228
00:11:27,440 --> 00:11:30,110
翻译每一个
句子以某种方式。

229
00:11:30,110 --> 00:11:32,483
>> 你们有什么问题这么远吗？

230
00:11:32,483 --> 00:11:34,450
没有？

231
00:11:34,450 --> 00:11:34,830
确定。

232
00:11:34,830 --> 00:11:36,900
>> 那么，我们要看到今天？

233
00:11:36,900 --> 00:11:39,300
首先，我要说说
分类问题。

234
00:11:39,300 --> 00:11:41,440
这样一说我是
说关于垃圾邮件。

235
00:11:41,440 --> 00:11:46,820
我什么都做的是，给定的歌词
一首歌，你可以揣摩

236
00:11:46,820 --> 00:11:49,810
以高概率
谁是歌手？

237
00:11:49,810 --> 00:11:53,590
比方说，我从夫人的歌
Gaga和Katy Perry的，如果我给你一个

238
00:11:53,590 --> 00:11:58,130
新的歌曲，你可以计算出，如果
这是凯蒂·佩里还是Lady Gaga的？

239
00:11:58,130 --> 00:12:01,490
>> 第二个，我只是要谈
关于分割问题。

240
00:12:01,490 --> 00:12:05,780
所以，我不知道，如果你们知道，但
中国，日本，其他东亚

241
00:12:05,780 --> 00:12:08,090
语言和其它语言
在一般情况下，不必

242
00:12:08,090 --> 00:12:09,830
单词之间的空格。

243
00:12:09,830 --> 00:12:13,540
然后，如果你想的方式，
你的电脑亲切的尝试，以

244
00:12:13,540 --> 00:12:18,600
理解自然语言处理，
它着眼于单词和

245
00:12:18,600 --> 00:12:21,500
试图了解关系
他们之间，对不对？

246
00:12:21,500 --> 00:12:25,440
但是，如果你有中国人，你
具有零位，这真的很难

247
00:12:25,440 --> 00:12:28,360
搞清楚什么是之间的关系
也就是说，因为它们不具有任何

248
00:12:28,360 --> 00:12:29,530
也就是说在第一。

249
00:12:29,530 --> 00:12:32,600
所以，你必须做一些所谓的
分割这只是意味着把

250
00:12:32,600 --> 00:12:36,490
我们所说的空间
也就是说在这些语言。

251
00:12:36,490 --> 00:12:37,740
有意义吗？

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> 然后我们要
说说语法。

254
00:12:41,540 --> 00:12:44,050
关于自然的，因此只是一点点
语言处理。

255
00:12:44,050 --> 00:12:45,420
这将只是一个概述。

256
00:12:45,420 --> 00:12:50,700
所以今天，基本上是我想要做的
是给你们的一点点

257
00:12:50,700 --> 00:12:53,930
什么是内部的可能性
你可以用做计算

258
00:12:53,930 --> 00:12:54,960
语言学。

259
00:12:54,960 --> 00:13:00,410
然后你就可以看到你的想法
凉爽的那些东西。

260
00:13:00,410 --> 00:13:02,270
也许你能想到的一个项目
和来跟我说话。

261
00:13:02,270 --> 00:13:05,260
我可以给你建议
关于如何实现它。

262
00:13:05,260 --> 00:13:09,060
>> 所以语法将是一点点
关于图搜索和机器

263
00:13:09,060 --> 00:13:09,670
翻译。

264
00:13:09,670 --> 00:13:13,650
我只是想给怎样一个例子
你可以，例如，翻译

265
00:13:13,650 --> 00:13:16,020
从东西到葡萄牙语英语。

266
00:13:16,020 --> 00:13:17,830
听起来不错？

267
00:13:17,830 --> 00:13:19,293
>> 因此，首先，在分类问题。

268
00:13:19,293 --> 00:13:23,590
我会说，这部分研讨会
将是最具挑战性的

269
00:13:23,590 --> 00:13:27,560
一个只因为那里是怎么回事
是一些编码。

270
00:13:27,560 --> 00:13:29,470
但它的将是Python的。

271
00:13:29,470 --> 00:13:34,380
我知道你们不知道的Python，所以
我只是要对高解释

272
00:13:34,380 --> 00:13:35,750
平我在做什么。

273
00:13:35,750 --> 00:13:40,900
而你没有真正在乎过
很多关于语法，因为这是

274
00:13:40,900 --> 00:13:42,140
东西你们可以学习。

275
00:13:42,140 --> 00:13:42,540
好不好？

276
00:13:42,540 --> 00:13:43,580
听起来不错。

277
00:13:43,580 --> 00:13:46,020
>> 那么什么是分类问题？

278
00:13:46,020 --> 00:13:49,140
所以，你给一些歌词
一首歌曲，你要猜

279
00:13:49,140 --> 00:13:50,620
谁在唱。

280
00:13:50,620 --> 00:13:54,045
这可以是任何类型的
的其他问题。

281
00:13:54,045 --> 00:13:59,980
所以可以，例如，你有一个
总统竞选和你有一个

282
00:13:59,980 --> 00:14:02,610
讲话，你想找到
出，如果它是，例如，

283
00:14:02,610 --> 00:14:04,470
奥巴马或罗姆尼。

284
00:14:04,470 --> 00:14:07,700
或者你可以有一大堆的电子邮件和
你要搞清楚，如果他们是

285
00:14:07,700 --> 00:14:08,890
垃圾邮件。

286
00:14:08,890 --> 00:14:11,440
所以它只是一些分类
基于该字的数据

287
00:14:11,440 --> 00:14:13,790
你有没有。

288
00:14:13,790 --> 00:14:16,295
>> 因此，要做到这一点，你必须
做一些假设。

289
00:14:16,295 --> 00:14:20,570
所以很多关于计算语言学
正在假设，

290
00:14:20,570 --> 00:14:24,100
通常聪明的假设，从而使
你可以得到很好的效果。

291
00:14:24,100 --> 00:14:26,670
试图建立一个模型了。

292
00:14:26,670 --> 00:14:31,290
然后再尝试一下，看看它是否工作，
如果它给你很好的精度。

293
00:14:31,290 --> 00:14:33,940
如果确实如此，那么你
尝试改善它。

294
00:14:33,940 --> 00:14:37,640
如果没有，你肯定在想：好吧，也许我
应该做出不同的假设。

295
00:14:37,640 --> 00:14:44,030
>> 让我们将假设
提出的是一个艺术家通常唱

296
00:14:44,030 --> 00:14:49,220
的一个话题多次，也许
使用的话多次刚

297
00:14:49,220 --> 00:14:50,270
因为他们已经习惯了它。

298
00:14:50,270 --> 00:14:51,890
你可以认为你的朋友的。

299
00:14:51,890 --> 00:14:57,350
我敢肯定，你们都有朋友
那说，他们的签名短语，

300
00:14:57,350 --> 00:14:59,260
从字面上每一个句子 - 

301
00:14:59,260 --> 00:15:02,660
像一些特定的词或某些特定
短语，他们说的

302
00:15:02,660 --> 00:15:04,020
每一个句子。

303
00:15:04,020 --> 00:15:07,920
>> 什么可以说的是，如果你看
一个句子，有一个签名

304
00:15:07,920 --> 00:15:11,450
词组，你可以猜测，大概
你的朋友是

305
00:15:11,450 --> 00:15:13,310
有一句话说，对不对？

306
00:15:13,310 --> 00:15:18,410
所以，你做这样的假设，然后
这就是你如何创建一个模型。

307
00:15:18,410 --> 00:15:24,440
>> 那我要举的例子是
如何Lady Gaga的，例如，人

308
00:15:24,440 --> 00:15:27,430
说，她使用“宝贝”的
她所有的头号歌曲。

309
00:15:27,430 --> 00:15:32,270
而实际上，这是一个视频，显示
她说这个词“宝贝”的

310
00:15:32,270 --> 00:15:33,410
不同的歌曲。

311
00:15:33,410 --> 00:15:33,860
>> [视频回放]

312
00:15:33,860 --> 00:15:34,310
>>  - （唱）婴儿。

313
00:15:34,310 --> 00:15:36,220
宝贝。

314
00:15:36,220 --> 00:15:37,086
宝贝。

315
00:15:37,086 --> 00:15:37,520
宝贝。

316
00:15:37,520 --> 00:15:37,770
宝贝。

317
00:15:37,770 --> 00:15:38,822
贝贝。

318
00:15:38,822 --> 00:15:39,243
宝贝。

319
00:15:39,243 --> 00:15:40,085
宝贝。

320
00:15:40,085 --> 00:15:40,510
宝贝。

321
00:15:40,510 --> 00:15:40,850
宝贝。

322
00:15:40,850 --> 00:15:41,090
>> [完录像回放 - 

323
00:15:41,090 --> 00:15:44,020
>> LUCAS FREITAS：所以有，我认为，
40首歌曲在这里，她说，

324
00:15:44,020 --> 00:15:48,690
词“宝贝”。所以，你基本上可以猜到
如果你看到一首歌，有

325
00:15:48,690 --> 00:15:52,180
单词“宝宝”有一些高
概率，它是Lady Gaga的。

326
00:15:52,180 --> 00:15:56,450
但是，让我们尝试开发这样
进一步更正式。

327
00:15:56,450 --> 00:16:00,470
>> 所以这些都是歌词歌曲
Lady Gaga和Katy Perry的。

328
00:16:00,470 --> 00:16:04,120
所以，你看Lady Gaga的，你看他们
有很多事件的“宝贝”，一

329
00:16:04,120 --> 00:16:07,710
大量出现的“方式”。进而
凯蒂·佩里有很多事件的发生

330
00:16:07,710 --> 00:16:10,360
“对，”很多事件的发生“火灾”。

331
00:16:10,360 --> 00:16:14,560
>> 所以基本上我们想要
做的是，你会得到一首抒情诗。

332
00:16:14,560 --> 00:16:20,480
比方说，你会得到一个抒情的
歌曲是“宝贝”，只是“宝贝”。如果

333
00:16:20,480 --> 00:16:24,750
你刚刚得到了这个词“宝贝”，这
是你的所有，从数据

334
00:16:24,750 --> 00:16:27,880
Lady Gaga和凯蒂·佩里，谁也
你猜是人

335
00:16:27,880 --> 00:16:29,370
是谁唱这首歌？

336
00:16:29,370 --> 00:16:32,360
Lady Gaga的还是凯蒂·佩里？

337
00:16:32,360 --> 00:16:33,150
Lady Gaga的，对不对？

338
00:16:33,150 --> 00:16:37,400
因为她是唯一一个说谁
“宝贝”。这听起来很愚蠢，对吧？

339
00:16:37,400 --> 00:16:38,760
OK，这是很容易的。

340
00:16:38,760 --> 00:16:41,860
我只是在看的两首歌曲，并
当然，她是谁的唯一

341
00:16:41,860 --> 00:16:42,660
“宝贝”。

342
00:16:42,660 --> 00:16:44,740
>> 但是，如果你有一堆话？

343
00:16:44,740 --> 00:16:50,900
如果你有一个实际的歌词，东西
一样，“宝贝，我只是

344
00:16:50,900 --> 00:16:51,610
去看了[？ CFT？]

345
00:16:51,610 --> 00:16:54,020
讲座“，或者类似的东西，和
那么你实际上必须弄清楚 - 

346
00:16:54,020 --> 00:16:55,780
基于所有这些话 - 

347
00:16:55,780 --> 00:16:58,350
谁是谁的艺术家可能
唱这首歌？

348
00:16:58,350 --> 00:17:01,860
所以让我们尝试开发
这远一点。

349
00:17:01,860 --> 00:17:05,630
>> 好了，根据刚刚的数据，我们
得到了，似乎加加可能是

350
00:17:05,630 --> 00:17:06,260
歌手。

351
00:17:06,260 --> 00:17:07,904
但如何才能写
这更正式？

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
并有将是一个小
统计位。

354
00:17:13,140 --> 00:17:15,880
所以，如果你迷路了，只要尝试
要理解这个概念。

355
00:17:15,880 --> 00:17:18,700
如果你理解不要紧，
方程非常清楚。

356
00:17:18,700 --> 00:17:22,150
这是所有要上线了。

357
00:17:22,150 --> 00:17:25,490
>> 所以基本上就是我计算的是
概率，这首歌是由

358
00:17:25,490 --> 00:17:28,040
Lady Gaga的因为 - 

359
00:17:28,040 --> 00:17:30,660
所以这条表示因为 - 

360
00:17:30,660 --> 00:17:33,680
我看到这个词“宝贝”。
这是否有道理？

361
00:17:33,680 --> 00:17:35,540
所以我试图计算
这种可能性。

362
00:17:35,540 --> 00:17:38,540
>> 所以有这个定理称为
贝叶斯定理是说，

363
00:17:38,540 --> 00:17:43,330
一个给定的B的概率，是
乙的概率给出A，倍

364
00:17:43,330 --> 00:17:47,660
概率A的，超过的概率
B.这是一个长期的方程。

365
00:17:47,660 --> 00:17:51,970
但是，你有什么从理解
这是，这是我想要的

366
00:17:51,970 --> 00:17:52,830
计算，对不对？

367
00:17:52,830 --> 00:17:56,570
让这首歌是由概率
Lady Gaga的因为我看到这个词

368
00:17:56,570 --> 00:17:58,230
“宝贝”。

369
00:17:58,230 --> 00:18:02,960
>> 现在有什么我得到的是
单词“宝贝”的概率给出

370
00:18:02,960 --> 00:18:04,390
我有Lady Gaga的。

371
00:18:04,390 --> 00:18:07,220
什么是基本？

372
00:18:07,220 --> 00:18:10,500
这也就意味着，有什么
看到这个词“宝贝”的概率

373
00:18:10,500 --> 00:18:12,130
在Gaga的歌词？

374
00:18:12,130 --> 00:18:16,240
如果我想计算出在一个非常
简单的方法，它只是数

375
00:18:16,240 --> 00:18:23,640
次我看到“宝贝”在总数
在加加歌词的话，对不对？

376
00:18:23,640 --> 00:18:27,600
什么是我看到的频率
在Gaga的工作这个词？

377
00:18:27,600 --> 00:18:30,530
有意义吗？

378
00:18:30,530 --> 00:18:33,420
>> 第二项是
概率加加。

379
00:18:33,420 --> 00:18:34,360
这是什么意思？

380
00:18:34,360 --> 00:18:38,550
这基本上意味着，请问是什么
分类的概率

381
00:18:38,550 --> 00:18:40,690
有些歌词加加？

382
00:18:40,690 --> 00:18:45,320
那就是很怪，但
让我们想到的一个例子。

383
00:18:45,320 --> 00:18:49,230
因此，让我们说的概率
在一首歌曲有“宝贝”是一样的

384
00:18:49,230 --> 00:18:51,760
对于Gaga和布兰妮斯皮尔斯。

385
00:18:51,760 --> 00:18:54,950
但布兰妮斯皮尔斯有两次
比Lady Gaga的多首歌曲。

386
00:18:54,950 --> 00:19:00,570
因此，如果有人只是随机给你
“宝贝”的第一件事歌词你

387
00:19:00,570 --> 00:19:04,710
看的是，什么是概率
在Gaga的歌曲有“宝贝”，“宝贝”

388
00:19:04,710 --> 00:19:05,410
在布兰妮的歌？

389
00:19:05,410 --> 00:19:06,460
它是同样的事情。

390
00:19:06,460 --> 00:19:10,040
>> 所以，你会看到的第二件事情是，
那么，什么是概率

391
00:19:10,040 --> 00:19:13,770
这歌词本身是一个Gaga的歌词，
是什么的概率

392
00:19:13,770 --> 00:19:15,380
作为布兰妮的歌词？

393
00:19:15,380 --> 00:19:18,950
所以自从布兰妮有那么多的歌词
比加加，你可能会

394
00:19:18,950 --> 00:19:21,470
比方说，好了，这可能是
布兰妮的歌词。

395
00:19:21,470 --> 00:19:23,340
所以这就是为什么我们有这个
该词在这里。

396
00:19:23,340 --> 00:19:24,670
概率加加。

397
00:19:24,670 --> 00:19:26,950
有道理？

398
00:19:26,950 --> 00:19:28,660
不是吗？

399
00:19:28,660 --> 00:19:29,370
确定。

400
00:19:29,370 --> 00:19:33,500
>> 和最后一个是刚才的概率
“婴儿”的不

401
00:19:33,500 --> 00:19:34,810
真正的问题那么多。

402
00:19:34,810 --> 00:19:39,940
但它的概率
看到“宝贝”的英文。

403
00:19:39,940 --> 00:19:42,725
我们通常不关心
很多关于这个词。

404
00:19:42,725 --> 00:19:44,490
这是否有道理？

405
00:19:44,490 --> 00:19:48,110
所以加加的概率是
称为先验概率

406
00:19:48,110 --> 00:19:49,530
之类的加加。

407
00:19:49,530 --> 00:19:53,840
因为它只是意味着，请问是什么
有那个类的概率 - 

408
00:19:53,840 --> 00:19:55,520
这是加加 - 

409
00:19:55,520 --> 00:19:59,350
只是在一般情况下，刚
没有条件。

410
00:19:59,350 --> 00:20:02,560
>> 然后当我有概率
加加给“宝贝”，我们把它叫做加

411
00:20:02,560 --> 00:20:06,160
流泪的概率，因为它是
具有的概率

412
00:20:06,160 --> 00:20:08,300
加加给出了一些证据。

413
00:20:08,300 --> 00:20:11,050
所以我给你证据
我看到这个词的婴儿和

414
00:20:11,050 --> 00:20:12,690
这首歌有意义吗？

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
确定。

417
00:20:16,410 --> 00:20:22,400
>> 所以，如果我计算过，每个
该歌曲的Lady Gaga，

418
00:20:22,400 --> 00:20:25,916
是什么将是 - 

419
00:20:25,916 --> 00:20:27,730
显然，我不能动了。

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
加加的概率将是
类似，在2 24，次数的1/2，

422
00:20:36,920 --> 00:20:38,260
在2比53。

423
00:20:38,260 --> 00:20:40,640
如果你知道它什么都无所谓
这些数字的来源。

424
00:20:40,640 --> 00:20:44,750
但它只是一个数字，是怎么回事
为大于0，对不对？

425
00:20:44,750 --> 00:20:48,610
>> 然后当我做凯蒂·佩里，该
“宝宝”的概率给出卡提现

426
00:20:48,610 --> 00:20:49,830
已经为0，对不对？

427
00:20:49,830 --> 00:20:52,820
因为没有“宝贝”
在凯蒂·佩里。

428
00:20:52,820 --> 00:20:56,360
是这样，那么这变成0，并且加加
胜，这意味着Gaga是

429
00:20:56,360 --> 00:20:57,310
大概是歌手。

430
00:20:57,310 --> 00:20:58,560
这是否有道理？

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
确定。

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> 所以，如果我想使这个更正式，
我其实可以做一个模型

435
00:21:11,750 --> 00:21:12,700
多个单词。

436
00:21:12,700 --> 00:21:14,610
因此，让我们说我有话
一样，“宝贝，我

437
00:21:14,610 --> 00:21:16,030
着火了，“什么的。

438
00:21:16,030 --> 00:21:17,760
因此，它具有多个单词。

439
00:21:17,760 --> 00:21:20,880
在这种情况下，你可以看到
这“宝贝”是加加，

440
00:21:20,880 --> 00:21:21,710
但它不是在凯蒂。

441
00:21:21,710 --> 00:21:24,940
与“火”是凯蒂，但
它不是在Gaga的，对不对？

442
00:21:24,940 --> 00:21:27,200
因此，它变得棘手，对吧？

443
00:21:27,200 --> 00:21:31,440
因为它似乎，你几乎
有两者之间的领带。

444
00:21:31,440 --> 00:21:36,980
>> 所以你要做的就是承担
独立性的话之一。

445
00:21:36,980 --> 00:21:41,210
所以基本上这是什么意思是，
我只是计算是什么

446
00:21:41,210 --> 00:21:44,330
看到的概率“宝贝”，什么是
看到的可能性“我”和

447
00:21:44,330 --> 00:21:46,670
“是”和“上”和“火”
所有独立。

448
00:21:46,670 --> 00:21:48,670
然后我乘他们。

449
00:21:48,670 --> 00:21:52,420
而我看​​到的是概率
的看到整个句子。

450
00:21:52,420 --> 00:21:55,210
有意义吗？

451
00:21:55,210 --> 00:22:00,270
>> 所以基本上，如果我只有一个字，
我想要找的是阿根廷最大，

452
00:22:00,270 --> 00:22:05,385
这意味着，那是什么是类
给我最高的概率是多少？

453
00:22:05,385 --> 00:22:10,010
那么，什么是给类
我的最高概率

454
00:22:10,010 --> 00:22:11,940
类的概率给定的单词。

455
00:22:11,940 --> 00:22:17,610
因此，在这种情况下，给予加加“宝贝”。
或凯蒂给“宝贝”。有意义吗？

456
00:22:17,610 --> 00:22:21,040
>> 而刚刚从贝叶斯，那
方程式我发现，

457
00:22:21,040 --> 00:22:24,780
我们创建这个分数。

458
00:22:24,780 --> 00:22:28,750
唯一的一点是，你看到
字中给出的概率

459
00:22:28,750 --> 00:22:31,370
根据班级的变化
在类的吧？

460
00:22:31,370 --> 00:22:34,260
的“宝贝”s表示我有多少
在Gaga是从凯蒂不同。

461
00:22:34,260 --> 00:22:37,640
类的概率也
的变化，因为它只是数

462
00:22:37,640 --> 00:22:39,740
歌曲他们每个人都有。

463
00:22:39,740 --> 00:22:43,980
>> 但这个词本身的概率
将是相同的所有的

464
00:22:43,980 --> 00:22:44,740
艺术家，对不对？

465
00:22:44,740 --> 00:22:47,150
这样的单词的概率是
只是，什么是概率

466
00:22:47,150 --> 00:22:49,820
看到在这个词
英语？

467
00:22:49,820 --> 00:22:51,420
因此，它是相同的所有的人。

468
00:22:51,420 --> 00:22:55,790
所以，因为这是不变的，我们可以只
下降的，根本没有在意它。

469
00:22:55,790 --> 00:23:00,230
因此，这将是真正的
方程我们正在寻找。

470
00:23:00,230 --> 00:23:03,360
>> 如果我有多个的话，我
仍然会有事先

471
00:23:03,360 --> 00:23:04,610
概率在这里。

472
00:23:04,610 --> 00:23:06,980
唯一的一点是，我乘
的概率

473
00:23:06,980 --> 00:23:08,490
所有其他的话。

474
00:23:08,490 --> 00:23:10,110
所以我乘他们。

475
00:23:10,110 --> 00:23:12,610
有意义吗？

476
00:23:12,610 --> 00:23:18,440
它看起来很奇怪，但基本上意味着，
计算前的类，并

477
00:23:18,440 --> 00:23:22,100
然后由每个的概率相乘
在这个类是的话。

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> 而且你知道的概率
给定一类字将是对

480
00:23:29,150 --> 00:23:34,520
你看到这个词次数
该类别，由数除以

481
00:23:34,520 --> 00:23:37,020
也就是说你必须在这
类一般。

482
00:23:37,020 --> 00:23:37,990
有意义吗？

483
00:23:37,990 --> 00:23:41,680
这是在多么“宝贝”是2
字的数目是

484
00:23:41,680 --> 00:23:43,020
我在歌词中。

485
00:23:43,020 --> 00:23:45,130
因此，只要频率。

486
00:23:45,130 --> 00:23:46,260
>> 但有一件事。

487
00:23:46,260 --> 00:23:51,250
还记得我是怎么显示的
的“宝贝”是概率的歌词

488
00:23:51,250 --> 00:23:56,350
从凯蒂·佩里为0，只是因为凯蒂
佩里并没有在所有有“宝贝”？

489
00:23:56,350 --> 00:24:04,900
但它听起来有点刺耳，只是
简单地说，歌词不能从

490
00:24:04,900 --> 00:24:10,040
只是因为它们没有一个艺术家
该单词在特定随时。

491
00:24:10,040 --> 00:24:13,330
>> 所以你可以只说，好吧，如果你
没有这个字，我要去

492
00:24:13,330 --> 00:24:15,640
给你一个较低的概率，
但我只是不打算

493
00:24:15,640 --> 00:24:17,420
给你0的时候了。

494
00:24:17,420 --> 00:24:21,040
因为也许是类似，
“火，火，火，火，”这是

495
00:24:21,040 --> 00:24:21,990
完全凯蒂·佩里。

496
00:24:21,990 --> 00:24:26,060
然后“宝贝”，它只是去
0的时候了，因为有一个

497
00:24:26,060 --> 00:24:27,250
“宝贝”。

498
00:24:27,250 --> 00:24:31,440
>> 所以基本上我们做的是什么
所谓的拉普拉斯平滑。

499
00:24:31,440 --> 00:24:36,260
这只是意味着我放弃
有些甚至可能的话

500
00:24:36,260 --> 00:24:37,850
不存在的。

501
00:24:37,850 --> 00:24:43,170
因此，我要做的是，当我
计算这个，我总是加1

502
00:24:43,170 --> 00:24:44,180
分子中。

503
00:24:44,180 --> 00:24:48,060
所以即使单词不存在，在
这种情况下，如果是0，我还是

504
00:24:48,060 --> 00:24:51,250
计算此为1比
单词总数。

505
00:24:51,250 --> 00:24:55,060
否则，我得到多少个字
我已经和我加1。

506
00:24:55,060 --> 00:24:58,300
所以我就指望这两种情况。

507
00:24:58,300 --> 00:25:00,430
有意义吗？

508
00:25:00,430 --> 00:25:03,060
>> 所以，现在让我们做一些编码。

509
00:25:03,060 --> 00:25:06,440
我将不得不这样做相当快，
但它只是重要的是你

510
00:25:06,440 --> 00:25:08,600
人理解的概念。

511
00:25:08,600 --> 00:25:13,450
所以，我们正在试图做的
也正是实施这一

512
00:25:13,450 --> 00:25:14,330
的事情，我只是说 - 

513
00:25:14,330 --> 00:25:19,110
我希望你把歌词从
Lady Gaga和Katy Perry的。

514
00:25:19,110 --> 00:25:22,980
和节目是要能够
说，如果这些新的歌词是从加加

515
00:25:22,980 --> 00:25:24,170
或凯蒂·佩里。

516
00:25:24,170 --> 00:25:25,800
有意义吗？

517
00:25:25,800 --> 00:25:27,530
确定。

518
00:25:27,530 --> 00:25:30,710
>> 所以，我有这个计划我要去
打电话classify.py。

519
00:25:30,710 --> 00:25:31,970
所以这是Python的。

520
00:25:31,970 --> 00:25:34,210
这是一种新的编程语言。

521
00:25:34,210 --> 00:25:38,020
它是在某些非常相似
方式到C和PHP。

522
00:25:38,020 --> 00:25:43,180
这是类似的，因为如果你想
明知℃之后学习Python，它的

523
00:25:43,180 --> 00:25:46,270
真的没有那么多的挑战
只是因为Python是容易得多

524
00:25:46,270 --> 00:25:47,520
比C，首先。

525
00:25:47,520 --> 00:25:49,370
和很多东西都已经
实现你。

526
00:25:49,370 --> 00:25:56,820
那么究竟像PHP有函数
排序的列表，或是添加一些东西

527
00:25:56,820 --> 00:25:58,780
到一个数组，或者胡说，胡说，胡说。

528
00:25:58,780 --> 00:26:00,690
Python有所有这些为好。

529
00:26:00,690 --> 00:26:05,960
>> 所以我只是要迅速解释
我们如何能做到分类

530
00:26:05,960 --> 00:26:07,860
问题在这里。

531
00:26:07,860 --> 00:26:13,230
所以我们可以说，在这种情况下，我有
从Gaga和Katy Perry的歌词。

532
00:26:13,230 --> 00:26:21,880
我有那些歌词的方式是，
歌词的第一个字是

533
00:26:21,880 --> 00:26:25,250
艺术家的名字，以及
剩下的就是歌词。

534
00:26:25,250 --> 00:26:29,470
所以我们可以说，我在这个名单
其中第一个是歌词由加加。

535
00:26:29,470 --> 00:26:31,930
所以在这里，我在正确的轨道。

536
00:26:31,930 --> 00:26:35,270
而下一个是凯蒂和
它也有歌词。

537
00:26:35,270 --> 00:26:38,040
>> 所以，你这是怎么声明
在Python中的变量。

538
00:26:38,040 --> 00:26:40,200
你不必给的数据类型。

539
00:26:40,200 --> 00:26:43,150
你只写“的歌词，”
那种喜欢在PHP。

540
00:26:43,150 --> 00:26:44,890
有意义吗？

541
00:26:44,890 --> 00:26:47,770
>> 那么，什么是我的事
计算，以便能够计算出

542
00:26:47,770 --> 00:26:49,360
概率？

543
00:26:49,360 --> 00:26:55,110
我要计算“先验”
每一个不同的

544
00:26:55,110 --> 00:26:56,710
类，我有。

545
00:26:56,710 --> 00:27:06,680
我要计算“后验”
或相当多的概率

546
00:27:06,680 --> 00:27:12,150
每一个不同的词
我可以为每个艺术家。

547
00:27:12,150 --> 00:27:17,210
所以在加加，例如，我要去
到有多少次我看到一个列表

548
00:27:17,210 --> 00:27:19,250
每个单词。

549
00:27:19,250 --> 00:27:20,760
有意义吗？

550
00:27:20,760 --> 00:27:25,370
>> 最后，我只是有一个
列表被称为“字”，也就是刚准备

551
00:27:25,370 --> 00:27:29,780
有多少字我
为每个艺术家。

552
00:27:29,780 --> 00:27:33,760
因此，对于加加，例如，当我看
的歌词，我，我想，24

553
00:27:33,760 --> 00:27:34,750
字总。

554
00:27:34,750 --> 00:27:38,970
所以这个列表只是将不得不
加加24，和Katy另一个号码。

555
00:27:38,970 --> 00:27:40,130
有意义吗？

556
00:27:40,130 --> 00:27:40,560
确定。

557
00:27:40,560 --> 00:27:42,530
>> 所以，现在，居然，让我们
去编码。

558
00:27:42,530 --> 00:27:45,270
所以在Python中，你实际上可以
返回一堆不同

559
00:27:45,270 --> 00:27:46,630
活动从一个函数。

560
00:27:46,630 --> 00:27:50,810
所以我打算创造这个功能
称为“有条件的”，这是打算

561
00:27:50,810 --> 00:27:53,890
返回所有这些事情时，
“先验”的“概率”，并

562
00:27:53,890 --> 00:28:05,690
“字样。”因此，“有条件的”，它是
将要调入“的歌词。”

563
00:28:05,690 --> 00:28:11,510
>> 所以，现在我要你真正
写这个函数。

564
00:28:11,510 --> 00:28:17,750
所以，我可以写这个的方式
功能是我刚才定义这

565
00:28:17,750 --> 00:28:20,620
功能与“高清”。所以我做了“高清
有条件的，“和它的服用

566
00:28:20,620 --> 00:28:28,700
“的歌词。”以及这是要干什么
是，首先，我有我的先验

567
00:28:28,700 --> 00:28:31,030
我想计算。

568
00:28:31,030 --> 00:28:34,330
>> 这样我可以做到这一点的方法是创建
在Python中，字典的

569
00:28:34,330 --> 00:28:37,320
几乎是同样的事情作为一个哈希
表，或者它就像一个迭代

570
00:28:37,320 --> 00:28:40,480
数组在PHP。

571
00:28:40,480 --> 00:28:44,150
这是我声明一个字典。

572
00:28:44,150 --> 00:28:53,580
基本上这是什么意思是，
加加的先验概率是0.5，例如，如果

573
00:28:53,580 --> 00:28:57,200
歌词50％是由
加加，50％是由凯蒂。

574
00:28:57,200 --> 00:28:58,450
有意义吗？

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
所以，我必须弄清楚如何
计算先验。

577
00:29:03,680 --> 00:29:07,120
>> 接下来的那些我必须做的，还可以，
是概率和单词。

578
00:29:07,120 --> 00:29:17,100
所以加加的概率是列表
所有的概率，我

579
00:29:17,100 --> 00:29:19,160
对每个单词为加加。

580
00:29:19,160 --> 00:29:23,880
所以，如果我去加加的概率
“宝贝”为例，它会给我

581
00:29:23,880 --> 00:29:28,750
像2比24在这种情况下。

582
00:29:28,750 --> 00:29:30,070
有意义吗？

583
00:29:30,070 --> 00:29:36,120
于是我去“概率”，进入
“加加”斗具有所有列表

584
00:29:36,120 --> 00:29:40,550
加加的话，那我去“宝贝”
而我看​​到的概率。

585
00:29:40,550 --> 00:29:45,940
>> 最后我有这个
“字”字典。

586
00:29:45,940 --> 00:29:53,620
所以在这里，“概率”。进而
“字样。”所以，如果我这样做“的话，”“嘎嘎，”

587
00:29:53,620 --> 00:29:58,330
什么将要发生的是它的
要给我24，说我

588
00:29:58,330 --> 00:30:01,990
有内Gaga的歌词24个字。

589
00:30:01,990 --> 00:30:04,110
有道理？

590
00:30:04,110 --> 00:30:07,070
所以在这里，“话”等于DAH-DAH-DAH。

591
00:30:07,070 --> 00:30:07,620
行

592
00:30:07,620 --> 00:30:12,210
>> 所以，我什么都做的是我要去
遍历每个歌词，所以

593
00:30:12,210 --> 00:30:14,490
每个串的那
我已经在列表中。

594
00:30:14,490 --> 00:30:18,040
我要去计算那些事
每个候选人。

595
00:30:18,040 --> 00:30:19,950
有道理？

596
00:30:19,950 --> 00:30:21,700
所以，我必须做一个for循环。

597
00:30:21,700 --> 00:30:26,300
>> 所以在Python中有什么我可以做的是“线路
在抒情诗。“同样的事，作为一个

598
00:30:26,300 --> 00:30:28,000
“为每一个”在PHP语句。

599
00:30:28,000 --> 00:30:33,420
记住我，如果它是PHP怎么可能
说“每个歌词

600
00:30:33,420 --> 00:30:35,220
线。“有道理？

601
00:30:35,220 --> 00:30:38,900
所以我每次走的线路，在这个
情况下，这个字符串和下一

602
00:30:38,900 --> 00:30:44,540
字符串，以便为每个什么我是线
要做的是首先，我要

603
00:30:44,540 --> 00:30:49,150
拆分此行成的名单
字以空格分隔。

604
00:30:49,150 --> 00:30:53,730
>> 所以，关于Python的很酷的事情是，
你可能只是谷歌像“我怎么能

605
00:30:53,730 --> 00:30:58,220
字符串分割成单词？ “和它的
要告诉你如何做到这一点。

606
00:30:58,220 --> 00:31:04,890
而做到这一点的方式，它只是“行
= line.split（）“，它基本上是

607
00:31:04,890 --> 00:31:08,640
将会给你一个列表
每个在这里的话。

608
00:31:08,640 --> 00:31:09,620
有道理？

609
00:31:09,620 --> 00:31:15,870
所以，现在我这样做，我想知道
谁是那首歌的歌手。

610
00:31:15,870 --> 00:31:20,130
要做到这一点我必须得到
数组的第一个元素，对不对？

611
00:31:20,130 --> 00:31:26,390
所以，我只能说我“歌手
=行（0）“有道理？

612
00:31:26,390 --> 00:31:32,010
>> 然后我需要做的是，首先
所有，我要更新多少

613
00:31:32,010 --> 00:31:36,130
也就是说我有下“加加”。所以我只是
要计算多少字我

614
00:31:36,130 --> 00:31:38,690
在这个列表中，右键？

615
00:31:38,690 --> 00:31:41,910
因为这是我多少字有
在歌词中，我只是要

616
00:31:41,910 --> 00:31:44,120
将它添加到“加加”阵列。

617
00:31:44,120 --> 00:31:47,090
这是否有道理？

618
00:31:47,090 --> 00:31:49,010
太不注重语法。

619
00:31:49,010 --> 00:31:50,430
多思考的概念。

620
00:31:50,430 --> 00:31:52,400
这是最重要的部分。

621
00:31:52,400 --> 00:31:52,720
确定。

622
00:31:52,720 --> 00:32:00,260
>> 因此，我可以做到这一点的是，如果“加加”是
已经在该列表中，因此“如果歌手在

623
00:32:00,260 --> 00:32:03,190
话“，这意味着我已经
由加加有话。

624
00:32:03,190 --> 00:32:06,640
我只是想添加额外的
是这个意思。

625
00:32:06,640 --> 00:32:15,810
所以，我要做的就是“字（歌手）
+ = LEN（线路） -  1“。

626
00:32:15,810 --> 00:32:18,250
然后我可以做的
长行。

627
00:32:18,250 --> 00:32:21,860
那么有多少个元素我
在阵列中。

628
00:32:21,860 --> 00:32:27,060
而我所要做的零下1只是因为
该阵列的第一个元素是刚

629
00:32:27,060 --> 00:32:29,180
一个歌手，这些都不是歌词。

630
00:32:29,180 --> 00:32:31,420
有道理？

631
00:32:31,420 --> 00:32:32,780
确定。

632
00:32:32,780 --> 00:32:35,820
>> “否则，”这意味着我要实际
加加插入到列表中。

633
00:32:35,820 --> 00:32:45,990
所以，我只是做“字（歌手）
= LEN（线路） -  1，“对不起。

634
00:32:45,990 --> 00:32:49,200
因此，两者之间的唯一区别
行的是，这一次，它不

635
00:32:49,200 --> 00:32:51,080
还存在，所以我只是
初始化它。

636
00:32:51,080 --> 00:32:53,820
这其中实际上，我加入。

637
00:32:53,820 --> 00:32:55,570
确定。

638
00:32:55,570 --> 00:32:59,480
因此，这是增加的话。

639
00:32:59,480 --> 00:33:03,040
>> 现在我想添加到先验。

640
00:33:03,040 --> 00:33:05,480
所以，我怎么计算先验？

641
00:33:05,480 --> 00:33:11,580
先验概率可以计算
通过多少次。

642
00:33:11,580 --> 00:33:15,340
你这么有多少次看到歌手
在所有的歌手，你的

643
00:33:15,340 --> 00:33:16,380
有，对不对？

644
00:33:16,380 --> 00:33:18,810
因此，对于Gaga和凯蒂·佩里，
在这种情况下，我看到加加

645
00:33:18,810 --> 00:33:20,570
一次，Katy Perry的一次。

646
00:33:20,570 --> 00:33:23,320
>> 所以基本上是先验的加加
和凯蒂·佩里会

647
00:33:23,320 --> 00:33:24,390
仅仅是一个，对不对？

648
00:33:24,390 --> 00:33:26,500
你有多少次
我看到了艺术家。

649
00:33:26,500 --> 00:33:28,740
所以这是很容易计算。

650
00:33:28,740 --> 00:33:34,100
我可以只是一些类似，像“如果
歌手先验，“我只是去

651
00:33:34,100 --> 00:33:38,970
加入1〜他们的先验箱。

652
00:33:38,970 --> 00:33:51,000
所以，“先验（唱）”+ = 1“，然后”其他“
我该怎么办“先验（歌手）

653
00:33:51,000 --> 00:33:55,000
= 1“。有道理？

654
00:33:55,000 --> 00:34:00,080
>> 所以，如果它不存在，我只是把
为1，否则我只加1。

655
00:34:00,080 --> 00:34:11,280
好了，现在所有的，我已经离开办
也是每个单词添加到

656
00:34:11,280 --> 00:34:12,290
概率。

657
00:34:12,290 --> 00:34:14,889
所以，我必须指望有多少次
我看到每个单词。

658
00:34:14,889 --> 00:34:18,780
所以，我只是需要做的另一
for循环中的行。

659
00:34:18,780 --> 00:34:25,190
>> 我要去这样做的第一件事就是
检查的歌手已经有

660
00:34:25,190 --> 00:34:26,969
概率数组。

661
00:34:26,969 --> 00:34:31,739
所以我检查，如果歌手不
有一个概率的数组，我只是

662
00:34:31,739 --> 00:34:34,480
要初始化一个用于它们。

663
00:34:34,480 --> 00:34:36,400
它甚至不是一个数组，对不起，
这是一本字典。

664
00:34:36,400 --> 00:34:43,080
所以歌手的概率是怎么回事
是一个开放的字典，所以我

665
00:34:43,080 --> 00:34:45,830
只是初始化字典吧。

666
00:34:45,830 --> 00:34:46,820
好不好？

667
00:34:46,820 --> 00:34:58,330
>> 现在我可以真正做一个for循环
计算每个单词'

668
00:34:58,330 --> 00:35:00,604
概率。

669
00:35:00,604 --> 00:35:01,540
确定。

670
00:35:01,540 --> 00:35:04,160
因此，我所能做的就是一个for循环。

671
00:35:04,160 --> 00:35:06,590
所以我只是去遍历
在阵列。

672
00:35:06,590 --> 00:35:15,320
这样我可以做到这一点在Python的方式
是“因为我在范围内。”从1

673
00:35:15,320 --> 00:35:19,200
因为我要开始第二
元件，因为第一个是

674
00:35:19,200 --> 00:35:20,260
歌手名。

675
00:35:20,260 --> 00:35:24,990
所以从1至
长行。

676
00:35:24,990 --> 00:35:29,760
当我做它的范围实际上从去
喜欢这里从1到的LEN

677
00:35:29,760 --> 00:35:30,740
行减1。

678
00:35:30,740 --> 00:35:33,810
所以它已经这样做这样做的那件事
Ñ​​减1为数组，这是非常

679
00:35:33,810 --> 00:35:35,500
方便。

680
00:35:35,500 --> 00:35:37,850
有道理？

681
00:35:37,850 --> 00:35:42,770
>> 因此，对于每一个这些，有什么我要去
做的是，就像在另外一个，

682
00:35:42,770 --> 00:35:50,320
我要检查，如果在这个字
在该线的位置已在

683
00:35:50,320 --> 00:35:51,570
概率。

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
然后我说在这里，概率
也就是说，在我把

686
00:35:57,260 --> 00:35:58,400
“概率（歌手）”。

687
00:35:58,400 --> 00:35:59,390
这样的歌手的名字。

688
00:35:59,390 --> 00:36:03,450
所以，如果它已经在
“probabilit（歌手）”，这意味着我

689
00:36:03,450 --> 00:36:11,960
要加1，所以我要去
做“的概率（歌手）”，以及

690
00:36:11,960 --> 00:36:14,100
字被称为“线（一）”。

691
00:36:14,100 --> 00:36:22,630
我要加1和“其他”我只是
将它初始化为1。

692
00:36:22,630 --> 00:36:23,880
“行（一）”。

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
有道理？

695
00:36:28,420 --> 00:36:30,180
>> 所以，我计算出的所有阵列。

696
00:36:30,180 --> 00:36:36,580
所以，现在的一切，我所要做的
这个人是刚刚“回归先验，

697
00:36:36,580 --> 00:36:43,230
概率和单词。“让我们
看看是否有任何好不好。

698
00:36:43,230 --> 00:36:45,690
似乎一切工作至今。

699
00:36:45,690 --> 00:36:46,900
所以，这是有道理的？

700
00:36:46,900 --> 00:36:47,750
以某种方式？

701
00:36:47,750 --> 00:36:49,280
确定。

702
00:36:49,280 --> 00:36:51,980
所以，现在我把所有的可能性。

703
00:36:51,980 --> 00:36:55,100
所以，现在我已经离开的唯一的事
只是有这种事情，

704
00:36:55,100 --> 00:36:58,650
计算出的所有产品
当我拿到歌词的概率。

705
00:36:58,650 --> 00:37:06,270
>> 因此，让我们说，我想现在打电话
这个功能“分类（）”和

706
00:37:06,270 --> 00:37:08,880
东西函数接受
只是一个说法。

707
00:37:08,880 --> 00:37:13,170
比方说，“宝贝，我着火了”，它的
要弄清楚什么是

708
00:37:13,170 --> 00:37:14,490
概率，这是加加？

709
00:37:14,490 --> 00:37:16,405
这是概率
这是凯蒂？

710
00:37:16,405 --> 00:37:19,690
听起来不错？

711
00:37:19,690 --> 00:37:25,750
所以我只是将不得不创建一个
所谓的新功能“分类（）”和

712
00:37:25,750 --> 00:37:29,180
它会采取一些
歌词也是如此。

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
而除了歌词我也
有送先验的

715
00:37:36,160 --> 00:37:37,700
概率和单词。

716
00:37:37,700 --> 00:37:44,000
所以我打算送歌词，先验，
概率的话。

717
00:37:44,000 --> 00:37:51,840
>> 因此，这是采取的歌词，先验，
概率的话。

718
00:37:51,840 --> 00:37:53,530
那么，它有什么作用？

719
00:37:53,530 --> 00:37:57,180
它基本上是要通过所有
可能的候选人，你

720
00:37:57,180 --> 00:37:58,510
有作为一名歌手。

721
00:37:58,510 --> 00:37:59,425
和那些人在那里候选人？

722
00:37:59,425 --> 00:38:01,020
他们是在先验，对不对？

723
00:38:01,020 --> 00:38:02,710
所以，我有所有这些存在的。

724
00:38:02,710 --> 00:38:07,870
所以，我要准备一本字典
所有可能的候选人。

725
00:38:07,870 --> 00:38:14,220
然后在每个候选
先验概率，因此它意味着它要

726
00:38:14,220 --> 00:38:17,740
是加加，凯蒂如果我有
更会比较。

727
00:38:17,740 --> 00:38:20,410
我要开始计算
这个概率。

728
00:38:20,410 --> 00:38:28,310
正如我们在看到的概率
PowerPoint是事先倍

729
00:38:28,310 --> 00:38:30,800
每一个的产品
其他可能性。

730
00:38:30,800 --> 00:38:32,520
>> 所以，我在这里可以这样做。

731
00:38:32,520 --> 00:38:36,330
我可以做的是概率
刚开始之前。

732
00:38:36,330 --> 00:38:40,340
因此，先验的候选人。

733
00:38:40,340 --> 00:38:40,870
对不对？

734
00:38:40,870 --> 00:38:45,360
现在我不得不遍历所有的
我有在歌词是词

735
00:38:45,360 --> 00:38:48,820
能够添加的概率
为他们每个人，好不好？

736
00:38:48,820 --> 00:38:57,900
因此，“为字的歌词”我什么都
做的是，如果该字是在

737
00:38:57,900 --> 00:39:01,640
“概率（候选人）”，这
也就是说，它是一个字的

738
00:39:01,640 --> 00:39:03,640
候选人在他们的歌词 - 

739
00:39:03,640 --> 00:39:05,940
例如，“婴儿”的加加 - 

740
00:39:05,940 --> 00:39:11,710
我现在要做的是，
概率将被乘以

741
00:39:11,710 --> 00:39:22,420
由加的概率1
候选人的那个词。

742
00:39:22,420 --> 00:39:25,710
它被称为“字”。

743
00:39:25,710 --> 00:39:32,440
这除以单词数
我对那个候选人。

744
00:39:32,440 --> 00:39:37,450
字的总数，我有
对于我期待的歌手。

745
00:39:37,450 --> 00:39:40,290
>> “否则”。这意味着它是一个新词
所以它会像例如

746
00:39:40,290 --> 00:39:41,860
“火”的Lady Gaga的。

747
00:39:41,860 --> 00:39:45,760
所以，我只想做超过1
“字（候选人）”。

748
00:39:45,760 --> 00:39:47,710
所以，我不希望把这个词在这里。

749
00:39:47,710 --> 00:39:50,010
>> 所以它的将是基本
复制并粘贴此。

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
但我要删除这部分。

752
00:39:56,000 --> 00:39:57,610
所以它只是将是1比那。

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
听起来不错？

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
现在到了最后，我只是要
印上候选人的名字和

757
00:40:09,700 --> 00:40:15,750
你有概率
在他们的歌词有标。

758
00:40:15,750 --> 00:40:16,200
有道理？

759
00:40:16,200 --> 00:40:18,390
我其实不连
需要这本词典。

760
00:40:18,390 --> 00:40:19,510
有道理？

761
00:40:19,510 --> 00:40:21,810
>> 所以，让我们看看这个实际工作。

762
00:40:21,810 --> 00:40:24,880
所以，如果我运行这个，也没有工作。

763
00:40:24,880 --> 00:40:26,130
等待一秒钟。

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
“言（候选人）”，“字（候选人）”，
这是

766
00:40:31,720 --> 00:40:33,750
该数组的名称。

767
00:40:33,750 --> 00:40:41,435
好了，所以，它说，有一些bug
候选的先验。

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
让我冷静下来一点点。

770
00:40:48,760 --> 00:40:50,360
确定。

771
00:40:50,360 --> 00:40:51,305
让我们试试。

772
00:40:51,305 --> 00:40:51,720
确定。

773
00:40:51,720 --> 00:40:58,710
>> 所以，它给了凯蒂·佩里有这个
在此乘以10的概率

774
00:40:58,710 --> 00:41:02,200
减去7，和加加有这个
乘以10的负6。

775
00:41:02,200 --> 00:41:05,610
所以你看它表明加加
具有更高的概率。

776
00:41:05,610 --> 00:41:09,260
因此，“宝贝，我在火”是
可能是Gaga的歌。

777
00:41:09,260 --> 00:41:10,580
有道理？

778
00:41:10,580 --> 00:41:12,030
所以这就是我们所做的。

779
00:41:12,030 --> 00:41:16,010
>> 此代码将被发布到网上，
所以你们可以检查出来。

780
00:41:16,010 --> 00:41:20,720
也许用一些它，如果你想
做项目或类似的事情。

781
00:41:20,720 --> 00:41:22,150
确定。

782
00:41:22,150 --> 00:41:25,930
这只是为了显示
怎样计算

783
00:41:25,930 --> 00:41:27,230
语言学的代码如下所示。

784
00:41:27,230 --> 00:41:33,040
但是，现在让我们去更多
高层次的东西。

785
00:41:33,040 --> 00:41:33,340
确定。

786
00:41:33,340 --> 00:41:35,150
>> 因此，其他的问题我
说的是 - 

787
00:41:35,150 --> 00:41:37,550
分割问题
是第一人。

788
00:41:37,550 --> 00:41:40,820
所以，你必须在这里的日本。

789
00:41:40,820 --> 00:41:43,420
然后就看到了
有没有空格。

790
00:41:43,420 --> 00:41:49,110
因此，这基本上意味着它
椅子的顶部，对不对？

791
00:41:49,110 --> 00:41:50,550
你说日语吗？

792
00:41:50,550 --> 00:41:52,840
这是椅子的顶部，对不对？

793
00:41:52,840 --> 00:41:54,480
>> 学生：我不知道是什么
汉字那边。

794
00:41:54,480 --> 00:41:57,010
>> LUCAS FREITAS：这是[操日语]

795
00:41:57,010 --> 00:41:57,950
确定。

796
00:41:57,950 --> 00:42:00,960
所以它基本上意味着顶部​​的椅子。

797
00:42:00,960 --> 00:42:03,620
所以，如果你不得不把一个空间
这将是在这里。

798
00:42:03,620 --> 00:42:05,970
然后你有[？上田山。 ？]

799
00:42:05,970 --> 00:42:09,040
这基本上意味着上田先生。

800
00:42:09,040 --> 00:42:13,180
而你看到的“田”和你有一个
空间，然后“圣”。所以你看到，

801
00:42:13,180 --> 00:42:15,470
在这里你“UE”就像本身。

802
00:42:15,470 --> 00:42:17,750
在这里，它有一个字符
在它旁边。

803
00:42:17,750 --> 00:42:21,720
>> 所以它不像这些语言
字义的单词，这样你

804
00:42:21,720 --> 00:42:23,980
刚刚投入了大量的空间。

805
00:42:23,980 --> 00:42:25,500
字符之间的相互关系。

806
00:42:25,500 --> 00:42:28,680
他们能在一起
像二，三，一。

807
00:42:28,680 --> 00:42:34,520
所以，你实际上必须建立某种
的方式把这些空间。

808
00:42:34,520 --> 00:42:38,850
>> 而这件事情是，每当你得到
从这些亚洲语言的数据，

809
00:42:38,850 --> 00:42:40,580
一切都无节。

810
00:42:40,580 --> 00:42:45,940
因为没有人谁写日本
还是中国写为空格。

811
00:42:45,940 --> 00:42:48,200
当你在写中国，
日本你刚才写的一切

812
00:42:48,200 --> 00:42:48,710
没有空格。

813
00:42:48,710 --> 00:42:52,060
它甚至没有任何意义
把空间。

814
00:42:52,060 --> 00:42:57,960
这样的话，当你从得到的数据，一些
东亚语言，如果你想

815
00:42:57,960 --> 00:43:00,760
其实做一些与
你必须先分段。

816
00:43:00,760 --> 00:43:05,130
>> 认为这样做的实例中的
不带空格的歌词。

817
00:43:05,130 --> 00:43:07,950
所以，你拥有的唯一歌词
将句子，对不对？

818
00:43:07,950 --> 00:43:09,470
用句点分隔。

819
00:43:09,470 --> 00:43:13,930
但是刚走了句会
没有真正在给予信息帮助

820
00:43:13,930 --> 00:43:17,760
是谁的歌词是由。

821
00:43:17,760 --> 00:43:18,120
对不对？

822
00:43:18,120 --> 00:43:20,010
所以，你应该首先将空间。

823
00:43:20,010 --> 00:43:21,990
你那么如何才能做到这一点？

824
00:43:21,990 --> 00:43:24,920
>> 所以后来谈到语言的想法
模型这是真的东西

825
00:43:24,920 --> 00:43:26,870
用于计算重要
语言学。

826
00:43:26,870 --> 00:43:32,790
所以一个语言模型基本上是一个
表概率的表演

827
00:43:32,790 --> 00:43:36,260
首先什么是概率
具有一种语言的单词？

828
00:43:36,260 --> 00:43:39,590
那么如何展示频繁的一句话就是。

829
00:43:39,590 --> 00:43:43,130
然后还展示了关系
在一个句子中词与词之间。

830
00:43:43,130 --> 00:43:51,500
>> 所以主要的想法是，如果一个陌生人来到
给你说了一句话

831
00:43:51,500 --> 00:43:55,600
你，什么是概率，对于
例如，“这是我妹妹[？GTF”？]

832
00:43:55,600 --> 00:43:57,480
是那句话的人说的吗？

833
00:43:57,480 --> 00:44:00,380
所以，很显然有些句子
比其他人更常见。

834
00:44:00,380 --> 00:44:04,450
例如，“早上好”或“好
晚上，“或”嘿，“得多

835
00:44:04,450 --> 00:44:08,260
比最常见的句子
我们有一个英语。

836
00:44:08,260 --> 00:44:11,060
那么，为什么那些句子
更频繁？

837
00:44:11,060 --> 00:44:14,060
>> 首先，这是因为你有
话是更频繁。

838
00:44:14,060 --> 00:44:20,180
因此，举例来说，如果你说，狗是
大，而狗是巨大的，你

839
00:44:20,180 --> 00:44:23,880
通常可能听到狗是大
更多的时候，因为“大”更

840
00:44:23,880 --> 00:44:27,260
频繁的英语不是“巨大”。
所以，1的

841
00:44:27,260 --> 00:44:30,100
事情是这个词的频率。

842
00:44:30,100 --> 00:44:34,490
>> 这是真正的第二件事
重要的仅仅是

843
00:44:34,490 --> 00:44:35,490
顺序的话。

844
00:44:35,490 --> 00:44:39,500
所以，经常会说“猫是
里面的箱子。“但你通常不

845
00:44:39,500 --> 00:44:44,250
见“盒子里面是猫。”所以
你看，有一些重要

846
00:44:44,250 --> 00:44:46,030
中的词的顺序。

847
00:44:46,030 --> 00:44:50,160
你不能只是说，这两个
句子具有相同的概率

848
00:44:50,160 --> 00:44:53,010
仅仅是因为他们具有相同的话。

849
00:44:53,010 --> 00:44:55,550
实际上，你要关心
关于秩序良好。

850
00:44:55,550 --> 00:44:57,650
有意义吗？

851
00:44:57,650 --> 00:44:59,490
>> 那么，我们该怎么办？

852
00:44:59,490 --> 00:45:01,550
所以我可能会尝试帮你吗？

853
00:45:01,550 --> 00:45:04,400
我试图让你我们
调用的n-gram模型。

854
00:45:04,400 --> 00:45:09,095
所以，一个n-gram模型的基本假设
对于每个字

855
00:45:09,095 --> 00:45:10,960
你在一个句子里。

856
00:45:10,960 --> 00:45:15,020
它具有的概率
字不仅有依赖于

857
00:45:15,020 --> 00:45:18,395
频率在语言文字的，
同时也对词

858
00:45:18,395 --> 00:45:19,860
都围绕着它。

859
00:45:19,860 --> 00:45:25,810
>> 因此，举例来说，通常当你看到
像上或在你

860
00:45:25,810 --> 00:45:28,040
可能会看到一个
名词之后，对不对？

861
00:45:28,040 --> 00:45:31,750
因为当你有一个介词
通常它需要后一个名词。

862
00:45:31,750 --> 00:45:35,540
或者如果你有一个动词是及物动词
你通常要

863
00:45:35,540 --> 00:45:36,630
有一个名词短语。

864
00:45:36,630 --> 00:45:38,780
因此，这将有一个名词
围绕它的地方。

865
00:45:38,780 --> 00:45:44,950
>> 所以，基本上，它的作用在于，它
认为具有的概率

866
00:45:44,950 --> 00:45:47,960
话彼此相邻，当
你的计算

867
00:45:47,960 --> 00:45:49,050
概率句子。

868
00:45:49,050 --> 00:45:50,960
而这正是一种语言
模型基本上是。

869
00:45:50,960 --> 00:45:54,620
只是说有什么可能性
的具有特定

870
00:45:54,620 --> 00:45:57,120
句子的语言？

871
00:45:57,120 --> 00:45:59,110
那么，为什么是有用的，基本上是？

872
00:45:59,110 --> 00:46:02,390
并首先什么是
一个n-gram模型，然后呢？

873
00:46:02,390 --> 00:46:08,850
>> 所以，一个n-gram模型意味着，
每个字取决于

874
00:46:08,850 --> 00:46:12,700
接下来的N减1的话。

875
00:46:12,700 --> 00:46:18,150
所以，基本上，这意味着如果我看起来，
例如，在CS50 TF时

876
00:46:18,150 --> 00:46:21,500
我计算的概率
这句话，你会像“

877
00:46:21,500 --> 00:46:25,280
具有单词“the”的概率
具有次的概率“的

878
00:46:25,280 --> 00:46:31,720
具有CS50“时间的概率
“该CS50 TF。”所以，基本上，我算

879
00:46:31,720 --> 00:46:35,720
伸展它的所有可能的方式。

880
00:46:35,720 --> 00:46:41,870
>> 然后通常当你这样做，
作为一个项目，你把电量为

881
00:46:41,870 --> 00:46:42,600
一个低的值。

882
00:46:42,600 --> 00:46:45,930
所以，通常有双字母组或卦。

883
00:46:45,930 --> 00:46:51,090
所以，你只算两个词，一个
组两个词，或者三个字，

884
00:46:51,090 --> 00:46:52,620
只为性能问题。

885
00:46:52,620 --> 00:46:56,395
也因为也许如果你有
像“的CS50 TF。”当你

886
00:46:56,395 --> 00:47:00,510
有“TF”，这是非常重要的，
“CS50”是在它旁边，对不对？

887
00:47:00,510 --> 00:47:04,050
这两件事通常是
彼此相邻。

888
00:47:04,050 --> 00:47:06,410
>> 如果你觉得“TF”，它可能
将有哪些

889
00:47:06,410 --> 00:47:07,890
类它TF'ing的。

890
00:47:07,890 --> 00:47:11,330
也是“”真的很重要
为CS50 TF。

891
00:47:11,330 --> 00:47:14,570
但是，如果你有一些像“CS50
TF去上课，并给了他们

892
00:47:14,570 --> 00:47:20,060
学生们一些糖果。“”糖果“和”the“
没有关系真的，对不对？

893
00:47:20,060 --> 00:47:23,670
他们是彼此如此遥远的
它并不真正的问题是什么

894
00:47:23,670 --> 00:47:25,050
也就是说你有。

895
00:47:25,050 --> 00:47:31,210
>> 所以，做一个两字或卦，它
只是意味着你限制

896
00:47:31,210 --> 00:47:33,430
自己的一些话
这是各地。

897
00:47:33,430 --> 00:47:35,810
有意义吗？

898
00:47:35,810 --> 00:47:40,630
所以，当你想要做的分割，
基本上，你想要做什么见

899
00:47:40,630 --> 00:47:44,850
什么都是可能的方式，
你可以分段的句子。

900
00:47:44,850 --> 00:47:49,090
>> 这样，你看到的是什么
每个句子的概率

901
00:47:49,090 --> 00:47:50,880
现有的语言吗？

902
00:47:50,880 --> 00:47:53,410
所以，你做什么就好了，好了，让
我试图把一个空间在这里。

903
00:47:53,410 --> 00:47:55,570
所以，你把一个空间有
和你看到的是什么

904
00:47:55,570 --> 00:47:57,590
那句话的概率是多少？

905
00:47:57,590 --> 00:48:00,240
那么你是喜欢，好吧，也许
这不太好。

906
00:48:00,240 --> 00:48:03,420
所以我把一个空间有一个空格
在那里，你的计算

907
00:48:03,420 --> 00:48:06,240
概率现在，你看到
这是一个更高的概率。

908
00:48:06,240 --> 00:48:12,160
>> 所以，这就是所谓的TANGO的算法
分割算法，这是

909
00:48:12,160 --> 00:48:14,990
实际的东西，会是真的
凉爽的项目，该项目

910
00:48:14,990 --> 00:48:20,860
基本上采取不分段全文
可能是日本人还是中国人也许

911
00:48:20,860 --> 00:48:26,080
英语没有空格，并试图把
字和它之间的空间

912
00:48:26,080 --> 00:48:29,120
通过使用一个语言模型，并
想看看是最高的

913
00:48:29,120 --> 00:48:31,270
概率可以得到。

914
00:48:31,270 --> 00:48:32,230
确定。

915
00:48:32,230 --> 00:48:33,800
因此，这是分割。

916
00:48:33,800 --> 00:48:35,450
>> 现在的语法。

917
00:48:35,450 --> 00:48:40,940
这样，句法被用于
这么多东西现在。

918
00:48:40,940 --> 00:48:44,880
因此，对于图搜索，对于Siri的供
几乎任何类型的自然

919
00:48:44,880 --> 00:48:46,490
语言处理你。

920
00:48:46,490 --> 00:48:49,140
那么什么是重要的
有关语法的东西呢？

921
00:48:49,140 --> 00:48:52,390
因此，句子一般有
就是我们所说的成分。

922
00:48:52,390 --> 00:48:57,080
这是一种像组词
有在句中的功能。

923
00:48:57,080 --> 00:49:02,220
他们不能真正
彼此分开。

924
00:49:02,220 --> 00:49:07,380
>> 所以，如果我说，例如，“劳伦爱
米洛。“我知道，”劳伦“是一个

925
00:49:07,380 --> 00:49:10,180
成分，然后“爱
米洛“也是一个又一个。

926
00:49:10,180 --> 00:49:16,860
因为你不能说像“劳伦米洛
喜欢“具有相同的含义。

927
00:49:16,860 --> 00:49:18,020
它不会有
相同的含义。

928
00:49:18,020 --> 00:49:22,500
或者，我不能说像“米洛·劳伦
爱。“不是任何事物都有相同的

929
00:49:22,500 --> 00:49:25,890
这意味着这样做。

930
00:49:25,890 --> 00:49:31,940
>> 因此，这两个更重要的事情
语法是词法类型是

931
00:49:31,940 --> 00:49:35,390
基本的功能，你
自己有话。

932
00:49:35,390 --> 00:49:39,180
所以，你要知道，“劳伦”
与“米洛”都是名词。

933
00:49:39,180 --> 00:49:41,040
“爱”是一个动词。

934
00:49:41,040 --> 00:49:45,660
第二重要的是
他们是短语的类型。

935
00:49:45,660 --> 00:49:48,990
所以，你知道，“爱米洛”
实际上是一个口头短语。

936
00:49:48,990 --> 00:49:52,390
所以，当我说“劳伦，”我知道，
劳伦是做什么的。

937
00:49:52,390 --> 00:49:53,620
她在干什么？

938
00:49:53,620 --> 00:49:54,570
她爱米洛。

939
00:49:54,570 --> 00:49:56,440
所以这是一个整体的东西。

940
00:49:56,440 --> 00:50:01,640
但它的成分是
一个名词和一个动词。

941
00:50:01,640 --> 00:50:04,210
但同时，他们提出了一个动词短语。

942
00:50:04,210 --> 00:50:08,680
>> 所以，我们可以真正做
计算语言学？

943
00:50:08,680 --> 00:50:13,810
所以，如果我有东西，例如
“朋友佳佳的。”我认为如果我只是

944
00:50:13,810 --> 00:50:17,440
没有一个语法树我想知道
“朋友”是一个名词短语是

945
00:50:17,440 --> 00:50:21,480
“艾里逊的”名词，然后是
“的”介词短语在这

946
00:50:21,480 --> 00:50:24,810
一个主张和“佳佳”是一个名词。

947
00:50:24,810 --> 00:50:30,910
有什么我可以做的是教给我的电脑
当我有一个名词短语之一，

948
00:50:30,910 --> 00:50:33,080
然后一个介词短语。

949
00:50:33,080 --> 00:50:39,020
所以在这种情况下，“朋友”，然后“
米洛“我知道这意味着

950
00:50:39,020 --> 00:50:43,110
NP2，第二个，拥有NP1。

951
00:50:43,110 --> 00:50:47,680
>> 所以，我可以创造某种关系，
某种功能吧。

952
00:50:47,680 --> 00:50:52,370
所以每当我看到这个结构，
正好与“朋友的匹配

953
00:50:52,370 --> 00:50:56,030
佳佳，“我知道佳佳
拥有朋友。

954
00:50:56,030 --> 00:50:58,830
所以，朋友们的东西
佳佳了。

955
00:50:58,830 --> 00:50:59,610
有道理？

956
00:50:59,610 --> 00:51:01,770
因此，这基本上是什么
图搜索一样。

957
00:51:01,770 --> 00:51:04,360
它只是创建规则
对于很多事情。

958
00:51:04,360 --> 00:51:08,190
所以，“朋友阿利森的”，“我的朋友们
谁住在剑桥“，”我的朋友们

959
00:51:08,190 --> 00:51:12,970
谁去哈佛。“它创造规则
对于所有这些事情。

960
00:51:12,970 --> 00:51:14,930
>> 现在的机器翻译。

961
00:51:14,930 --> 00:51:18,850
因此，机器翻译也
一些统计。

962
00:51:18,850 --> 00:51:21,340
而实际上，如果你涉足
计算语言学，很多

963
00:51:21,340 --> 00:51:23,580
你的东西将是统计数据。

964
00:51:23,580 --> 00:51:26,670
所以当我在做的例子有
有很多可能性的，我是

965
00:51:26,670 --> 00:51:30,540
计算，然后你到这个
极少数这是最后的

966
00:51:30,540 --> 00:51:33,180
概率，这就是
给你答案。

967
00:51:33,180 --> 00:51:37,540
机器翻译还使用
统计模型。

968
00:51:37,540 --> 00:51:44,790
如果你要考虑机器的
翻译在最简单的可能

969
00:51:44,790 --> 00:51:48,970
顺便问一下，你能想到的仅仅是
翻译一字一句，对不对？

970
00:51:48,970 --> 00:51:52,150
>> 当你学习一门语言的
第一次，这通常是什么

971
00:51:52,150 --> 00:51:52,910
你这样做，对不对？

972
00:51:52,910 --> 00:51:57,050
如果你想你翻译一个句子
在你的语言的语言

973
00:51:57,050 --> 00:52:00,060
你正在学习，通常首先，你
翻译的每个字

974
00:52:00,060 --> 00:52:03,180
个别地，然后尝试
把单词到位。

975
00:52:03,180 --> 00:52:07,100
>> 所以，如果我想翻译这个，
[发言葡萄牙语]

976
00:52:07,100 --> 00:52:10,430
这意味着“白猫跑掉了。”
如果我想从翻译

977
00:52:10,430 --> 00:52:13,650
葡萄牙语到英语，我
可以做的是，第一，我只是

978
00:52:13,650 --> 00:52:14,800
逐字翻译单词。

979
00:52:14,800 --> 00:52:20,570
因此，“O”是“，”“加托”，“猫”
“布兰科”，“白”，然后“fugio”是

980
00:52:20,570 --> 00:52:21,650
“跑了。”

981
00:52:21,650 --> 00:52:26,130
>> 于是我把所有的话在这里，
但他们不是为了。

982
00:52:26,130 --> 00:52:29,590
这就像“猫白跑了”
这是不合语法。

983
00:52:29,590 --> 00:52:34,490
这样的话，我可以有第二个步骤，即
将要寻找的理想

984
00:52:34,490 --> 00:52:36,610
对于每个字的位置。

985
00:52:36,610 --> 00:52:40,240
所以我知道，其实我是想有
“白猫”，而不是“猫白。”所以

986
00:52:40,240 --> 00:52:46,050
有什么我可以做的是，最天真的方法
将创建所有

987
00:52:46,050 --> 00:52:49,720
可能的排列
字位置。

988
00:52:49,720 --> 00:52:53,300
然后看看哪一个具有
根据概率最高

989
00:52:53,300 --> 00:52:54,970
我的语言模型。

990
00:52:54,970 --> 00:52:58,390
然后当我找到一个有
概率最高的，这是

991
00:52:58,390 --> 00:53:01,910
可能是“白猫跑了，”
这是我的翻译。

992
00:53:01,910 --> 00:53:06,710
>> 这是说明一个简单的方法
怎么了很多机器翻译

993
00:53:06,710 --> 00:53:07,910
算法工作。

994
00:53:07,910 --> 00:53:08,920
这是否有道理？

995
00:53:08,920 --> 00:53:12,735
这也是一些真正令人兴奋的
那你们也许可以探索一个

996
00:53:12,735 --> 00:53:13,901
最后的项目，是吗？

997
00:53:13,901 --> 00:53:15,549
>> 学生：嗯，你说这是
天真的方式，有啥

998
00:53:15,549 --> 00:53:17,200
非幼稚的方式？

999
00:53:17,200 --> 00:53:18,400
>> LUCAS FREITAS：非幼稚的方式？

1000
00:53:18,400 --> 00:53:19,050
确定。

1001
00:53:19,050 --> 00:53:22,860
所以这是坏的第一件事
这个方法是我刚翻译

1002
00:53:22,860 --> 00:53:24,330
也就是说，一个字一个字。

1003
00:53:24,330 --> 00:53:30,570
但有时你必须说的话
可以有多种译文。

1004
00:53:30,570 --> 00:53:32,210
我会尽量想
的东西。

1005
00:53:32,210 --> 00:53:37,270
例如，在葡萄牙可以“漫画”
要么是“裂伤”或“套筒”。所以

1006
00:53:37,270 --> 00:53:40,450
当你试图翻译单词
通过文字，它可能给你

1007
00:53:40,450 --> 00:53:42,050
东西是没有意义的。

1008
00:53:42,050 --> 00:53:45,770
>> 所以，你其实是要你在所有
的可能的翻译

1009
00:53:45,770 --> 00:53:49,840
单词和看，首先，
什么是顺序。

1010
00:53:49,840 --> 00:53:52,000
我们都在谈论permutating
事情？

1011
00:53:52,000 --> 00:53:54,150
要查看所有可能的订单，
选择一个具有最高

1012
00:53:54,150 --> 00:53:54,990
概率是多少？

1013
00:53:54,990 --> 00:53:57,860
您也可以选择所有可能的
翻译每个

1014
00:53:57,860 --> 00:54:00,510
单词，然后看 - 

1015
00:54:00,510 --> 00:54:01,950
结合的排列 - 

1016
00:54:01,950 --> 00:54:03,710
哪一个具有最高的概率。

1017
00:54:03,710 --> 00:54:08,590
>> 另外，你也可以看看不
只字，但短语。

1018
00:54:08,590 --> 00:54:11,700
这样你就可以分析之间的关系
这些词汇，然后得到一个

1019
00:54:11,700 --> 00:54:13,210
更好的翻译建议。

1020
00:54:13,210 --> 00:54:16,690
另外别的东西，所以这学期
实际上，我在做研究

1021
00:54:16,690 --> 00:54:19,430
中国英语机器翻译，
从这么翻译

1022
00:54:19,430 --> 00:54:20,940
中国成英文。

1023
00:54:20,940 --> 00:54:26,760
>> 而我们做的事情是，除了使用
一个统计模型，它只是

1024
00:54:26,760 --> 00:54:30,570
再看到的可能性
在一个句子中的某个位置，我

1025
00:54:30,570 --> 00:54:35,360
居然还加入一些语法来我
模型，说，哦，如果我看到这样的

1026
00:54:35,360 --> 00:54:39,420
建筑，这就是我想要的
改变它，当我翻译。

1027
00:54:39,420 --> 00:54:43,880
所以，你也可以添加某种
语法元素以使

1028
00:54:43,880 --> 00:54:47,970
翻译更高效
和更精确。

1029
00:54:47,970 --> 00:54:48,550
确定。

1030
00:54:48,550 --> 00:54:51,010
>> 所以你怎么能上手，如果你想
做一下计算

1031
00:54:51,010 --> 00:54:51,980
语言学？

1032
00:54:51,980 --> 00:54:54,560
>> 首先，你选择一个项目
涉及语言。

1033
00:54:54,560 --> 00:54:56,310
因此，有这么多的在那里。

1034
00:54:56,310 --> 00:54:58,420
有这么多的事情可以做。

1035
00:54:58,420 --> 00:55:00,510
然后可以把一个模型
您可以使用。

1036
00:55:00,510 --> 00:55:04,710
通常，这意味着思维
假设，因为喜欢，呵呵，当我

1037
00:55:04,710 --> 00:55:05,770
喜欢的歌词思维。

1038
00:55:05,770 --> 00:55:09,510
我当时想，好吧，如果我想弄清楚
出是谁写的，我可能要

1039
00:55:09,510 --> 00:55:15,400
看的话的人使用，
看看谁使用这个词非常频繁。

1040
00:55:15,400 --> 00:55:18,470
所以尽量作出假设及
再想想模型。

1041
00:55:18,470 --> 00:55:21,395
然后你也可以在网上搜索
什么样的问题，你有，

1042
00:55:21,395 --> 00:55:24,260
而且它要建议
你的模型，也许

1043
00:55:24,260 --> 00:55:26,560
仿照那个东西好。

1044
00:55:26,560 --> 00:55:29,080
>> ，你也可以随时给我发电子邮件。

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com。

1046
00:55:31,140 --> 00:55:34,940
而且我可以回答你的问题。

1047
00:55:34,940 --> 00:55:38,600
我们甚至可能会碰见这样我就可以
给对方法的建议

1048
00:55:38,600 --> 00:55:41,490
实施项目。

1049
00:55:41,490 --> 00:55:45,610
我的意思是，如果你卷入到
计算语言学，这是怎么回事

1050
00:55:45,610 --> 00:55:46,790
是巨大的。

1051
00:55:46,790 --> 00:55:48,370
你会看到有
这么多的潜力。

1052
00:55:48,370 --> 00:55:52,060
和业界都希望雇佣
你是因为有那么糟糕。

1053
00:55:52,060 --> 00:55:54,720
所以，我希望你们喜欢这个。

1054
00:55:54,720 --> 00:55:57,030
如果你们有任何问题，
您可以在此之后问我。

1055
00:55:57,030 --> 00:55:58,280
但是谢谢你。

1056
00:55:58,280 --> 00:56:00,150