1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS ФРЕЙТАШ: Эй.

3
00:00:08,870 --> 00:00:09,980
Приветствую всех.

4
00:00:09,980 --> 00:00:11,216
Меня зовут Лукас Фрейтас.

5
00:00:11,216 --> 00:00:15,220
Я младший в [неразборчиво] изучения
информатика с акцентом в

6
00:00:15,220 --> 00:00:16,410
компьютерная лингвистика.

7
00:00:16,410 --> 00:00:19,310
Так что мой вторичный находится в языке
и лингвистическая теория.

8
00:00:19,310 --> 00:00:21,870
Я действительно взволнован, чтобы научить вас, ребята
немного о поле.

9
00:00:21,870 --> 00:00:24,300
Это очень захватывающая область для изучения.

10
00:00:24,300 --> 00:00:27,260
Также с большим потенциалом
на будущее.

11
00:00:27,260 --> 00:00:30,160
Так что, я очень рад, что вы, ребята,
рассматривают проекты в

12
00:00:30,160 --> 00:00:31,160
компьютерная лингвистика.

13
00:00:31,160 --> 00:00:35,460
И я буду более чем счастлив советую
Кто-нибудь из вас, если вы решите

14
00:00:35,460 --> 00:00:37,090
преследовать одну из них.

15
00:00:37,090 --> 00:00:40,010
>> Итак, прежде всего, каковы вычислительная
лингвистика?

16
00:00:40,010 --> 00:00:44,630
Так компьютерная лингвистика является
Пересечение между лингвистикой и

17
00:00:44,630 --> 00:00:46,390
информатика.

18
00:00:46,390 --> 00:00:47,415
Итак, что такое лингвистика?

19
00:00:47,415 --> 00:00:48,490
Что такое информатика?

20
00:00:48,490 --> 00:00:51,580
Ну от лингвистики, что
мы принимаем являются языками.

21
00:00:51,580 --> 00:00:54,960
Так лингвистика на самом деле изучение
естественного языка в целом.

22
00:00:54,960 --> 00:00:58,330
Так естественный язык - мы говорим о
язык, который мы можем использовать, чтобы

23
00:00:58,330 --> 00:00:59,770
общаются друг с другом.

24
00:00:59,770 --> 00:01:02,200
Так что мы не точно говорю
о С или Java.

25
00:01:02,200 --> 00:01:05,900
Мы говорим больше о английском и
Китайский и другие языки, которые мы

26
00:01:05,900 --> 00:01:07,780
использовать для связи друг с другом.

27
00:01:07,780 --> 00:01:12,470
>> Сложная вещь о том, что в том, что
Прямо сейчас у нас есть почти 7000

28
00:01:12,470 --> 00:01:14,260
языков в мире.

29
00:01:14,260 --> 00:01:19,520
Таким образом, есть довольно высокий разнообразие
языков, что мы можем учиться.

30
00:01:19,520 --> 00:01:22,600
А потом вы думаете, что это, вероятно,
очень трудно сделать, например,

31
00:01:22,600 --> 00:01:26,960
перевод с одного языка на
другом, учитывая, что вы должны

32
00:01:26,960 --> 00:01:28,240
почти 7000 из них.

33
00:01:28,240 --> 00:01:31,450
Так что, если вы думаете, что делать перевод
с одного языка на другой, вы

34
00:01:31,450 --> 00:01:35,840
есть едва ли не больше, чем на миллион
различные комбинации, которые вы можете

35
00:01:35,840 --> 00:01:37,330
есть от языка к языку.

36
00:01:37,330 --> 00:01:40,820
Так что это действительно вызов, чтобы сделать некоторые
Такая система примером перевод

37
00:01:40,820 --> 00:01:43,540
каждый язык.

38
00:01:43,540 --> 00:01:47,120
>> Так, лингвистика относится с синтаксисом,
семантика, прагматика.

39
00:01:47,120 --> 00:01:49,550
Вы, ребята точно не нужно
знать, что они есть.

40
00:01:49,550 --> 00:01:55,090
Но очень интересная вещь в том, что
как носитель, когда вы узнаете,

41
00:01:55,090 --> 00:01:59,010
язык как ребенка, вы на самом деле узнать
все из тех вещей, - семантика синтаксис

42
00:01:59,010 --> 00:02:00,500
и прагматика -

43
00:02:00,500 --> 00:02:01,430
самостоятельно.

44
00:02:01,430 --> 00:02:04,820
И никто не должен учить вас синтаксис
вам понять, как приговоры

45
00:02:04,820 --> 00:02:05,290
структурированы.

46
00:02:05,290 --> 00:02:07,980
Таким образом, это действительно интересно, потому что
это то, что приходит очень

47
00:02:07,980 --> 00:02:10,389
интуитивно.

48
00:02:10,389 --> 00:02:13,190
>> И что вы принимаете от
информатика?

49
00:02:13,190 --> 00:02:16,700
Ну и самое главное, что мы
есть в информатике, в первую

50
00:02:16,700 --> 00:02:19,340
все, искусственный интеллект
и машинное обучение.

51
00:02:19,340 --> 00:02:22,610
Итак, что мы пытаемся делать
вычислительная лингвистика является научить

52
00:02:22,610 --> 00:02:26,990
ваш компьютер, как сделать что-то
с языком.

53
00:02:26,990 --> 00:02:28,630
>> Так, например, в машине
перевод.

54
00:02:28,630 --> 00:02:32,490
Я пытался научить мой компьютер хау
знать, как переход от одной

55
00:02:32,490 --> 00:02:33,310
языка на другой.

56
00:02:33,310 --> 00:02:35,790
Так, в основном нравится учение
компьютерные два языка.

57
00:02:35,790 --> 00:02:38,870
Если я делаю обработки естественного языка,
что имеет место, например, из

58
00:02:38,870 --> 00:02:41,810
Facebook, График Поиск, вы учите
ваш компьютер, как понять

59
00:02:41,810 --> 00:02:42,730
Запросы также.

60
00:02:42,730 --> 00:02:48,130
>> Так что, если вы говорите "фотографий моего
друзья. "Facebook не лечит, что

61
00:02:48,130 --> 00:02:51,130
в целом строки, которая имеет
просто куча слов.

62
00:02:51,130 --> 00:02:56,020
Это на самом деле понимает отношения
между "фото" и "моих друзей" и

63
00:02:56,020 --> 00:02:59,620
понимает, что "фото" являются
собственностью "моих друзей".

64
00:02:59,620 --> 00:03:02,350
>> Так, что это часть, например,
обработки естественного языка.

65
00:03:02,350 --> 00:03:04,790
Он пытается понять, что
это отношение между

66
00:03:04,790 --> 00:03:07,520
слова в предложении.

67
00:03:07,520 --> 00:03:11,170
И большой вопрос, не так ли
научить компьютер, как говорить

68
00:03:11,170 --> 00:03:12,650
язык в целом?

69
00:03:12,650 --> 00:03:17,810
Что очень интересный вопрос, чтобы
думаю, как бы, может быть, в будущем,

70
00:03:17,810 --> 00:03:19,930
вы собираетесь быть в состоянии
говорить на свой мобильный телефон.

71
00:03:19,930 --> 00:03:23,290
Вроде как то, что мы делаем с Siri, но
нечто большее, как, вы можете на самом деле

72
00:03:23,290 --> 00:03:25,690
говорить все, что вы хотите, и телефон
собирается все понимаю.

73
00:03:25,690 --> 00:03:28,350
И это может иметь последующие вопросы
и продолжать говорить.

74
00:03:28,350 --> 00:03:30,880
Это то, что действительно интересно,
на мой взгляд.

75
00:03:30,880 --> 00:03:33,070
>> Так, что-то о естественных языках.

76
00:03:33,070 --> 00:03:36,220
Что-то действительно интересно
естественные языки, что и это

77
00:03:36,220 --> 00:03:38,470
кредит на мой профессор лингвистики,
Мария Полинский.

78
00:03:38,470 --> 00:03:40,830
Она приводит пример, и я думаю,
это действительно интересно.

79
00:03:40,830 --> 00:03:47,060
Потому что мы выучить язык от того, когда
мы родились, а затем наш родной

80
00:03:47,060 --> 00:03:49,170
язык вид растет на нас.

81
00:03:49,170 --> 00:03:52,570
>> И в основном вы узнаете язык
от минимальной мощностью, не так ли?

82
00:03:52,570 --> 00:03:56,700
Ты просто получении ввода из вашего
родители, что звучит ваш язык

83
00:03:56,700 --> 00:03:58,770
нравится, и вы просто научиться.

84
00:03:58,770 --> 00:04:02,240
Таким образом, это интересно, потому что если вы посмотрите
на этих предложений, например.

85
00:04:02,240 --> 00:04:06,980
Глядишь, "Мэри надевает пальто каждого
раз она уходит из дома ".

86
00:04:06,980 --> 00:04:10,650
>> В этом случае, возможно, чтобы иметь
Слово "она" относятся к Марии, не так ли?

87
00:04:10,650 --> 00:04:13,500
Вы можете сказать: "Мария ставит на пальто
каждый раз, когда Мэри оставляет

88
00:04:13,500 --> 00:04:14,960
дом. ", так что все в порядке.

89
00:04:14,960 --> 00:04:19,370
Но тогда, если вы посмотрите на предложения
"Она надевает пальто каждый раз Мэри

90
00:04:19,370 --> 00:04:22,850
выходит из дома. "Вы знаете, что это
Нельзя сказать, что "она" является

91
00:04:22,850 --> 00:04:24,260
ссылаясь на Марии.

92
00:04:24,260 --> 00:04:27,070
>> Там нет способ сказать, что "Мария ставит
на пальто каждый раз Мэри оставляет

93
00:04:27,070 --> 00:04:30,790
дом. "Так что это интересно, потому что
это вид интуиции

94
00:04:30,790 --> 00:04:32,890
что каждый носитель языка имеет.

95
00:04:32,890 --> 00:04:36,370
И никто не учили, что это
так, что синтаксис работает.

96
00:04:36,370 --> 00:04:41,930
И что вы можете иметь только этот "она"
ссылаясь на Марии в этом первом случае,

97
00:04:41,930 --> 00:04:44,260
а на самом деле в этом другом
тоже, но не в этом.

98
00:04:44,260 --> 00:04:46,500
Но все рода получает
к тому же ответа.

99
00:04:46,500 --> 00:04:48,580
Все согласны с тем на этом.

100
00:04:48,580 --> 00:04:53,280
Так что это действительно интересно, как хотя
вы не знаете всех правил

101
00:04:53,280 --> 00:04:55,575
на Вашем языке вы отчасти понимаю
как работает язык.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Так самое интересное о природных
язык, что вы не должны

104
00:05:01,530 --> 00:05:06,970
знаю ни синтаксис знать, если приговор
грамматически или безграмотно для

105
00:05:06,970 --> 00:05:08,810
в большинстве случаев.

106
00:05:08,810 --> 00:05:13,220
Которая заставляет вас думать, что, может быть, то, что
происходит то, что через вашу жизнь, вы

107
00:05:13,220 --> 00:05:17,410
просто держать становится все больше и больше
приговоры сказал вам.

108
00:05:17,410 --> 00:05:19,800
И тогда вы держите запоминания
все предложения.

109
00:05:19,800 --> 00:05:24,230
А потом, когда кто-то говорит вам,
что-то, вы слышите эту фразу и

110
00:05:24,230 --> 00:05:27,040
вы посмотрите на вашего словарного запаса
приговоров и посмотреть, если

111
00:05:27,040 --> 00:05:28,270
что приговор есть.

112
00:05:28,270 --> 00:05:29,830
И если она есть у вас
говорят, что это грамматическая.

113
00:05:29,830 --> 00:05:31,740
Если это не вы сказать, что это
безграмотно.

114
00:05:31,740 --> 00:05:35,150
>> Так, в этом случае, вы бы сказали, о,
так у вас есть огромный список всех

115
00:05:35,150 --> 00:05:36,140
возможные предложения.

116
00:05:36,140 --> 00:05:38,240
А потом, когда вы слышите фразу,
Вы знаете, если это грамматическая или

117
00:05:38,240 --> 00:05:39,450
не на его основе.

118
00:05:39,450 --> 00:05:42,360
Дело в том, что если вы посмотрите на
фраза, например, "

119
00:05:42,360 --> 00:05:47,540
пятиглавый CS50 ТФ приготовленные слепых
осьминог, используя DAPA кружку ". Это

120
00:05:47,540 --> 00:05:49,630
определенно не приговор
что вы слышали раньше.

121
00:05:49,630 --> 00:05:52,380
Но в то же время вы знаете, что это
в значительной степени грамматических, не так ли?

122
00:05:52,380 --> 00:05:55,570
Там нет грамматических ошибок
и вы можете сказать, что

123
00:05:55,570 --> 00:05:57,020
это возможно приговор.

124
00:05:57,020 --> 00:06:01,300
>> Так что заставляет нас думать, что на самом деле
способ, которым мы узнаем язык является не только

125
00:06:01,300 --> 00:06:07,090
, имея огромную базу данных можно
слова или предложения, но больше

126
00:06:07,090 --> 00:06:11,490
понимание соотношение между
слова в этих предложениях.

127
00:06:11,490 --> 00:06:14,570
Имеет ли это смысл?

128
00:06:14,570 --> 00:06:19,370
Так, то вопрос в том, может
компьютеры изучать языки?

129
00:06:19,370 --> 00:06:21,490
Можем ли мы научить язык с компьютерами?

130
00:06:21,490 --> 00:06:24,230
>> Итак, давайте думать о различии
между носителем языка

131
00:06:24,230 --> 00:06:25,460
и компьютер.

132
00:06:25,460 --> 00:06:27,340
Итак, что же происходит с динамиком?

133
00:06:27,340 --> 00:06:30,430
Ну, носитель языка узнает
язык от воздействия на него.

134
00:06:30,430 --> 00:06:34,200
Обычно ее ранние детские годы.

135
00:06:34,200 --> 00:06:38,570
Так, в основном, вы просто родить ребенка,
и вы продолжать говорить с ним, и это

136
00:06:38,570 --> 00:06:40,540
просто учится говорить
язык, не так ли?

137
00:06:40,540 --> 00:06:42,660
Итак, вы в основном давая
вход для ребенка.

138
00:06:42,660 --> 00:06:45,200
Так, вы можете утверждать, что компьютер
может сделать то же самое, не так ли?

139
00:06:45,200 --> 00:06:49,510
Вы можете просто дать языку
в качестве вклада в компьютере.

140
00:06:49,510 --> 00:06:53,410
>> Как, например, куча файлов
что есть книги на английском языке.

141
00:06:53,410 --> 00:06:56,190
Может быть, это один из способов, что вам
могли бы научить

142
00:06:56,190 --> 00:06:57,850
компьютер английский, не так ли?

143
00:06:57,850 --> 00:07:01,000
И в самом деле, если вы думаете об этом,
она принимает вас, может быть, пару

144
00:07:01,000 --> 00:07:02,680
дней, чтобы прочитать книгу.

145
00:07:02,680 --> 00:07:05,760
Для компьютера это занимает секунды, чтобы
смотреть на все слова в книге.

146
00:07:05,760 --> 00:07:10,810
Таким образом, вы можете думать, что может быть только этот
Аргумент вклада вокруг вас,

147
00:07:10,810 --> 00:07:15,440
это не достаточно, чтобы сказать, что это
то, что только люди могут сделать.

148
00:07:15,440 --> 00:07:17,680
Вы можете думать компьютеры
также можете получить вход.

149
00:07:17,680 --> 00:07:21,170
>> Вторая вещь, что носители языка
также есть мозг, который имеет

150
00:07:21,170 --> 00:07:23,870
Возможность изучения языка.

151
00:07:23,870 --> 00:07:27,020
Но если вы думаете об этом,
Мозг является твердой вещью.

152
00:07:27,020 --> 00:07:30,450
Когда вы родились, это уже не установлен -

153
00:07:30,450 --> 00:07:31,320
это ваш мозг.

154
00:07:31,320 --> 00:07:34,660
И, как ты вырастешь, вы просто получите более
ввод языке и, возможно, питательные вещества

155
00:07:34,660 --> 00:07:35,960
и другие вещи.

156
00:07:35,960 --> 00:07:38,170
Но в значительной степени ваш мозг
является твердой вещью.

157
00:07:38,170 --> 00:07:41,290
>> Так что вы можете сказать, ну, может быть, вы можете
построить компьютер, который имеет кучу

158
00:07:41,290 --> 00:07:45,890
функции и методы, которые просто имитируют
Возможность изучения языка.

159
00:07:45,890 --> 00:07:49,630
Так что в этом смысле, можно сказать,, ну, я
может есть компьютер, который имеет все

160
00:07:49,630 --> 00:07:52,270
Что еще следует выучить язык.

161
00:07:52,270 --> 00:07:56,200
И последнее, что в том, что уроженец
динамик узнает от проб и ошибок.

162
00:07:56,200 --> 00:08:01,090
Поэтому в основном еще одна важная вещь в
изучение языка является то, что вы вроде

163
00:08:01,090 --> 00:08:05,340
из узнать вещи, сделав
обобщения, что вы слышите.

164
00:08:05,340 --> 00:08:10,280
>> Итак, как вы растут вы узнаете, что
некоторые слова больше похожи существительных,

165
00:08:10,280 --> 00:08:11,820
некоторые другие из них прилагательные.

166
00:08:11,820 --> 00:08:14,250
И вы не должны есть какие-либо
знание лингвистики

167
00:08:14,250 --> 00:08:15,040
понять, что.

168
00:08:15,040 --> 00:08:18,560
Но вы просто знаю, что есть некоторые слова
расположены в некоторой части

169
00:08:18,560 --> 00:08:22,570
Приговор и некоторые другие в другом
части приговора.

170
00:08:22,570 --> 00:08:26,110
>> И, что, когда вы делаете что-то, что
как приговор, который не правильно -

171
00:08:26,110 --> 00:08:28,770
может быть, из-за более обобщения
например.

172
00:08:28,770 --> 00:08:32,210
Может быть, когда вы растете, вы заметите,
что множественное число, как правило,

173
00:08:32,210 --> 00:08:35,809
формируется положить S на
конец слова.

174
00:08:35,809 --> 00:08:40,042
А потом вы попытаетесь сделать множественное число
"Олень", как "оленей" или "зуб", как

175
00:08:40,042 --> 00:08:44,780
"Tooths". Итак ваши родители или
кто-то исправляет вас и говорит, нет,

176
00:08:44,780 --> 00:08:49,020
множественное число от "Олень" является "олень", а
множественное число от "зуба" есть "зубы". А потом

177
00:08:49,020 --> 00:08:50,060
вы узнаете эти вещи.

178
00:08:50,060 --> 00:08:51,520
Так вы узнаете из проб и ошибок.

179
00:08:51,520 --> 00:08:53,100
>> Но вы также можете сделать это
с компьютером.

180
00:08:53,100 --> 00:08:55,310
Вы можете иметь то, что называется
обучение с подкреплением.

181
00:08:55,310 --> 00:08:58,560
Какие в основном, как давать
компьютер награда, когда он делает

182
00:08:58,560 --> 00:08:59,410
что-то правильно.

183
00:08:59,410 --> 00:09:04,710
И придав ему противоположное награды
и когда он делает что-то не так.

184
00:09:04,710 --> 00:09:07,410
Вы можете увидеть, что, если вы идете
в Google Translate, и вы пытаетесь

185
00:09:07,410 --> 00:09:10,220
перевести предложение, это
просит вас для обратной связи.

186
00:09:10,220 --> 00:09:13,240
Так что, если вы говорите, ну, есть лучший
перевод этой фразы.

187
00:09:13,240 --> 00:09:18,140
Вы можете ввести его, а затем, если много
люди продолжают говорить, что это лучше,

188
00:09:18,140 --> 00:09:21,560
перевод, он просто узнает, что она
должны использовать эту перевод вместо

189
00:09:21,560 --> 00:09:22,960
один он давал.

190
00:09:22,960 --> 00:09:28,830
>> Таким образом, это очень философский вопрос
чтобы увидеть, если компьютеры будут

191
00:09:28,830 --> 00:09:30,340
в состоянии говорить или нет в будущем.

192
00:09:30,340 --> 00:09:34,440
Но у меня есть большие надежды, что они могут
только на основе этих аргументов.

193
00:09:34,440 --> 00:09:38,570
Но это только больше философский
вопрос.

194
00:09:38,570 --> 00:09:43,460
>> Таким образом, хотя компьютеры все еще не может говорить,
что те вещи, которые мы можем сделать?

195
00:09:43,460 --> 00:09:47,070
Некоторые действительно классные вещи являются
классификации данных.

196
00:09:47,070 --> 00:09:53,210
Так, например, вы, ребята, знаете,
что услуги электронной почты сделать, для

197
00:09:53,210 --> 00:09:55,580
Например, фильтрация спама.

198
00:09:55,580 --> 00:09:59,070
Поэтому, когда вы получаете спам, это
пытается фильтровать в другой коробке.

199
00:09:59,070 --> 00:10:00,270
Так, как это сделать?

200
00:10:00,270 --> 00:10:06,080
Это не то, что компьютер просто знает
что адреса электронной почты рассылки спама.

201
00:10:06,080 --> 00:10:09,130
Так что это в большей степени базируется на содержании
сообщение, или, может быть название, или

202
00:10:09,130 --> 00:10:11,310
возможно, некоторые картины, которые у вас есть.

203
00:10:11,310 --> 00:10:15,690
>> Так, в основном, то, что вы можете сделать, это получить
много данных писем, которые спам,

204
00:10:15,690 --> 00:10:19,980
письма, которые не спам, а также узнать, что
вид модели, которые вы имеете в

205
00:10:19,980 --> 00:10:21,000
Те, которые являются спамом.

206
00:10:21,000 --> 00:10:23,260
И это является частью вычислительной
лингвистика.

207
00:10:23,260 --> 00:10:24,720
Она называется классификации данных.

208
00:10:24,720 --> 00:10:28,100
И мы на самом деле происходит, чтобы увидеть
пример, что в следующих слайдах.

209
00:10:28,100 --> 00:10:32,910
>> Вторая вещь естественный язык
обработка которых это то, что

210
00:10:32,910 --> 00:10:36,580
График Поиск делает того, чтобы позволить
Вы пишете предложение.

211
00:10:36,580 --> 00:10:38,690
И это доверяет вам понять, что
смысл и дает

212
00:10:38,690 --> 00:10:39,940
Вы лучший результат.

213
00:10:39,940 --> 00:10:43,880
На самом деле, если вы идете в Google или Bing
и вы будете искать что-то вроде Леди

214
00:10:43,880 --> 00:10:47,060
Высота Гага, вы на самом деле происходит
чтобы получить 5 "1" вместо информации

215
00:10:47,060 --> 00:10:50,170
от нее, потому что это на самом деле понимает
то, что вы говорите.

216
00:10:50,170 --> 00:10:52,140
Так вот часть природного
язык обработки.

217
00:10:52,140 --> 00:10:57,000
>> Или также, когда вы используете Siri, прежде
у вас есть алгоритм, который пытается

218
00:10:57,000 --> 00:11:01,130
перевести то, что вы говорите,
словами, в тексте.

219
00:11:01,130 --> 00:11:03,690
А потом он пытается перевести
что в смысле.

220
00:11:03,690 --> 00:11:06,570
Так что все это часть естественной
язык обработки.

221
00:11:06,570 --> 00:11:08,320
>> Тогда у вас есть машинный перевод -

222
00:11:08,320 --> 00:11:10,300
которые на самом деле одна
из моих любимых -

223
00:11:10,300 --> 00:11:14,060
который просто перевод с
языка на другой.

224
00:11:14,060 --> 00:11:17,950
Таким образом, вы можете думать, что, когда вы делаете
машинный перевод, у вас есть

225
00:11:17,950 --> 00:11:19,750
бесконечные возможности приговоров.

226
00:11:19,750 --> 00:11:22,960
Так что нет никакого способа, чтобы просто хранить
каждый перевод.

227
00:11:22,960 --> 00:11:27,440
Таким образом, вы должны придумать интересное
Алгоритмы, чтобы иметь возможность

228
00:11:27,440 --> 00:11:30,110
перевести каждый
Приговор в некотором роде.

229
00:11:30,110 --> 00:11:32,483
>> Вы, ребята, есть какие-либо вопросы до сих пор?

230
00:11:32,483 --> 00:11:34,450
Нет?

231
00:11:34,450 --> 00:11:34,830
ОК.

232
00:11:34,830 --> 00:11:36,900
>> Так что мы будем видеть сегодня?

233
00:11:36,900 --> 00:11:39,300
Прежде всего, я собираюсь говорить о
задача классификации.

234
00:11:39,300 --> 00:11:41,440
Таким образом, тот, который я был
говоря о спаме.

235
00:11:41,440 --> 00:11:46,820
То, что я собираюсь сделать, это, учитывая текст
песню, вы можете попытаться выяснить,

236
00:11:46,820 --> 00:11:49,810
с высокой вероятностью
который является певцом?

237
00:11:49,810 --> 00:11:53,590
Давайте предположим, что у меня есть песни из леди
Гага и Кэти Перри, если я дам вам

238
00:11:53,590 --> 00:11:58,130
Новая песня, вы можете выяснить, если
это Кэти Перри или Леди Гага?

239
00:11:58,130 --> 00:12:01,490
>> Второй, я просто хочу поговорить
о проблеме сегментации.

240
00:12:01,490 --> 00:12:05,780
Так что я не знаю, если вы, ребята, знаю, но
Китайский, японский, другу Восточной Азии

241
00:12:05,780 --> 00:12:08,090
языки, и другие языки
в общем, не имеют

242
00:12:08,090 --> 00:12:09,830
пробелы между словами.

243
00:12:09,830 --> 00:12:13,540
И потом, если вы думаете о том, как этого
ваш компьютер рода попыток

244
00:12:13,540 --> 00:12:18,600
понять обработки естественного языка,
это выглядит на слова и

245
00:12:18,600 --> 00:12:21,500
пытается понять отношения
между ними, не так ли?

246
00:12:21,500 --> 00:12:25,440
Но тогда, если у вас есть китайский, и вы
имеют нулевые пробелы, это действительно трудно

247
00:12:25,440 --> 00:12:28,360
выяснить, каково отношение между
слова, потому что они не имеют никаких

248
00:12:28,360 --> 00:12:29,530
слова в первую очередь.

249
00:12:29,530 --> 00:12:32,600
Так что вам нужно сделать то, что называется
Сегментация который просто означает, положив

250
00:12:32,600 --> 00:12:36,490
пространства между тем, что мы назвали бы
слова на этих языках.

251
00:12:36,490 --> 00:12:37,740
Смысл?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> А потом мы собираемся
говорить о синтаксисе.

254
00:12:41,540 --> 00:12:44,050
Так что просто немного о естественной
язык обработки.

255
00:12:44,050 --> 00:12:45,420
Это будет просто обзор.

256
00:12:45,420 --> 00:12:50,700
Так что сегодня, в основном, что я хочу сделать
это дать Вам парней немного

257
00:12:50,700 --> 00:12:53,930
внутри каковы возможности
что вы можете сделать с вычислительной

258
00:12:53,930 --> 00:12:54,960
лингвистика.

259
00:12:54,960 --> 00:13:00,410
И тогда вы сможете увидеть то, что вы думаете
прохладно к числу тех вещей.

260
00:13:00,410 --> 00:13:02,270
А может быть, вы можете думать о проекте
и прийти поговорить со мной.

261
00:13:02,270 --> 00:13:05,260
И я могу дать вам совет
о том, как его реализовать.

262
00:13:05,260 --> 00:13:09,060
>> Так синтаксис будет немного
о Graph Поиск и машины

263
00:13:09,060 --> 00:13:09,670
перевод.

264
00:13:09,670 --> 00:13:13,650
Я просто хочу, чтобы дать пример того, как
вы могли бы, например, перевести

265
00:13:13,650 --> 00:13:16,020
что-то из португальского на английский.

266
00:13:16,020 --> 00:13:17,830
Звучит хорошо?

267
00:13:17,830 --> 00:13:19,293
>> Итак, сначала задача классификации.

268
00:13:19,293 --> 00:13:23,590
Скажу, что эта часть семинара
будет самым сложным

269
00:13:23,590 --> 00:13:27,560
один только потому, что там происходит
быть некоторое кодирование.

270
00:13:27,560 --> 00:13:29,470
Но это будет Python.

271
00:13:29,470 --> 00:13:34,380
Я знаю, вы, ребята, не знаю, Python, поэтому
Я просто хочу, чтобы объяснить на высокой

272
00:13:34,380 --> 00:13:35,750
уровень, что я делаю.

273
00:13:35,750 --> 00:13:40,900
И у вас нет по-настоящему заботиться слишком
много о синтаксисе, потому что это

274
00:13:40,900 --> 00:13:42,140
что-то вы, ребята, можете узнать.

275
00:13:42,140 --> 00:13:42,540
ОК?

276
00:13:42,540 --> 00:13:43,580
Звучит хорошо.

277
00:13:43,580 --> 00:13:46,020
>> Так в чем же проблема классификации?

278
00:13:46,020 --> 00:13:49,140
Таким образом, вы дали некоторые песни, чтобы
песня, и вы хотите, чтобы догадаться,

279
00:13:49,140 --> 00:13:50,620
кто поет ее.

280
00:13:50,620 --> 00:13:54,045
И это может быть для любого вида
других проблем.

281
00:13:54,045 --> 00:13:59,980
Таким образом, можно, например, у вас есть
Президентская кампания и у вас есть

282
00:13:59,980 --> 00:14:02,610
речь, и вы хотите найти
, если это было, например,

283
00:14:02,610 --> 00:14:04,470
Обама или Митт Ромни.

284
00:14:04,470 --> 00:14:07,700
Или вы можете иметь кучу писем и
Вы хотите, чтобы выяснить, если они

285
00:14:07,700 --> 00:14:08,890
спамом или нет.

286
00:14:08,890 --> 00:14:11,440
Так что это просто классификации некоторых
данные, основанные на словах

287
00:14:11,440 --> 00:14:13,790
что у вас там.

288
00:14:13,790 --> 00:14:16,295
>> Таким образом, чтобы сделать это, вы должны
сделать некоторые предположения.

289
00:14:16,295 --> 00:14:20,570
Так много о вычислительной лингвистики
делает предположения,

290
00:14:20,570 --> 00:14:24,100
обычно умные предположения, так что
Вы можете получить хорошие результаты.

291
00:14:24,100 --> 00:14:26,670
Попытка создать модель для него.

292
00:14:26,670 --> 00:14:31,290
А потом попробовать его и посмотреть, если это работает,
если он дает хорошую точность.

293
00:14:31,290 --> 00:14:33,940
И если это произойдет, то вы
попытаться улучшить его.

294
00:14:33,940 --> 00:14:37,640
Если этого не произойдет, вы, как, в порядке, может быть, я
должны сделать другой предположение.

295
00:14:37,640 --> 00:14:44,030
>> Таким образом, предположение, что мы собираемся
сделать то, что художник, как правило, поет

296
00:14:44,030 --> 00:14:49,220
о теме несколько раз, и, возможно,
использует слова несколько раз просто

297
00:14:49,220 --> 00:14:50,270
потому что они привыкли к нему.

298
00:14:50,270 --> 00:14:51,890
Вы можете просто думать о своем другу.

299
00:14:51,890 --> 00:14:57,350
Я уверен, что все вы, ребята, есть друзья
что сказать, их подписи фразу,

300
00:14:57,350 --> 00:14:59,260
буквально для каждого отдельного предложения -

301
00:14:59,260 --> 00:15:02,660
как какого-то определенного слова или некоторых конкретных
фраза, что мол для

302
00:15:02,660 --> 00:15:04,020
каждый приговор.

303
00:15:04,020 --> 00:15:07,920
>> А что вы можете сказать, что если вы видите
приговор, который имеет подпись

304
00:15:07,920 --> 00:15:11,450
Фраза, можно догадаться, что, вероятно,
ваш друг

305
00:15:11,450 --> 00:15:13,310
один говорит это, не так ли?

306
00:15:13,310 --> 00:15:18,410
Так вы сделаете это предположение, а затем
это, как вы создать модель.

307
00:15:18,410 --> 00:15:24,440
>> Пример, который я собираюсь дать на
как Lady Gaga, например, люди

308
00:15:24,440 --> 00:15:27,430
сказать, что она использует "BABY" для
все ее номер один песни.

309
00:15:27,430 --> 00:15:32,270
А на самом деле это видео, которое показывает
она говорила слово "ребенок" для

310
00:15:32,270 --> 00:15:33,410
разные песни.

311
00:15:33,410 --> 00:15:33,860
>> [ВИДЕОВОСПРОИЗВЕДЕНИЕ]

312
00:15:33,860 --> 00:15:34,310
>> - (Поет) Детские.

313
00:15:34,310 --> 00:15:36,220
Детские.

314
00:15:36,220 --> 00:15:37,086
Детские.

315
00:15:37,086 --> 00:15:37,520
Детские.

316
00:15:37,520 --> 00:15:37,770
Детские.

317
00:15:37,770 --> 00:15:38,822
Малыш.

318
00:15:38,822 --> 00:15:39,243
Детские.

319
00:15:39,243 --> 00:15:40,085
Детские.

320
00:15:40,085 --> 00:15:40,510
Детские.

321
00:15:40,510 --> 00:15:40,850
Детские.

322
00:15:40,850 --> 00:15:41,090
>> [КОНЕЦ ВИДЕОВОСПРОИЗВЕДЕНИЕ-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS ФРЕЙТАШ: Так что, я думаю,
40 песни здесь, в котором она говорит

324
00:15:44,020 --> 00:15:48,690
Слово "ребенок". Таким образом, вы можете в основном думаю
что, если вы видите песню, которая имеет

325
00:15:48,690 --> 00:15:52,180
слово "ребенок", есть некоторые высокие
Вероятность того, что это Леди Гага.

326
00:15:52,180 --> 00:15:56,450
Но давайте попробуем развивать это
далее более формально.

327
00:15:56,450 --> 00:16:00,470
>> Таким образом, эти тексты к песням
Леди Гага и Кэти Перри.

328
00:16:00,470 --> 00:16:04,120
Таким образом, вы посмотрите на Lady Gaga, вы видите, что они
есть много случаев из "ребенка",

329
00:16:04,120 --> 00:16:07,710
много вхождений "пути". А потом
Кэти Перри имеет много вхождений

330
00:16:07,710 --> 00:16:10,360
"," Много вхождений "огонь".

331
00:16:10,360 --> 00:16:14,560
>> Поэтому в основном то, что мы хотим
сделать, это, вы получите лирику.

332
00:16:14,560 --> 00:16:20,480
Давайте предположим, что вы получаете лирику для
песня, которая является "ребенок", просто "ребенок". Если

333
00:16:20,480 --> 00:16:24,750
вы просто получите слово "ребенок", и это
все данные, которые у вас есть с

334
00:16:24,750 --> 00:16:27,880
Леди Гага и Кэти Перри, которые бы
вы догадались это человек,

335
00:16:27,880 --> 00:16:29,370
кто поет песню?

336
00:16:29,370 --> 00:16:32,360
Леди Гага или Кэти Перри?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, не так ли?

338
00:16:33,150 --> 00:16:37,400
Потому что она единственная, кто говорит
"Ребенок". Это звучит глупо, не так ли?

339
00:16:37,400 --> 00:16:38,760
Хорошо, это действительно просто.

340
00:16:38,760 --> 00:16:41,860
Я просто смотрю на двух песен и
Конечно, она единственная, кто имеет

341
00:16:41,860 --> 00:16:42,660
"Ребенок".

342
00:16:42,660 --> 00:16:44,740
>> Но что, если у вас есть куча слов?

343
00:16:44,740 --> 00:16:50,900
Если у вас есть свежая Лирика, что-то
как, "ребенок, я просто

344
00:16:50,900 --> 00:16:51,610
пошли, чтобы видеть [? ФТ?]

345
00:16:51,610 --> 00:16:54,020
лекция ", или что-то в этом роде, и
то вы на самом деле должны выяснить -

346
00:16:54,020 --> 00:16:55,780
на основе всех этих слов -

347
00:16:55,780 --> 00:16:58,350
который является художник, который, вероятно,
пел эту песню?

348
00:16:58,350 --> 00:17:01,860
Так давайте попробуем разработать
это немного дальше.

349
00:17:01,860 --> 00:17:05,630
>> Итак, на основе только на данных, которые мы
получил, кажется, что Гага, вероятно,

350
00:17:05,630 --> 00:17:06,260
певец.

351
00:17:06,260 --> 00:17:07,904
Но как мы можем написать
это более формально?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
И это будет немного
Немного статистики.

354
00:17:13,140 --> 00:17:15,880
Так что, если вы заблудились, просто попробуйте
понять концепцию.

355
00:17:15,880 --> 00:17:18,700
Это не имеет значения, если вы понимаете,
уравнения на отлично.

356
00:17:18,700 --> 00:17:22,150
Это все будет в Интернете.

357
00:17:22,150 --> 00:17:25,490
>> Поэтому в основном то, что я расчета является
вероятность того, что эта песня по

358
00:17:25,490 --> 00:17:28,040
Леди Гага, учитывая, что -

359
00:17:28,040 --> 00:17:30,660
так этот бар означает, учитывая, что -

360
00:17:30,660 --> 00:17:33,680
Я видел слово "ребенок".
Имеет ли это смысл?

361
00:17:33,680 --> 00:17:35,540
Так что я пытаюсь вычислить
что вероятность.

362
00:17:35,540 --> 00:17:38,540
>> Так что есть эта теорема называется
Теорема Байеса, что говорит о том, что

363
00:17:38,540 --> 00:17:43,330
вероятность данного B, является
вероятность B дали, раз

364
00:17:43,330 --> 00:17:47,660
вероятность, по вероятности
В. Это длинный уравнение.

365
00:17:47,660 --> 00:17:51,970
Но то, что вы должны понять, от
то есть, что это то, что я хочу

366
00:17:51,970 --> 00:17:52,830
рассчитать, не так ли?

367
00:17:52,830 --> 00:17:56,570
Таким образом, вероятность того, что эта песня по
Леди Гага учитывая, что я увидел слово

368
00:17:56,570 --> 00:17:58,230
"Ребенок".

369
00:17:58,230 --> 00:18:02,960
>> А теперь, что я получаю является
вероятность слова "ребенок" с учетом

370
00:18:02,960 --> 00:18:04,390
что у меня есть Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
А что такое, что в принципе?

372
00:18:07,220 --> 00:18:10,500
Это означает,, что является
Возможность поступления слово "ребенок"

373
00:18:10,500 --> 00:18:12,130
в Gaga текстах?

374
00:18:12,130 --> 00:18:16,240
Если я хочу, чтобы вычислить, что в очень
простой способ, это просто число

375
00:18:16,240 --> 00:18:23,640
раз я вижу "Baby" от общего количества
слов в текстах Gaga, не так ли?

376
00:18:23,640 --> 00:18:27,600
Какова частота, что я вижу,
это слово в работе Гага?

377
00:18:27,600 --> 00:18:30,530
Смысл?

378
00:18:30,530 --> 00:18:33,420
>> Второе слагаемое
вероятность Gaga.

379
00:18:33,420 --> 00:18:34,360
Что это значит?

380
00:18:34,360 --> 00:18:38,550
Это в основном означает, что
Вероятность классификации

381
00:18:38,550 --> 00:18:40,690
некоторые тексты как Gaga?

382
00:18:40,690 --> 00:18:45,320
И это немного странно, но
давайте думать о примере.

383
00:18:45,320 --> 00:18:49,230
Так скажем, что вероятность
наличие "ребенка" в песне то же самое

384
00:18:49,230 --> 00:18:51,760
для Гага и Бритни Спирс.

385
00:18:51,760 --> 00:18:54,950
Но Бритни Спирс имеет в два раза
больше песен, чем Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Так что если кто-то просто случайно дает
Лирика "ребенка", первое, что вы

387
00:19:00,570 --> 00:19:04,710
смотреть на это, то, что вероятность
наличие "ребенка" в песне Gaga, "ребенок"

388
00:19:04,710 --> 00:19:05,410
в песне Бритни?

389
00:19:05,410 --> 00:19:06,460
И это то же самое.

390
00:19:06,460 --> 00:19:10,040
>> Так Второе, что вы увидите, это,
хорошо, что есть вероятность

391
00:19:10,040 --> 00:19:13,770
это лирические сама по себе будучи Гага лирические,
и какова вероятность

392
00:19:13,770 --> 00:19:15,380
будучи лирическая Бритни?

393
00:19:15,380 --> 00:19:18,950
Так, так как Бритни имеет так много больше лирику
чем Гага, вы, вероятно,

394
00:19:18,950 --> 00:19:21,470
скажем, ну, это, вероятно,
лирическая Бритни.

395
00:19:21,470 --> 00:19:23,340
Так вот почему у нас есть это
назвать прямо здесь.

396
00:19:23,340 --> 00:19:24,670
Вероятность Gaga.

397
00:19:24,670 --> 00:19:26,950
Имеет смысл?

398
00:19:26,950 --> 00:19:28,660
Так ли это?

399
00:19:28,660 --> 00:19:29,370
ОК.

400
00:19:29,370 --> 00:19:33,500
>> И последнее есть вероятность
из "ребенка", который не

401
00:19:33,500 --> 00:19:34,810
имеет значения, что много.

402
00:19:34,810 --> 00:19:39,940
Но это вероятность
видя "Baby" на английском языке.

403
00:19:39,940 --> 00:19:42,725
Мы обычно не волнует, что
много о этого термина.

404
00:19:42,725 --> 00:19:44,490
Имеет ли это смысл?

405
00:19:44,490 --> 00:19:48,110
Таким образом, вероятность Гага
называется априорная вероятность

406
00:19:48,110 --> 00:19:49,530
классовой Gaga.

407
00:19:49,530 --> 00:19:53,840
Потому что это просто означает, что, то, что
вероятность того, что класс -

408
00:19:53,840 --> 00:19:55,520
что Гага -

409
00:19:55,520 --> 00:19:59,350
только в общем, только
без условий.

410
00:19:59,350 --> 00:20:02,560
>> А потом, когда у меня есть вероятность
Гага дано "ребенок", мы называем это плюс

411
00:20:02,560 --> 00:20:06,160
слезящимися вероятность, потому что это
вероятность наличия

412
00:20:06,160 --> 00:20:08,300
Гага учитывая некоторые доказательства.

413
00:20:08,300 --> 00:20:11,050
Поэтому я даю вам доказательства
что я увидел слово ребенка и

414
00:20:11,050 --> 00:20:12,690
песня имеет смысла?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
ОК.

417
00:20:16,410 --> 00:20:22,400
>> Так что если я подсчитал, что для каждого
из песен для Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
что это было бы -

419
00:20:25,916 --> 00:20:27,730
судя по всему, я не могу двигаться в этом.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Вероятность Gaga будет
что-то вроде 2 более 24, раз 1/2,

422
00:20:36,920 --> 00:20:38,260
более 2 более 53.

423
00:20:38,260 --> 00:20:40,640
Это не имеет значения, если вы знаете, что
эти цифры и откуда.

424
00:20:40,640 --> 00:20:44,750
Но это всего лишь число, которое будет
быть больше, чем 0, верно?

425
00:20:44,750 --> 00:20:48,610
>> А потом, когда я делаю Кэти Перри,
вероятность "ребенка" учитывая Кэти

426
00:20:48,610 --> 00:20:49,830
уже 0, верно?

427
00:20:49,830 --> 00:20:52,820
Потому что нет никакого "ребенок"
в Кэти Перри.

428
00:20:52,820 --> 00:20:56,360
Так то это становится 0, а Гага
побед, что означает, что Гага

429
00:20:56,360 --> 00:20:57,310
вероятно, певец.

430
00:20:57,310 --> 00:20:58,560
Имеет ли это смысл?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
ОК.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Так что, если я хочу, чтобы сделать это более официальный,
Я могу на самом деле модель

435
00:21:11,750 --> 00:21:12,700
по нескольким словам.

436
00:21:12,700 --> 00:21:14,610
Так скажем, что у меня есть что-то
как, "ребенок, Я

437
00:21:14,610 --> 00:21:16,030
в огне, "или что-то.

438
00:21:16,030 --> 00:21:17,760
Так что имеет несколько слов.

439
00:21:17,760 --> 00:21:20,880
И в этом случае, вы можете увидеть
что "ребенок" находится в Gaga,

440
00:21:20,880 --> 00:21:21,710
но это не в Katy.

441
00:21:21,710 --> 00:21:24,940
И "огонь" находится в Katy, но
это не в Gaga, не так ли?

442
00:21:24,940 --> 00:21:27,200
Так она становится сложнее, не так ли?

443
00:21:27,200 --> 00:21:31,440
Потому что кажется, что вы почти
есть связь между ними.

444
00:21:31,440 --> 00:21:36,980
>> Так что вы должны сделать, это предположить,
независимость среди слов.

445
00:21:36,980 --> 00:21:41,210
Так в основном, что это значит, что
Я просто вычисляя, что является

446
00:21:41,210 --> 00:21:44,330
Возможность поступления "ребенка", что является
вероятность увидеть «я», и

447
00:21:44,330 --> 00:21:46,670
"Я", и "на" и "огонь"
все отдельно.

448
00:21:46,670 --> 00:21:48,670
Тогда я умножения всех из них.

449
00:21:48,670 --> 00:21:52,420
И я вижу, что есть вероятность
видеть целое предложение.

450
00:21:52,420 --> 00:21:55,210
Смысл?

451
00:21:55,210 --> 00:22:00,270
>> Так в основном, если у меня есть только одно слово,
то, что я хочу найти это аргумент макс,

452
00:22:00,270 --> 00:22:05,385
что означает, что класс, который является
дает мне наибольшую вероятность?

453
00:22:05,385 --> 00:22:10,010
Так в чем же класс, который дает
меня самая высокая вероятность

454
00:22:10,010 --> 00:22:11,940
вероятность класса дали слово.

455
00:22:11,940 --> 00:22:17,610
Таким образом, в этом случае, Гага дано "ребенка".
Или Кэти дано "ребенка". Смысл?

456
00:22:17,610 --> 00:22:21,040
>> И только от Байеса, что
уравнение, которое я показал,

457
00:22:21,040 --> 00:22:24,780
мы создаем эту фракцию.

458
00:22:24,780 --> 00:22:28,750
Единственное, что вы видите, что
вероятность слова с учетом

459
00:22:28,750 --> 00:22:31,370
изменения классов в зависимости
от класса, не так ли?

460
00:22:31,370 --> 00:22:34,260
Количество "Baby" с, что у меня есть
в Gaga отличается от Katy.

461
00:22:34,260 --> 00:22:37,640
Вероятность класса также
изменения, потому что это просто число

462
00:22:37,640 --> 00:22:39,740
песен каждый из них имеет.

463
00:22:39,740 --> 00:22:43,980
>> Но вероятность того, что само слово
будет одинаковым для всех

464
00:22:43,980 --> 00:22:44,740
художники, верно?

465
00:22:44,740 --> 00:22:47,150
Таким образом, вероятность того, что слова
просто, что вероятность

466
00:22:47,150 --> 00:22:49,820
видя, что слово в
Английский язык?

467
00:22:49,820 --> 00:22:51,420
Так что это то же самое для всех из них.

468
00:22:51,420 --> 00:22:55,790
Так, так как это постоянно, мы можем просто
отказаться от этого, а не заботиться о нем.

469
00:22:55,790 --> 00:23:00,230
Так что это будет на самом деле
уравнение мы ищем.

470
00:23:00,230 --> 00:23:03,360
>> И если у меня есть несколько слов, я
еще придется до

471
00:23:03,360 --> 00:23:04,610
Вероятность здесь.

472
00:23:04,610 --> 00:23:06,980
Единственное, что я умножения
вероятность

473
00:23:06,980 --> 00:23:08,490
все остальные слова.

474
00:23:08,490 --> 00:23:10,110
Так что я умножения всех из них.

475
00:23:10,110 --> 00:23:12,610
Смысл?

476
00:23:12,610 --> 00:23:18,440
Это выглядит странно, но в основном означает,
рассчитать до класса, и

477
00:23:18,440 --> 00:23:22,100
затем умножить на вероятность каждого
из слов, находящихся в этом классе.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> И вы знаете, что вероятность
Слово дано класс будет

480
00:23:29,150 --> 00:23:34,520
сколько раз вы увидите, что слово в
что класс, деленное на количество

481
00:23:34,520 --> 00:23:37,020
Слова, которые вы имеете в том, что
класс в целом.

482
00:23:37,020 --> 00:23:37,990
Смысл?

483
00:23:37,990 --> 00:23:41,680
Это просто, как "ребенок" было 2 более
количество слов, которые

484
00:23:41,680 --> 00:23:43,020
У меня была в лирике.

485
00:23:43,020 --> 00:23:45,130
Так что просто частота.

486
00:23:45,130 --> 00:23:46,260
>> Но есть одна вещь.

487
00:23:46,260 --> 00:23:51,250
Помните, как я показывал, что
вероятность "Baby", являющихся текстах

488
00:23:51,250 --> 00:23:56,350
от Кэти Перри 0 только потому, что Кэти
Перри не было "Baby" вообще?

489
00:23:56,350 --> 00:24:04,900
Но это звучит немного резко, чтобы просто
просто сказать, что текст песни не может быть от

490
00:24:04,900 --> 00:24:10,040
художник только потому, что они не имеют
это слово в частности в любое время.

491
00:24:10,040 --> 00:24:13,330
>> Таким образом, вы могли бы просто сказать, ну, если вы
нет это слово, я собираюсь

492
00:24:13,330 --> 00:24:15,640
дать вам более низкую вероятность,
но я просто не собираюсь

493
00:24:15,640 --> 00:24:17,420
дать вам 0 сразу.

494
00:24:17,420 --> 00:24:21,040
Потому что, может быть, это было что-то вроде,
"Огонь, огонь, огонь, огонь", который является

495
00:24:21,040 --> 00:24:21,990
полностью Кэти Перри.

496
00:24:21,990 --> 00:24:26,060
А потом "ребенок", и это только идет, чтобы
0 сразу, потому что был один

497
00:24:26,060 --> 00:24:27,250
"Ребенок".

498
00:24:27,250 --> 00:24:31,440
>> Поэтому в основном то, что мы делаем что-то
называется Лапласа сглаживания.

499
00:24:31,440 --> 00:24:36,260
И это просто означает, что я даю
некоторая вероятность даже к словам

500
00:24:36,260 --> 00:24:37,850
что не существует.

501
00:24:37,850 --> 00:24:43,170
Так, что я делаю то, что, когда я
расчета этого, я всегда добавляю 1 к

502
00:24:43,170 --> 00:24:44,180
числитель.

503
00:24:44,180 --> 00:24:48,060
Таким образом, даже если слово не существует, в
В этом случае, если это 0, я до сих пор

504
00:24:48,060 --> 00:24:51,250
расчета это как 1 над
общее количество слов.

505
00:24:51,250 --> 00:24:55,060
В противном случае, я получаю, сколько слов
У меня есть и я добавить 1.

506
00:24:55,060 --> 00:24:58,300
Так я рассчитываю в обоих случаях.

507
00:24:58,300 --> 00:25:00,430
Смысл?

508
00:25:00,430 --> 00:25:03,060
>> Так что теперь давайте сделаем некоторые кодирования.

509
00:25:03,060 --> 00:25:06,440
Я собираюсь должны сделать это довольно быстро,
но это просто важно, чтобы вам

510
00:25:06,440 --> 00:25:08,600
ребята понять концепции.

511
00:25:08,600 --> 00:25:13,450
Итак, что мы пытаемся сделать
точно реализовать это

512
00:25:13,450 --> 00:25:14,330
вещь, которую я только что сказал, -

513
00:25:14,330 --> 00:25:19,110
Я хочу, чтобы ты положил текст из
Леди Гага и Кэти Перри.

514
00:25:19,110 --> 00:25:22,980
И программа будет в состоянии
говорят, что если эти новые тексты из Gaga

515
00:25:22,980 --> 00:25:24,170
или Кэти Перри.

516
00:25:24,170 --> 00:25:25,800
Смысл?

517
00:25:25,800 --> 00:25:27,530
ОК.

518
00:25:27,530 --> 00:25:30,710
>> Так что я эту программу я собираюсь
позвонить classify.py.

519
00:25:30,710 --> 00:25:31,970
Так что это Python.

520
00:25:31,970 --> 00:25:34,210
Это новый язык программирования.

521
00:25:34,210 --> 00:25:38,020
Это очень похоже на некоторые
способы C и PHP.

522
00:25:38,020 --> 00:25:43,180
Это похоже, потому что, если вы хотите
узнать Python узнав C, это

523
00:25:43,180 --> 00:25:46,270
действительно не так много вызов
только потому, что Python намного проще

524
00:25:46,270 --> 00:25:47,520
чем C, в первую очередь.

525
00:25:47,520 --> 00:25:49,370
И много чего уже
реализован для вас.

526
00:25:49,370 --> 00:25:56,820
Итак, как как PHP имеет функции, которые
отсортировать список, или добавить что-то

527
00:25:56,820 --> 00:25:58,780
на массив, или бла, бла, бла.

528
00:25:58,780 --> 00:26:00,690
Python имеет все те также.

529
00:26:00,690 --> 00:26:05,960
>> Так что я просто собираюсь объяснить быстро
как мы могли бы сделать классификацию

530
00:26:05,960 --> 00:26:07,860
Проблема здесь.

531
00:26:07,860 --> 00:26:13,230
Так скажем, что в этом случае, у меня есть
песни из Гага и Кэти Перри.

532
00:26:13,230 --> 00:26:21,880
Таким образом, что у меня есть эти тексты в том, что
первое слово из песни является

533
00:26:21,880 --> 00:26:25,250
имя художника, и
остальное лирика.

534
00:26:25,250 --> 00:26:29,470
Так скажем, что у меня есть этот список в
которых первый является стихи Gaga.

535
00:26:29,470 --> 00:26:31,930
Так вот я на правильном пути.

536
00:26:31,930 --> 00:26:35,270
А на следующий один Кэти, и
она имеет также тексты песен.

537
00:26:35,270 --> 00:26:38,040
>> Так что это, как вы заявляете,
переменная в Python.

538
00:26:38,040 --> 00:26:40,200
Вы не должны дать тип данных.

539
00:26:40,200 --> 00:26:43,150
Вы просто написать "текст",
вроде как в PHP.

540
00:26:43,150 --> 00:26:44,890
Смысл?

541
00:26:44,890 --> 00:26:47,770
>> Так что те вещи, которые я должен
рассчитать, чтобы иметь возможность рассчитать

542
00:26:47,770 --> 00:26:49,360
вероятности?

543
00:26:49,360 --> 00:26:55,110
У меня есть для расчета «априорные»
из каждого из различных

544
00:26:55,110 --> 00:26:56,710
классы, у меня нет.

545
00:26:56,710 --> 00:27:06,680
У меня есть для расчета "боковых зубов",
или в значительной степени вероятности

546
00:27:06,680 --> 00:27:12,150
каждый из различных слов, которые
У меня может быть для каждого художника.

547
00:27:12,150 --> 00:27:17,210
Таким образом, внутри Gaga, например, я собираюсь
иметь список, сколько раз я вижу

548
00:27:17,210 --> 00:27:19,250
каждое из слов.

549
00:27:19,250 --> 00:27:20,760
Смысл?

550
00:27:20,760 --> 00:27:25,370
>> И, наконец, я просто хочу, чтобы иметь
Список называется "слова", что просто будет

551
00:27:25,370 --> 00:27:29,780
иметь сколько слов я
есть для каждого художника.

552
00:27:29,780 --> 00:27:33,760
Таким образом, для Gaga, например, когда я смотрю
к лирике, я, по-моему, 24

553
00:27:33,760 --> 00:27:34,750
слова в общей сложности.

554
00:27:34,750 --> 00:27:38,970
Так этот список просто придется
Гага 24, и Кэти другой номер.

555
00:27:38,970 --> 00:27:40,130
Смысл?

556
00:27:40,130 --> 00:27:40,560
ОК.

557
00:27:40,560 --> 00:27:42,530
>> Так что теперь, на самом деле, давайте
перейти к кодированию.

558
00:27:42,530 --> 00:27:45,270
Таким образом, в Python, вы можете на самом деле
вернуться кучу разные

559
00:27:45,270 --> 00:27:46,630
вещи из функции.

560
00:27:46,630 --> 00:27:50,810
Так что я собираюсь создать эту функцию
называется "условным", который собирается

561
00:27:50,810 --> 00:27:53,890
вернуть все из тех вещей,
"приоры", что "вероятности", и

562
00:27:53,890 --> 00:28:05,690
"слова". Таким образом, "условная", и это
будет ставя под "лирики".

563
00:28:05,690 --> 00:28:11,510
>> Так что теперь я хочу, чтобы вы на самом деле
написать эту функцию.

564
00:28:11,510 --> 00:28:17,750
Таким образом, способ, которым я могу написать это
функция Я просто определил это

565
00:28:17,750 --> 00:28:20,620
функционировать с "определение". Так я и сделал "определение
условно, "и это занимает

566
00:28:20,620 --> 00:28:28,700
"Текст". И то, что это будет делать
является, в первую очередь, у меня есть свои априорные

567
00:28:28,700 --> 00:28:31,030
что я хочу, чтобы вычислить.

568
00:28:31,030 --> 00:28:34,330
>> Таким образом, способ, которым я могу это сделать, это создать
словарь в Python, который

569
00:28:34,330 --> 00:28:37,320
в значительной степени то же самое, что хэш
стол, или это как итеративный

570
00:28:37,320 --> 00:28:40,480
Массив в PHP.

571
00:28:40,480 --> 00:28:44,150
Это, как я объявить словарь.

572
00:28:44,150 --> 00:28:53,580
И в основном это означает то, что
априорные из Gaga 0,5, например, если

573
00:28:53,580 --> 00:28:57,200
50% из лирики от
Гага, 50% из Katy.

574
00:28:57,200 --> 00:28:58,450
Смысл?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Так что я должен выяснить, как
для расчета априорные.

577
00:29:03,680 --> 00:29:07,120
>> Следующие те, которые я должен сделать, также,
являются вероятностями и слова.

578
00:29:07,120 --> 00:29:17,100
Так вероятности Gaga список
всех вероятностей того, что я

579
00:29:17,100 --> 00:29:19,160
есть для каждого из слов для Gaga.

580
00:29:19,160 --> 00:29:23,880
Так что, если я иду в вероятностях Gaga
"Ребенок", например, он даст мне

581
00:29:23,880 --> 00:29:28,750
что-то вроде 2 по 24 в этом случае.

582
00:29:28,750 --> 00:29:30,070
Смысл?

583
00:29:30,070 --> 00:29:36,120
Так я иду в "вероятности", перейдите в
"Гага" ведро, что имеет список всех

584
00:29:36,120 --> 00:29:40,550
слова Gaga, то я иду в "ребенка",
и я вижу вероятность.

585
00:29:40,550 --> 00:29:45,940
>> И, наконец у меня есть это
"Слова" словарь.

586
00:29:45,940 --> 00:29:53,620
Так вот, "вероятности". А потом
"слова". Так что, если я могу сделать "слова", "Gaga",

587
00:29:53,620 --> 00:29:58,330
что произойдет то, что это
даст мне 24, говоря, что я

588
00:29:58,330 --> 00:30:01,990
есть 24 слов в текстах из Gaga.

589
00:30:01,990 --> 00:30:04,110
Имеет смысл?

590
00:30:04,110 --> 00:30:07,070
Так вот, "слова" равно Дах-Дах-дах.

591
00:30:07,070 --> 00:30:07,620
Хорошо

592
00:30:07,620 --> 00:30:12,210
>> Так что я собираюсь сделать, это я собираюсь
перебора каждого из текстах, так

593
00:30:12,210 --> 00:30:14,490
каждой из строк, которые
У меня есть в списке.

594
00:30:14,490 --> 00:30:18,040
И я собираюсь рассчитать те вещи
для каждого из кандидатов.

595
00:30:18,040 --> 00:30:19,950
Имеет смысл?

596
00:30:19,950 --> 00:30:21,700
Так что я должен сделать для петли.

597
00:30:21,700 --> 00:30:26,300
>> Таким образом, в Python, что я могу сделать, это "для линии
в текстах. "то же самое,

598
00:30:26,300 --> 00:30:28,000
"Для каждого" заявление в PHP.

599
00:30:28,000 --> 00:30:33,420
Помните, как если бы это был PHP я мог
сказать "для каждого текстах как

600
00:30:33,420 --> 00:30:35,220
линия ". Имеет смысл?

601
00:30:35,220 --> 00:30:38,900
Так что я беру каждой из линий, в этом
случай, эта строка и следующая

602
00:30:38,900 --> 00:30:44,540
строка так и для каждой из линий, что я
собираюсь сделать, это во-первых, я собираюсь

603
00:30:44,540 --> 00:30:49,150
разделить эту строку в список
слова, разделенных пробелами.

604
00:30:49,150 --> 00:30:53,730
>> Так здорово, что о Python является то, что
вы могли бы просто Google, как "как я могу

605
00:30:53,730 --> 00:30:58,220
разбить строку на слова? "И это
собираюсь рассказать вам, как это сделать.

606
00:30:58,220 --> 00:31:04,890
И то, как это сделать, это просто "линия
= Line.split () ", и это в основном

607
00:31:04,890 --> 00:31:08,640
собираюсь дать Вам список
каждое из слов здесь.

608
00:31:08,640 --> 00:31:09,620
Имеет смысл?

609
00:31:09,620 --> 00:31:15,870
Так что теперь я сделал, что я хочу знать,
который является певцом этой песни.

610
00:31:15,870 --> 00:31:20,130
А для этого я просто должен получить
Первый элемент массива, не так ли?

611
00:31:20,130 --> 00:31:26,390
Поэтому я могу только сказать, что я "певец
= Линия (0) "Имеет смысл?

612
00:31:26,390 --> 00:31:32,010
>> А потом, что мне нужно сделать, это, в первую
все, что я собираюсь обновить сколько

613
00:31:32,010 --> 00:31:36,130
слова у меня под "Гага". так что я просто
собирается подсчитать, сколько слов я

614
00:31:36,130 --> 00:31:38,690
есть в этом списке, не так ли?

615
00:31:38,690 --> 00:31:41,910
Потому что это, сколько слов у меня
в лирике, и я просто хочу, чтобы

616
00:31:41,910 --> 00:31:44,120
добавить его в "Gaga" массива.

617
00:31:44,120 --> 00:31:47,090
Имеет ли это смысл?

618
00:31:47,090 --> 00:31:49,010
Не слишком большой акцент на синтаксиса.

619
00:31:49,010 --> 00:31:50,430
Думайте больше о понятиях.

620
00:31:50,430 --> 00:31:52,400
Это самая важная часть.

621
00:31:52,400 --> 00:31:52,720
ОК.

622
00:31:52,720 --> 00:32:00,260
>> Так что я могу сделать это, если "Гага" является
уже в этом списке, так что "если певец в

623
00:32:00,260 --> 00:32:03,190
слова ", что означает, что я уже
есть слова, Gaga.

624
00:32:03,190 --> 00:32:06,640
Я просто хочу добавить дополнительный
слова к этому.

625
00:32:06,640 --> 00:32:15,810
Так что я делаю, это "слова (певица)
+ = Len (строка) - 1 ".

626
00:32:15,810 --> 00:32:18,250
И тогда я могу просто сделать
Длина линии.

627
00:32:18,250 --> 00:32:21,860
Так как многие элементы I
иметь в массиве.

628
00:32:21,860 --> 00:32:27,060
И что я должен сделать минус 1 только потому, что
первый элемент массива является просто

629
00:32:27,060 --> 00:32:29,180
певец и тех, кто не являются тексты.

630
00:32:29,180 --> 00:32:31,420
Имеет смысл?

631
00:32:31,420 --> 00:32:32,780
ОК.

632
00:32:32,780 --> 00:32:35,820
>> "В противном случае," это означает, что я хочу на самом деле
вставить Gaga в список.

633
00:32:35,820 --> 00:32:45,990
Так что я просто сделать "слова (певица)
= Len (строка) - 1, "жаль.

634
00:32:45,990 --> 00:32:49,200
Таким образом, единственное различие между ними
линии является то, что на этот раз, это не так

635
00:32:49,200 --> 00:32:51,080
существуют еще, так что я просто
его инициализации.

636
00:32:51,080 --> 00:32:53,820
Это один я на самом деле добавление.

637
00:32:53,820 --> 00:32:55,570
ОК.

638
00:32:55,570 --> 00:32:59,480
Так что это было добавление к словам.

639
00:32:59,480 --> 00:33:03,040
>> Теперь я хочу добавить к настоятелей.

640
00:33:03,040 --> 00:33:05,480
Так как я могу вычислить априорные?

641
00:33:05,480 --> 00:33:11,580
В приоры можно рассчитать
во сколько раз.

642
00:33:11,580 --> 00:33:15,340
Так сколько раз вы видите, что певец
среди всех певцов, которые вы

643
00:33:15,340 --> 00:33:16,380
есть, не так ли?

644
00:33:16,380 --> 00:33:18,810
Таким образом, для Gaga и Кэти Перри,
в этом случае, я вижу Gaga

645
00:33:18,810 --> 00:33:20,570
один раз, Кэти Перри раз.

646
00:33:20,570 --> 00:33:23,320
>> Поэтому, в основном настоятели для Gaga
и Кэти Перри будет

647
00:33:23,320 --> 00:33:24,390
быть просто одним, не так ли?

648
00:33:24,390 --> 00:33:26,500
Вы просто, сколько раз
Я вижу художника.

649
00:33:26,500 --> 00:33:28,740
Так что это очень легко вычислить.

650
00:33:28,740 --> 00:33:34,100
Я могу только что-то подобное, как например, "если
певец в настоятелей, "Я просто собираюсь

651
00:33:34,100 --> 00:33:38,970
добавить 1 к их настоятели окне.

652
00:33:38,970 --> 00:33:51,000
Так, "приоры (петь)" + = 1 ", а затем" еще "
Я собираюсь сделать «априорные (певица)

653
00:33:51,000 --> 00:33:55,000
= 1 ". Имеет смысл?

654
00:33:55,000 --> 00:34:00,080
>> Так что, если он не существует, я просто поставить
как 1, в противном случае я просто добавьте 1.

655
00:34:00,080 --> 00:34:11,280
Итак, теперь все, что у меня осталось сделать
также добавить каждое из слов в

656
00:34:11,280 --> 00:34:12,290
вероятности.

657
00:34:12,290 --> 00:34:14,889
Так что я должен подсчитать, сколько раз
Я вижу каждого из слов.

658
00:34:14,889 --> 00:34:18,780
Так что я просто должен сделать еще один
цикл в линии.

659
00:34:18,780 --> 00:34:25,190
>> Так, первое, что я собираюсь сделать, это
проверить, если певица уже имеет

660
00:34:25,190 --> 00:34:26,969
вероятности массив.

661
00:34:26,969 --> 00:34:31,739
Так я проверяю, если певец не
есть массив вероятности, я просто

662
00:34:31,739 --> 00:34:34,480
собирается инициализировать один для них.

663
00:34:34,480 --> 00:34:36,400
Это даже не массив, извините,
это словарь.

664
00:34:36,400 --> 00:34:43,080
Так вероятности певицы собирается
быть открытой словарь, так что я

665
00:34:43,080 --> 00:34:45,830
просто инициализации словаря для него.

666
00:34:45,830 --> 00:34:46,820
ОК?

667
00:34:46,820 --> 00:34:58,330
>> И теперь я могу реально сделать для петли
для расчета каждого из слов '

668
00:34:58,330 --> 00:35:00,604
вероятности.

669
00:35:00,604 --> 00:35:01,540
ОК.

670
00:35:01,540 --> 00:35:04,160
Так что я могу сделать это для петли.

671
00:35:04,160 --> 00:35:06,590
Так что я просто хочу, чтобы итерации
по массиву.

672
00:35:06,590 --> 00:35:15,320
Таким образом, способ, которым я могу сделать это в Python
является "для г в диапазоне". С 1

673
00:35:15,320 --> 00:35:19,200
потому что я хочу, чтобы начать в секунду
элемент, потому что первый является

674
00:35:19,200 --> 00:35:20,260
Имя певца.

675
00:35:20,260 --> 00:35:24,990
Так от одного до
Длина линии.

676
00:35:24,990 --> 00:35:29,760
И когда я в диапазоне она на самом деле идти от
как здесь от 1 до Len из

677
00:35:29,760 --> 00:35:30,740
Линия минус 1.

678
00:35:30,740 --> 00:35:33,810
Так что уже делает эту штуку делать
н минус 1 для массивов, которые очень

679
00:35:33,810 --> 00:35:35,500
удобно.

680
00:35:35,500 --> 00:35:37,850
Имеет смысл?

681
00:35:37,850 --> 00:35:42,770
>> Таким образом, для каждого из них, то, что я собираюсь
сделать, это, как и в другом,

682
00:35:42,770 --> 00:35:50,320
Я собираюсь проверить, если слово в этом
Положение в линейке уже

683
00:35:50,320 --> 00:35:51,570
вероятности.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
А потом, как я сказал здесь, вероятности
слова, как в я ставлю

686
00:35:57,260 --> 00:35:58,400
"вероятности (певица)».

687
00:35:58,400 --> 00:35:59,390
Таким образом, имя певицы.

688
00:35:59,390 --> 00:36:03,450
Так что, если это уже в
"Probabilit (певец)", это означает, что я

689
00:36:03,450 --> 00:36:11,960
хотите добавить к нему 1, так что я собираюсь
сделать "вероятности (певец)", а

690
00:36:11,960 --> 00:36:14,100
Слово называется "линия (я)".

691
00:36:14,100 --> 00:36:22,630
Я собираюсь добавить 1 и "еще" Я просто
собирается инициализировать его в 1.

692
00:36:22,630 --> 00:36:23,880
"Линия (я)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Имеет смысл?

695
00:36:28,420 --> 00:36:30,180
>> Так, по моим расчетам все массивы.

696
00:36:30,180 --> 00:36:36,580
Итак, теперь все, что я должен сделать для
Этот просто "вернуться априорные,

697
00:36:36,580 --> 00:36:43,230
вероятности и слова. «Давайте
увидеть, если таковые имеются, в порядке.

698
00:36:43,230 --> 00:36:45,690
Вроде все работает до сих пор.

699
00:36:45,690 --> 00:36:46,900
Так, в этом есть смысл?

700
00:36:46,900 --> 00:36:47,750
В некотором роде?

701
00:36:47,750 --> 00:36:49,280
ОК.

702
00:36:49,280 --> 00:36:51,980
Так что теперь у меня есть все вероятности.

703
00:36:51,980 --> 00:36:55,100
Так что теперь единственное, что у меня осталось
просто иметь эту вещь, что

704
00:36:55,100 --> 00:36:58,650
вычисляет произведение все
вероятностей, когда я получаю лирику.

705
00:36:58,650 --> 00:37:06,270
>> Так скажем, что я хочу сейчас называть
эта функция "классифицировать ()" и

706
00:37:06,270 --> 00:37:08,880
вещь, которая функция принимает
это просто аргумент.

707
00:37:08,880 --> 00:37:13,170
Скажем "Детка, я в огне", и это
собирается выяснить, что является

708
00:37:13,170 --> 00:37:14,490
Вероятность того, что это Gaga?

709
00:37:14,490 --> 00:37:16,405
Какова вероятность того,
что это Кэти?

710
00:37:16,405 --> 00:37:19,690
Звучит хорошо?

711
00:37:19,690 --> 00:37:25,750
Так что я просто придется создать
Новая функция называется "классифицировать ()" и

712
00:37:25,750 --> 00:37:29,180
он собирается принять некоторые
текст песни, а также.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
И, кроме того лирике Я также
должны отправить априорные,

715
00:37:36,160 --> 00:37:37,700
вероятности и слова.

716
00:37:37,700 --> 00:37:44,000
Так что я собираюсь послать текст, априорные,
вероятности, слова.

717
00:37:44,000 --> 00:37:51,840
>> Так это происходит текст, априорные,
вероятности, слова.

718
00:37:51,840 --> 00:37:53,530
Так, для чего это нужно?

719
00:37:53,530 --> 00:37:57,180
Это в основном будет идти через все
возможные кандидаты, которые вы

720
00:37:57,180 --> 00:37:58,510
иметь в качестве певца.

721
00:37:58,510 --> 00:37:59,425
А где те кандидаты?

722
00:37:59,425 --> 00:38:01,020
Они в настоятелей, не так ли?

723
00:38:01,020 --> 00:38:02,710
Поэтому у меня есть все те, там.

724
00:38:02,710 --> 00:38:07,870
Так что я собираюсь есть словарь
из всех возможных кандидатов.

725
00:38:07,870 --> 00:38:14,220
А потом за каждого кандидата в
настоятели, так это означает, что он собирается

726
00:38:14,220 --> 00:38:17,740
быть Гага, Кэти если бы мне пришлось
более было бы больше.

727
00:38:17,740 --> 00:38:20,410
Я собираюсь начать расчет
эта вероятность.

728
00:38:20,410 --> 00:38:28,310
Вероятность как мы видели в
PowerPoint является Предыдущие раз

729
00:38:28,310 --> 00:38:30,800
Продукт каждого из
другие вероятности.

730
00:38:30,800 --> 00:38:32,520
>> Так что я могу сделать то же самое здесь.

731
00:38:32,520 --> 00:38:36,330
Я могу просто сделать вероятность
первоначально только перед.

732
00:38:36,330 --> 00:38:40,340
Так настоятели кандидата.

733
00:38:40,340 --> 00:38:40,870
Не так ли?

734
00:38:40,870 --> 00:38:45,360
И теперь у меня есть для перебора всех
Слова, которые я имею в лирике быть

735
00:38:45,360 --> 00:38:48,820
возможность добавлять вероятность
для каждого из них, в порядке?

736
00:38:48,820 --> 00:38:57,900
Так, "в слово в текстах", что я собираюсь
сделать, это, если слово в

737
00:38:57,900 --> 00:39:01,640
"вероятности (кандидаты)", которые
означает, что это слово, которое

738
00:39:01,640 --> 00:39:03,640
Кандидат должен в своих текстах -

739
00:39:03,640 --> 00:39:05,940
например, "ребенок" для Gaga -

740
00:39:05,940 --> 00:39:11,710
то, что я собираюсь сделать, это что
вероятность собирается умножить

741
00:39:11,710 --> 00:39:22,420
на 1 плюс вероятностей
кандидат в этом слове.

742
00:39:22,420 --> 00:39:25,710
И это называется "Слово".

743
00:39:25,710 --> 00:39:32,440
Это делится на количество слов
что у меня есть для этого кандидата.

744
00:39:32,440 --> 00:39:37,450
Общее количество слов, которые у меня есть
для певицы, что я смотрю на.

745
00:39:37,450 --> 00:39:40,290
>> "Else". это означает, что это новое слово
так что было бы, как например

746
00:39:40,290 --> 00:39:41,860
"Огонь" для Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Так что я просто хочу сделать 1 по
"Слово (кандидат)".

748
00:39:45,760 --> 00:39:47,710
Так что я не хочу поставить этот термин здесь.

749
00:39:47,710 --> 00:39:50,010
>> Так что это будет в основном
копирование и вставка этого.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Но я собираюсь удалить эту часть.

752
00:39:56,000 --> 00:39:57,610
Так что это просто будет 1 по этому поводу.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Звучит хорошо?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
И теперь в конце, я просто хочу, чтобы
печатать имя кандидата и

757
00:40:09,700 --> 00:40:15,750
вероятность того, что у вас есть из
имея S на их текстах.

758
00:40:15,750 --> 00:40:16,200
Имеет смысл?

759
00:40:16,200 --> 00:40:18,390
И я на самом деле даже не
нужен этот словарь.

760
00:40:18,390 --> 00:40:19,510
Имеет смысл?

761
00:40:19,510 --> 00:40:21,810
>> Итак, давайте посмотрим, если это на самом деле работает.

762
00:40:21,810 --> 00:40:24,880
Так что, если я запускаю это, он не работает.

763
00:40:24,880 --> 00:40:26,130
Подождите одну секунду.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Слова (кандидаты)", "слова (кандидаты)",
это

766
00:40:31,720 --> 00:40:33,750
имя массива.

767
00:40:33,750 --> 00:40:41,435
ОК Таким образом, это говорит, что есть какая-то ошибка
для кандидата в настоятелей.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Позвольте мне просто расслабиться немного.

770
00:40:48,760 --> 00:40:50,360
ОК.

771
00:40:50,360 --> 00:40:51,305
Давайте попробуем.

772
00:40:51,305 --> 00:40:51,720
ОК.

773
00:40:51,720 --> 00:40:58,710
>> Так он дает Кэти Перри имеет это
Вероятность этого раза 10 до

774
00:40:58,710 --> 00:41:02,200
минус 7, и Гага это
раз от 10 до минус 6.

775
00:41:02,200 --> 00:41:05,610
Итак, вы видите это показывает, что Гага
имеет более высокую вероятность.

776
00:41:05,610 --> 00:41:09,260
Таким образом, "Детка, я в огне" является
вероятно, песня Gaga.

777
00:41:09,260 --> 00:41:10,580
Имеет смысл?

778
00:41:10,580 --> 00:41:12,030
Так что это то, что мы сделали.

779
00:41:12,030 --> 00:41:16,010
>> Этот код будет размещен на сайте,
так что вы, ребята, можете проверить его.

780
00:41:16,010 --> 00:41:20,720
Может быть, использовать некоторые из них, если вы хотите, чтобы
сделать проект или что-то подобное.

781
00:41:20,720 --> 00:41:22,150
ОК.

782
00:41:22,150 --> 00:41:25,930
Это было как раз, чтобы показать
что вычислительная

783
00:41:25,930 --> 00:41:27,230
лингвистика код выглядит.

784
00:41:27,230 --> 00:41:33,040
Но теперь давайте вернемся к более
Высокий уровень вещи.

785
00:41:33,040 --> 00:41:33,340
ОК.

786
00:41:33,340 --> 00:41:35,150
>> Таким образом, другие проблемы, которые я
говорил о -

787
00:41:35,150 --> 00:41:37,550
проблема сегментации
является первым из них.

788
00:41:37,550 --> 00:41:40,820
Так у вас тут по-японски.

789
00:41:40,820 --> 00:41:43,420
И тогда вы увидите, что
нет пространства.

790
00:41:43,420 --> 00:41:49,110
Так что это в основном означает, что это
верхняя часть кресла, не так ли?

791
00:41:49,110 --> 00:41:50,550
Вы говорите по-японски?

792
00:41:50,550 --> 00:41:52,840
Это верхняя часть кресла, не так ли?

793
00:41:52,840 --> 00:41:54,480
>> СТУДЕНТ: Я не знаю, что
кандзи там есть.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS ФРЕЙТАШ: Это [говорение по-японски]

795
00:41:57,010 --> 00:41:57,950
ОК.

796
00:41:57,950 --> 00:42:00,960
Так что в основном означает кафедру вершине.

797
00:42:00,960 --> 00:42:03,620
Так что если вы должны были поставить пробел
было бы здесь.

798
00:42:03,620 --> 00:42:05,970
И тогда у вас есть [? Уэда-Сан -. ?]

799
00:42:05,970 --> 00:42:09,040
Которые в основном означает, г-н Уэда.

800
00:42:09,040 --> 00:42:13,180
И вы видите, что "Уэда" и у вас есть
пространство, а затем "Сан -." Итак, вы видите, что

801
00:42:13,180 --> 00:42:15,470
здесь вы "Ue", как сам по себе.

802
00:42:15,470 --> 00:42:17,750
И вот у него есть характер
рядом с ним.

803
00:42:17,750 --> 00:42:21,720
>> Так что это не так, как в этих языках
символов означает слово его, чтобы вы

804
00:42:21,720 --> 00:42:23,980
просто положить много пробелов.

805
00:42:23,980 --> 00:42:25,500
Персонажи связаны друг с другом.

806
00:42:25,500 --> 00:42:28,680
И они могут быть вместе
как два, три, один.

807
00:42:28,680 --> 00:42:34,520
Таким образом, вы на самом деле нужно создать какой-то
из способ положить эти пробелы.

808
00:42:34,520 --> 00:42:38,850
>> И это то, что всякий раз, когда вы получаете
Данные из этих азиатских языков,

809
00:42:38,850 --> 00:42:40,580
все приходит нечленистые.

810
00:42:40,580 --> 00:42:45,940
Потому что нет тот, кто пишет по-японски
или китайский пишет пробелами.

811
00:42:45,940 --> 00:42:48,200
Всякий раз, когда вы пишете по-китайски,
Японский вы просто написать все,

812
00:42:48,200 --> 00:42:48,710
без пробелов.

813
00:42:48,710 --> 00:42:52,060
Он даже не имеет смысла
поставить пробелы.

814
00:42:52,060 --> 00:42:57,960
Итак, когда вы получаете данные из, некоторые
Азиатских языков Восток, если вы хотите

815
00:42:57,960 --> 00:43:00,760
сделать что-то с этим
вы должны сегменте в первую очередь.

816
00:43:00,760 --> 00:43:05,130
>> Подумайте делать пример
тексты без пробелов.

817
00:43:05,130 --> 00:43:07,950
Таким образом, только текст песни, которые вы должны
будет приговоры, не так ли?

818
00:43:07,950 --> 00:43:09,470
, Разделенных точками.

819
00:43:09,470 --> 00:43:13,930
Но затем, как раз предложение будет
не помогает на предоставление информации

820
00:43:13,930 --> 00:43:17,760
от того, кто эти тексты на.

821
00:43:17,760 --> 00:43:18,120
Не так ли?

822
00:43:18,120 --> 00:43:20,010
Таким образом, вы должны ставит пробелы в первую очередь.

823
00:43:20,010 --> 00:43:21,990
Итак, как можно это сделать?

824
00:43:21,990 --> 00:43:24,920
>> Так потом приходит идея языке
модель, которая что-то действительно

825
00:43:24,920 --> 00:43:26,870
важно для вычислительных
лингвистика.

826
00:43:26,870 --> 00:43:32,790
Таким образом, языковая модель в основном
таблица вероятностей, что шоу

827
00:43:32,790 --> 00:43:36,260
прежде всего какова вероятность
того, это слово в языке?

828
00:43:36,260 --> 00:43:39,590
Так, показывающий, как часто слово.

829
00:43:39,590 --> 00:43:43,130
А потом еще и показывающую соотношение
между словами в предложении.

830
00:43:43,130 --> 00:43:51,500
>> Таким образом, основная идея состоит в том, если незнакомец пришел
Вам и сказал приговор

831
00:43:51,500 --> 00:43:55,600
Вы, какова вероятность того, что для
Например, "это моя сестра [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
был приговор, что человек сказал?

833
00:43:57,480 --> 00:44:00,380
Так, очевидно, некоторые приговоры
чаще, чем другие.

834
00:44:00,380 --> 00:44:04,450
Например, "доброе утро" или "хорошо
ночь ", или" Эй, "гораздо более

835
00:44:04,450 --> 00:44:08,260
общего, чем большинство предложений
что у нас есть по-английски.

836
00:44:08,260 --> 00:44:11,060
Так почему же эти предложения
более частыми?

837
00:44:11,060 --> 00:44:14,060
>> Прежде всего, это потому, что у вас есть
слова, которые чаще.

838
00:44:14,060 --> 00:44:20,180
Так, например, если вы говорите, что собака
большой, и собака гигантская, вы

839
00:44:20,180 --> 00:44:23,880
обычно, вероятно, услышать Собака большая
чаще, потому что "большой" является более

840
00:44:23,880 --> 00:44:27,260
часто на английском языке, чем "гигантская".
Так, один из

841
00:44:27,260 --> 00:44:30,100
вещи частота слово.

842
00:44:30,100 --> 00:44:34,490
>> Вторая вещь, которая действительно
важно только

843
00:44:34,490 --> 00:44:35,490
порядок слов.

844
00:44:35,490 --> 00:44:39,500
Таким образом, это принято говорить "кошка
внутри коробки. ", но вы этого не сделаете, как правило,

845
00:44:39,500 --> 00:44:44,250
см. в "окне внутри кот." так
Вы видите, что есть некоторая важность

846
00:44:44,250 --> 00:44:46,030
в порядке слов.

847
00:44:46,030 --> 00:44:50,160
Вы не можете просто сказать, что эти двое
предложения имеют одинаковую вероятность

848
00:44:50,160 --> 00:44:53,010
только потому, что у них есть те же самые слова.

849
00:44:53,010 --> 00:44:55,550
Вы на самом деле должны заботиться
о порядке, а также.

850
00:44:55,550 --> 00:44:57,650
Смысл?

851
00:44:57,650 --> 00:44:59,490
>> Так что же нам делать?

852
00:44:59,490 --> 00:45:01,550
Так что я мог бы попытаться получить вас?

853
00:45:01,550 --> 00:45:04,400
Я пытаюсь заставить вас, что мы
позвонить модели н-граммовые.

854
00:45:04,400 --> 00:45:09,095
Так модели н-грамм основном предположить
что для каждого слова, которое

855
00:45:09,095 --> 00:45:10,960
у вас есть в предложении.

856
00:45:10,960 --> 00:45:15,020
Это вероятность наличия, что
Слово есть зависит не только от

857
00:45:15,020 --> 00:45:18,395
Частота этого слова в языке,
но также и от слов, которые

858
00:45:18,395 --> 00:45:19,860
окружают его.

859
00:45:19,860 --> 00:45:25,810
>> Так, например, как правило, когда вы видите
что-то вроде или на вы

860
00:45:25,810 --> 00:45:28,040
вероятно, увидим
существительное после него, не так ли?

861
00:45:28,040 --> 00:45:31,750
Потому что, когда у вас есть предлог
обычно это занимает существительное после него.

862
00:45:31,750 --> 00:45:35,540
Или если у вас есть глагол, который транзитивно
Вы обычно собираются

863
00:45:35,540 --> 00:45:36,630
есть словосочетание.

864
00:45:36,630 --> 00:45:38,780
Так что это будет иметь существительное
где-то вокруг него.

865
00:45:38,780 --> 00:45:44,950
>> Так, в основном, то, что он делает то, что это
считает вероятность наличия

866
00:45:44,950 --> 00:45:47,960
слова рядом друг с другом, когда
Вы расчета

867
00:45:47,960 --> 00:45:49,050
вероятность предложения.

868
00:45:49,050 --> 00:45:50,960
И вот, что такое язык
модель в принципе.

869
00:45:50,960 --> 00:45:54,620
Просто говорю, что это вероятность
из имеющего удельную

870
00:45:54,620 --> 00:45:57,120
Приговор в языке?

871
00:45:57,120 --> 00:45:59,110
Так почему же, что полезно, в основном?

872
00:45:59,110 --> 00:46:02,390
И в первую очередь то, что
модель н-г, то?

873
00:46:02,390 --> 00:46:08,850
>> Так модель н-г означает, что
каждое слово зависит от

874
00:46:08,850 --> 00:46:12,700
Следующий N минус 1 слов.

875
00:46:12,700 --> 00:46:18,150
Так, в основном, это означает, что если я смотрю,
например, на CS50 TF, когда

876
00:46:18,150 --> 00:46:21,500
Я вычисления вероятности
приговор, будешь как "

877
00:46:21,500 --> 00:46:25,280
вероятность того, слово ""
раза вероятность наличия "

878
00:46:25,280 --> 00:46:31,720
CS50 "раз вероятность наличия
"CS50 TF." Так, в основном, я считаю

879
00:46:31,720 --> 00:46:35,720
все возможные способы растягивая ее.

880
00:46:35,720 --> 00:46:41,870
>> А потом, как правило, когда вы делаете это,
как в проекте, вы ставите N быть

881
00:46:41,870 --> 00:46:42,600
низкое значение.

882
00:46:42,600 --> 00:46:45,930
Так, как правило, имеют биграмм или триграмм.

883
00:46:45,930 --> 00:46:51,090
Так что вы просто посчитать два словами,
группа из двух слов, или трех слов,

884
00:46:51,090 --> 00:46:52,620
просто за сбои в работе.

885
00:46:52,620 --> 00:46:56,395
А также потому, может быть, если у вас есть
что-то вроде "The CS50 TF." Когда вы

886
00:46:56,395 --> 00:47:00,510
есть "TF", это очень важно, что
"CS50" рядом с ним, не так ли?

887
00:47:00,510 --> 00:47:04,050
Эти две вещи, как правило,
рядом друг с другом.

888
00:47:04,050 --> 00:47:06,410
>> Если вы думаете о "TF", это, вероятно,
будет иметь то, что

889
00:47:06,410 --> 00:47:07,890
Класс это TF'ing для.

890
00:47:07,890 --> 00:47:11,330
Кроме того, "" что действительно важно
для CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Но если у вас есть что-то вроде "The CS50
TF пошел в класс и дал их

892
00:47:14,570 --> 00:47:20,060
студенты некоторые конфеты. "" Конфеты "и" "
не имеют никакого отношения действительно, не так ли?

893
00:47:20,060 --> 00:47:23,670
Они так далеко друг от друга, что
это действительно не имеет значения, что

894
00:47:23,670 --> 00:47:25,050
слова у вас есть.

895
00:47:25,050 --> 00:47:31,210
>> Так, делая биграмм или триграмма, это
просто означает, что вы ограничиваете

896
00:47:31,210 --> 00:47:33,430
себе некоторых слов
что вокруг.

897
00:47:33,430 --> 00:47:35,810
Смысл?

898
00:47:35,810 --> 00:47:40,630
Итак, когда вы хотите сделать сегментацию,
в основном, то, что вы хотите сделать, это увидеть

899
00:47:40,630 --> 00:47:44,850
каковы все возможные способы, которые
вы можете разбить предложение.

900
00:47:44,850 --> 00:47:49,090
>> Такой, что вы видите, что является
вероятность каждого из этих предложений

901
00:47:49,090 --> 00:47:50,880
существующих в языке?

902
00:47:50,880 --> 00:47:53,410
Так что вы делаете это как, ну, пусть
мне попробовать поставить пробел здесь.

903
00:47:53,410 --> 00:47:55,570
Таким образом, вы поставить пробел есть
и вы видите, что является

904
00:47:55,570 --> 00:47:57,590
вероятность того, что приговор?

905
00:47:57,590 --> 00:48:00,240
Тогда вы, как, в порядке, может быть,
что не было настолько хорошо.

906
00:48:00,240 --> 00:48:03,420
Так что я поставить пробел там и пространстве
там, и вам рассчитать

907
00:48:03,420 --> 00:48:06,240
Вероятность сейчас, и вы видите, что
это высокая вероятность.

908
00:48:06,240 --> 00:48:12,160
>> Так что это алгоритм называется ТАНГО
Алгоритм сегментации, который

909
00:48:12,160 --> 00:48:14,990
на самом деле то, что было бы действительно
остыть в течение проекта, который

910
00:48:14,990 --> 00:48:20,860
в основном берет нечленистые текст, который
может быть японский или китайский или, может быть,

911
00:48:20,860 --> 00:48:26,080
Английский без пробелов и пытается поместить
пробелы между словами и это делает

912
00:48:26,080 --> 00:48:29,120
что с помощью языковую модель и
пытаясь разглядеть, что является самым высоким

913
00:48:29,120 --> 00:48:31,270
вероятность вы можете получить.

914
00:48:31,270 --> 00:48:32,230
ОК.

915
00:48:32,230 --> 00:48:33,800
Так что это сегментация.

916
00:48:33,800 --> 00:48:35,450
>> Теперь синтаксис.

917
00:48:35,450 --> 00:48:40,940
Так, синтаксис используется для
так много вещей, прямо сейчас.

918
00:48:40,940 --> 00:48:44,880
Таким образом, для Graph Поиск, для Siri для
почти любой вид природного

919
00:48:44,880 --> 00:48:46,490
язык обработки у вас есть.

920
00:48:46,490 --> 00:48:49,140
Так что важно
вещи о синтаксисе?

921
00:48:49,140 --> 00:48:52,390
Так, предложения в целом имеют
что мы называем составляющие.

922
00:48:52,390 --> 00:48:57,080
Какие вроде как группы слов
которые имеют функцию в предложении.

923
00:48:57,080 --> 00:49:02,220
И они не могут действительно быть
друг от друга.

924
00:49:02,220 --> 00:49:07,380
>> Так что, если я говорю, например, "Лорен любит
Мило. "Я знаю, что" Лорен "является

925
00:49:07,380 --> 00:49:10,180
составной и затем "любит
Мило "также еще один.

926
00:49:10,180 --> 00:49:16,860
Потому что вы не можете сказать, как "Лорен Мило
любит "иметь тот же смысл.

927
00:49:16,860 --> 00:49:18,020
Это не будет иметь
тот же смысл.

928
00:49:18,020 --> 00:49:22,500
Или я не могу сказать, как "Мило Lauren
любит. "Не все имеет те же

929
00:49:22,500 --> 00:49:25,890
означает делать это.

930
00:49:25,890 --> 00:49:31,940
>> Таким образом, две более важные вещи, о
Синтаксис являются лексические типы которых является

931
00:49:31,940 --> 00:49:35,390
в основном функция, что вы
есть слова сами по себе.

932
00:49:35,390 --> 00:49:39,180
Таким образом, вы должны знать, что "Лорен"
и "Мило" существительные.

933
00:49:39,180 --> 00:49:41,040
"Любовь" это глагол.

934
00:49:41,040 --> 00:49:45,660
И вторая важная вещь
что они фразовые типы.

935
00:49:45,660 --> 00:49:48,990
Таким образом, вы знаете, что "любит Майло"
на самом деле является словесное фраза.

936
00:49:48,990 --> 00:49:52,390
Поэтому, когда я говорю "Лорен", я знаю, что
Лорен делает что-то.

937
00:49:52,390 --> 00:49:53,620
Что она делает?

938
00:49:53,620 --> 00:49:54,570
Она любящая Майло.

939
00:49:54,570 --> 00:49:56,440
Так что это все дело.

940
00:49:56,440 --> 00:50:01,640
Но его компоненты
существительное и глагол.

941
00:50:01,640 --> 00:50:04,210
Но вместе, они делают глагол фразу.

942
00:50:04,210 --> 00:50:08,680
>> Итак, что мы можем реально сделать с
компьютерная лингвистика?

943
00:50:08,680 --> 00:50:13,810
Так что, если у меня есть кое-что для примера
«друзья Allison». Я вижу, если я просто

944
00:50:13,810 --> 00:50:17,440
сделал синтаксический дерево я буду знать, что
"Друзья" является именная это

945
00:50:17,440 --> 00:50:21,480
существительное, а затем "из Allison» является
предложная, в котором "из" является

946
00:50:21,480 --> 00:50:24,810
предложение и "Аллисон" является существительным.

947
00:50:24,810 --> 00:50:30,910
Что я мог сделать, это научить свой компьютер
, что, когда у меня есть Именная один и

948
00:50:30,910 --> 00:50:33,080
затем предложная.

949
00:50:33,080 --> 00:50:39,020
Так в данном случае, "друзья", а затем "из
Мило "Я знаю, что это означает, что

950
00:50:39,020 --> 00:50:43,110
NP2, второй, владеет NP1.

951
00:50:43,110 --> 00:50:47,680
>> Так что я могу создать какое-то отношение,
какая-то функции для него.

952
00:50:47,680 --> 00:50:52,370
Поэтому, когда я вижу эту структуру, которая
совпадает хотя бы с "друзьями

953
00:50:52,370 --> 00:50:56,030
Эллисон: "Я знаю, что Эллисон
владеет друзей.

954
00:50:56,030 --> 00:50:58,830
Так что друзья являются чем-то
что Эллисон имеет.

955
00:50:58,830 --> 00:50:59,610
Имеет смысл?

956
00:50:59,610 --> 00:51:01,770
Так что это в основном то, что
График Поиск делает.

957
00:51:01,770 --> 00:51:04,360
Это просто создает правила
для многих вещей.

958
00:51:04,360 --> 00:51:08,190
Так «друзья Allison", "мои друзья
кто живет в Кембридже "," мои друзья

959
00:51:08,190 --> 00:51:12,970
кто учился в Гарварде ". Это создает правила
для всех этих вещей.

960
00:51:12,970 --> 00:51:14,930
>> Теперь машинного перевода.

961
00:51:14,930 --> 00:51:18,850
Так, машинный перевод также
что-то статистический.

962
00:51:18,850 --> 00:51:21,340
А на самом деле, если вы попали в
компьютерная лингвистика, много

963
00:51:21,340 --> 00:51:23,580
Ваш материал будет статистика.

964
00:51:23,580 --> 00:51:26,670
Так как я делал пример с
много вероятностей, что я был

965
00:51:26,670 --> 00:51:30,540
расчета, и тогда вы получите на это
очень небольшое количество, это финал

966
00:51:30,540 --> 00:51:33,180
Вероятность, и вот что
дает вам ответ.

967
00:51:33,180 --> 00:51:37,540
Машинный перевод также использует
статистическая модель.

968
00:51:37,540 --> 00:51:44,790
И если вы хотите думать о машине
перевод в простейшая

969
00:51:44,790 --> 00:51:48,970
образом, то, что вы можете думать только
перевести слово в слово, не так ли?

970
00:51:48,970 --> 00:51:52,150
>> Когда вы изучаете язык для
первый раз, что, как правило, что

971
00:51:52,150 --> 00:51:52,910
что вы делаете, не так ли?

972
00:51:52,910 --> 00:51:57,050
Если хотите, то вы перевести предложение
на Вашем языке к языку

973
00:51:57,050 --> 00:52:00,060
Вы учитесь, как правило, во-первых, вы
перевести каждое из слов

974
00:52:00,060 --> 00:52:03,180
индивидуально, а затем попробуйте
положить слова на свои места.

975
00:52:03,180 --> 00:52:07,100
>> Так что, если я хотел, чтобы перевести это,
[ГОВОРЯ ПОРТУГАЛИИ]

976
00:52:07,100 --> 00:52:10,430
, что означает "белая кошка убежала."
Если бы я хотел, чтобы перевести его из

977
00:52:10,430 --> 00:52:13,650
С португальского на английский, то, что я
может сделать, это, во-первых, я просто

978
00:52:13,650 --> 00:52:14,800
перевести слово в слово.

979
00:52:14,800 --> 00:52:20,570
Так «о» "," "гато", "кошка"
"Бранко", "белый", а затем "fugio" является

980
00:52:20,570 --> 00:52:21,650
"Убежал".

981
00:52:21,650 --> 00:52:26,130
>> Так то у меня есть все слова здесь,
но они не в порядке.

982
00:52:26,130 --> 00:52:29,590
Это как "кошка белый убежал"
который безграмотно.

983
00:52:29,590 --> 00:52:34,490
Так, то я могу иметь второй шаг, который
собирается быть найти идеал

984
00:52:34,490 --> 00:52:36,610
положение для каждого из слов.

985
00:52:36,610 --> 00:52:40,240
Так что я знаю, что я на самом деле хочу иметь
"Белая кошка" вместо "кошка, белый." Так

986
00:52:40,240 --> 00:52:46,050
что я могу сделать, это, самые наивные методу
было бы создать все

987
00:52:46,050 --> 00:52:49,720
возможных перестановок
слова, из позиций.

988
00:52:49,720 --> 00:52:53,300
А потом посмотреть, что один имеет
Наибольшая вероятность в соответствии

989
00:52:53,300 --> 00:52:54,970
на мой языковой модели.

990
00:52:54,970 --> 00:52:58,390
А потом, когда я найти тот, который имеет
наибольшая вероятность его, что

991
00:52:58,390 --> 00:53:01,910
вероятно, "белая кошка убежала,"
вот мой перевод.

992
00:53:01,910 --> 00:53:06,710
>> И это простой способ объяснения
как много машинного перевода

993
00:53:06,710 --> 00:53:07,910
алгоритмы работы.

994
00:53:07,910 --> 00:53:08,920
Имеет ли это смысл?

995
00:53:08,920 --> 00:53:12,735
Это также то, очень интересно
что вы, ребята могут, может быть, разведку

996
00:53:12,735 --> 00:53:13,901
Окончательный проект, да?

997
00:53:13,901 --> 00:53:15,549
>> СТУДЕНТ: Ну, ты сказал, что
наивный способ, так в чем

998
00:53:15,549 --> 00:53:17,200
не-наивным способом?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS ФРЕЙТАШ: не-наивным способом?

1000
00:53:18,400 --> 00:53:19,050
ОК.

1001
00:53:19,050 --> 00:53:22,860
Таким образом, первое, что в этом плохого
этот метод в том, что я только что перевел

1002
00:53:22,860 --> 00:53:24,330
слова, слово в слово.

1003
00:53:24,330 --> 00:53:30,570
Но иногда у вас есть слова, которые
может иметь несколько переводов.

1004
00:53:30,570 --> 00:53:32,210
Я собираюсь попытаться думать
чего-то.

1005
00:53:32,210 --> 00:53:37,270
Например, "манга" в португальском банке
либо "калечить" или "рукав". Так

1006
00:53:37,270 --> 00:53:40,450
когда вы пытаетесь перевести слово
словом, это может быть давая вам

1007
00:53:40,450 --> 00:53:42,050
то, что не имеет никакого смысла.

1008
00:53:42,050 --> 00:53:45,770
>> Таким образом, вы на самом деле хотите, чтобы вы посмотрите на все
возможные переводы

1009
00:53:45,770 --> 00:53:49,840
слова и увидеть, в первую очередь,
каков порядок.

1010
00:53:49,840 --> 00:53:52,000
Мы говорили о перестановки
вещи?

1011
00:53:52,000 --> 00:53:54,150
Чтобы увидеть все возможные заказы и
выбрать один с самой высокой

1012
00:53:54,150 --> 00:53:54,990
вероятность?

1013
00:53:54,990 --> 00:53:57,860
Вы также можете выбрать все возможные
переводы для каждого

1014
00:53:57,860 --> 00:54:00,510
слово, а затем посмотреть -

1015
00:54:00,510 --> 00:54:01,950
в сочетании с перестановок -

1016
00:54:01,950 --> 00:54:03,710
какой имеет высокую вероятность.

1017
00:54:03,710 --> 00:54:08,590
>> Кроме того, вы также можете посмотреть на не
только слова, но фразы.

1018
00:54:08,590 --> 00:54:11,700
так что вы можете проанализировать отношения между
слова и затем получить

1019
00:54:11,700 --> 00:54:13,210
лучше перевод.

1020
00:54:13,210 --> 00:54:16,690
Также что-то еще, так что в этом семестре
Я на самом деле занимался исследованиями в

1021
00:54:16,690 --> 00:54:19,430
Китайско-английский машинного перевода,
так в переводе с

1022
00:54:19,430 --> 00:54:20,940
Китайский на английский язык.

1023
00:54:20,940 --> 00:54:26,760
>> И то, что мы сделать, это, помимо использования
статистическая модель, которая является просто

1024
00:54:26,760 --> 00:54:30,570
видя вероятности видя
некоторые позиции в предложении, я

1025
00:54:30,570 --> 00:54:35,360
на самом деле также добавить некоторые синтаксис для моей
модель, говоря о, если бы я увидеть этот вид

1026
00:54:35,360 --> 00:54:39,420
строительства, это то, что я хочу
чтобы изменить его, когда я перевожу.

1027
00:54:39,420 --> 00:54:43,880
Таким образом, вы также можете добавить какую-то
элемент синтаксиса, чтобы сделать

1028
00:54:43,880 --> 00:54:47,970
перевод более эффективным
и точнее.

1029
00:54:47,970 --> 00:54:48,550
ОК.

1030
00:54:48,550 --> 00:54:51,010
>> Итак, как можно начать, если вы хотите
сделать что-то в вычислительной

1031
00:54:51,010 --> 00:54:51,980
лингвистика?

1032
00:54:51,980 --> 00:54:54,560
>> Во-первых, вы выбираете проект
который включает в себя языки.

1033
00:54:54,560 --> 00:54:56,310
Так, есть так много там.

1034
00:54:56,310 --> 00:54:58,420
Там так много вещей, которые вы можете сделать.

1035
00:54:58,420 --> 00:55:00,510
А потом можно думать о модели
что вы можете использовать.

1036
00:55:00,510 --> 00:55:04,710
Обычно это означает, что мышление
предположения, так же как, ну, когда я был

1037
00:55:04,710 --> 00:55:05,770
как мышления лирики.

1038
00:55:05,770 --> 00:55:09,510
Я подумала: хорошо, если я хочу, чтобы выяснить
из который написал это, я, вероятно, хотите

1039
00:55:09,510 --> 00:55:15,400
посмотреть на словах человек использовал и
увидеть, кто очень часто использует это слово.

1040
00:55:15,400 --> 00:55:18,470
Поэтому постарайтесь, чтобы делать предположения и
стараюсь думать о моделях.

1041
00:55:18,470 --> 00:55:21,395
И тогда вы можете также искать онлайн
рода проблемы, что у вас есть,

1042
00:55:21,395 --> 00:55:24,260
и он собирается предложить
к вам моделей, которые, может быть,

1043
00:55:24,260 --> 00:55:26,560
моделируется что вещь хорошо.

1044
00:55:26,560 --> 00:55:29,080
>> А также вы всегда можете написать мне.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
И я могу только ответить на ваши вопросы.

1047
00:55:34,940 --> 00:55:38,600
Мы можем даже может встретиться, чтобы я мог
дать предложения о путях

1048
00:55:38,600 --> 00:55:41,490
реализации проекта.

1049
00:55:41,490 --> 00:55:45,610
И я имею в виду, если вы попали в
компьютерная лингвистика, это будет

1050
00:55:45,610 --> 00:55:46,790
чтобы быть большим.

1051
00:55:46,790 --> 00:55:48,370
Вы будете видеть там
такой потенциал.

1052
00:55:48,370 --> 00:55:52,060
И индустрия хочет нанять
Вы так плохо из-за этого.

1053
00:55:52,060 --> 00:55:54,720
Поэтому я надеюсь, вы, ребята, наслаждался этим.

1054
00:55:54,720 --> 00:55:57,030
Если вы, ребята есть какие-либо вопросы,
Вы можете спросить меня после этого.

1055
00:55:57,030 --> 00:55:58,280
Но спасибо.

1056
00:55:58,280 --> 00:56:00,150