1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS FREITAS: Ahoj.

3
00:00:08,870 --> 00:00:09,980
Vítáme každého.

4
00:00:09,980 --> 00:00:11,216
Mé jméno je Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Jsem junior na [neslyšitelný] studium
výpočetní technika se zaměřením na

6
00:00:15,220 --> 00:00:16,410
počítačová lingvistika.

7
00:00:16,410 --> 00:00:19,310
Takže moje sekundární je v jazyce
a lingvistické teorie.

8
00:00:19,310 --> 00:00:21,870
Jsem opravdu nadšený, že učit vás kluci
něco málo o této oblasti.

9
00:00:21,870 --> 00:00:24,300
Je to velmi vzrušující prostor ke studiu.

10
00:00:24,300 --> 00:00:27,260
Rovněž s velkým potenciálem
pro budoucnost.

11
00:00:27,260 --> 00:00:30,160
Takže jsem opravdu nadšená, že vy
uvažujete o projekty v

12
00:00:30,160 --> 00:00:31,160
počítačová lingvistika.

13
00:00:31,160 --> 00:00:35,460
A já budu více než rád poradí
někdo z vás, zda se rozhodnete

14
00:00:35,460 --> 00:00:37,090
sledují jeden z nich.

15
00:00:37,090 --> 00:00:40,010
>> Takže v první řadě to, co je výpočetní
lingvistika?

16
00:00:40,010 --> 00:00:44,630
Takže počítačová lingvistika je
Průsečík mezi lingvistiky a

17
00:00:44,630 --> 00:00:46,390
počítačová věda.

18
00:00:46,390 --> 00:00:47,415
Takže, co je lingvistika?

19
00:00:47,415 --> 00:00:48,490
Co je to počítačová věda?

20
00:00:48,490 --> 00:00:51,580
No z lingvistiky, co
Vezmeme jsou jazyky.

21
00:00:51,580 --> 00:00:54,960
Takže lingvistika je vlastně studium
přirozeného jazyka obecně.

22
00:00:54,960 --> 00:00:58,330
Takže přirozený jazyk - hovoříme o
jazyk, který jsme vlastně použít k

23
00:00:58,330 --> 00:00:59,770
vzájemně komunikovat.

24
00:00:59,770 --> 00:01:02,200
Takže jsme zrovna mluví
o C nebo Java.

25
00:01:02,200 --> 00:01:05,900
Mluvíme více o angličtině a
Číňané a další jazyky, které jsme

26
00:01:05,900 --> 00:01:07,780
používají ke komunikaci mezi sebou navzájem.

27
00:01:07,780 --> 00:01:12,470
>> Náročná věc, o to je to, že
teď máme téměř 7000

28
00:01:12,470 --> 00:01:14,260
jazyků na světě.

29
00:01:14,260 --> 00:01:19,520
Takže existuje poměrně vysoká odrůda
jazyků, které můžeme studovat.

30
00:01:19,520 --> 00:01:22,600
A pak si myslím, že je to pravděpodobně
velmi těžké udělat, například,

31
00:01:22,600 --> 00:01:26,960
překlad z jednoho jazyka do
jiné, za to, že máte

32
00:01:26,960 --> 00:01:28,240
téměř 7000 z nich.

33
00:01:28,240 --> 00:01:31,450
Takže, pokud si myslíte, že děláte překlad
z jednoho jazyka do druhého si

34
00:01:31,450 --> 00:01:35,840
mají téměř více než milion
různé kombinace, které můžete

35
00:01:35,840 --> 00:01:37,330
se od jazyka k jazyku.

36
00:01:37,330 --> 00:01:40,820
Takže je to opravdu náročné udělat nějaké
druh příklad překladu systému

37
00:01:40,820 --> 00:01:43,540
každý jazyk.

38
00:01:43,540 --> 00:01:47,120
>> Takže, lingvistika zachází s syntaxí,
sémantika, pragmatika.

39
00:01:47,120 --> 00:01:49,550
Vy ne zrovna potřebujete
vědět, co jsou.

40
00:01:49,550 --> 00:01:55,090
Ale velmi zajímavá věc je, že
jako rodilý mluvčí, když se naučíte

41
00:01:55,090 --> 00:01:59,010
jazyk jako dítě, vlastně učit
všechny ty věci - syntaxe sémantika

42
00:01:59,010 --> 00:02:00,500
a pragmatika -

43
00:02:00,500 --> 00:02:01,430
sami.

44
00:02:01,430 --> 00:02:04,820
A nikdo se naučit syntaxi pro
abyste pochopili, jak věty jsou

45
00:02:04,820 --> 00:02:05,290
strukturované.

46
00:02:05,290 --> 00:02:07,980
Takže, je to opravdu zajímavé, protože
je to něco, co je velmi

47
00:02:07,980 --> 00:02:10,389
intuitivně.

48
00:02:10,389 --> 00:02:13,190
>> A co bereš od
počítačová věda?

49
00:02:13,190 --> 00:02:16,700
No, nejdůležitější věc, kterou bychom
mají v informatice je první

50
00:02:16,700 --> 00:02:19,340
vše, umělá inteligence
a strojové učení.

51
00:02:19,340 --> 00:02:22,610
Takže to, co se snažíme dělat
výpočetní lingvistika je vyučovat

52
00:02:22,610 --> 00:02:26,990
váš počítač, jak něco udělat
s jazykem.

53
00:02:26,990 --> 00:02:28,630
>> Tak, například, v přístroji
překlad.

54
00:02:28,630 --> 00:02:32,490
Snažím se učit můj počítač how
vědět, jak přejít z jednoho

55
00:02:32,490 --> 00:02:33,310
jazyka do druhého.

56
00:02:33,310 --> 00:02:35,790
Takže, v podstatě rád učení
počítačové dva jazyky.

57
00:02:35,790 --> 00:02:38,870
Pokud se mi zpracování přirozeného jazyka,
což je případ například

58
00:02:38,870 --> 00:02:41,810
Facebook je graf Vyhledávání, učíte
počítač, jak porozumět

59
00:02:41,810 --> 00:02:42,730
dotazy dobře.

60
00:02:42,730 --> 00:02:48,130
>> Takže, když řeknete "fotografie z mého
přátelé. "Facebook neléčí, že

61
00:02:48,130 --> 00:02:51,130
jako celý řetězec, který má
jen banda slov.

62
00:02:51,130 --> 00:02:56,020
Je to vlastně chápe vztah
mezi "fotky" a "moji přátelé" a

63
00:02:56,020 --> 00:02:59,620
chápe, že "fotky" jsou
vlastnost "mých přátel."

64
00:02:59,620 --> 00:03:02,350
>> Tak, to je část, například,
zpracování přirozeného jazyka.

65
00:03:02,350 --> 00:03:04,790
Snaží se porozumět tomu, co
je vztah mezi

66
00:03:04,790 --> 00:03:07,520
slova ve větě.

67
00:03:07,520 --> 00:03:11,170
A velká otázka je, můžete
naučit počítač, jak mluvit

68
00:03:11,170 --> 00:03:12,650
jazyka obecně?

69
00:03:12,650 --> 00:03:17,810
Což je velmi zajímavá otázka,
myslím, jako by snad v budoucnu,

70
00:03:17,810 --> 00:03:19,930
budete mít možnost
poraďte se se svým mobilním telefonem.

71
00:03:19,930 --> 00:03:23,290
Něco jako to, co děláme s Siri, ale
něco jako, můžete skutečně

72
00:03:23,290 --> 00:03:25,690
říkat, co chcete, a telefon
bude rozumět všemu.

73
00:03:25,690 --> 00:03:28,350
A to může mít navazující otázky
a dál mluvit.

74
00:03:28,350 --> 00:03:30,880
To je něco, co opravdu vzrušující,
podle mého názoru.

75
00:03:30,880 --> 00:03:33,070
>> Takže, něco o přirozených jazyků.

76
00:03:33,070 --> 00:03:36,220
Něco opravdu zajímavé
přirozené jazyky je to, že, a to je

77
00:03:36,220 --> 00:03:38,470
úvěr na můj profesor lingvistiky,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Dává příklad a myslím, že
je to opravdu zajímavé.

79
00:03:40,830 --> 00:03:47,060
Vzhledem k tomu, učíme jazyk od okamžiku, kdy
se narodíme a pak náš rodák

80
00:03:47,060 --> 00:03:49,170
Jazyk druh roste na nás.

81
00:03:49,170 --> 00:03:52,570
>> A v podstatě se naučíte jazyk
od minimální vstup, ne?

82
00:03:52,570 --> 00:03:56,700
Vy jste jen dostat vstup z vašeho
rodiče o tom, co váš jazyk zvuky

83
00:03:56,700 --> 00:03:58,770
líbí a prostě se to naučit.

84
00:03:58,770 --> 00:04:02,240
Takže, je to zajímavé, protože když se podíváte
v těchto větách, například.

85
00:04:02,240 --> 00:04:06,980
Můžete se podívat, "Mary staví na kabát každé
čas odejde z domu. "

86
00:04:06,980 --> 00:04:10,650
>> V tomto případě je možné mít
Slovo "to" se vztahují k Marii, že jo?

87
00:04:10,650 --> 00:04:13,500
Můžete říci: "Mary staví na kabát
pokaždé, když opouští Mary

88
00:04:13,500 --> 00:04:14,960
dům. "tak, že je v pořádku.

89
00:04:14,960 --> 00:04:19,370
Ale pak když se podíváte na věty
"Ona si vezme kabát pokaždé Mary

90
00:04:19,370 --> 00:04:22,850
opustí dům. "Víš, že je to
možné říci, že "ona" je

91
00:04:22,850 --> 00:04:24,260
s odkazem na Marii.

92
00:04:24,260 --> 00:04:27,070
>> Neexistuje žádný způsob, jak říct, že "Mary klade
na kabát pokaždé Mary listy

93
00:04:27,070 --> 00:04:30,790
dům. "Tak to je zajímavé, protože
toto je ten druh intuice

94
00:04:30,790 --> 00:04:32,890
že každý rodilý mluvčí má.

95
00:04:32,890 --> 00:04:36,370
A nikdo se učili, že je to
tak, že syntaxe funguje.

96
00:04:36,370 --> 00:04:41,930
A to můžete mít jen tuto "ona"
s odkazem na Marii v tomto prvním případě,

97
00:04:41,930 --> 00:04:44,260
a ve skutečnosti v této jiné
taky, ale ne v tomhle.

98
00:04:44,260 --> 00:04:46,500
Ale každý druh dostane
na stejnou odpověď.

99
00:04:46,500 --> 00:04:48,580
Všichni se shodují na tom.

100
00:04:48,580 --> 00:04:53,280
Tak to je opravdu zajímavé, jak i
neznáte všechna pravidla

101
00:04:53,280 --> 00:04:55,575
ve vašem jazyce tak nějak pochopit,
jak jazyk funguje.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Takže zajímavá věc, o přírodní
jazyk, je, že nemusíte

104
00:05:01,530 --> 00:05:06,970
neznám syntaxi vědět, zda věta
je gramatická nebo ungrammatical pro

105
00:05:06,970 --> 00:05:08,810
ve většině případů.

106
00:05:08,810 --> 00:05:13,220
Což si myslím, že možná to, co
se stane, je, že přes svého života, budete

107
00:05:13,220 --> 00:05:17,410
jen držet stále více a více
věty řekl pro vás.

108
00:05:17,410 --> 00:05:19,800
A pak budete mít zapamatování
všechny vět.

109
00:05:19,800 --> 00:05:24,230
A pak, když vám někdo řekne,
něco, uslyšíte větu a

110
00:05:24,230 --> 00:05:27,040
se díváte na svého slovníku
vět a zjistit, zda

111
00:05:27,040 --> 00:05:28,270
že věta je tam.

112
00:05:28,270 --> 00:05:29,830
A pokud je tam máte
říkají, že je to gramatický.

113
00:05:29,830 --> 00:05:31,740
Pokud to není řeknete, že je to
ungrammatical.

114
00:05:31,740 --> 00:05:35,150
>> Takže v tomto případě, byste řekli, oh,
takže máte obrovský seznam všech

115
00:05:35,150 --> 00:05:36,140
Možné tresty.

116
00:05:36,140 --> 00:05:38,240
A pak, když uslyšíte větu,
Víte, jestli je to gramatický nebo

117
00:05:38,240 --> 00:05:39,450
není založen na tom.

118
00:05:39,450 --> 00:05:42,360
Věc je, že když se podíváte na
věty, například "

119
00:05:42,360 --> 00:05:47,540
pět v čele CS50 TFS vařené slepého
chobotnice pomocí daPa hrnek. "Je to

120
00:05:47,540 --> 00:05:49,630
rozhodně ne trest
že jste slyšeli předtím.

121
00:05:49,630 --> 00:05:52,380
Ale zároveň víte, že je to
skoro gramatické, že jo?

122
00:05:52,380 --> 00:05:55,570
Nejsou žádné gramatické chyby
a lze říci, že

123
00:05:55,570 --> 00:05:57,020
je to možné trest.

124
00:05:57,020 --> 00:06:01,300
>> Tak to z nás dělá si myslí, že ve skutečnosti
tak, že se učíme jazyk není jen

125
00:06:01,300 --> 00:06:07,090
tím, že má obrovskou databázi možný
slova nebo věty, ale více

126
00:06:07,090 --> 00:06:11,490
pochopení vztahu mezi
Slova v těchto větách.

127
00:06:11,490 --> 00:06:14,570
Má to smysl?

128
00:06:14,570 --> 00:06:19,370
Takže pak je otázka, může
Počítače se učí jazyky?

129
00:06:19,370 --> 00:06:21,490
Můžeme učit jazyk počítače?

130
00:06:21,490 --> 00:06:24,230
>> Takže, pojďme přemýšlet o rozdílu
mezi rodilým mluvčím jazyka

131
00:06:24,230 --> 00:06:25,460
a počítač.

132
00:06:25,460 --> 00:06:27,340
Takže, co se stane s reproduktoru?

133
00:06:27,340 --> 00:06:30,430
No, rodilý mluvčí učí
jazyk z expozice k ní.

134
00:06:30,430 --> 00:06:34,200
Obvykle jeho rané dětství.

135
00:06:34,200 --> 00:06:38,570
Takže, v podstatě, stačí mít dítě,
a pořád mluvit k němu, a to

136
00:06:38,570 --> 00:06:40,540
jen učí, jak mluvit
jazyk, ne?

137
00:06:40,540 --> 00:06:42,660
Takže, jste v podstatě dává
vstup pro dítě.

138
00:06:42,660 --> 00:06:45,200
Takže, pak můžete tvrdit, že počítač
můžete udělat totéž, ne?

139
00:06:45,200 --> 00:06:49,510
Stačí si jen dát JAZYKA
jako vstup do počítače.

140
00:06:49,510 --> 00:06:53,410
>> Jako například banda souborů
které mají knihy v angličtině.

141
00:06:53,410 --> 00:06:56,190
Možná, že je to jeden ze způsobů, které vám
by se mohla učit

142
00:06:56,190 --> 00:06:57,850
počítač English, jo?

143
00:06:57,850 --> 00:07:01,000
A ve skutečnosti, pokud si myslíte, že o tom,
to se ti možná pár

144
00:07:01,000 --> 00:07:02,680
dny, číst knihu.

145
00:07:02,680 --> 00:07:05,760
Na počítači to trvá sekundu
podívejte se na všechny slova v knize.

146
00:07:05,760 --> 00:07:10,810
Takže si můžete myslet, že může být jen to
Argument vstup z kolem vás,

147
00:07:10,810 --> 00:07:15,440
to nestačí říci, že je to
něco, co jen člověk může dělat.

148
00:07:15,440 --> 00:07:17,680
Můžete si myslet počítače
mohou také získat vstup.

149
00:07:17,680 --> 00:07:21,170
>> Druhá věc je, že rodilí mluvčí
také mozek, který má

150
00:07:21,170 --> 00:07:23,870
schopnost učení se jazyka.

151
00:07:23,870 --> 00:07:27,020
Ale pokud si myslíte, že o tom,
Mozek je solidní věc.

152
00:07:27,020 --> 00:07:30,450
Když jste se narodili, je to již nastaven -

153
00:07:30,450 --> 00:07:31,320
To je váš mozek.

154
00:07:31,320 --> 00:07:34,660
A jak vyrosteš, stačí si více
Vstup jazyka a možná živiny

155
00:07:34,660 --> 00:07:35,960
a další věci.

156
00:07:35,960 --> 00:07:38,170
Ale do značné míry se váš mozek
je pevná věc.

157
00:07:38,170 --> 00:07:41,290
>> Takže můžete říct, dobře, možná můžete
postavit počítač, který má spoustu

158
00:07:41,290 --> 00:07:45,890
funkce a metody, které jen napodobují
schopnost učení se jazyka.

159
00:07:45,890 --> 00:07:49,630
Takže v tomto smyslu, dalo by se říct, dobře, já
může mít počítač, který má všechny

160
00:07:49,630 --> 00:07:52,270
věci, které jsem se potřebují naučit jazyk.

161
00:07:52,270 --> 00:07:56,200
A poslední věc je, že nativní
mluvčí učí od pokusů a omylů.

162
00:07:56,200 --> 00:08:01,090
Takže v podstatě další důležitá věc
jazykového vzdělávání je, že druh

163
00:08:01,090 --> 00:08:05,340
z naučit věci tím, že
zobecnění toho, co slyšíte.

164
00:08:05,340 --> 00:08:10,280
>> Takže, jak jste vyrůstal jste se dozvěděli, že
některá slova jsou jako podstatná jména,

165
00:08:10,280 --> 00:08:11,820
některé další z nich jsou adjektiva.

166
00:08:11,820 --> 00:08:14,250
A nemusíte mít jakýkoli
znalost lingvistiky

167
00:08:14,250 --> 00:08:15,040
pochopit, že.

168
00:08:15,040 --> 00:08:18,560
Ale prostě vím, že je některá slova
jsou umístěny v určité části

169
00:08:18,560 --> 00:08:22,570
věta a některé další v jiných
části věty.

170
00:08:22,570 --> 00:08:26,110
>> A že když děláte něco, co je
jako věta, že není správné -

171
00:08:26,110 --> 00:08:28,770
možná proto, že z více než generalizace
například.

172
00:08:28,770 --> 00:08:32,210
Možná, když jste vyrůstal, si všimnete
že množné číslo je obvykle

173
00:08:32,210 --> 00:08:35,809
tvořil tím, že by s při
konec slova.

174
00:08:35,809 --> 00:08:40,042
A pak se pokusíte udělat množný
"jelen" jako "jeleni" nebo "zub" je

175
00:08:40,042 --> 00:08:44,780
"zubu." Takže pak se vaše rodiče, nebo
někdo opraví a řekne, ne,

176
00:08:44,780 --> 00:08:49,020
množné číslo "jelen" je "jelen", a
množný "zub" je "zuby". A pak

177
00:08:49,020 --> 00:08:50,060
naučíte ty věci.

178
00:08:50,060 --> 00:08:51,520
Takže jste se dozvěděli od pokusů a omylů.

179
00:08:51,520 --> 00:08:53,100
>> Ale můžete si také udělat, že
s počítačem.

180
00:08:53,100 --> 00:08:55,310
Můžete mít něco, co nazývá
posilované učení.

181
00:08:55,310 --> 00:08:58,560
Což je v podstatě jako dávat
Počítač odměna kdykoli to dělá

182
00:08:58,560 --> 00:08:59,410
něco správně.

183
00:08:59,410 --> 00:09:04,710
A dávat to opak odměnu
a když se dělá něco špatného.

184
00:09:04,710 --> 00:09:07,410
Můžete skutečně vidět, že když jdete
do Google Translate a zkuste

185
00:09:07,410 --> 00:09:10,220
přeložit větu, že
zeptá se vás, pro zpětnou vazbu.

186
00:09:10,220 --> 00:09:13,240
Takže když říkáte, ach, tam je lepší
překlad pro tuto větu.

187
00:09:13,240 --> 00:09:18,140
Můžete zadejte jej a pak, pokud hodně
lidé stále říkají, že je lepší

188
00:09:18,140 --> 00:09:21,560
překlad, to prostě zjistí, že je to
by se namísto použít tento překlad

189
00:09:21,560 --> 00:09:22,960
kdo to dával.

190
00:09:22,960 --> 00:09:28,830
>> Takže, je to velmi filozofická otázka
zjistit, zda počítače se bude

191
00:09:28,830 --> 00:09:30,340
schopen mluvit, nebo ne v budoucnosti.

192
00:09:30,340 --> 00:09:34,440
Ale já jsem si velké naděje, že mohou
právě na základě těchto argumentů.

193
00:09:34,440 --> 00:09:38,570
Ale je to jen více filozofický
otázka.

194
00:09:38,570 --> 00:09:43,460
>> Takže i když počítače stále nemůže mluvit,
jaké jsou věci, které můžeme dělat?

195
00:09:43,460 --> 00:09:47,070
Některé opravdu cool věci jsou
klasifikace dat.

196
00:09:47,070 --> 00:09:53,210
Tak, například, vy víte,
že e-mailové služby, ano, pro

197
00:09:53,210 --> 00:09:55,580
příklad, filtrování spamu.

198
00:09:55,580 --> 00:09:59,070
Takže pokaždé, když obdržíte spam, to
se snaží filtrovat na jiné pole.

199
00:09:59,070 --> 00:10:00,270
Tak jak to dělá, že?

200
00:10:00,270 --> 00:10:06,080
Není to tak, že počítač prostě ví,
jaké e-mailové adresy jsou odesílání spamu.

201
00:10:06,080 --> 00:10:09,130
Takže je to víc na základě obsahu
zprávy, nebo možná titulu, nebo

202
00:10:09,130 --> 00:10:11,310
možná nějaký vzor, ​​který máte.

203
00:10:11,310 --> 00:10:15,690
>> Takže, v podstatě, co můžete udělat, je dostat
Mnoho údajů o e-maily, které jsou spam,

204
00:10:15,690 --> 00:10:19,980
e-maily, které nejsou spam, a dozvědět se, co
druh vzorů máte v

205
00:10:19,980 --> 00:10:21,000
ty, které jsou spam.

206
00:10:21,000 --> 00:10:23,260
A toto je část výpočetních
lingvistika.

207
00:10:23,260 --> 00:10:24,720
Říká se klasifikace dat.

208
00:10:24,720 --> 00:10:28,100
A my vlastně uvidí
příklad, že v příštích snímků.

209
00:10:28,100 --> 00:10:32,910
>> Druhá věc je přirozený jazyk
zpracování, což je věc, která se

210
00:10:32,910 --> 00:10:36,580
Graf Hledání dělá z nájmu
můžete napsat větu.

211
00:10:36,580 --> 00:10:38,690
A věří, že chápete, co
je smysl a dává

212
00:10:38,690 --> 00:10:39,940
Jste lepší výsledek.

213
00:10:39,940 --> 00:10:43,880
Ve skutečnosti, pokud jdete na Google nebo Bing
a hledat něco jako dáma

214
00:10:43,880 --> 00:10:47,060
Výška Gaga, jste vlastně děje
získat 5 '1 "namísto informací

215
00:10:47,060 --> 00:10:50,170
od ní, protože to vlastně chápe
co mluvíš.

216
00:10:50,170 --> 00:10:52,140
Takže to je součástí přírodního
zpracování jazyka.

217
00:10:52,140 --> 00:10:57,000
>> Nebo také v případě, že používáte Siri, první
Máte algoritmus, který se snaží

218
00:10:57,000 --> 00:11:01,130
překládat, co říkáš
do slov v textu.

219
00:11:01,130 --> 00:11:03,690
A pak se snaží překládat
že na významu.

220
00:11:03,690 --> 00:11:06,570
Takže to vše je součástí přírodní
zpracování jazyka.

221
00:11:06,570 --> 00:11:08,320
>> Pak máte strojového překladu -

222
00:11:08,320 --> 00:11:10,300
, který je ve skutečnosti jedna
z mých oblíbených -

223
00:11:10,300 --> 00:11:14,060
který je jen překlad z
jazyka do druhého.

224
00:11:14,060 --> 00:11:17,950
Takže si můžete myslet, že když děláte
strojový překlad, máte

225
00:11:17,950 --> 00:11:19,750
nekonečné možnosti vět.

226
00:11:19,750 --> 00:11:22,960
Takže neexistuje žádný způsob, jak jen ukládání
každý překlad.

227
00:11:22,960 --> 00:11:27,440
Takže budete muset přijít s zajímavý
algoritmy, aby bylo možné

228
00:11:27,440 --> 00:11:30,110
překládat každý
věta nějakým způsobem.

229
00:11:30,110 --> 00:11:32,483
>> Vy máte nějaké otázky tak daleko?

230
00:11:32,483 --> 00:11:34,450
Ne?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> Takže to, co budeme dnes vidět?

233
00:11:36,900 --> 00:11:39,300
Za prvé, budu mluvit o tom,
Problém klasifikace.

234
00:11:39,300 --> 00:11:41,440
Takže ten, že jsem byl
říká o spamu.

235
00:11:41,440 --> 00:11:46,820
Co budu dělat, je vzhledem k tomu, Text skladby
skladbu, můžete se pokusit přijít na to,

236
00:11:46,820 --> 00:11:49,810
s vysokou pravděpodobností
kdo je zpěvačka?

237
00:11:49,810 --> 00:11:53,590
Řekněme, že mám písničky od Lady
Gaga a Katy Perry, kdybych vám

238
00:11:53,590 --> 00:11:58,130
nový song, můžete zjistit, zda
to je Katy Perry nebo Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> Druhý, já jsem jen mluvit
o problému segmentace.

240
00:12:01,490 --> 00:12:05,780
Tak nevím, jestli vy víte, ale
Čínština, japonština, další východní Asie

241
00:12:05,780 --> 00:12:08,090
jazyky a další jazyky
obecně, nemají

242
00:12:08,090 --> 00:12:09,830
mezery mezi slovy.

243
00:12:09,830 --> 00:12:13,540
A pak, pokud si myslíte, že o tom, jak této
počítač druhu pokusů na

244
00:12:13,540 --> 00:12:18,600
pochopit, zpracování přirozeného jazyka,
to vypadá na slova a

245
00:12:18,600 --> 00:12:21,500
se snaží pochopit vztahy
mezi nimi, ne?

246
00:12:21,500 --> 00:12:25,440
Ale pak, pokud máte čínsky, a
mají nulové mezery, je to opravdu těžké

247
00:12:25,440 --> 00:12:28,360
zjistit, jaký je vztah mezi
slova, protože nemají žádné

248
00:12:28,360 --> 00:12:29,530
slova na prvním místě.

249
00:12:29,530 --> 00:12:32,600
Takže budete muset udělat něco, co nazývá
segmentace, která prostě znamená uvedení

250
00:12:32,600 --> 00:12:36,490
mezery mezi tím, co bychom nazvali
slova v těchto jazycích.

251
00:12:36,490 --> 00:12:37,740
Smysl?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> A pak budeme
mluvit o syntaxi.

254
00:12:41,540 --> 00:12:44,050
Takže jen trochu o přírodní
zpracování jazyka.

255
00:12:44,050 --> 00:12:45,420
Bude to mít jen přehled.

256
00:12:45,420 --> 00:12:50,700
Takže dnes, v podstatě to, co chci dělat,
se vám kluci trochu

257
00:12:50,700 --> 00:12:53,930
uvnitř, jaké jsou možnosti
které můžete dělat s výpočetních

258
00:12:53,930 --> 00:12:54,960
lingvistika.

259
00:12:54,960 --> 00:13:00,410
A pak vidíte, co si myslíte
je v pohodě mezi těmito věcmi.

260
00:13:00,410 --> 00:13:02,270
A možná, že si můžete myslet o projektu
a přijít se mnou mluvit.

261
00:13:02,270 --> 00:13:05,260
A mohu vám poradit
o tom, jak to provést.

262
00:13:05,260 --> 00:13:09,060
>> Takže syntaxe bude trochu
o Graf vyhledávání a stroje

263
00:13:09,060 --> 00:13:09,670
překlad.

264
00:13:09,670 --> 00:13:13,650
Jdu dát příklad toho, jak
můžete například překládat

265
00:13:13,650 --> 00:13:16,020
něco z portugalštiny do angličtiny.

266
00:13:16,020 --> 00:13:17,830
Zní to dobře?

267
00:13:17,830 --> 00:13:19,293
>> Tak za prvé, problém klasifikace.

268
00:13:19,293 --> 00:13:23,590
Řeknu, že tato část semináře
bude nejnáročnější

269
00:13:23,590 --> 00:13:27,560
jeden jen proto, že se děje
být některé kódování.

270
00:13:27,560 --> 00:13:29,470
Ale to bude Python.

271
00:13:29,470 --> 00:13:34,380
Vím, že vy nevíte, Python, takže
Jdu vysvětlit na vysoké

272
00:13:34,380 --> 00:13:35,750
úrovni to, co dělám.

273
00:13:35,750 --> 00:13:40,900
A nemusíte se opravdu záleží také
hodně o syntaxi, protože to je

274
00:13:40,900 --> 00:13:42,140
něco, co vy můžete naučit.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
To zní dobře.

277
00:13:43,580 --> 00:13:46,020
>> Tak v čem je problém klasifikace?

278
00:13:46,020 --> 00:13:49,140
Takže vzhledem k některé texty na
píseň, a chcete hádat

279
00:13:49,140 --> 00:13:50,620
který je zpívat.

280
00:13:50,620 --> 00:13:54,045
A to může být pro jakýkoli druh
dalších problémů.

281
00:13:54,045 --> 00:13:59,980
Takže to může být, například, máte
prezidentská kampaň a máte

282
00:13:59,980 --> 00:14:02,610
řeč, a chcete najít
, jestli je to, například,

283
00:14:02,610 --> 00:14:04,470
Obama a Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Nebo můžete mít spoustu e-mailů a
Chcete-li zjistit, zda jsou

285
00:14:07,700 --> 00:14:08,890
spam nebo ne.

286
00:14:08,890 --> 00:14:11,440
Takže je to jen klasifikaci některých
Údaje založené na slova

287
00:14:11,440 --> 00:14:13,790
že jste tam.

288
00:14:13,790 --> 00:14:16,295
>> Takže to, že budete muset
provést některé předpoklady.

289
00:14:16,295 --> 00:14:20,570
Takže hodně o počítačové lingvistiky
dělá předpokladů,

290
00:14:20,570 --> 00:14:24,100
obvykle inteligentní předpoklady, aby
můžete získat dobré výsledky.

291
00:14:24,100 --> 00:14:26,670
Snažím se vytvořit model pro ni.

292
00:14:26,670 --> 00:14:31,290
A pak se to vyzkoušet a zjistit, jestli to funguje,
v případě, že vám dává dobrou přesnost.

293
00:14:31,290 --> 00:14:33,940
A pokud ano, pak jste
pokusit se zlepšit.

294
00:14:33,940 --> 00:14:37,640
Pokud tomu tak není, budete rád, OK, možná jsem
by měl jiný předpoklad.

295
00:14:37,640 --> 00:14:44,030
>> Takže předpoklad, že budeme
je to, že umělec se obvykle zpívá

296
00:14:44,030 --> 00:14:49,220
o tématu několikrát, a možná
používá slova několikrát jen

297
00:14:49,220 --> 00:14:50,270
protože jsou na to zvyklí.

298
00:14:50,270 --> 00:14:51,890
Stačí si jen myslet na svého přítele.

299
00:14:51,890 --> 00:14:57,350
Jsem si jistý, kluci mají přátele
které říkají, jejich podpis frázi,

300
00:14:57,350 --> 00:14:59,260
doslova pro každou větu -

301
00:14:59,260 --> 00:15:02,660
jako nějaká konkrétní slova nebo některých specifických
fráze, které říkají, že pro

302
00:15:02,660 --> 00:15:04,020
každý trest.

303
00:15:04,020 --> 00:15:07,920
>> A to, co mohu říci, je, že když vidíte
větu, která má podpis

304
00:15:07,920 --> 00:15:11,450
fráze, můžete hádat, že pravděpodobně
Váš přítel je

305
00:15:11,450 --> 00:15:13,310
kdo říká, že jo?

306
00:15:13,310 --> 00:15:18,410
Tak uděláte tento předpoklad a pak
to, jak vytvořit model.

307
00:15:18,410 --> 00:15:24,440
>> Příklad, že budu dávat je na
jak Lady Gaga, například, lidé

308
00:15:24,440 --> 00:15:27,430
říkají, že ona používá "dítě" na
všechny její číslo jedna písně.

309
00:15:27,430 --> 00:15:32,270
A ve skutečnosti je to video, které ukazuje,
jí říkat slovo "dítě" pro

310
00:15:32,270 --> 00:15:33,410
různé písně.

311
00:15:33,410 --> 00:15:33,860
>> [PŘEHRÁVÁNÍ]

312
00:15:33,860 --> 00:15:34,310
>> - (SINGING) Dětská.

313
00:15:34,310 --> 00:15:36,220
Dítě.

314
00:15:36,220 --> 00:15:37,086
Dítě.

315
00:15:37,086 --> 00:15:37,520
Dítě.

316
00:15:37,520 --> 00:15:37,770
Dítě.

317
00:15:37,770 --> 00:15:38,822
Babe.

318
00:15:38,822 --> 00:15:39,243
Dítě.

319
00:15:39,243 --> 00:15:40,085
Dítě.

320
00:15:40,085 --> 00:15:40,510
Dítě.

321
00:15:40,510 --> 00:15:40,850
Dítě.

322
00:15:40,850 --> 00:15:41,090
>> [END VIDEOPŘEHRÁVÁNÍ-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS FREITAS: Takže tam jsou, myslím,
40 písní zde ve kterém ona říká

324
00:15:44,020 --> 00:15:48,690
Slovo "dítě." Takže si můžete v podstatě hádat
že když vidíte skladbu, která má

325
00:15:48,690 --> 00:15:52,180
slovo "dítě", tam je nějaký vysoký
pravděpodobnost, že je to Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Ale zkusme se na rozvoji této
dále pak formálně.

327
00:15:56,450 --> 00:16:00,470
>> Takže se jedná o texty k písním od
Lady Gaga a Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Takže se podíváte na Lady Gaga, můžete vidí
mají mnoho výskytů "dítě,"

329
00:16:04,120 --> 00:16:07,710
Mnoho výskytů "způsobem." A pak
Katy Perry má mnoho výskytů

330
00:16:07,710 --> 00:16:10,360
"," Mnoho výskytů "ohně."

331
00:16:10,360 --> 00:16:14,560
>> Takže v podstatě to, co chceme
to znamená, že dostanete lyriku.

332
00:16:14,560 --> 00:16:20,480
Řekněme, že budete mít lyriku pro
píseň, která je "dítě" jen "dítě." Jestliže

333
00:16:20,480 --> 00:16:24,750
stačí si slovo "dítě", a to
je všechna data, která jste od

334
00:16:24,750 --> 00:16:27,880
Lady Gaga a Katy Perry, která by
můžete hádat, je osoba,

335
00:16:27,880 --> 00:16:29,370
kdo zpívá písničku?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga nebo Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, že jo?

338
00:16:33,150 --> 00:16:37,400
Vzhledem k tomu, že je jediný, kdo říká, že
"Dítě." Zní to hloupě, že jo?

339
00:16:37,400 --> 00:16:38,760
OK, je to opravdu snadné.

340
00:16:38,760 --> 00:16:41,860
Jen se dívám na dvou písních a
Samozřejmě, ona je jediná, kdo má

341
00:16:41,860 --> 00:16:42,660
"Dítě."

342
00:16:42,660 --> 00:16:44,740
>> Ale co když máte spoustu slov?

343
00:16:44,740 --> 00:16:50,900
Máte-li skutečný lyrická, něco
jako "dítě, já jen

344
00:16:50,900 --> 00:16:51,610
šel vidět [? CFT?]

345
00:16:51,610 --> 00:16:54,020
přednáška, "nebo něco takového, a
pak jste skutečně zjistit, -

346
00:16:54,020 --> 00:16:55,780
na základě všech těchto slov -

347
00:16:55,780 --> 00:16:58,350
kdo je umělec, který pravděpodobně
zpíval tuto píseň?

348
00:16:58,350 --> 00:17:01,860
Takže pojďme se snaží rozvíjet
Tento kousek dál.

349
00:17:01,860 --> 00:17:05,630
>> OK, takže na základě jen na data, která se
má, zdá se, že Gaga je pravděpodobně

350
00:17:05,630 --> 00:17:06,260
zpěvák.

351
00:17:06,260 --> 00:17:07,904
Ale jak můžeme psát
to více formálně?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
A tam to bude trochu
Trochu statistiky.

354
00:17:13,140 --> 00:17:15,880
Takže pokud jste se ztratili, ať to zkusí
pochopit pojem.

355
00:17:15,880 --> 00:17:18,700
Nezáleží na tom, jestli mi rozumíte
rovnice dobře.

356
00:17:18,700 --> 00:17:22,150
To vše bude on-line.

357
00:17:22,150 --> 00:17:25,490
>> Takže v podstatě to, co jsem výpočet je
pravděpodobnost, že tato píseň je o

358
00:17:25,490 --> 00:17:28,040
Lady Gaga za předpokladu, že -

359
00:17:28,040 --> 00:17:30,660
takže to znamená, bar za předpokladu, že -

360
00:17:30,660 --> 00:17:33,680
Viděl jsem slovo "dítě".
Má to smysl?

361
00:17:33,680 --> 00:17:35,540
Takže se snažím vypočítat
že pravděpodobnost.

362
00:17:35,540 --> 00:17:38,540
>> Takže tam je to věta nazývá
Bayesův teorém, který říká, že

363
00:17:38,540 --> 00:17:43,330
pravděpodobnost daného B, je
pravděpodobnost B vzhledem k A, doba

364
00:17:43,330 --> 00:17:47,660
pravděpodobnost, než pravděpodobnost
B. Jedná se o dlouhý rovnice.

365
00:17:47,660 --> 00:17:51,970
Ale to, co musíte pochopit, ze
to je, že to je to, co chci

366
00:17:51,970 --> 00:17:52,830
vypočítat, že jo?

367
00:17:52,830 --> 00:17:56,570
Takže pravděpodobnost, že píseň je o
Lady Gaga za předpokladu, že jsem viděl slovo

368
00:17:56,570 --> 00:17:58,230
"Dítě."

369
00:17:58,230 --> 00:18:02,960
>> A teď, co jsem dostat je
pravděpodobnost, že se slovo "dítě" vzhledem

370
00:18:02,960 --> 00:18:04,390
že mám Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
A co je to v podstatě?

372
00:18:07,220 --> 00:18:10,500
Co to znamená je to, co je
pravděpodobnost vidět slovo "dítě"

373
00:18:10,500 --> 00:18:12,130
V Gaga texty?

374
00:18:12,130 --> 00:18:16,240
Pokud chci, aby vypočítali, že ve velmi
Jednoduchý způsob, je to jen číslo

375
00:18:16,240 --> 00:18:23,640
Časy vidím "dítě" na celkovém počtu
slov v Gaga texty, ne?

376
00:18:23,640 --> 00:18:27,600
Jaká je frekvence, kterou vidím
že slovo Gaga práci?

377
00:18:27,600 --> 00:18:30,530
Smysl?

378
00:18:30,530 --> 00:18:33,420
>> Druhý termín je
pravděpodobnost Gaga.

379
00:18:33,420 --> 00:18:34,360
Co to znamená?

380
00:18:34,360 --> 00:18:38,550
To v podstatě znamená, že to, co je
pravděpodobnost zařazení

381
00:18:38,550 --> 00:18:40,690
Některé texty jsou Gaga?

382
00:18:40,690 --> 00:18:45,320
A to je trochu divné, ale
pojďme myslet na příkladu.

383
00:18:45,320 --> 00:18:49,230
Takže řekněme, že pravděpodobnost
s "dítě" v písni je stejný

384
00:18:49,230 --> 00:18:51,760
pro Gaga a Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Ale Britney Spears má dvakrát
více písní, než Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Takže pokud vám někdo jen náhodně dává
Slova "dítě", první věc, kterou

387
00:19:00,570 --> 00:19:04,710
podívat se na to, co je pravděpodobnost
s "dítě" ve Gaga píseň, "dítě"

388
00:19:04,710 --> 00:19:05,410
ve Britney písni?

389
00:19:05,410 --> 00:19:06,460
A to je to samé.

390
00:19:06,460 --> 00:19:10,040
>> Takže druhá věc, kterou uvidíte, je,
dobře, co je pravděpodobnost

391
00:19:10,040 --> 00:19:13,770
Tento lyrický samo o sobě, že Gaga lyric,
a jaká je pravděpodobnost, že

392
00:19:13,770 --> 00:19:15,380
že Britney lyrický?

393
00:19:15,380 --> 00:19:18,950
Takže od Britney má tolik víc texty
než Gaga, by pravděpodobně

394
00:19:18,950 --> 00:19:21,470
řekněme, no, to je asi
Britney lyrický.

395
00:19:21,470 --> 00:19:23,340
Takže to je důvod, proč máme tento
nazvat přímo zde.

396
00:19:23,340 --> 00:19:24,670
Pravděpodobnost Gaga.

397
00:19:24,670 --> 00:19:26,950
Dává to smysl?

398
00:19:26,950 --> 00:19:28,660
Má to?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> A poslední je jen pravděpodobnost
o "dítě", které není

401
00:19:33,500 --> 00:19:34,810
opravdu záležitost, která hodně.

402
00:19:34,810 --> 00:19:39,940
Ale je to pravděpodobnost
vidět "dítě" v angličtině.

403
00:19:39,940 --> 00:19:42,725
Obvykle je to jedno, že
hodně o tom termínu.

404
00:19:42,725 --> 00:19:44,490
Má to smysl?

405
00:19:44,490 --> 00:19:48,110
Takže pravděpodobnost Gaga je
volal před pravděpodobnosti

406
00:19:48,110 --> 00:19:49,530
třídního Gaga.

407
00:19:49,530 --> 00:19:53,840
Vzhledem k tomu, to jen znamená, že to, co je
pravděpodobnost, že bude tuto třídu -

408
00:19:53,840 --> 00:19:55,520
který je Gaga -

409
00:19:55,520 --> 00:19:59,350
jen obecně, jen
bez podmínek.

410
00:19:59,350 --> 00:20:02,560
>> A pak, když jsem se pravděpodobnost
Gaga vzhledem k "dítě," říkáme a

411
00:20:02,560 --> 00:20:06,160
uslzené pravděpodobnosti, protože je to
pravděpodobnost, že bude

412
00:20:06,160 --> 00:20:08,300
Gaga uveden nějaký důkaz.

413
00:20:08,300 --> 00:20:11,050
Takže dávám vám důkazy
že jsem viděl slovo dítě a

414
00:20:11,050 --> 00:20:12,690
Píseň smysl?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> Takže když jsem spočítal, že pro každý
z písní pro Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
co by to bylo -

419
00:20:25,916 --> 00:20:27,730
Zdá se, že nemůžu pohnout to.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Pravděpodobnost, že Gaga bude
něco podobného, ​​2 přes 24, časy 1/2,

422
00:20:36,920 --> 00:20:38,260
více než 2 po 53.

423
00:20:38,260 --> 00:20:40,640
Nezáleží na tom, jestli víte, co
tato čísla jsou zasílány z.

424
00:20:40,640 --> 00:20:44,750
Ale je to jen číslo, které se bude
být větší než 0, ne?

425
00:20:44,750 --> 00:20:48,610
>> A pak, když jsem to Katy Perry,
pravděpodobnost "dítě", vzhledem Katy je

426
00:20:48,610 --> 00:20:49,830
Již 0, ne?

427
00:20:49,830 --> 00:20:52,820
Protože neexistuje žádný "dítě"
Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Takže pak to bude 0, a Gaga
vítězství, což znamená, že Gaga je

429
00:20:56,360 --> 00:20:57,310
pravděpodobně zpěvák.

430
00:20:57,310 --> 00:20:58,560
Má to smysl?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Takže pokud chci, aby to více úředníka,
Mohu skutečně udělat model

435
00:21:11,750 --> 00:21:12,700
Pro více slov.

436
00:21:12,700 --> 00:21:14,610
Takže řekněme, že mám něco, co
jako "baby, já jsem

437
00:21:14,610 --> 00:21:16,030
v ohni, "nebo tak něco.

438
00:21:16,030 --> 00:21:17,760
Tak to má více slov.

439
00:21:17,760 --> 00:21:20,880
A v tomto případě, můžete vidět
že "dítě" je Gaga,

440
00:21:20,880 --> 00:21:21,710
ale to není v Katy.

441
00:21:21,710 --> 00:21:24,940
A "oheň" je v Katy, ale
to není v Gaga, že jo?

442
00:21:24,940 --> 00:21:27,200
Takže je to čím dál složitější, že jo?

443
00:21:27,200 --> 00:21:31,440
Vzhledem k tomu, zdá se, že téměř
mít kravatu mezi nimi.

444
00:21:31,440 --> 00:21:36,980
>> Takže to, co musíte udělat, je předpokládat,
nezávislost mezi slova.

445
00:21:36,980 --> 00:21:41,210
Takže v podstatě to, co to znamená, že
Já jen výpočet toho, jaká je

446
00:21:41,210 --> 00:21:44,330
pravděpodobnost vidět "dítě," to, co je
pravděpodobnost vidět "já", a

447
00:21:44,330 --> 00:21:46,670
"Já", a "o" a "oheň,"
všechny samostatně.

448
00:21:46,670 --> 00:21:48,670
Pak jsem vynásobením všechny z nich.

449
00:21:48,670 --> 00:21:52,420
A já jsem viděl, co je pravděpodobnost,
vidět celou větu.

450
00:21:52,420 --> 00:21:55,210
Smysl?

451
00:21:55,210 --> 00:22:00,270
>> Takže v podstatě, když mám jen jedno slovo,
to, co chci najít, je arg max,

452
00:22:00,270 --> 00:22:05,385
což znamená, že to, co je třída, která je
mi dává největší pravděpodobnost?

453
00:22:05,385 --> 00:22:10,010
Takže to, co je třída, která dává
mě nejvyšší pravděpodobnost

454
00:22:10,010 --> 00:22:11,940
pravděpodobnost třídy daného slova.

455
00:22:11,940 --> 00:22:17,610
Takže v tomto případě, vzhledem k tomu Gaga "dítě."
Stejně Katy "dítě." Smysl?

456
00:22:17,610 --> 00:22:21,040
>> A právě z Bayes, že
rovnice, že jsem ukázal,

457
00:22:21,040 --> 00:22:24,780
jsme se vytvořit tento zlomek.

458
00:22:24,780 --> 00:22:28,750
Jediná věc je, že vidíte, že
pravděpodobnost slova vzhledem

459
00:22:28,750 --> 00:22:31,370
změny třídy v závislosti
na třídě, že jo?

460
00:22:31,370 --> 00:22:34,260
Počet "Baby" s, které jsem
V Gaga se liší od Katy.

461
00:22:34,260 --> 00:22:37,640
Pravděpodobnost třídy také
změny, protože je to jen číslo

462
00:22:37,640 --> 00:22:39,740
písní každý z nich má.

463
00:22:39,740 --> 00:22:43,980
>> Ale pravděpodobnost, že se slova sám
bude stejná pro všechny

464
00:22:43,980 --> 00:22:44,740
umělci, že jo?

465
00:22:44,740 --> 00:22:47,150
Takže pravděpodobnost, že slovo je
Jen to, co je pravděpodobnost

466
00:22:47,150 --> 00:22:49,820
vidět, že slovo
Anglický jazyk?

467
00:22:49,820 --> 00:22:51,420
Takže je to stejné pro všechny z nich.

468
00:22:51,420 --> 00:22:55,790
Takže, protože to je konstanta, můžeme jen
pokles to a nezajímá o to.

469
00:22:55,790 --> 00:23:00,230
Takže to bude skutečně
rovnice hledáme.

470
00:23:00,230 --> 00:23:03,360
>> A pokud mám více slov, jsem
ještě bude mít před

471
00:23:03,360 --> 00:23:04,610
pravděpodobnost zde.

472
00:23:04,610 --> 00:23:06,980
Jediná věc je, že jsem násobení
pravděpodobnost

473
00:23:06,980 --> 00:23:08,490
všechny ostatní slova.

474
00:23:08,490 --> 00:23:10,110
Takže jsem vynásobením všechny z nich.

475
00:23:10,110 --> 00:23:12,610
Smysl?

476
00:23:12,610 --> 00:23:18,440
Vypadá to divně, ale v podstatě znamená,
výpočet předchozí třídy, a

477
00:23:18,440 --> 00:23:22,100
pak násobit pravděpodobností každého
slov je v této třídě.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> A víte, že pravděpodobnost
Slovo vzhledem třída bude

480
00:23:29,150 --> 00:23:34,520
kolikrát vidíte, že slovo
že třída, děleno počtem

481
00:23:34,520 --> 00:23:37,020
slova, máte v tom, že
třída obecně.

482
00:23:37,020 --> 00:23:37,990
Smysl?

483
00:23:37,990 --> 00:23:41,680
Je to, jak "dítě" bylo 2 přes
počet slov, které

484
00:23:41,680 --> 00:23:43,020
Měl jsem v textu.

485
00:23:43,020 --> 00:23:45,130
Takže jen frekvence.

486
00:23:45,130 --> 00:23:46,260
>> Ale je tu jedna věc.

487
00:23:46,260 --> 00:23:51,250
Vzpomínám si, jak jsem se o tom, že
pravděpodobnost "Baby" bytí texty

488
00:23:51,250 --> 00:23:56,350
od Katy Perry 0. jen proto, že Katy
Perry neměl "dítě" vůbec?

489
00:23:56,350 --> 00:24:04,900
Ale zní to trochu krutý jen
jednoduše říci, že texty nemohou být z

490
00:24:04,900 --> 00:24:10,040
umělec jen proto, že nemají
tento výraz zejména kdykoliv.

491
00:24:10,040 --> 00:24:13,330
>> Takže jste mohli jen říct, dobře, pokud
nemají slovo, budu

492
00:24:13,330 --> 00:24:15,640
vám nižší pravděpodobnost,
ale já prostě nebude

493
00:24:15,640 --> 00:24:17,420
vám 0. hned.

494
00:24:17,420 --> 00:24:21,040
Vzhledem k tomu, možná to bylo něco jako,
"Oheň, oheň, oheň, oheň," který je

495
00:24:21,040 --> 00:24:21,990
úplně Katy Perry.

496
00:24:21,990 --> 00:24:26,060
A pak "dítě", a to jen dokazuje,
0 hned, protože tam byl jeden

497
00:24:26,060 --> 00:24:27,250
"Dítě."

498
00:24:27,250 --> 00:24:31,440
>> Takže v podstatě to, co děláme, je něco, co
tzv. Laplace vyhlazování.

499
00:24:31,440 --> 00:24:36,260
A to jen znamená, že dávám
určitou pravděpodobností i slov

500
00:24:36,260 --> 00:24:37,850
že neexistují.

501
00:24:37,850 --> 00:24:43,170
Takže to, co dělám, je, že když jsem
výpočtu to, vždycky jsem přidat 1 až

502
00:24:43,170 --> 00:24:44,180
čitatel.

503
00:24:44,180 --> 00:24:48,060
Takže i když slovo neexistuje, v
V tomto případě, pokud je to 0, jsem stále

504
00:24:48,060 --> 00:24:51,250
výpočet toto jako jeden přes
Celkový počet slov.

505
00:24:51,250 --> 00:24:55,060
Jinak jsem si, kolik slov
Mám a jsem přidat 1 ks.

506
00:24:55,060 --> 00:24:58,300
Takže jsem počítal pro oba případy.

507
00:24:58,300 --> 00:25:00,430
Smysl?

508
00:25:00,430 --> 00:25:03,060
>> Takže teď pojďme udělat nějaké kódování.

509
00:25:03,060 --> 00:25:06,440
Budu muset udělat to docela rychle,
ale to je jen důležité, aby vám

510
00:25:06,440 --> 00:25:08,600
kluci pochopit koncepty.

511
00:25:08,600 --> 00:25:13,450
Takže to, co se snažíme dělat
je přesně realizovat tento

512
00:25:13,450 --> 00:25:14,330
věc, kterou jsem právě řekl -

513
00:25:14,330 --> 00:25:19,110
Chci vám dát texty od
Lady Gaga a Katy Perry.

514
00:25:19,110 --> 00:25:22,980
A program se bude moci
říci, zda tyto nové texty jsou od Gaga

515
00:25:22,980 --> 00:25:24,170
nebo Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Smysl?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> Tak jsem si tento program Jdu
volat classify.py.

519
00:25:30,710 --> 00:25:31,970
Tak tohle je Python.

520
00:25:31,970 --> 00:25:34,210
Je to nový programovací jazyk.

521
00:25:34,210 --> 00:25:38,020
To je velmi podobné v některých
způsoby, jak C a PHP.

522
00:25:38,020 --> 00:25:43,180
Je to podobné, protože pokud chcete
učit Python po znát C, je to

523
00:25:43,180 --> 00:25:46,270
opravdu není, že velkou výzvu
jen proto, že Python je mnohem jednodušší

524
00:25:46,270 --> 00:25:47,520
než C, v první řadě.

525
00:25:47,520 --> 00:25:49,370
A spousta věcí se již
implementován pro vás.

526
00:25:49,370 --> 00:25:56,820
Tak, jak jako PHP má funkce, které
seřadit seznam, nebo přidat něco

527
00:25:56,820 --> 00:25:58,780
na pole, nebo bla, bla, bla.

528
00:25:58,780 --> 00:26:00,690
Python má všechny ty, které jsou dobře.

529
00:26:00,690 --> 00:26:05,960
>> Tak jsem jen tak vysvětlit rychle
jak bychom mohli udělat klasifikaci

530
00:26:05,960 --> 00:26:07,860
problém zde.

531
00:26:07,860 --> 00:26:13,230
Takže řekněme, že v tomto případě mám
texty z Gaga a Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Způsobem, že mám ty texty, je, že
první slovo textu je

533
00:26:21,880 --> 00:26:25,250
jméno umělce, a
zbytek je text.

534
00:26:25,250 --> 00:26:29,470
Takže řekněme, že mám tento seznam v
nichž první je text od Gaga.

535
00:26:29,470 --> 00:26:31,930
Tak tady jsem na správné cestě.

536
00:26:31,930 --> 00:26:35,270
A další je Katy, a
má také texty.

537
00:26:35,270 --> 00:26:38,040
>> Tak to je, jak deklarovat
proměnná v Pythonu.

538
00:26:38,040 --> 00:26:40,200
Nemusíte dávat datový typ.

539
00:26:40,200 --> 00:26:43,150
Stačí napsat "texty"
Něco jako v PHP.

540
00:26:43,150 --> 00:26:44,890
Smysl?

541
00:26:44,890 --> 00:26:47,770
>> Takže jaké jsou věci, které jsem se
vypočítat, aby bylo možné vypočítat

542
00:26:47,770 --> 00:26:49,360
pravděpodobnosti?

543
00:26:49,360 --> 00:26:55,110
Musím vypočítat "priors"
každého jiný

544
00:26:55,110 --> 00:26:56,710
třídy, které mám.

545
00:26:56,710 --> 00:27:06,680
Musím vypočítat "distální",
nebo do značné míry pravděpodobnosti

546
00:27:06,680 --> 00:27:12,150
každého z různých slov, která
Mohu mít pro každého umělce.

547
00:27:12,150 --> 00:27:17,210
Takže v rámci Gaga, například, já jdu
mít seznam kolikrát vidím

548
00:27:17,210 --> 00:27:19,250
každý ze slov.

549
00:27:19,250 --> 00:27:20,760
Smysl?

550
00:27:20,760 --> 00:27:25,370
>> A nakonec, já jen budu muset
Seznam s názvem "slova", která se právě chystá

551
00:27:25,370 --> 00:27:29,780
mít, kolik slov jsem
mít pro každého umělce.

552
00:27:29,780 --> 00:27:33,760
Takže pro Gaga, například, když se podívám
k textu, jsem, myslím, 24

553
00:27:33,760 --> 00:27:34,750
Slova celkem.

554
00:27:34,750 --> 00:27:38,970
Takže tento seznam je jen bude mít
Gaga 24, a Katy jiné číslo.

555
00:27:38,970 --> 00:27:40,130
Smysl?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> Takže teď, vlastně, pojďme
jít na kódování.

558
00:27:42,530 --> 00:27:45,270
Takže v Pythonu, můžete skutečně
návrat na spoustu různých

559
00:27:45,270 --> 00:27:46,630
věci z funkce.

560
00:27:46,630 --> 00:27:50,810
Takže jdu vytvořit tuto funkci
tzv. "podmíněné", který se bude

561
00:27:50,810 --> 00:27:53,890
vrátit všechny ty věci,
"priors," že "pravděpodobnost", a

562
00:27:53,890 --> 00:28:05,690
"slova." Takže "podmíněné", a to je
bude volat do "texty."

563
00:28:05,690 --> 00:28:11,510
>> Takže teď chci, abyste skutečně
napsat tuto funkci.

564
00:28:11,510 --> 00:28:17,750
Takže způsob, že mohu napsat tento
funkce jsem definovala

565
00:28:17,750 --> 00:28:20,620
fungovat s "def." Tak jsem to udělal "def
podmíněné ", a to při

566
00:28:20,620 --> 00:28:28,700
"Texty." A co to bude dělat
je, v první řadě, mám priors

567
00:28:28,700 --> 00:28:31,030
že chci počítat.

568
00:28:31,030 --> 00:28:34,330
>> Takže způsob, jak to můžu udělat, je vytvořit
slovník v jazyce Python, který

569
00:28:34,330 --> 00:28:37,320
je skoro totéž jako hash
stůl, nebo je to jako iterativní

570
00:28:37,320 --> 00:28:40,480
pole v PHP.

571
00:28:40,480 --> 00:28:44,150
To je, jak Prohlašuji slovník.

572
00:28:44,150 --> 00:28:53,580
A v podstatě to, co to znamená, že
priors Gaga je 0,5, například v případě,

573
00:28:53,580 --> 00:28:57,200
50% z textů jsou z
Gaga, 50% jsou od Katy.

574
00:28:57,200 --> 00:28:58,450
Smysl?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Tak jsem se přijít na to, jak
pro výpočet priors.

577
00:29:03,680 --> 00:29:07,120
>> Příští ty, které musím udělat, i,
jsou pravděpodobnosti a slova.

578
00:29:07,120 --> 00:29:17,100
Takže pravděpodobnost Gaga je seznam
ze všech pravděpodobností, že jsem

579
00:29:17,100 --> 00:29:19,160
se pro každý ze slov pro Gaga.

580
00:29:19,160 --> 00:29:23,880
Takže když jdu na pravděpodobnosti Gaga
"Dítě", například, že to mi

581
00:29:23,880 --> 00:29:28,750
něco jako 2 v průběhu 24 v tomto případě.

582
00:29:28,750 --> 00:29:30,070
Smysl?

583
00:29:30,070 --> 00:29:36,120
Tak já jdu na "pravděpodobnost", přejděte ke
"Gaga" kbelík, který má seznam všech

584
00:29:36,120 --> 00:29:40,550
slova Gaga, pak jdu na "dítě,"
a vidím pravděpodobnost.

585
00:29:40,550 --> 00:29:45,940
>> A nakonec jsem si to
"Slova" slovník.

586
00:29:45,940 --> 00:29:53,620
Zde tedy, "pravděpodobnosti." A pak
"slova." Takže když jsem to "slovo", "Gaga",

587
00:29:53,620 --> 00:29:58,330
co se stane, je, že je to
mi dáš 24, říká, že jsem

588
00:29:58,330 --> 00:30:01,990
má 24 slov v textech z Gaga.

589
00:30:01,990 --> 00:30:04,110
Dává to smysl?

590
00:30:04,110 --> 00:30:07,070
Tak tady, "slova" rovná Dah-Dah-DAH.

591
00:30:07,070 --> 00:30:07,620
OK

592
00:30:07,620 --> 00:30:12,210
>> Takže, co budu dělat, je budu
iteraci každý z textů, tak

593
00:30:12,210 --> 00:30:14,490
každý z řetězců, které
Mám v seznamu.

594
00:30:14,490 --> 00:30:18,040
A budu počítat ty věci
pro každý z kandidátů.

595
00:30:18,040 --> 00:30:19,950
Dává to smysl?

596
00:30:19,950 --> 00:30:21,700
Takže musím udělat pro smyčce.

597
00:30:21,700 --> 00:30:26,300
>> Takže v Pythonu, co mohu udělat, je "pro linku
v textech. "totéž jako

598
00:30:26,300 --> 00:30:28,000
"Pro každý" prohlášení v PHP.

599
00:30:28,000 --> 00:30:33,420
Vzpomínám si, jak kdyby to bylo PHP jsem mohl
říci: "pro každý text jako

600
00:30:33,420 --> 00:30:35,220
linka. "Dává to smysl?

601
00:30:35,220 --> 00:30:38,900
Takže beru každý z řádků, v tomto
případ, tento řetězec a další

602
00:30:38,900 --> 00:30:44,540
řetězec, takže pro každou z linek, co jsem
dělat, je první, budu

603
00:30:44,540 --> 00:30:49,150
rozdělit tento řádek v seznamu
slov oddělených mezerami.

604
00:30:49,150 --> 00:30:53,730
>> Takže super věc o Pythonu je, že
můžete jen Google, jako je "Jak mohu

605
00:30:53,730 --> 00:30:58,220
rozdělit řetězec do slov? "A je to
ti říct, jak to udělat.

606
00:30:58,220 --> 00:31:04,890
A způsob, jak to udělat, je to jen "linka
= Line.split () "a je to v podstatě

607
00:31:04,890 --> 00:31:08,640
dám vám seznam s
každý ze slov zde.

608
00:31:08,640 --> 00:31:09,620
Dává to smysl?

609
00:31:09,620 --> 00:31:15,870
Takže teď, že jsem to udělal, že chci vědět,
kdo je zpěvačka této písně.

610
00:31:15,870 --> 00:31:20,130
A k tomu, že jsem se dostat
První prvek pole, ne?

611
00:31:20,130 --> 00:31:26,390
Takže můžu jen říct, že jsem "zpěvák
= Linka (0) "Dává to smysl?

612
00:31:26,390 --> 00:31:32,010
>> A to, co musím udělat, pak je první
všichni, budu aktualizovat, kolik

613
00:31:32,010 --> 00:31:36,130
slova, která jsem si pod "Gaga". takže jsem jen
bude počítat, kolik slov jsem

614
00:31:36,130 --> 00:31:38,690
mají v tomto seznamu, ne?

615
00:31:38,690 --> 00:31:41,910
Protože to je to, kolik slov mám
ve slovech a já jen tak

616
00:31:41,910 --> 00:31:44,120
přidat do "Gaga" pole.

617
00:31:44,120 --> 00:31:47,090
Má to smysl?

618
00:31:47,090 --> 00:31:49,010
Nepoužívejte příliš soustředí na syntaxi.

619
00:31:49,010 --> 00:31:50,430
Přemýšlejte více o pojmy.

620
00:31:50,430 --> 00:31:52,400
To je ta nejdůležitější část.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> Takže to, co jsem si to, je-li "Gaga" je
Již v tomto seznamu, tak "pokud zpěvák

623
00:32:00,260 --> 00:32:03,190
slova ", což znamená, že jsem se již
mají slova by Gaga.

624
00:32:03,190 --> 00:32:06,640
Chci jen přidat další
slova, že.

625
00:32:06,640 --> 00:32:15,810
Takže to, co dělám, je "slova (zpěvák)
+ = Len (line) - 1 ".

626
00:32:15,810 --> 00:32:18,250
A pak jsem si jen udělat
délka vedení.

627
00:32:18,250 --> 00:32:21,860
Tak kolik prvků I
se v poli.

628
00:32:21,860 --> 00:32:27,060
A musím udělat minus 1 jen proto, že
První prvek pole je jen

629
00:32:27,060 --> 00:32:29,180
zpěvák a ty nejsou texty.

630
00:32:29,180 --> 00:32:31,420
Dává to smysl?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "Jinak," znamená to, že chci, aby skutečně
vložit Gaga do seznamu.

633
00:32:35,820 --> 00:32:45,990
Tak jsem prostě "slova (zpěvák)
= Len (line) - 1, "Omlouvám se.

634
00:32:45,990 --> 00:32:49,200
Takže jediný rozdíl mezi těmito dvěma
vedení je, že tato jedna, to není

635
00:32:49,200 --> 00:32:51,080
dosud neexistují, a tak jsem jen
inicializaci.

636
00:32:51,080 --> 00:32:53,820
Tenhle jsem vlastně přidat.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
Takže to bylo přidáním slov.

639
00:32:59,480 --> 00:33:03,040
>> Teď chci přidat Převorů.

640
00:33:03,040 --> 00:33:05,480
Tak jak to mám vypočítat priors?

641
00:33:05,480 --> 00:33:11,580
Převorové lze vypočítat
podle toho, jak kolikrát.

642
00:33:11,580 --> 00:33:15,340
Takže kolikrát vidíte, že zpěvák
mezi všemi, které jste zpěváků

643
00:33:15,340 --> 00:33:16,380
mít, že jo?

644
00:33:16,380 --> 00:33:18,810
Takže pro Gaga a Katy Perry,
v tomto případě vidím Gaga

645
00:33:18,810 --> 00:33:20,570
jednou, Katy Perry jednou.

646
00:33:20,570 --> 00:33:23,320
>> Takže v podstatě se priors pro Gaga
a pro Katy Perry by

647
00:33:23,320 --> 00:33:24,390
být jen jeden, ne?

648
00:33:24,390 --> 00:33:26,500
Právě jste kolikrát
Vidím umělce.

649
00:33:26,500 --> 00:33:28,740
Tak to je velmi snadné vypočítat.

650
00:33:28,740 --> 00:33:34,100
Mohu jen něco podobného jako jako "pokud
zpěvák v priors, "Jdu

651
00:33:34,100 --> 00:33:38,970
přidat 1 až jejich Priors pole.

652
00:33:38,970 --> 00:33:51,000
Takže, "priors (zpívat)" + = 1 "a pak" jiný "
Budu dělat, "priors (zpěvák)

653
00:33:51,000 --> 00:33:55,000
= 1. "Dává to smysl?

654
00:33:55,000 --> 00:34:00,080
>> Takže pokud to neexistuje, jen jsem dal
jako 1, jinak jsem jen přidat 1 ks.

655
00:34:00,080 --> 00:34:11,280
OK, tak teď všechno, co jsem odešel dělat
je také přidat každý z slov

656
00:34:11,280 --> 00:34:12,290
pravděpodobnosti.

657
00:34:12,290 --> 00:34:14,889
Takže mám počítat, kolikrát
Vidím každý ze slov.

658
00:34:14,889 --> 00:34:18,780
Tak jsem prostě musel udělat další
pro smyčku v řadě.

659
00:34:18,780 --> 00:34:25,190
>> Takže první věc, kterou budu dělat, je
zkontrolujte, zda zpěvačka už má

660
00:34:25,190 --> 00:34:26,969
pravděpodobnosti pole.

661
00:34:26,969 --> 00:34:31,739
Takže jsem kontrolovat, zda zpěvák není
mají pravděpodobnosti pole, já jsem jen

662
00:34:31,739 --> 00:34:34,480
bude inicializovat jeden pro ně.

663
00:34:34,480 --> 00:34:36,400
Není to ani pole, je mi líto,
je to slovník.

664
00:34:36,400 --> 00:34:43,080
Takže pravděpodobnost zpěváka se děje
být otevřený slovník, takže jsem

665
00:34:43,080 --> 00:34:45,830
jen inicializaci slovník pro něj.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> A teď může skutečně udělat pro smyčce
pro výpočet každé ze slov "

668
00:34:58,330 --> 00:35:00,604
pravděpodobnosti.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
Takže to, co mohu udělat, je pro smyčce.

671
00:35:04,160 --> 00:35:06,590
Tak jsem jen tak iteraci
přes pole.

672
00:35:06,590 --> 00:35:15,320
Takže tak, že to můžu udělat v Pythonu
je "for i in range." Od 1.

673
00:35:15,320 --> 00:35:19,200
protože chci začít v druhé
element, protože první z nich je

674
00:35:19,200 --> 00:35:20,260
Název zpěvák.

675
00:35:20,260 --> 00:35:24,990
Takže z jednoho do
délka vedení.

676
00:35:24,990 --> 00:35:29,760
A když jsem se pohybují ve skutečnosti jít od
jako zde od 1 do len z

677
00:35:29,760 --> 00:35:30,740
linka minus 1.

678
00:35:30,740 --> 00:35:33,810
Tak to už dělá tu věc dělat
n minus 1 pro pole, které je velmi

679
00:35:33,810 --> 00:35:35,500
pohodlné.

680
00:35:35,500 --> 00:35:37,850
Dává to smysl?

681
00:35:37,850 --> 00:35:42,770
>> Takže pro každého z nich, co budu
udělat, je, stejně jako ve druhé,

682
00:35:42,770 --> 00:35:50,320
Jdu zjistit, jestli slovo v tomto
pozice v řadě je již v

683
00:35:50,320 --> 00:35:51,570
pravděpodobnosti.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
A pak, když jsem řekl tady, pravděpodobnosti
slova, jako v dal jsem

686
00:35:57,260 --> 00:35:58,400
"pravděpodobnosti (zpěvák)".

687
00:35:58,400 --> 00:35:59,390
Takže jméno zpěváka.

688
00:35:59,390 --> 00:36:03,450
Takže pokud je to již v roce
"Probabilit (zpěvák)", znamená to, že jsem

689
00:36:03,450 --> 00:36:11,960
Chcete přidat 1 k němu, takže budu
dělat, "pravděpodobnosti (zpěvák)" a

690
00:36:11,960 --> 00:36:14,100
Slovo se nazývá "linka (i)".

691
00:36:14,100 --> 00:36:22,630
Chystám se přidat 1 a "jiný" Jsem jen
bude inicializovat na hodnotu 1.

692
00:36:22,630 --> 00:36:23,880
"Linka (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Dává to smysl?

695
00:36:28,420 --> 00:36:30,180
>> Tak, I vypočtená všech polí.

696
00:36:30,180 --> 00:36:36,580
Takže teď vše, co mám udělat pro
tohle je prostě "vrátit priors,

697
00:36:36,580 --> 00:36:43,230
pravděpodobnosti a slova. "Pojďme
zjistit, zda existují nějaké, OK.

698
00:36:43,230 --> 00:36:45,690
Zdá se, že vše funguje tak daleko.

699
00:36:45,690 --> 00:36:46,900
Tak, to dává smysl?

700
00:36:46,900 --> 00:36:47,750
V nějakým způsobem?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
Takže teď mám všechny pravděpodobnosti.

703
00:36:51,980 --> 00:36:55,100
Takže teď to jediné, co mi zbylo
je jen mít tu věc, že

704
00:36:55,100 --> 00:36:58,650
vypočítá součin všech
Pravděpodobnosti, když jsem si texty.

705
00:36:58,650 --> 00:37:06,270
>> Takže řekněme, že chci, aby se zavolat
Tato funkce "klasifikace ()" a

706
00:37:06,270 --> 00:37:08,880
věc, která funkce má
je jen argumentem.

707
00:37:08,880 --> 00:37:13,170
Řekněme, že "Baby, jsem na oheň" a je to
bude zjistit, co je

708
00:37:13,170 --> 00:37:14,490
pravděpodobnost, že je to Gaga?

709
00:37:14,490 --> 00:37:16,405
Jaká je pravděpodobnost,
že je to Katie?

710
00:37:16,405 --> 00:37:19,690
Zní to dobře?

711
00:37:19,690 --> 00:37:25,750
Takže jsem prostě muset vytvořit
nová funkce s názvem "klasifikace ()" a

712
00:37:25,750 --> 00:37:29,180
že to bude trvat nějaký
texty stejně.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
A kromě textů i já
muset poslat priors,

715
00:37:36,160 --> 00:37:37,700
pravděpodobnosti a slova.

716
00:37:37,700 --> 00:37:44,000
Takže budu posílat texty, priors,
pravděpodobnost, slova.

717
00:37:44,000 --> 00:37:51,840
>> Takže je to s texty, priors,
pravděpodobnost, slova.

718
00:37:51,840 --> 00:37:53,530
Takže, co to dělá?

719
00:37:53,530 --> 00:37:57,180
Je to v podstatě se chystá projít všechny
možné kandidáty, které jste

720
00:37:57,180 --> 00:37:58,510
mít jako zpěvák.

721
00:37:58,510 --> 00:37:59,425
A kde jsou ty kandidáty?

722
00:37:59,425 --> 00:38:01,020
Jsou v priors, že jo?

723
00:38:01,020 --> 00:38:02,710
Tak jsem si všechny ty tam.

724
00:38:02,710 --> 00:38:07,870
Takže budu mít slovník
ze všech možných kandidátů.

725
00:38:07,870 --> 00:38:14,220
A pak pro každého kandidáta v
priors, tak to znamená, že to bude

726
00:38:14,220 --> 00:38:17,740
bude Gaga, Katie, kdybych měl
více, že to bude víc.

727
00:38:17,740 --> 00:38:20,410
Chystám se začít výpočtu
tato pravděpodobnost.

728
00:38:20,410 --> 00:38:28,310
Pravděpodobnost, jak jsme viděli v
PowerPoint je dřívější časy

729
00:38:28,310 --> 00:38:30,800
produkt každého
další pravděpodobnosti.

730
00:38:30,800 --> 00:38:32,520
>> Tak jsem si to tady samé.

731
00:38:32,520 --> 00:38:36,330
Mohu jen to, pravděpodobnost je
zpočátku jen před.

732
00:38:36,330 --> 00:38:40,340
Takže priors kandidáta.

733
00:38:40,340 --> 00:38:40,870
Je to tak?

734
00:38:40,870 --> 00:38:45,360
A teď mám pro iteraci přes všechny
slova, která mám v textu se

735
00:38:45,360 --> 00:38:48,820
možné přidat pravděpodobnost
pro každou z nich, OK?

736
00:38:48,820 --> 00:38:57,900
Takže, "slova v textech" co budu
udělat, je, pokud je slovo v

737
00:38:57,900 --> 00:39:01,640
"pravděpodobnosti (kandidátských)", které
Znamená to, že je to slovo, které

738
00:39:01,640 --> 00:39:03,640
kandidát má ve svých textech -

739
00:39:03,640 --> 00:39:05,940
Například, "dítě" pro Gaga -

740
00:39:05,940 --> 00:39:11,710
co budu dělat, je to, že
pravděpodobnost se bude násobit

741
00:39:11,710 --> 00:39:22,420
o 1 a pravděpodobnosti na
kandidát na toto slovo.

742
00:39:22,420 --> 00:39:25,710
A jmenuje se "slovo".

743
00:39:25,710 --> 00:39:32,440
Tento dělený počtem slov
že mám pro tohoto kandidáta.

744
00:39:32,440 --> 00:39:37,450
Celkový počet slov, které mám
pro zpěváka, který jsem při pohledu na.

745
00:39:37,450 --> 00:39:40,290
>> "Else". to znamená, že je nové slovo
tak to by bylo, jako například

746
00:39:40,290 --> 00:39:41,860
"Oheň" pro Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Takže chci jen udělat jeden přes
"Slovo (kandidát)".

748
00:39:45,760 --> 00:39:47,710
Takže nechci, aby tento termín zde.

749
00:39:47,710 --> 00:39:50,010
>> Takže to bude v podstatě
kopírování a vkládání toto.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Ale já jdu smazat tuto část.

752
00:39:56,000 --> 00:39:57,610
Takže je to jen bude 1 přes to.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Zní to dobře?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
A teď na konci, já jen tak
vytisknout jméno kandidáta a

757
00:40:09,700 --> 00:40:15,750
pravděpodobnost, že budete mít z
má S na svých textech.

758
00:40:15,750 --> 00:40:16,200
Dává to smysl?

759
00:40:16,200 --> 00:40:18,390
A já vlastně ani nemám
je třeba tento slovník.

760
00:40:18,390 --> 00:40:19,510
Dává to smysl?

761
00:40:19,510 --> 00:40:21,810
>> Takže, pojďme zjistit, jestli to skutečně funguje.

762
00:40:21,810 --> 00:40:24,880
Takže když jsem spustit to, se to nebude fungovat.

763
00:40:24,880 --> 00:40:26,130
Počkejte jednu sekundu.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Slova (kandidátských)", "slova (kandidátských)",
to je

766
00:40:31,720 --> 00:40:33,750
název pole.

767
00:40:33,750 --> 00:40:41,435
OK Tak, to říká, že je to nějaký bug
pro kandidáta na priors.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Dovolte mi jen chill trochu.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
Pojďme to zkusit.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> Tak to dává Katy Perry má tento
pravděpodobnost, že tento násobek 10 na

774
00:40:58,710 --> 00:41:02,200
minus 7, a Gaga má tento
krát 10 na minus 6.

775
00:41:02,200 --> 00:41:05,610
Takže vidíte, že ukazuje, že Gaga
má vyšší pravděpodobnost.

776
00:41:05,610 --> 00:41:09,260
Takže "Miláčku, já jsem na Fire" je
pravděpodobně Gaga píseň.

777
00:41:09,260 --> 00:41:10,580
Dává to smysl?

778
00:41:10,580 --> 00:41:12,030
Takže to je to, co jsme udělali.

779
00:41:12,030 --> 00:41:16,010
>> Tento kód se bude vyslán on-line,
takže vy můžete podívat.

780
00:41:16,010 --> 00:41:20,720
Možná, že použití některé z nich, pokud si chcete
udělat projekt, nebo něco podobného.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
To bylo jen ukázat,
Co výpočetní

783
00:41:25,930 --> 00:41:27,230
lingvistika kód vypadá.

784
00:41:27,230 --> 00:41:33,040
Ale teď pojďme k další
Vysoká úroveň věci.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> Takže další problémy jsem
mluvil o -

787
00:41:35,150 --> 00:41:37,550
problém segmentace
je první z nich.

788
00:41:37,550 --> 00:41:40,820
Takže máte tu japonštinu.

789
00:41:40,820 --> 00:41:43,420
A pak vidíte, že
nejsou tam žádné mezery.

790
00:41:43,420 --> 00:41:49,110
Takže je to v podstatě znamená, že je
horní židle, ne?

791
00:41:49,110 --> 00:41:50,550
Můžete mluvit japonsky?

792
00:41:50,550 --> 00:41:52,840
Je to nejvyšší ze židle, že jo?

793
00:41:52,840 --> 00:41:54,480
>> STUDENT: Nevím, co
kanji tam je.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS FREITAS: Je to [MLUVÍCÍ japonský]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
Takže to v podstatě znamená, že předsednictví vrcholu.

797
00:42:00,960 --> 00:42:03,620
Takže pokud byste měli dát prostor
to bude tady.

798
00:42:03,620 --> 00:42:05,970
A pak máte [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Což v podstatě znamená, že pan Ueda.

800
00:42:09,040 --> 00:42:13,180
A vidíte, že "Ueda" a máte
prostor a pak se "san". Takže vidíte, že

801
00:42:13,180 --> 00:42:15,470
zde "Ue" je jako sama o sobě.

802
00:42:15,470 --> 00:42:17,750
A tady je má charakter
vedle ní.

803
00:42:17,750 --> 00:42:21,720
>> Takže to není jako v těch jazycích
znaky, což znamená slovo to, aby vám

804
00:42:21,720 --> 00:42:23,980
stačí dát hodně prostoru.

805
00:42:23,980 --> 00:42:25,500
Postavy se vztahují ke každému jiný.

806
00:42:25,500 --> 00:42:28,680
A mohou být spolu
jako dvě, tři, jeden.

807
00:42:28,680 --> 00:42:34,520
Takže jste skutečně vytvořit nějaký
o způsob, jak dát tyto prostory.

808
00:42:34,520 --> 00:42:38,850
>> A to je to, že vždy, když se dostanete
Údaje z těchto asijských jazyků,

809
00:42:38,850 --> 00:42:40,580
vše, co přijde unsegmented.

810
00:42:40,580 --> 00:42:45,940
Protože nikdo, kdo píše japonsky
nebo čínské píše s mezerami.

811
00:42:45,940 --> 00:42:48,200
Kdykoli budete psát čínsky,
Japonská stačí napsat vše

812
00:42:48,200 --> 00:42:48,710
bez mezer.

813
00:42:48,710 --> 00:42:52,060
To nemá ani smysl
dát prostor.

814
00:42:52,060 --> 00:42:57,960
Takže, když se dostanete data z některé
Východní Asie jazyk, pokud chcete

815
00:42:57,960 --> 00:43:00,760
skutečně něco udělat s tím
musíte segmentu jako první.

816
00:43:00,760 --> 00:43:05,130
>> Zamyslete se nad tím na příklad
texty bez mezer.

817
00:43:05,130 --> 00:43:07,950
Takže pouze texty, které mají
Bude věty, ne?

818
00:43:07,950 --> 00:43:09,470
Oddělených tečkami.

819
00:43:09,470 --> 00:43:13,930
Ale pak mají jen trest bude
není opravdu pomoci na to, aby informace

820
00:43:13,930 --> 00:43:17,760
kdo ty texty jsou o.

821
00:43:17,760 --> 00:43:18,120
Je to tak?

822
00:43:18,120 --> 00:43:20,010
Takže byste měli staví první mezery.

823
00:43:20,010 --> 00:43:21,990
Tak jak můžete dělat, že?

824
00:43:21,990 --> 00:43:24,920
>> Takže pak přijde myšlenka jazyka
model, který je něco, co opravdu

825
00:43:24,920 --> 00:43:26,870
důležité pro výpočetní
lingvistika.

826
00:43:26,870 --> 00:43:32,790
Takže jazykový model je v podstatě
tabulka pravděpodobností, že ukazuje

827
00:43:32,790 --> 00:43:36,260
v první řadě to, co je pravděpodobnost
mít slovo v jazyce?

828
00:43:36,260 --> 00:43:39,590
Tak ukazuje, jak často je slovo.

829
00:43:39,590 --> 00:43:43,130
A pak také ukazuje vztah
mezi slovy ve větě.

830
00:43:43,130 --> 00:43:51,500
>> Takže hlavní myšlenkou je, že pokud cizinec přišel
pro vás a řekl větu

831
00:43:51,500 --> 00:43:55,600
si, jaká je pravděpodobnost, že pro
například, "tohle je moje sestra [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
byla věta, že člověk říká?

833
00:43:57,480 --> 00:44:00,380
Takže samozřejmě některé věty jsou
častější než jiné.

834
00:44:00,380 --> 00:44:04,450
Například, "dobré ráno" nebo "dobrý
noc, "nebo" hej tam, "je mnohem více

835
00:44:04,450 --> 00:44:08,260
časté než většina vět
že máme angličtinu.

836
00:44:08,260 --> 00:44:11,060
Tak proč jsou ty tresty
častější?

837
00:44:11,060 --> 00:44:14,060
>> Za prvé, je to proto, že máte
slova, která jsou častější.

838
00:44:14,060 --> 00:44:20,180
Tak, například, když řeknete, že pes je
velký, a pes je obrovský, můžete

839
00:44:20,180 --> 00:44:23,880
obvykle asi slyšet pes je velký
častěji, protože "velká" je více

840
00:44:23,880 --> 00:44:27,260
často v angličtině, než "gigantický".
Takže jeden z

841
00:44:27,260 --> 00:44:30,100
co je slovo frekvence.

842
00:44:30,100 --> 00:44:34,490
>> Druhá věc, která je opravdu
Důležitá je jen

843
00:44:34,490 --> 00:44:35,490
Pořadí slov.

844
00:44:35,490 --> 00:44:39,500
Tak, to je běžné říkat "kočka je
uvnitř krabice. ", ale ty nejsou obvykle

845
00:44:39,500 --> 00:44:44,250
viz v "krabici uvnitř je kočka." tak
Vidíte, že tam je nějaký význam

846
00:44:44,250 --> 00:44:46,030
v pořadí slov.

847
00:44:46,030 --> 00:44:50,160
Nemůžete jen tak říct, že ti dva
věty mají stejnou pravděpodobnost

848
00:44:50,160 --> 00:44:53,010
jen proto, že mají stejná slova.

849
00:44:53,010 --> 00:44:55,550
Ve skutečnosti musíte starat
o pořadí stejně.

850
00:44:55,550 --> 00:44:57,650
Smysl?

851
00:44:57,650 --> 00:44:59,490
>> Tak co budeme dělat?

852
00:44:59,490 --> 00:45:01,550
Takže to, co jsem mohl pokusit dostat vás?

853
00:45:01,550 --> 00:45:04,400
Snažím se vám to, co jsme
zavolejte modely n-gram.

854
00:45:04,400 --> 00:45:09,095
Takže n-gramové modely v podstatě předpokládá,
že pro každé slovo, které

855
00:45:09,095 --> 00:45:10,960
máte ve větě.

856
00:45:10,960 --> 00:45:15,020
Je to pravděpodobnost, že mít
Slovo zde závisí nejen na

857
00:45:15,020 --> 00:45:18,395
Frekvence tohoto slova v jazyce,
ale také na slova, která

858
00:45:18,395 --> 00:45:19,860
se jej obklopuje.

859
00:45:19,860 --> 00:45:25,810
>> Tak například, obvykle, když vidíte,
něco jako na, nebo na ty jsi

860
00:45:25,810 --> 00:45:28,040
pravděpodobně bude vidět
podstatné jméno po něm, ne?

861
00:45:28,040 --> 00:45:31,750
Vzhledem k tomu, když máte předložku
Obvykle to trvá podstatné jméno po něm.

862
00:45:31,750 --> 00:45:35,540
Nebo pokud máte sloveso, které je tranzitivní
obvykle se chystáte

863
00:45:35,540 --> 00:45:36,630
mají jmennou frázi.

864
00:45:36,630 --> 00:45:38,780
Takže to bude mít podstatné jméno
někde kolem něj.

865
00:45:38,780 --> 00:45:44,950
>> Takže, v podstatě, co to udělá, je, že
se domnívá, že pravděpodobnost, že bude

866
00:45:44,950 --> 00:45:47,960
slova vedle sebe, když
jste výpočtu

867
00:45:47,960 --> 00:45:49,050
pravděpodobnost věty.

868
00:45:49,050 --> 00:45:50,960
A to je to, co o jazyk,
model je v podstatě.

869
00:45:50,960 --> 00:45:54,620
Jen říkám, co je pravděpodobnost,
mít specifický

870
00:45:54,620 --> 00:45:57,120
věta v jazyce?

871
00:45:57,120 --> 00:45:59,110
Tak proč je to užitečné, v podstatě?

872
00:45:59,110 --> 00:46:02,390
A v první řadě to, co je
Model n-gram, pak?

873
00:46:02,390 --> 00:46:08,850
>> Takže modelu n-gram znamená, že
každé slovo je závislá na

874
00:46:08,850 --> 00:46:12,700
další N minus 1 slov.

875
00:46:12,700 --> 00:46:18,150
Takže, v podstatě, to znamená, že pokud se podívám,
například na CS50 TF při

876
00:46:18,150 --> 00:46:21,500
Já výpočet pravděpodobnosti
věta, budete mít jako "

877
00:46:21,500 --> 00:46:25,280
pravděpodobnost, že bude slovo ""
krát pravděpodobnost, že bude "

878
00:46:25,280 --> 00:46:31,720
CS50 "krát pravděpodobnost, že bude
"CS50 TF." Takže v podstatě jsem počítat

879
00:46:31,720 --> 00:46:35,720
všechny možné způsoby natahovat to.

880
00:46:35,720 --> 00:46:41,870
>> A pak se obvykle, když děláte to,
jako v projektu, dáte N se

881
00:46:41,870 --> 00:46:42,600
nízká hodnota.

882
00:46:42,600 --> 00:46:45,930
Takže, obvykle bigrams nebo trigramů.

883
00:46:45,930 --> 00:46:51,090
Takže stačí počítat dvě slovy,
skupina dvou slov, nebo tří slov,

884
00:46:51,090 --> 00:46:52,620
jen za funkční problémy.

885
00:46:52,620 --> 00:46:56,395
A také proto, že možná máte-li
něco jako "The CS50 TF." Když

886
00:46:56,395 --> 00:47:00,510
mají "TF", to je velmi důležité, aby
"CS50" je vedle ní, že jo?

887
00:47:00,510 --> 00:47:04,050
Tyto dvě věci jsou obvykle
vedle sebe.

888
00:47:04,050 --> 00:47:06,410
>> Pokud si myslíte, že "TF", to je asi
bude mít to, co

889
00:47:06,410 --> 00:47:07,890
Třída je to TF'ing pro.

890
00:47:07,890 --> 00:47:11,330
Také "" je velmi důležité,
pro CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Ale pokud máte něco jako "The CS50
TF šel do třídy a dal jejich

892
00:47:14,570 --> 00:47:20,060
Studenti nějaký bonbón. "" Candy "a" "
nemají žádný vztah opravdu, že jo?

893
00:47:20,060 --> 00:47:23,670
Jsou tak daleko od sebe, že
to není opravdu jedno, co

894
00:47:23,670 --> 00:47:25,050
Slova máte.

895
00:47:25,050 --> 00:47:31,210
>> Takže tím, že dělá bigram nebo trigram, že
prostě znamená, že jste omezení

896
00:47:31,210 --> 00:47:33,430
sami na některých slov
které jsou v okolí.

897
00:47:33,430 --> 00:47:35,810
Smysl?

898
00:47:35,810 --> 00:47:40,630
Takže pokud chcete udělat segmentace,
v podstatě, co chcete udělat, je vidět

899
00:47:40,630 --> 00:47:44,850
jaké jsou všechny možné způsoby, jak
můžete segmentu větu.

900
00:47:44,850 --> 00:47:49,090
>> Takový, že vidíte, co je
pravděpodobnost, že každé z těchto vět

901
00:47:49,090 --> 00:47:50,880
existující v jazyce?

902
00:47:50,880 --> 00:47:53,410
Takže to, co děláte, je rád, dobře, ať
me se snaží dát prostor zde.

903
00:47:53,410 --> 00:47:55,570
Tak jsi dal prostor zde
a uvidíte, co je

904
00:47:55,570 --> 00:47:57,590
pravděpodobnost této věty?

905
00:47:57,590 --> 00:48:00,240
Pak jste jako, OK, možná
že to není tak dobré.

906
00:48:00,240 --> 00:48:03,420
Tak jsem dal prostor tam a prostor
tam, a vypočítat

907
00:48:03,420 --> 00:48:06,240
pravděpodobnost nyní, a uvidíte, že
je vyšší pravděpodobnost.

908
00:48:06,240 --> 00:48:12,160
>> Tak tohle je algoritmus s názvem TANGO
segmentace algoritmus, který je

909
00:48:12,160 --> 00:48:14,990
vlastně něco, co by bylo opravdu
v pohodě pro projekt, který

910
00:48:14,990 --> 00:48:20,860
v podstatě se unsegmented text, který
mohou být japonské nebo čínské, nebo možná

911
00:48:20,860 --> 00:48:26,080
Anglicky bez mezer a snaží se dát
mezery mezi slovy a to dělá

912
00:48:26,080 --> 00:48:29,120
že pomocí jazyka modelu a
se snaží zjistit, co je nejvyšší

913
00:48:29,120 --> 00:48:31,270
Pravděpodobnost můžete dostat.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
Tak tohle je segmentace.

916
00:48:33,800 --> 00:48:35,450
>> Nyní syntaxe.

917
00:48:35,450 --> 00:48:40,940
Takže, syntaxe je používán pro
tolik věcí, právě teď.

918
00:48:40,940 --> 00:48:44,880
Takže Graf vyhledávání, pro Siri pro
skoro jakýkoli druh přírodní

919
00:48:44,880 --> 00:48:46,490
zpracování jazyka, který máte.

920
00:48:46,490 --> 00:48:49,140
Takže to, co je důležité
věci, o syntaxi?

921
00:48:49,140 --> 00:48:52,390
Takže, věty mají obecně
co nazýváme složky.

922
00:48:52,390 --> 00:48:57,080
Jaké jsou něco jako skupiny slov
které mají funkci ve větě.

923
00:48:57,080 --> 00:49:02,220
A nemohou být opravdu
od sebe.

924
00:49:02,220 --> 00:49:07,380
>> Takže, když řeknu, například, "Lauren miluje
Milo. "Já vím, že" Lauren "je

925
00:49:07,380 --> 00:49:10,180
složka a pak "lásky
Milo "je také jiný.

926
00:49:10,180 --> 00:49:16,860
Vzhledem k tomu, nemůžete říct, jako "Lauren Milo
miluje "mají stejný význam.

927
00:49:16,860 --> 00:49:18,020
Nebude to mít
stejný význam.

928
00:49:18,020 --> 00:49:22,500
Nebo Nemůžu říct, že jako "Milo Lauren
miluje. "Ne všechno, co má stejný

929
00:49:22,500 --> 00:49:25,890
což znamená, dělat, že.

930
00:49:25,890 --> 00:49:31,940
>> Takže dvě další důležité věci, o
Syntaxe jsou lexikální typy, které je

931
00:49:31,940 --> 00:49:35,390
v podstatě funkce, která vám
mají slova sami.

932
00:49:35,390 --> 00:49:39,180
Takže musíte vědět, že "Lauren"
a "Milo" jsou podstatná jména.

933
00:49:39,180 --> 00:49:41,040
"Láska" je sloveso.

934
00:49:41,040 --> 00:49:45,660
A druhá důležitá věc je,
že jsou frázová typy.

935
00:49:45,660 --> 00:49:48,990
Takže víte, že "miluje Milo"
je vlastně slovní fráze.

936
00:49:48,990 --> 00:49:52,390
Takže když říkám "Lauren," já vím, že
Lauren se něco dělat.

937
00:49:52,390 --> 00:49:53,620
Co to dělá?

938
00:49:53,620 --> 00:49:54,570
Ona je milující Milo.

939
00:49:54,570 --> 00:49:56,440
Tak to je celá věc.

940
00:49:56,440 --> 00:50:01,640
Ale jeho komponenty jsou
podstatné jméno a sloveso.

941
00:50:01,640 --> 00:50:04,210
Ale dohromady, dělají sloveso frázi.

942
00:50:04,210 --> 00:50:08,680
>> Takže, co můžeme skutečně udělat s
počítačová lingvistika?

943
00:50:08,680 --> 00:50:13,810
Takže, když mám něco, co například
"přátelé Allison." Vidím, jestli jsem

944
00:50:13,810 --> 00:50:17,440
se syntaktický strom bych vědět, že
"Přátelé" je jmenná fráze je

945
00:50:17,440 --> 00:50:21,480
podstatné jméno a pak "Allison" je
předložkové fráze, v nichž "z" je

946
00:50:21,480 --> 00:50:24,810
návrh a "Allison" je podstatné jméno.

947
00:50:24,810 --> 00:50:30,910
To, co jsem mohl udělat, je naučit počítač
že když mám jmenná fráze jedno a

948
00:50:30,910 --> 00:50:33,080
pak předložkové fráze.

949
00:50:33,080 --> 00:50:39,020
Takže v tomto případě, "přátelé" a pak "z
Milo "Já vím, že to znamená, že

950
00:50:39,020 --> 00:50:43,110
NP2, druhá, vlastní NP1.

951
00:50:43,110 --> 00:50:47,680
>> Tak jsem se vytvořit nějaký vztah,
nějaká funkce pro ni.

952
00:50:47,680 --> 00:50:52,370
Takže když vidím tuto strukturu, která
odpovídá přesně s "přáteli

953
00:50:52,370 --> 00:50:56,030
Allison, "já vím, že Allison
vlastní přátele.

954
00:50:56,030 --> 00:50:58,830
Takže přátelé jsou něco,
že Allison má.

955
00:50:58,830 --> 00:50:59,610
Dává to smysl?

956
00:50:59,610 --> 00:51:01,770
Tak to je v podstatě to, co
Graf Search dělá.

957
00:51:01,770 --> 00:51:04,360
Je to jen vytváří pravidla
na spoustu věcí.

958
00:51:04,360 --> 00:51:08,190
Takže "přátelé Allison", "moji přátelé
kteří žijí v Cambridge, "" svým přátelům

959
00:51:08,190 --> 00:51:12,970
kteří jdou na Harvardu. "Vytváří pravidla
pro všechny ty věci.

960
00:51:12,970 --> 00:51:14,930
>> Nyní strojový překlad.

961
00:51:14,930 --> 00:51:18,850
Takže, strojový překlad, je také
něco statistické.

962
00:51:18,850 --> 00:51:21,340
A skutečně, pokud jste se zapojili do
počítačová lingvistika, hodně

963
00:51:21,340 --> 00:51:23,580
vaše věci bude statistika.

964
00:51:23,580 --> 00:51:26,670
Takže jak jsem dělal příklad s
hodně pravděpodobností, že jsem byl

965
00:51:26,670 --> 00:51:30,540
výpočtu, a pak se dostanete k tomu
velmi malé číslo, které je konečné

966
00:51:30,540 --> 00:51:33,180
pravděpodobnost, a to je to, co
vám dává odpověď.

967
00:51:33,180 --> 00:51:37,540
Strojový překlad také používá
statistický model.

968
00:51:37,540 --> 00:51:44,790
A chcete-li myslet na stroji
překlad v nejjednodušší

969
00:51:44,790 --> 00:51:48,970
Mimochodem, co si můžete myslet, je jen
překládat slovo od slova, že jo?

970
00:51:48,970 --> 00:51:52,150
>> Když se učíte jazyk pro
Poprvé, to je obvykle to, co

971
00:51:52,150 --> 00:51:52,910
vy, že jo?

972
00:51:52,910 --> 00:51:57,050
Pokud chcete, můžete přeložit větu
ve vašem jazyce do jazyka

973
00:51:57,050 --> 00:52:00,060
učíte, obvykle jako první,
přeložit každý ze slov

974
00:52:00,060 --> 00:52:03,180
individuálně, a potom zkuste
dát slova na místo.

975
00:52:03,180 --> 00:52:07,100
>> Takže když jsem chtěl, aby to přeložit,
[MLUVÍCÍ portugalský]

976
00:52:07,100 --> 00:52:10,430
, což znamená "bílá kočka utekla."
Pokud bych to chtěl přeložit z

977
00:52:10,430 --> 00:52:13,650
Portugalština do angličtiny, to, co jsem
mohl udělat, je, jako první, jen jsem

978
00:52:13,650 --> 00:52:14,800
překládat slovo od slova.

979
00:52:14,800 --> 00:52:20,570
Takže "o" je "," "gato", "kočka",
"Branco", "bílá", a pak "fugio" je

980
00:52:20,570 --> 00:52:21,650
"Utekl."

981
00:52:21,650 --> 00:52:26,130
>> Tak jsem si všechna slova zde,
ale to není v pořádku.

982
00:52:26,130 --> 00:52:29,590
Je to jako "kočka bílá utekl"
který je ungrammatical.

983
00:52:29,590 --> 00:52:34,490
Takže, pak mohu mít druhý krok, který
se bude najít ideální

984
00:52:34,490 --> 00:52:36,610
pozice pro každý ze slov.

985
00:52:36,610 --> 00:52:40,240
Takže vím, že jsem vlastně chci mít
"Bílý kocour" místo "kočka bílý." Tak

986
00:52:40,240 --> 00:52:46,050
co mohu udělat, je, nejvíce naivní metodu
by bylo vytvořit všechny

987
00:52:46,050 --> 00:52:49,720
možné permutace
slova, pozic.

988
00:52:49,720 --> 00:52:53,300
A pak zjistit, který z nich má
Nejvyšší pravděpodobnost podle

989
00:52:53,300 --> 00:52:54,970
do mého jazyka modelu.

990
00:52:54,970 --> 00:52:58,390
A pak, když jsem se najít ten, který má
nejvyšší pravděpodobnost, že, který je

991
00:52:58,390 --> 00:53:01,910
pravděpodobně "bílý kocour utekl,"
to je můj překlad.

992
00:53:01,910 --> 00:53:06,710
>> A to je jednoduchý způsob, jak vysvětlit
jak hodně strojového překladu

993
00:53:06,710 --> 00:53:07,910
algoritmy pracují.

994
00:53:07,910 --> 00:53:08,920
Má to smysl?

995
00:53:08,920 --> 00:53:12,735
To je také něco, co opravdu vzrušující
že vy můžete možná průzkum

996
00:53:12,735 --> 00:53:13,901
Konečný projekt, jo?

997
00:53:13,901 --> 00:53:15,549
>> STUDENT: No, říkal, že to bylo
naivní způsob, takže to, co je

998
00:53:15,549 --> 00:53:17,200
non-naivní cesta?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS FREITAS: non-naivní cesta?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
Takže první věc, která je špatného na tom,
tato metoda je, že jsem přeložil

1002
00:53:22,860 --> 00:53:24,330
slova, slovo od slova.

1003
00:53:24,330 --> 00:53:30,570
Ale někdy budete muset slova, která
může mít více překladů.

1004
00:53:30,570 --> 00:53:32,210
Budu se snažit myslet
něco.

1005
00:53:32,210 --> 00:53:37,270
Například, "manga" v portugalské plechovce
buď "mandl" nebo "rukáv". Tak

1006
00:53:37,270 --> 00:53:40,450
když se snažíte přeložit slovo
slovem, to by mohlo být, že vám

1007
00:53:40,450 --> 00:53:42,050
něco, co nedává smysl.

1008
00:53:42,050 --> 00:53:45,770
>> Takže vy vlastně chcete, aby se podíváte na všechny
možné překlady

1009
00:53:45,770 --> 00:53:49,840
slova a vidět, v první řadě,
co je rozkaz.

1010
00:53:49,840 --> 00:53:52,000
Povídali jsme si o permutating
věci?

1011
00:53:52,000 --> 00:53:54,150
Chcete-li zobrazit všechny možné příkazy a
vybrat ten s nejvyšší

1012
00:53:54,150 --> 00:53:54,990
pravděpodobnost?

1013
00:53:54,990 --> 00:53:57,860
Můžete si také vybrat všechny možné
překlady pro každého

1014
00:53:57,860 --> 00:54:00,510
slovo a pak uvidíme -

1015
00:54:00,510 --> 00:54:01,950
v kombinaci s permutací -

1016
00:54:01,950 --> 00:54:03,710
, který z nich má nejvyšší pravděpodobnost.

1017
00:54:03,710 --> 00:54:08,590
>> Plus, můžete se také podívat na to
jen slova, ale věty.

1018
00:54:08,590 --> 00:54:11,700
takže můžete analyzovat vztahy mezi
slova a pak se

1019
00:54:11,700 --> 00:54:13,210
lepší překlad.

1020
00:54:13,210 --> 00:54:16,690
Také něco jiného, ​​tak tento semestr
Já jsem vlastně dělal výzkum v

1021
00:54:16,690 --> 00:54:19,430
Čínsko-anglický strojový překlad,
takže překládání z

1022
00:54:19,430 --> 00:54:20,940
Čínská do angličtiny.

1023
00:54:20,940 --> 00:54:26,760
>> A něco, co děláme, je, kromě použití
statistický model, který je právě

1024
00:54:26,760 --> 00:54:30,570
vidět pravděpodobností vidět
některé pozice ve větě, že jsem

1025
00:54:30,570 --> 00:54:35,360
vlastně také přidat nějakou syntaxi my
Model, řka: Ach, když vidím tento druh

1026
00:54:35,360 --> 00:54:39,420
výstavby, to je to, co chci
to změnit, když jsem se překládat.

1027
00:54:39,420 --> 00:54:43,880
Takže můžete také přidat nějaký
prvek syntaxe, aby

1028
00:54:43,880 --> 00:54:47,970
Překlad účinnější
a přesnější.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> Tak jak můžete začít, chcete-li
dělat něco ve výpočetní

1031
00:54:51,010 --> 00:54:51,980
lingvistika?

1032
00:54:51,980 --> 00:54:54,560
>> Nejprve si vyberete projekt
, která se týká jazyků.

1033
00:54:54,560 --> 00:54:56,310
Takže, tam je tak mnoho tam venku.

1034
00:54:56,310 --> 00:54:58,420
Je tu tolik věcí, které můžete udělat.

1035
00:54:58,420 --> 00:55:00,510
A pak můžete přemýšlet o modelu
které můžete použít.

1036
00:55:00,510 --> 00:55:04,710
Obvykle to znamená, že myšlení
předpoklady, as jako, oh, když jsem byl

1037
00:55:04,710 --> 00:55:05,770
jako myšlení textu.

1038
00:55:05,770 --> 00:55:09,510
Byl jsem rád, dobře, jestli chci přijít
out, který to napsal, asi chci

1039
00:55:09,510 --> 00:55:15,400
podívat se na slova, osoba používá a
zjistit, kdo používá toto slovo velmi často.

1040
00:55:15,400 --> 00:55:18,470
Takže se snaží, aby předpoklady a
zkuste se zamyslet modelů.

1041
00:55:18,470 --> 00:55:21,395
A pak se můžete také vyhledat online
druh problému, který máte,

1042
00:55:21,395 --> 00:55:24,260
a bude to o tom,
aby vás modely, které možná

1043
00:55:24,260 --> 00:55:26,560
modelovat tu věc dobře.

1044
00:55:26,560 --> 00:55:29,080
>> A také můžete vždy napište mi.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
A mohu jen odpovědět na vaše otázky.

1047
00:55:34,940 --> 00:55:38,600
Můžeme dokonce mohli setkat, takže můžu
dávat návrhy na způsoby

1048
00:55:38,600 --> 00:55:41,490
realizaci projektu.

1049
00:55:41,490 --> 00:55:45,610
A mám na mysli, když se zapojit do
počítačová lingvistika, že to bude

1050
00:55:45,610 --> 00:55:46,790
být skvělý.

1051
00:55:46,790 --> 00:55:48,370
Budeš vidět, že
je tak velký potenciál.

1052
00:55:48,370 --> 00:55:52,060
A průmysl chce najmout
jste tak špatné, protože to.

1053
00:55:52,060 --> 00:55:54,720
Takže doufám, že vy užil toto.

1054
00:55:54,720 --> 00:55:57,030
Jestliže vy máte nějaké dotazy,
můžete mě požádat po tomto.

1055
00:55:57,030 --> 00:55:58,280
Ale děkuji.

1056
00:55:58,280 --> 00:56:00,150