1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS Freitas: Ei.

3
00:00:08,870 --> 00:00:09,980
Sveiki visi.

4
00:00:09,980 --> 00:00:11,216
Mano vardas Lukas Freitas.

5
00:00:11,216 --> 00:00:15,220
Aš ne [nesigirdi] jaunesnysis studijuoti
kompiuterių mokslas daugiau dėmesio skirti

6
00:00:15,220 --> 00:00:16,410
Kompiuterinė lingvistika.

7
00:00:16,410 --> 00:00:19,310
Taigi, mano vidurinė yra kalba
ir kalbų teorija.

8
00:00:19,310 --> 00:00:21,870
Aš tikrai džiaugiamės, kad išmokyti jus vaikinai
Šiek tiek apie srityje.

9
00:00:21,870 --> 00:00:24,300
Tai labai įdomi sritis, mokytis.

10
00:00:24,300 --> 00:00:27,260
Taip pat su daug potencialo
ateityje.

11
00:00:27,260 --> 00:00:30,160
Taigi, aš tikrai džiaugiamės, kad jūs vaikinai
svarsto projektus

12
00:00:30,160 --> 00:00:31,160
Kompiuterinė lingvistika.

13
00:00:31,160 --> 00:00:35,460
Ir aš būsiu daugiau nei laimingi galėdami patarti
bet jei jūs nuspręsite

14
00:00:35,460 --> 00:00:37,090
verstis bent viena iš jų.

15
00:00:37,090 --> 00:00:40,010
>> Taigi, visų pirma, kas yra kompiuterinė
lingvistika?

16
00:00:40,010 --> 00:00:44,630
Taigi, kompiuterinė lingvistika yra
sankirta tarp lingvistikos ir

17
00:00:44,630 --> 00:00:46,390
kompiuterių mokslas.

18
00:00:46,390 --> 00:00:47,415
Taigi, kas yra kalbotyra?

19
00:00:47,415 --> 00:00:48,490
Kas yra informatika?

20
00:00:48,490 --> 00:00:51,580
Na iš lingvistikos, ką
mes tai kalbos.

21
00:00:51,580 --> 00:00:54,960
Taigi lingvistika yra iš tikrųjų tyrimas
natūralios kalbos apskritai.

22
00:00:54,960 --> 00:00:58,330
Taigi natūralios kalbos - mes kalbame apie
kalba, kad mes iš tikrųjų naudoti

23
00:00:58,330 --> 00:00:59,770
bendrauti tarpusavyje.

24
00:00:59,770 --> 00:01:02,200
Taigi mes ne tiksliai kalbėti
apie C arba Java.

25
00:01:02,200 --> 00:01:05,900
Mes kalbame daugiau apie anglų kalbos ir
Kinijos ir kitų kalbų, kad mes

26
00:01:05,900 --> 00:01:07,780
naudoti bendrauti tarpusavyje.

27
00:01:07,780 --> 00:01:12,470
>> Sudėtingas dalykas, apie tai, kad
dabar mes turime beveik 7000

28
00:01:12,470 --> 00:01:14,260
pasaulio kalbų.

29
00:01:14,260 --> 00:01:19,520
Taigi yra gana didelė įvairovė
kalbų, kad mes galime mokytis.

30
00:01:19,520 --> 00:01:22,600
Ir tada jūs manote, kad tai tikriausiai
labai sunku padaryti, pavyzdžiui,

31
00:01:22,600 --> 00:01:26,960
vertimas iš vienos kalbos į
kita vertus, turint omenyje, kad jūs turite

32
00:01:26,960 --> 00:01:28,240
beveik 7000 iš jų.

33
00:01:28,240 --> 00:01:31,450
Taigi, jei manote, kad daryti vertimą
iš vienos kalbos į kitą jums

34
00:01:31,450 --> 00:01:35,840
turi beveik daugiau nei milijonas
skirtingų kombinacijų, kad jūs galite

35
00:01:35,840 --> 00:01:37,330
turi iš kalbos kalba.

36
00:01:37,330 --> 00:01:40,820
Taigi, tai tikrai nelengva padaryti kai
rūšies pavyzdys vertimo sistemos

37
00:01:40,820 --> 00:01:43,540
kiekvienas kalba.

38
00:01:43,540 --> 00:01:47,120
>> Taigi, lingvistika elgiasi su sintakse,
semantika, pragmatika.

39
00:01:47,120 --> 00:01:49,550
Vaikinai ne tiksliai reikia
žinoti, ką jie yra.

40
00:01:49,550 --> 00:01:55,090
Bet labai įdomus dalykas yra tai, kad
kaip gimtoji, kai jūs išmoksite

41
00:01:55,090 --> 00:01:59,010
kalba kaip vaikas, jūs iš tikrųjų mokytis
visi iš tų dalykų - sintaksės semantikos

42
00:01:59,010 --> 00:02:00,500
ir pragmatika -

43
00:02:00,500 --> 00:02:01,430
patys.

44
00:02:01,430 --> 00:02:04,820
Ir niekas išmokyti jus, sintaksė
jums suprasti, kaip sakiniai

45
00:02:04,820 --> 00:02:05,290
struktūra.

46
00:02:05,290 --> 00:02:07,980
Taigi, tai tikrai įdomu, nes
tai kažkas, kad ateina labai

47
00:02:07,980 --> 00:02:10,389
intuityviai.

48
00:02:10,389 --> 00:02:13,190
>> Ir ką jūs vartojate nuo
kompiuterių mokslas?

49
00:02:13,190 --> 00:02:16,700
Na, svarbiausia, kad mes
turėti informatikos pirma yra

50
00:02:16,700 --> 00:02:19,340
visi, dirbtinis intelektas
ir mašina mokymo.

51
00:02:19,340 --> 00:02:22,610
Taigi, ką mes bandome daryti
Kompiuterinė lingvistika yra mokyti

52
00:02:22,610 --> 00:02:26,990
kompiuteris kaip ką nors padaryti
su kalba.

53
00:02:26,990 --> 00:02:28,630
>> Taigi, pavyzdžiui, mašiną
vertimas.

54
00:02:28,630 --> 00:02:32,490
Bandau mokyti savo kompiuterio Kaip
sužinoti, kaip pereiti iš vieno

55
00:02:32,490 --> 00:02:33,310
kalbos į kitą.

56
00:02:33,310 --> 00:02:35,790
Taigi, iš esmės patinka mokymą
kompiuterių dvi kalbas.

57
00:02:35,790 --> 00:02:38,870
Jeigu aš natūralios kalbos apdorojimo,
kuris yra pvz konkrečiais

58
00:02:38,870 --> 00:02:41,810
"Facebook" grafikas Paieška, mokyti
kompiuteris kaip suprasti

59
00:02:41,810 --> 00:02:42,730
užklausos gerai.

60
00:02:42,730 --> 00:02:48,130
>> Taigi, jei jums pasakyti "apie nuotraukų Mano
draugai. "Facebook" nelaiko, kad

61
00:02:48,130 --> 00:02:51,130
kaip visą eilutę, kuri turi
tik žodžių krūva.

62
00:02:51,130 --> 00:02:56,020
Jis tikrai supranta ryšį
tarp "Nuotraukos" ir "mano draugai" ir

63
00:02:56,020 --> 00:02:59,620
supranta, kad "nuotraukos" yra
nuosavybė "draugais".

64
00:02:59,620 --> 00:03:02,350
>> Taigi, tai yra dalis, pavyzdžiui,
natūralios kalbos apdorojimas.

65
00:03:02,350 --> 00:03:04,790
Jis bando suprasti, kas
yra tarp ryšys

66
00:03:04,790 --> 00:03:07,520
tariamosios sakinyje žodžiai.

67
00:03:07,520 --> 00:03:11,170
Ir didelis klausimas, ar galite
išmokyti kompiuterį, kaip kalbėti

68
00:03:11,170 --> 00:03:12,650
apskritai kalba?

69
00:03:12,650 --> 00:03:17,810
Kuris yra labai įdomus klausimas
galvoti, nes jei gal ateityje,

70
00:03:17,810 --> 00:03:19,930
jūs ketinate turėti galimybę
kreipkitės į savo mobilųjį telefoną.

71
00:03:19,930 --> 00:03:23,290
Tipo kaip, ką mes darome su "Siri", bet
kažkas nutiko, jūs iš tikrųjų galite

72
00:03:23,290 --> 00:03:25,690
sakyti, ką nori, ir telefonas
ketina viską suprantu.

73
00:03:25,690 --> 00:03:28,350
O tai gali turėti tolesnių klausimų
ir nuolat kalbėti.

74
00:03:28,350 --> 00:03:30,880
Tai kažkas tikrai įdomu,
mano nuomone.

75
00:03:30,880 --> 00:03:33,070
>> Taigi, kažkas apie natūraliųjų kalbų.

76
00:03:33,070 --> 00:03:36,220
Kažkas tikrai įdomaus
natūralios kalbos yra tai, kad, ir tai yra

77
00:03:36,220 --> 00:03:38,470
kreditas mano lingvistikos profesorius,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Ji suteikia pavyzdį ir manau,
tai tikrai įdomu.

79
00:03:40,830 --> 00:03:47,060
Kadangi mes išmokti kalbą nuo tada, kai
mes gimę ir tada mūsų gimtoji

80
00:03:47,060 --> 00:03:49,170
kalba rūšies auga ant mūsų.

81
00:03:49,170 --> 00:03:52,570
>> Ir iš esmės jūs išmoksite kalbą
nuo minimalaus indėlio, tiesa?

82
00:03:52,570 --> 00:03:56,700
Jūs tik gauti informacijos iš savo
tėvai, ką jūsų kalba skamba

83
00:03:56,700 --> 00:03:58,770
patinka, ir jūs tiesiog išmokti.

84
00:03:58,770 --> 00:04:02,240
Taigi, tai įdomu, nes jei peržvelgsite
tuose sakiniuose, pvz.

85
00:04:02,240 --> 00:04:06,980
Jums atrodo, "Marija užsideda kailio kiekvieną
kartą, kai ji palieka namus. "

86
00:04:06,980 --> 00:04:10,650
>> Šiuo atveju, tai galima turėti
žodis "ji" reiškia Marijos, tiesa?

87
00:04:10,650 --> 00:04:13,500
Galite pasakyti: "Marija užsideda kailio
kiekvieną kartą, kai Marija palieka

88
00:04:13,500 --> 00:04:14,960
namas. ", kad viskas gerai.

89
00:04:14,960 --> 00:04:19,370
Bet tada jei peržvelgsite sakinio
"Ji užsideda kailio kaskart Marija

90
00:04:19,370 --> 00:04:22,850
palieka namus. "Jūs žinote, tai
Neįmanoma pasakyti, kad "ji" yra

91
00:04:22,850 --> 00:04:24,260
nuoroda į Marijos.

92
00:04:24,260 --> 00:04:27,070
>> Nėra sakydamas, kad "Marija kelia būdas
ant palto kiekvieną kartą Marija palieka

93
00:04:27,070 --> 00:04:30,790
namas. "Taigi, tai įdomu, nes
tai yra intuicija natūra

94
00:04:30,790 --> 00:04:32,890
kad kiekvienas gimtoji yra.

95
00:04:32,890 --> 00:04:36,370
Ir niekas mokė, kad tai yra
taip, kad sintaksė veikia.

96
00:04:36,370 --> 00:04:41,930
Ir kad jūs galite turėti tik šį "Ji"
nuoroda į Marijos šiame Pirmuoju atveju

97
00:04:41,930 --> 00:04:44,260
ir faktiškai tai kita
taip pat, bet ne šį vieną.

98
00:04:44,260 --> 00:04:46,500
Bet kiekvienas natūra gauna
į tą patį atsakymą.

99
00:04:46,500 --> 00:04:48,580
Visi sutinka, kad.

100
00:04:48,580 --> 00:04:53,280
Taigi, tai tikrai įdomu, kaip nors
jūs neturite žinoti visas taisykles

101
00:04:53,280 --> 00:04:55,575
savo kalba, rūšies suprasti
kaip kalba veikia.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Taigi, įdomus dalykas, apie gamtos
kalba yra tai, kad jūs neturite

104
00:05:01,530 --> 00:05:06,970
žinoti, bet sintaksė žinoti, jei sakinys
yra gramatinė ar gramatikos ir

105
00:05:06,970 --> 00:05:08,810
daugeliu atvejų.

106
00:05:08,810 --> 00:05:13,220
Todėl jūs manote, kad gal kas
atsitinka taip, kad per savo gyvenimą, jūs

107
00:05:13,220 --> 00:05:17,410
tiesiog laikyti vis labiau ir labiau
sakiniai papasakojo jums.

108
00:05:17,410 --> 00:05:19,800
Ir tada jūs nuolat įsiminimo
visi sakiniai.

109
00:05:19,800 --> 00:05:24,230
Ir tada, kai kas nors jums pasakys
kažkas, išgirsite, kad sakinys ir

110
00:05:24,230 --> 00:05:27,040
pažvelgti į savo žodyną
sakinių ir pamatyti, jei

111
00:05:27,040 --> 00:05:28,270
kad sakinys yra.

112
00:05:28,270 --> 00:05:29,830
Ir jei tai ten
sako, kad gramatinė.

113
00:05:29,830 --> 00:05:31,740
Jei tai nėra jums pasakyti, kad tai
gramatikos.

114
00:05:31,740 --> 00:05:35,150
>> Taigi, tuo atveju, galėtumėte pasakyti, oh,
todėl jūs turite milžinišką sąrašą visų

115
00:05:35,150 --> 00:05:36,140
galimi sakiniai.

116
00:05:36,140 --> 00:05:38,240
Ir tada, kai išgirsite sakinį,
jūs žinote, jei tai gramatinė ar

117
00:05:38,240 --> 00:05:39,450
nėra pagrįsta, kad.

118
00:05:39,450 --> 00:05:42,360
Dalykas yra tai, kad jei peržvelgsite
sakinys, pavyzdžiui, "

119
00:05:42,360 --> 00:05:47,540
penkių vadovauja CS50 TFS virti aklas
aštuonkojai naudojant DAPA puodelis. "Tai

120
00:05:47,540 --> 00:05:49,630
tikrai ne sakinys
kad jūs girdėjote anksčiau.

121
00:05:49,630 --> 00:05:52,380
Bet tuo pačiu metu, jūs žinote, tai
gana daug gramatinių, tiesa?

122
00:05:52,380 --> 00:05:55,570
Nėra gramatinių klaidų
ir jūs galite pasakyti, kad

123
00:05:55,570 --> 00:05:57,020
tai įmanoma sakinys.

124
00:05:57,020 --> 00:06:01,300
>> Taigi tai verčia manyti, kad iš tikrųjų
Taip, kad mes mokomės kalbą yra ne tik

125
00:06:01,300 --> 00:06:07,090
turėdami milžinišką duomenų bazę galima
žodžiai ar sakiniai, bet daugiau

126
00:06:07,090 --> 00:06:11,490
supratimą tarp santykį
žodžiai tų sakinių.

127
00:06:11,490 --> 00:06:14,570
Ar tai prasminga?

128
00:06:14,570 --> 00:06:19,370
Taip, tada klausimas, gali
kompiuteriai mokytis kalbų?

129
00:06:19,370 --> 00:06:21,490
Ar mes mokome kalbą kompiuteriuose?

130
00:06:21,490 --> 00:06:24,230
>> Taigi, pagalvokime skirtumo
tarp gimtoji kalba

131
00:06:24,230 --> 00:06:25,460
ir kompiuteris.

132
00:06:25,460 --> 00:06:27,340
Taigi, kas atsitinka su garsiakalbiu?

133
00:06:27,340 --> 00:06:30,430
Na, gimtoji mokosi
kalba sąlyčio su juo.

134
00:06:30,430 --> 00:06:34,200
Paprastai jos ankstyvosios vaikystės metai.

135
00:06:34,200 --> 00:06:38,570
Taigi, iš esmės, jūs tiesiog turėti kūdikį,
ir jūs nuolat kalbėti su juo, ir jis

136
00:06:38,570 --> 00:06:40,540
tik mokosi, kaip kalbėti
kalba, tiesa?

137
00:06:40,540 --> 00:06:42,660
Taigi, jūs iš esmės suteikia
indėlis į kūdikį.

138
00:06:42,660 --> 00:06:45,200
Taigi, tada galima teigti, kad kompiuteris
gali daryti tą patį, tiesa?

139
00:06:45,200 --> 00:06:49,510
Jūs galite tiesiog suteikti kalbai
kaip įvestį į kompiuterį.

140
00:06:49,510 --> 00:06:53,410
>> Kaip, pavyzdžiui, failų krūva
kad turi knygų anglų kalba.

141
00:06:53,410 --> 00:06:56,190
Gal tai vienas iš būdų, kad jums
galėtų mokyti

142
00:06:56,190 --> 00:06:57,850
kompiuteris Anglų, tiesa?

143
00:06:57,850 --> 00:07:01,000
Ir iš tiesų, jei jūs manote apie tai,
pateksite gal pora

144
00:07:01,000 --> 00:07:02,680
dienas skaityti knygą.

145
00:07:02,680 --> 00:07:05,760
Už kompiuterį užtrunka sekundę
pažvelgti į visus knygos žodžių.

146
00:07:05,760 --> 00:07:10,810
Taigi, jūs galite galvoti, kad gali būti tik tai
argumentas indėliu aplink jus,

147
00:07:10,810 --> 00:07:15,440
kad neužtenka pasakyti, kad tai
kažkas, kad tik žmonės gali padaryti.

148
00:07:15,440 --> 00:07:17,680
Jūs galite galvoti kompiuteriai
Taip pat galite gauti informacijos.

149
00:07:17,680 --> 00:07:21,170
>> Antras dalykas yra tai, kad gimtoji kalba
taip pat turime smegenis, kad turi

150
00:07:21,170 --> 00:07:23,870
kalbų mokymosi galimybė.

151
00:07:23,870 --> 00:07:27,020
Bet jei jūs manote apie tai,
Smegenys yra kietas dalykas.

152
00:07:27,020 --> 00:07:30,450
Kai gimsta, jis jau nustatytas -

153
00:07:30,450 --> 00:07:31,320
tai yra jūsų smegenys.

154
00:07:31,320 --> 00:07:34,660
Ir kaip jums augti, jūs tiesiog gaunate daugiau
įvesties kalbos, o gal ir maistinių medžiagų

155
00:07:34,660 --> 00:07:35,960
ir kitų dalykų.

156
00:07:35,960 --> 00:07:38,170
Tačiau gana daug jūsų smegenys
yra kietas dalykas.

157
00:07:38,170 --> 00:07:41,290
>> Taigi galima pasakyti, gerai, gal galite
statyti kompiuterį, kuriame yra krūva

158
00:07:41,290 --> 00:07:45,890
funkcijos ir metodai, kad tik imituoja
kalbų mokymosi galimybė.

159
00:07:45,890 --> 00:07:49,630
Taigi šia prasme, galima sakyti, gerai, aš
gali turėti kompiuterį, kuriame yra visi

160
00:07:49,630 --> 00:07:52,270
ką man reikia išmokti kalbą.

161
00:07:52,270 --> 00:07:56,200
Ir paskutinis dalykas yra tai, kad gimtoji
garsiakalbis mokosi iš bandymų ir klaidų.

162
00:07:56,200 --> 00:08:01,090
Taigi, iš esmės dar vienas svarbus dalykas,
kalbos mokymasis yra tai, kad jūs tipo

163
00:08:01,090 --> 00:08:05,340
iš mokytis dalykų, darant
apibendrinimai, ką išgirsite.

164
00:08:05,340 --> 00:08:10,280
>> Taigi, kaip jūs auga jūs sužinosite, kad
kai kurie žodžiai yra daugiau kaip daiktavardžiai,

165
00:08:10,280 --> 00:08:11,820
kai kurie kiti jų yra būdvardžiai.

166
00:08:11,820 --> 00:08:14,250
Ir jums nereikia turėti bet
žinių lingvistikos

167
00:08:14,250 --> 00:08:15,040
suprasti, kad.

168
00:08:15,040 --> 00:08:18,560
Bet jūs tiesiog žinau, ten kai kurie žodžiai
yra išdėstyti tam tikra dalis

169
00:08:18,560 --> 00:08:22,570
sakinys ir kai kurie kiti kiti
dalys sakinyje.

170
00:08:22,570 --> 00:08:26,110
>> Ir tai, kai jūs darote kažką, kad yra
kaip sakinio, kad nėra teisinga -

171
00:08:26,110 --> 00:08:28,770
gal, nes yra per apibendrinimas
pavyzdžiui.

172
00:08:28,770 --> 00:08:32,210
Gal kai jūs augau, jūs pastebėsite,
kad daugiskaita paprastai

173
00:08:32,210 --> 00:08:35,809
suformuotas išleidimą S ne
Žodžio pabaiga.

174
00:08:35,809 --> 00:08:40,042
Ir tada jums pabandyti padaryti, kad daugiskaitą
"elnias", kaip "elnių" arba "dantis" kaip

175
00:08:40,042 --> 00:08:44,780
"tooths." Taigi jūsų tėvai arba
kas taiso jums ir sako, ne,

176
00:08:44,780 --> 00:08:49,020
daugiskaita apie "elnias" yra "elnias", ir
daugiskaitos iš "dantis" yra "dantis". Ir

177
00:08:49,020 --> 00:08:50,060
Jums išmokti tuos dalykus.

178
00:08:50,060 --> 00:08:51,520
Taigi, jūs išmoksite iš bandymų ir klaidų.

179
00:08:51,520 --> 00:08:53,100
>> Bet jūs taip pat gali tai padaryti
su kompiuteriu.

180
00:08:53,100 --> 00:08:55,310
Jūs galite turėti kažką vadinama
stiprinimas mokymasis.

181
00:08:55,310 --> 00:08:58,560
Kuris iš esmės yra tarsi suteikiant
kompiuteris atlygis, kai ji

182
00:08:58,560 --> 00:08:59,410
kažkas teisingai.

183
00:08:59,410 --> 00:09:04,710
Ir suteikiant jam atlygį priešingai
ir kai ji ką nors blogo.

184
00:09:04,710 --> 00:09:07,410
Jūs iš tikrųjų galite pamatyti, kad jei jūs einate
į Google Translate ir bandysite

185
00:09:07,410 --> 00:09:10,220
išversti sakinį, jis
prašo jums už atsiliepimus.

186
00:09:10,220 --> 00:09:13,240
Taigi, jei jūs sakote, oi, ten geriau
vertimas šio sakinio.

187
00:09:13,240 --> 00:09:18,140
Jūs galite įvesti jį ir tada, jei iš daug
žmonės nuolat sako, kad yra geriau

188
00:09:18,140 --> 00:09:21,560
vertimas, tai tik sužino, kad ji
vietoj turėtų naudoti tą vertimą

189
00:09:21,560 --> 00:09:22,960
vienas buvo duoti.

190
00:09:22,960 --> 00:09:28,830
>> Taigi, tai labai filosofinis klausimas
pamatyti, jei kompiuteriai bus

191
00:09:28,830 --> 00:09:30,340
galėsite kalbėtis ar ne ateityje.

192
00:09:30,340 --> 00:09:34,440
Bet aš turiu daug vilčių, kad jie gali
tik remiantis šiais argumentais.

193
00:09:34,440 --> 00:09:38,570
Bet tai tik daugiau filosofinė
klausimas.

194
00:09:38,570 --> 00:09:43,460
>> Taigi, nors kompiuteriai dar negali kalbėti,
kas yra tai, ką mes galime padaryti?

195
00:09:43,460 --> 00:09:47,070
Kai kurie tikrai cool viskas yra
duomenų klasifikacija.

196
00:09:47,070 --> 00:09:53,210
Taigi, pavyzdžiui, vaikinai žinoti
kad pašto paslaugos dabar daryti

197
00:09:53,210 --> 00:09:55,580
Pavyzdžiui, šiukšlių.

198
00:09:55,580 --> 00:09:59,070
Taigi, kai gaunate šlamštas, tai
bando filtruoti į kitą dėžutę.

199
00:09:59,070 --> 00:10:00,270
Taigi, kaip tai padaryti?

200
00:10:00,270 --> 00:10:06,080
Tai nėra, kaip kompiuteris tiesiog žino
Kokią pašto adresai siuntimo paštu.

201
00:10:06,080 --> 00:10:09,130
Taigi jis daugiau grindžiamas turinio
pranešimą, o gal pavadinimas, arba

202
00:10:09,130 --> 00:10:11,310
gal kai modelis, kad jūs turite.

203
00:10:11,310 --> 00:10:15,690
>> Taigi, iš esmės, ką jūs galite padaryti, tai gauti
daug duomenų laiškų, kurie šlamštas,

204
00:10:15,690 --> 00:10:19,980
laiškus, kurie yra ne šlamštas, ir sužinoti, kas
rūšies raštų turite

205
00:10:19,980 --> 00:10:21,000
tie, kurie yra šlamštas.

206
00:10:21,000 --> 00:10:23,260
Ir tai yra dalis Skaičiuojamasis
lingvistika.

207
00:10:23,260 --> 00:10:24,720
Ji vadinama duomenų klasifikacija.

208
00:10:24,720 --> 00:10:28,100
Ir mes iš tikrųjų ketiname pamatyti
pavyzdys, kad per ateinančius skaidres.

209
00:10:28,100 --> 00:10:32,910
>> Antras dalykas yra natūralios kalbos
perdirbimą, kuris yra dalykas, kad

210
00:10:32,910 --> 00:10:36,580
Grafikas Paieška daro nuomos
jums parašyti sakinį.

211
00:10:36,580 --> 00:10:38,690
Ir jis tiki, jūs suprantate, ką
yra prasmė ir suteikia

212
00:10:38,690 --> 00:10:39,940
jums geresnis rezultatas.

213
00:10:39,940 --> 00:10:43,880
Tiesą sakant, jei jūs einate į "Google" ar Bing
ir ieškoti kažką panašaus Lady

214
00:10:43,880 --> 00:10:47,060
Gaga aukštis, jūs iš tikrųjų vyksta
gauti 5 '1 ", o ne informacijos

215
00:10:47,060 --> 00:10:50,170
iš jos, nes ji iš tikrųjų supranta
ką jūs kalbate apie.

216
00:10:50,170 --> 00:10:52,140
Štai dalis gamtos
kalbos apdorojimas.

217
00:10:52,140 --> 00:10:57,000
>> Ar taip pat, kai jūs naudojate Siri pirmas
turite algoritmą, kuris bando

218
00:10:57,000 --> 00:11:01,130
išversti tai, ką jūs sakote,
į žodžius, į tekstą.

219
00:11:01,130 --> 00:11:03,690
Ir tada jis bando išversti
kad į prasmę.

220
00:11:03,690 --> 00:11:06,570
Taigi, kad viskas priklauso gamtos
kalbos apdorojimas.

221
00:11:06,570 --> 00:11:08,320
>> Tada jūs turite automatinį vertimą -

222
00:11:08,320 --> 00:11:10,300
kuris iš tikrųjų yra vienas
iš mano mėgstamiausių -

223
00:11:10,300 --> 00:11:14,060
kuris yra tiesiog versti iš
kalbos į kitą.

224
00:11:14,060 --> 00:11:17,950
Taigi, jūs galite galvoti, kad kai darai
mašininis vertimas, turite

225
00:11:17,950 --> 00:11:19,750
begalinės galimybės sakinių.

226
00:11:19,750 --> 00:11:22,960
Taigi, čia yra ne tiesiog laikyti būdas
kiekvienas vertimas.

227
00:11:22,960 --> 00:11:27,440
Taigi jūs turite sugalvoti įdomu
algoritmų, kad būtų galima

228
00:11:27,440 --> 00:11:30,110
išversti kiekvieną
sakinys tam tikru būdu.

229
00:11:30,110 --> 00:11:32,483
>> Vaikinai turite kokių nors klausimų iki šiol?

230
00:11:32,483 --> 00:11:34,450
Ar ne?

231
00:11:34,450 --> 00:11:34,830
Gerai.

232
00:11:34,830 --> 00:11:36,900
>> Taigi, ką mes ketiname pamatyti šiandien?

233
00:11:36,900 --> 00:11:39,300
Pirmiausia, aš norėčiau pakalbėti apie
klasifikavimo problema.

234
00:11:39,300 --> 00:11:41,440
Taigi, vienas, kad aš buvau
sako apie šlamštas.

235
00:11:41,440 --> 00:11:46,820
Ką aš ruošiuosi padaryti, tai, atsižvelgiant Siūlyti
dainą, galite pabandyti išsiaiškinti,

236
00:11:46,820 --> 00:11:49,810
su didele tikimybe
kas yra dainininkas?

237
00:11:49,810 --> 00:11:53,590
Tarkime, kad turiu dainas iš Motinos
Gaga ir Katy Perry, jei aš jums

238
00:11:53,590 --> 00:11:58,130
nauja daina, galite išsiaiškinti, ar
tai Katy Perry ar Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> Antrasis, aš tiesiog norėčiau pakalbėti
apie segmentacijos problemą.

240
00:12:01,490 --> 00:12:05,780
Taigi, aš nežinau, jei jus vaikinai žino, bet
Kinų, japonų, kitų Rytų Azijos

241
00:12:05,780 --> 00:12:08,090
kalbos ir kitų kalbų
apskritai, neturi

242
00:12:08,090 --> 00:12:09,830
tarpų tarp žodžių.

243
00:12:09,830 --> 00:12:13,540
Ir tada, jei jūs manote apie tai, kaip šios
kompiuteris rūšies mėgina

244
00:12:13,540 --> 00:12:18,600
suprasti, natūralios kalbos apdorojimo,
atrodo ne žodžiais ir

245
00:12:18,600 --> 00:12:21,500
bando suprasti santykius
tarp jų, tiesa?

246
00:12:21,500 --> 00:12:25,440
Bet tada jei turite Kinija, ir jūs
turi nulines erdves, tai tikrai sunku

247
00:12:25,440 --> 00:12:28,360
sužinoti, kas yra tarp ryšys
žodžiai, nes jie neturi bet

248
00:12:28,360 --> 00:12:29,530
žodžiai pirmas.

249
00:12:29,530 --> 00:12:32,600
Taigi, ką jums reikia padaryti kažką vadinama
segmentavimas, kuris tiesiog reiškia išleidimą

250
00:12:32,600 --> 00:12:36,490
tarpai tarp to, ką mes norime skambinti
žodžiai tų kalbų.

251
00:12:36,490 --> 00:12:37,740
Prasmės?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> Ir tada mes ketiname
kalbėti apie sintaksę.

254
00:12:41,540 --> 00:12:44,050
Taigi tik šiek tiek apie gamtos
kalbos apdorojimas.

255
00:12:44,050 --> 00:12:45,420
Tai bus tiesiog apžvalga.

256
00:12:45,420 --> 00:12:50,700
Taigi, šiandien, iš esmės tai, ką noriu daryti
yra suteikti jums vaikinai šiek tiek

257
00:12:50,700 --> 00:12:53,930
viduje kokios yra galimybės
kad jūs galite padaryti su skaičiuojamosios

258
00:12:53,930 --> 00:12:54,960
lingvistika.

259
00:12:54,960 --> 00:13:00,410
Ir tada jūs galite pamatyti, ką jūs manote
yra kietas tarp šių dalykų.

260
00:13:00,410 --> 00:13:02,270
O gal jūs galite galvoti apie projekto
ir ateiti pasikalbėti su manimi.

261
00:13:02,270 --> 00:13:05,260
Ir galiu jums patarti
apie tai, kaip jį įgyvendinti.

262
00:13:05,260 --> 00:13:09,060
>> Taigi sintaksė bus šiek tiek
apie grafikas Paieška ir mašinos

263
00:13:09,060 --> 00:13:09,670
vertimas.

264
00:13:09,670 --> 00:13:13,650
Aš tiesiog ketina duoti kaip pavyzdį
galite, pavyzdžiui, išversti

265
00:13:13,650 --> 00:13:16,020
kažkas iš portugalų į anglų.

266
00:13:16,020 --> 00:13:17,830
Skamba gerai?

267
00:13:17,830 --> 00:13:19,293
>> Taigi, pirmiausia, klasifikavimo problema.

268
00:13:19,293 --> 00:13:23,590
Aš pasakyti, kad tai seminaro dalis
bus sunkiausia

269
00:13:23,590 --> 00:13:27,560
tik vienas, nes vyksta
turi būti tam tikras kodavimo.

270
00:13:27,560 --> 00:13:29,470
Bet tai bus Python.

271
00:13:29,470 --> 00:13:34,380
Aš žinau, vaikinai nežino, Python, todėl
Aš tik ketina paaiškintų, aukštos

272
00:13:34,380 --> 00:13:35,750
lygį, ką aš darau.

273
00:13:35,750 --> 00:13:40,900
Ir jūs neturite really care per
daug apie sintaksę, nes tai

274
00:13:40,900 --> 00:13:42,140
ką jūs vaikinai gali mokytis.

275
00:13:42,140 --> 00:13:42,540
Gerai?

276
00:13:42,540 --> 00:13:43,580
Skamba gerai.

277
00:13:43,580 --> 00:13:46,020
>> Taigi, kas yra klasifikavimo problema?

278
00:13:46,020 --> 00:13:49,140
Taigi jums suteikta keletą dainos žodžius
daina, ir norite atspėti

279
00:13:49,140 --> 00:13:50,620
kas dainuoja jį.

280
00:13:50,620 --> 00:13:54,045
Ir tai gali būti bet kokios rūšies
kitų problemų.

281
00:13:54,045 --> 00:13:59,980
Taigi tai gali būti, pavyzdžiui, jūs turite
prezidento rinkimų kampaniją, ir jūs turite

282
00:13:59,980 --> 00:14:02,610
kalba, o jūs norite rasti
, jei jis buvo, pavyzdžiui,

283
00:14:02,610 --> 00:14:04,470
B. Obama ar Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Arba jūs galite turėti laiškų krūva ir
norite išsiaiškinti, ar jie yra

285
00:14:07,700 --> 00:14:08,890
šlamštą, ar ne.

286
00:14:08,890 --> 00:14:11,440
Taigi, tai tik klasifikuojant kai
grindžiami duomenys žodžiai

287
00:14:11,440 --> 00:14:13,790
, kad turite ten.

288
00:14:13,790 --> 00:14:16,295
>> Taigi, norint tai padaryti, jūs turite
padaryti keletą prielaidų.

289
00:14:16,295 --> 00:14:20,570
Taigi apie kompiuterinės lingvistikos daug
daro prielaidas,

290
00:14:20,570 --> 00:14:24,100
paprastai smart prielaidos, kad
galite gauti gerų rezultatų.

291
00:14:24,100 --> 00:14:26,670
Bandymas sukurti jam modelį.

292
00:14:26,670 --> 00:14:31,290
Ir tada jį išbandyti ir pamatyti, jei ji veikia,
jei ji suteikia jums gerą tikslumo.

293
00:14:31,290 --> 00:14:33,940
Ir jei taip, tuomet jūs
pabandyti jį patobulinti.

294
00:14:33,940 --> 00:14:37,640
Jei ne, jūs kaip, gerai, gal aš
turėtų kitą prielaidą.

295
00:14:37,640 --> 00:14:44,030
>> Taigi prielaida, kad mes ketiname
padaryti, kad menininkas paprastai dainuoja

296
00:14:44,030 --> 00:14:49,220
apie temą kelis kartus, o gal
naudoja žodžius kelis kartus tiesiog

297
00:14:49,220 --> 00:14:50,270
nes jie įpratę prie jo.

298
00:14:50,270 --> 00:14:51,890
Jūs galite tiesiog galvoti apie savo draugus.

299
00:14:51,890 --> 00:14:57,350
Aš tikiu, kad jus vaikinai visi turime draugų
kad pasakyti savo parašo frazę,

300
00:14:57,350 --> 00:14:59,260
pažodžiui kiekvieną sakinį -

301
00:14:59,260 --> 00:15:02,660
kaip kai konkretaus žodžio ar tam tikram
frazė, kad jie pasakyti

302
00:15:02,660 --> 00:15:04,020
kiekvienas sakinys.

303
00:15:04,020 --> 00:15:07,920
>> Ir ką jūs galite pasakyti, kad, jei matote
sakinys, kuris turi parašo

304
00:15:07,920 --> 00:15:11,450
frazė, galima spėti, kad greičiausiai
Jūsų draugas

305
00:15:11,450 --> 00:15:13,310
viena sakau, tiesa?

306
00:15:13,310 --> 00:15:18,410
Taigi, jūs padaryti šią prielaidą ir tada
tai kaip jums sukurti modelį.

307
00:15:18,410 --> 00:15:24,440
>> Pavyzdys, kad aš ruošiuosi duoti yra
kaip Lady Gaga, pavyzdžiui, žmonės

308
00:15:24,440 --> 00:15:27,430
pasakyti, kad ji naudoja "Baby" už
visi jos numeris vienas dainas.

309
00:15:27,430 --> 00:15:32,270
Ir iš tikrųjų tai yra vaizdo, kad rodo
jai sakydamas žodį "kūdikio" už

310
00:15:32,270 --> 00:15:33,410
skirtingos dainos.

311
00:15:33,410 --> 00:15:33,860
>> [VIDEO PLAYBACK]

312
00:15:33,860 --> 00:15:34,310
>> - (SINGING) kūdikiui.

313
00:15:34,310 --> 00:15:36,220
Kūdikių.

314
00:15:36,220 --> 00:15:37,086
Kūdikių.

315
00:15:37,086 --> 00:15:37,520
Kūdikių.

316
00:15:37,520 --> 00:15:37,770
Kūdikių.

317
00:15:37,770 --> 00:15:38,822
Babe.

318
00:15:38,822 --> 00:15:39,243
Kūdikių.

319
00:15:39,243 --> 00:15:40,085
Kūdikių.

320
00:15:40,085 --> 00:15:40,510
Kūdikių.

321
00:15:40,510 --> 00:15:40,850
Kūdikių.

322
00:15:40,850 --> 00:15:41,090
>> [PABAIGA VIDEO PLAYBACK-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS Freitas: Taigi yra, manau,
40 dainos čia, kuriame ji sako

324
00:15:44,020 --> 00:15:48,690
Žodis "kūdikis". Taigi jūs galite iš esmės manau,
kad jei matote dainą, kuri turi

325
00:15:48,690 --> 00:15:52,180
Žodis "kūdikis", yra keletas aukštos
tikimybė, kad jis Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Bet pabandykime plėtoti šią
dar daugiau formaliai.

327
00:15:56,450 --> 00:16:00,470
>> Taigi šie žodžiai dainų pagal
Lady Gaga ir Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Taigi, jums pažvelgti į Lady Gaga, pamatysite jos
turi įvykių daug "kūdikis"

329
00:16:04,120 --> 00:16:07,710
daug pasikartojimų "taip". Ir
Katy Perry turi pasikartojimų daug

330
00:16:07,710 --> 00:16:10,360
"," Pasikartojimų daug "ugnies".

331
00:16:10,360 --> 00:16:14,560
>> Taigi, iš esmės tai, ką mes norime
padaryti, tai jums lyrikos.

332
00:16:14,560 --> 00:16:20,480
Tarkime, kad jūs gaunate už lyric
daina, kuri yra "kūdikis", tiesiog "kūdikis". Jei

333
00:16:20,480 --> 00:16:24,750
jūs tiesiog gaunate žodį "kūdikio", ir tai
yra visi duomenys, kad jūs turite iš

334
00:16:24,750 --> 00:16:27,880
Lady Gaga ir Katy Perry, kuris būtų
galite atspėti, yra asmuo,

335
00:16:27,880 --> 00:16:29,370
kas dainuoja daina?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga ir Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, tiesa?

338
00:16:33,150 --> 00:16:37,400
Nes ji vienintelė, kuri sako
"Kūdikis". Tai skamba kvailai, ar ne?

339
00:16:37,400 --> 00:16:38,760
Gerai, tai yra tikrai paprasta.

340
00:16:38,760 --> 00:16:41,860
Aš tiesiog žiūri į dviejų dainų ir
Žinoma, ji tik tas, kuris turi

341
00:16:41,860 --> 00:16:42,660
"Kūdikis".

342
00:16:42,660 --> 00:16:44,740
>> Bet kas, jei turite žodžių krūva?

343
00:16:44,740 --> 00:16:50,900
Jei faktinė lyrikos, nors
pavyzdžiui, "kūdikis, aš tiesiog

344
00:16:50,900 --> 00:16:51,610
nuvyko į [? CFT?]

345
00:16:51,610 --> 00:16:54,020
paskaita "ar kažkas panašaus, ir
tada jūs iš tikrųjų turite išsiaiškinti -

346
00:16:54,020 --> 00:16:55,780
remiantis visais šiais žodžiais -

347
00:16:55,780 --> 00:16:58,350
kas yra menininkas, kuris tikriausiai
dainavo šią dainą?

348
00:16:58,350 --> 00:17:01,860
Taigi pabandykime sukurti
tai šiek tiek toliau.

349
00:17:01,860 --> 00:17:05,630
>> Gerai, kad grindžiamas tik duomenų, kad mes
turiu, atrodo, kad Gaga yra tikriausiai

350
00:17:05,630 --> 00:17:06,260
dainininkė.

351
00:17:06,260 --> 00:17:07,904
Bet kaip mes galime rašyti
tai daugiau oficialiai?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
Ir ten bus mažai
šiek tiek statistikos.

354
00:17:13,140 --> 00:17:15,880
Taigi, jei jūs prarasti, tiesiog pabandyti
suprasti sąvoka.

355
00:17:15,880 --> 00:17:18,700
Tai neturi reikšmės, jei jūs suprantate
lygtys puikiai.

356
00:17:18,700 --> 00:17:22,150
Visa tai bus internete.

357
00:17:22,150 --> 00:17:25,490
>> Taigi, iš esmės, ką aš apskaičiuoti,
Tikimybė, kad ši daina yra iš

358
00:17:25,490 --> 00:17:28,040
Lady Gaga turint omenyje, kad -

359
00:17:28,040 --> 00:17:30,660
todėl ši juosta reiškia, turint omenyje, kad -

360
00:17:30,660 --> 00:17:33,680
Pamačiau žodį "kūdikis".
Ar tai prasminga?

361
00:17:33,680 --> 00:17:35,540
Taigi, aš bandau apskaičiuoti
kad tikimybė.

362
00:17:35,540 --> 00:17:38,540
>> Taigi tai teorema vadinama
Bajeso teorema, kuri teigia, kad

363
00:17:38,540 --> 00:17:43,330
tikimybė tam tikrą B yra
tikimybė B suteiktas A, datos

364
00:17:43,330 --> 00:17:47,660
tikimybė, nei tikimybe
iš B. Tai ilgas lygtis.

365
00:17:47,660 --> 00:17:51,970
Bet ką jūs turite suprasti, iš
tai, kad tai, ką aš noriu

366
00:17:51,970 --> 00:17:52,830
apskaičiuoti, tiesa?

367
00:17:52,830 --> 00:17:56,570
Taigi tikimybė, kad ta daina yra iš
Lady GaGa nes pamačiau žodį

368
00:17:56,570 --> 00:17:58,230
"Kūdikis".

369
00:17:58,230 --> 00:18:02,960
>> O dabar ką aš gaunu yra
Tikimybė, žodis "baby" atsižvelgiant į

370
00:18:02,960 --> 00:18:04,390
kad turiu Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
Ir kas tai yra iš esmės?

372
00:18:07,220 --> 00:18:10,500
Ką tai reiškia, tai, kas
tikimybė pamatyti žodį "baby"

373
00:18:10,500 --> 00:18:12,130
per Gaga dainos?

374
00:18:12,130 --> 00:18:16,240
Jei aš noriu apskaičiuoti, kad labai
paprastas būdas, tai tik iš skaičių

375
00:18:16,240 --> 00:18:23,640
kartų matau "Baby", palyginti su bendru
iš žodžių Gaga dainų, tiesa?

376
00:18:23,640 --> 00:18:27,600
Kas yra dažnis, kad matau
kad žodis Gaga darbe?

377
00:18:27,600 --> 00:18:30,530
Prasmės?

378
00:18:30,530 --> 00:18:33,420
>> Antrasis trimestras
tikimybė Gaga.

379
00:18:33,420 --> 00:18:34,360
Ką tai reiškia?

380
00:18:34,360 --> 00:18:38,550
Tai iš esmės reiškia, kad tai, kas
tikimybė klasifikuoti

381
00:18:38,550 --> 00:18:40,690
kai žodžiai kaip Gaga?

382
00:18:40,690 --> 00:18:45,320
Ir tai yra tipo keista, bet
tegul galvoja pavyzdys.

383
00:18:45,320 --> 00:18:49,230
Taigi galime sakyti, kad tikimybė
turintys "Baby" daina yra pati

384
00:18:49,230 --> 00:18:51,760
už Gaga ir Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Tačiau Britney Spears turi du kartus
daugiau dainų nei Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Taigi, jei kažkas tiesiog atsitiktinai suteikia jums
lyrika "kūdikis", pirmas dalykas, kurį

387
00:19:00,570 --> 00:19:04,710
pažvelgti į tai, kas yra tikimybė,
turintys "Baby" į Gaga dainą "Baby"

388
00:19:04,710 --> 00:19:05,410
į Britney daina?

389
00:19:05,410 --> 00:19:06,460
Ir tai tas pats.

390
00:19:06,460 --> 00:19:10,040
>> Taigi antras dalykas, kad jūs matote, yra tai,
gerai, kas yra tikimybė,

391
00:19:10,040 --> 00:19:13,770
pati tai lyrikos yra Gaga lyrikos,
ir kas yra tikimybė,

392
00:19:13,770 --> 00:19:15,380
yra Britney lyrinis?

393
00:19:15,380 --> 00:19:18,950
Taigi nuo Britney turi tiek daug daugiau dainų
kaip Gaga, jūs tikriausiai

394
00:19:18,950 --> 00:19:21,470
tarkim, gerai, tai tikriausiai
Britney lyrikos.

395
00:19:21,470 --> 00:19:23,340
Štai kodėl mes turime tai
vadiname čia.

396
00:19:23,340 --> 00:19:24,670
Tikimybė Gaga.

397
00:19:24,670 --> 00:19:26,950
Prasminga?

398
00:19:26,950 --> 00:19:28,660
Ar tai?

399
00:19:28,660 --> 00:19:29,370
Gerai.

400
00:19:29,370 --> 00:19:33,500
>> Ir naujausia yra tik tikimybė
iš "Baby", kuri nėra

401
00:19:33,500 --> 00:19:34,810
tikrai nesvarbu, kad daug.

402
00:19:34,810 --> 00:19:39,940
Bet tai tikimybe
matyti "Baby" anglų kalba.

403
00:19:39,940 --> 00:19:42,725
Mes paprastai nerūpi, kad
daug apie šio termino.

404
00:19:42,725 --> 00:19:44,490
Ar tai prasminga?

405
00:19:44,490 --> 00:19:48,110
Taigi Gaga tikimybė yra
vadinamas prieš tikimybė

406
00:19:48,110 --> 00:19:49,530
iš klasės Gaga.

407
00:19:49,530 --> 00:19:53,840
Nes tai tiesiog reiškia, kad tai, kas
Tikimybė turėti šią klasę -

408
00:19:53,840 --> 00:19:55,520
kuris Gaga -

409
00:19:55,520 --> 00:19:59,350
tiesiog apskritai, tiesiog
be sąlygų.

410
00:19:59,350 --> 00:20:02,560
>> Ir tada, kai turiu tikimybę
Gaga suteiktas "kūdikis", mes jį vadiname plius

411
00:20:02,560 --> 00:20:06,160
verkiantis tikimybę, nes tai
turintys tikimybė

412
00:20:06,160 --> 00:20:08,300
Gaga davė keletą įrodymų.

413
00:20:08,300 --> 00:20:11,050
Taigi, aš suteikti Jums įrodymus
kad aš pamačiau žodį kūdikį ir

414
00:20:11,050 --> 00:20:12,690
daina prasminga?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
Gerai.

417
00:20:16,410 --> 00:20:22,400
>> Taigi, jei aš apskaičiavo, kad už kiekvieną
iš Lady Gaga dainų,

418
00:20:22,400 --> 00:20:25,916
kas tai būtų -

419
00:20:25,916 --> 00:20:27,730
matyt, aš negaliu perkelti jį.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Iš Gaga tikimybė bus
kažkas panašaus, 2 per 24 kartų 1/2,

422
00:20:36,920 --> 00:20:38,260
per 2 per 53.

423
00:20:38,260 --> 00:20:40,640
Tai neturi reikšmės, jei jūs žinote, ką
šie skaičiai iš.

424
00:20:40,640 --> 00:20:44,750
Bet tai tik skaičius, kad ketina
būti daugiau nei 0, tiesa?

425
00:20:44,750 --> 00:20:48,610
>> Ir tada, kai aš Katy Perry
tikimybė "Baby" suteikta Katy yra

426
00:20:48,610 --> 00:20:49,830
jau 0, tiesa?

427
00:20:49,830 --> 00:20:52,820
Nes nėra "kūdikis"
Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Taigi tai tampa 0, o Gaga
laimi, o tai reiškia, kad Gaga yra

429
00:20:56,360 --> 00:20:57,310
tikriausiai dainininkė.

430
00:20:57,310 --> 00:20:58,560
Ar tai prasminga?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
Gerai.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Taigi, jei aš noriu, kad tai daugiau pareigūną,
Aš iš tikrųjų gali padaryti modelį

435
00:21:11,750 --> 00:21:12,700
kelis žodžius.

436
00:21:12,700 --> 00:21:14,610
Taigi galime sakyti, kad turiu kažką
pavyzdžiui, "kūdikis, aš esu

437
00:21:14,610 --> 00:21:16,030
ant ugnies ", ar kažką.

438
00:21:16,030 --> 00:21:17,760
Taigi ji turi kelis žodžius.

439
00:21:17,760 --> 00:21:20,880
Ir šiuo atveju, jūs galite pamatyti
kad "kūdikis" yra Gaga,

440
00:21:20,880 --> 00:21:21,710
bet tai nėra Katy.

441
00:21:21,710 --> 00:21:24,940
Ir "ugnis" yra Katy, bet
tai ne Gaga, tiesa?

442
00:21:24,940 --> 00:21:27,200
Taigi jis vis sudėtingiau, tiesa?

443
00:21:27,200 --> 00:21:31,440
Nes atrodo, kad jūs beveik
yra tarp dviejų lygų rezultatą.

444
00:21:31,440 --> 00:21:36,980
>> Taigi, ką jūs turite padaryti, tai prisiimti
nepriklausomumas tarp žodžių.

445
00:21:36,980 --> 00:21:41,210
Taigi, iš esmės, ką tai reiškia, kad
Aš tiesiog apskaičiuoti, kas yra

446
00:21:41,210 --> 00:21:44,330
tikimybė pamatyti "kūdikį", kas yra
matyti tikimybė "aš" ir

447
00:21:44,330 --> 00:21:46,670
"Esu", ir "ant" ir "ugnis"
visos atskirai.

448
00:21:46,670 --> 00:21:48,670
Tada aš dauginant juos visus.

449
00:21:48,670 --> 00:21:52,420
Ir aš matau, kas yra tikimybė,
pamatyti visą sakinį.

450
00:21:52,420 --> 00:21:55,210
Prasmės?

451
00:21:55,210 --> 00:22:00,270
>> Taigi, iš esmės, jei turiu tik vieną žodį,
ką aš noriu rasti yra arg max

452
00:22:00,270 --> 00:22:05,385
o tai reiškia, kas yra grupė, kuri yra
suteikia man didžiausią tikimybę?

453
00:22:05,385 --> 00:22:10,010
Taigi, kas yra klasė, suteikia
man didžiausia tikimybė

454
00:22:10,010 --> 00:22:11,940
Tikimybė klasės suteikta žodį.

455
00:22:11,940 --> 00:22:17,610
Taigi šiuo atveju Gaga suteiktas "kūdikį".
Arba Katy suteiktas "kūdikį". Prasmės?

456
00:22:17,610 --> 00:22:21,040
>> Ir tik nuo Bayes, kad
lygtis, kad aš parodė,

457
00:22:21,040 --> 00:22:24,780
mes sukurti šią frakciją.

458
00:22:24,780 --> 00:22:28,750
Vienintelis dalykas, kad jūs matote, kad
žodžio tikimybė suteikta

459
00:22:28,750 --> 00:22:31,370
klasė keičiasi priklausomai nuo
nuo klasės, tiesa?

460
00:22:31,370 --> 00:22:34,260
Iš "Baby" s, kad aš skaičius
per Gaga skiriasi nuo Katy.

461
00:22:34,260 --> 00:22:37,640
Klasės tikimybė taip pat
pokyčius, nes tai tiesiog numeris

462
00:22:37,640 --> 00:22:39,740
dainų kiekvienas iš jų turi.

463
00:22:39,740 --> 00:22:43,980
>> Tačiau pats žodis tikimybė
bus tas pats visiems

464
00:22:43,980 --> 00:22:44,740
menininkai, tiesa?

465
00:22:44,740 --> 00:22:47,150
Taigi žodžio tikimybė yra
tiesiog, kas yra tikimybė,

466
00:22:47,150 --> 00:22:49,820
matome, kad žodis
Anglų kalba?

467
00:22:49,820 --> 00:22:51,420
Todėl visus juos pats.

468
00:22:51,420 --> 00:22:55,790
Taigi, kadangi tai yra nuolatinis, mes galime tiesiog
lašas tai ir negalvoja apie tai.

469
00:22:55,790 --> 00:23:00,230
Taigi, tai bus iš tikrųjų
lygtis mes ieškome.

470
00:23:00,230 --> 00:23:03,360
>> Ir jei turiu kelis žodžius, aš
dar teks iki

471
00:23:03,360 --> 00:23:04,610
tikimybė čia.

472
00:23:04,610 --> 00:23:06,980
Vienintelis dalykas yra tai, kad aš dauginant
Tikimybių

473
00:23:06,980 --> 00:23:08,490
visi kiti žodžiai.

474
00:23:08,490 --> 00:23:10,110
Taigi, aš dauginant juos visus.

475
00:23:10,110 --> 00:23:12,610
Prasmės?

476
00:23:12,610 --> 00:23:18,440
Atrodo keistai, bet iš esmės reiškia,
apskaičiuoti iki šios klasės, ir

477
00:23:18,440 --> 00:23:22,100
tada padauginti iš kiekvieno tikimybe
žodžiai neliečia tos klasės.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> Ir jūs žinote, kad tikimybė
Žodis suteiktas klasė bus

480
00:23:29,150 --> 00:23:34,520
skaičių kartų matote šį žodį
kad klasės, padalintas iš skaičiaus

481
00:23:34,520 --> 00:23:37,020
žodžiai turite, kad
klasė apskritai.

482
00:23:37,020 --> 00:23:37,990
Prasmės?

483
00:23:37,990 --> 00:23:41,680
Tai tiesiog kaip "kūdikis" buvo 2 per
žodžių skaičius, kad

484
00:23:41,680 --> 00:23:43,020
Turėjau dainų.

485
00:23:43,020 --> 00:23:45,130
Taigi tik dažnis.

486
00:23:45,130 --> 00:23:46,260
>> Bet yra vienas dalykas.

487
00:23:46,260 --> 00:23:51,250
Prisiminkite, kaip aš rodžiau, kad
tikimybė "kūdikių" Būti žodžiai

488
00:23:51,250 --> 00:23:56,350
iš Katy Perry buvo 0 tik todėl, kad Katy
Perry neturėjo "Baby" ne visi?

489
00:23:56,350 --> 00:24:04,900
Bet tai skamba šiek tiek šiurkštus tik
tiesiog pasakyti, kad žodžiai gali būti ne iš

490
00:24:04,900 --> 00:24:10,040
menininkas tik todėl, kad jie neturi
kad žodis ypač bet kuriuo metu.

491
00:24:10,040 --> 00:24:13,330
>> Taigi, galite tiesiog pasakyti, gerai, jei
neturi šį žodį, aš ruošiuosi

492
00:24:13,330 --> 00:24:15,640
Jums skirti mažesnę tikimybę,
bet aš tik nesiruošia

493
00:24:15,640 --> 00:24:17,420
Jums 0 karto.

494
00:24:17,420 --> 00:24:21,040
Nes gal tai buvo kažkas panašaus,
"Gaisro, gaisro, ugnies, ugnis", kuris yra

495
00:24:21,040 --> 00:24:21,990
visiškai Katy Perry.

496
00:24:21,990 --> 00:24:26,060
Ir tada "kūdikis", ir jis tiesiog eina į
0 iš karto, nes ten buvo vienas

497
00:24:26,060 --> 00:24:27,250
"Kūdikis".

498
00:24:27,250 --> 00:24:31,440
>> Taigi, iš esmės tai, ką mes darome, yra kažkas
vadinamas Laplaso išlyginimo.

499
00:24:31,440 --> 00:24:36,260
Ir tai tiesiog reiškia, kad aš padovanosiu
kai tikimybė, net žodžių

500
00:24:36,260 --> 00:24:37,850
kad nėra.

501
00:24:37,850 --> 00:24:43,170
Taigi, ką aš galiu padaryti, kad kai aš
Apskaičiuojant tai, aš visada pridėti 1 kaip

502
00:24:43,170 --> 00:24:44,180
skaitiklis.

503
00:24:44,180 --> 00:24:48,060
Taigi, net jei žodis neegzistuoja, ir
Tokiu atveju, jei tai yra 0, aš vis dar

504
00:24:48,060 --> 00:24:51,250
Apskaičiuojant tai, kaip 1 per
bendras žodžių skaičius.

505
00:24:51,250 --> 00:24:55,060
Priešingu atveju, aš gauti kiek žodžių
Turiu ir aš pridėti 1.

506
00:24:55,060 --> 00:24:58,300
Taigi, aš skaičiuoti abiem atvejais.

507
00:24:58,300 --> 00:25:00,430
Prasmės?

508
00:25:00,430 --> 00:25:03,060
>> Taigi dabar galime padaryti kai kodavimas.

509
00:25:03,060 --> 00:25:06,440
Aš ruošiuosi tai padaryti gana greitai,
bet tai tik svarbu, kad jums

510
00:25:06,440 --> 00:25:08,600
vaikinai suprasti sąvokas.

511
00:25:08,600 --> 00:25:13,450
Taigi, ką mes bandome padaryti
yra tiksliai įgyvendinti šį

512
00:25:13,450 --> 00:25:14,330
dalykas, kad aš ką tik pasakė -

513
00:25:14,330 --> 00:25:19,110
Noriu, kad jūs įdėti žodžiai iš
Lady Gaga ir Katy Perry.

514
00:25:19,110 --> 00:25:22,980
Ir programa bus suteikta galimybė
pasakyti, ar šie nauji žodžiai yra iš Gaga

515
00:25:22,980 --> 00:25:24,170
ar Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Prasmės?

517
00:25:25,800 --> 00:25:27,530
Gerai.

518
00:25:27,530 --> 00:25:30,710
>> Taigi turiu šią programą aš ruošiuosi
skambinti classify.py.

519
00:25:30,710 --> 00:25:31,970
Taigi tai yra Python.

520
00:25:31,970 --> 00:25:34,210
Tai nauja programavimo kalba.

521
00:25:34,210 --> 00:25:38,020
Jis yra labai panašus į kai
būdų, C ir PHP.

522
00:25:38,020 --> 00:25:43,180
Tai panašu, nes, jei norite
išmokti Python po žinant C, tai

523
00:25:43,180 --> 00:25:46,270
tikrai ne tai, kad daug iššūkis
tik todėl, kad Pitonas yra daug lengviau

524
00:25:46,270 --> 00:25:47,520
nei C, visų pirma.

525
00:25:47,520 --> 00:25:49,370
Ir daug dalykų jau
įgyvendinama už jus.

526
00:25:49,370 --> 00:25:56,820
Taigi, tiesiog, kaip pavyzdžiui, PHP turi funkcijas, kad
rūšiuoti sąrašą, arba pridėti kažką

527
00:25:56,820 --> 00:25:58,780
į masyvą, ar bla, bla, bla.

528
00:25:58,780 --> 00:26:00,690
Python yra visi tie taip pat.

529
00:26:00,690 --> 00:26:05,960
>> Taigi, aš tik ketina greitai paaiškinti
kaip mes galime padaryti klasifikacija

530
00:26:05,960 --> 00:26:07,860
problema čia.

531
00:26:07,860 --> 00:26:13,230
Taigi galime sakyti, kad šiuo atveju, turiu
lyrics Gaga ir Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Būdas, kad aš turiu tuos žodžiai yra tai, kad
pirmasis žodis iš dainos yra

533
00:26:21,880 --> 00:26:25,250
menininko vardas, o
likusi dalis yra lyrika.

534
00:26:25,250 --> 00:26:29,470
Taigi galime sakyti, kad turiu šį sąrašą
kuris pirmasis yra žodžiai Gaga.

535
00:26:29,470 --> 00:26:31,930
Taigi, čia aš esu teisingame kelyje.

536
00:26:31,930 --> 00:26:35,270
Ir šalia vienas Katy ir
jis taip pat dainų.

537
00:26:35,270 --> 00:26:38,040
>> Taigi, tai, kaip jūs deklaruoti
Python kintamasis.

538
00:26:38,040 --> 00:26:40,200
Jūs neturite duoti duomenų tipą.

539
00:26:40,200 --> 00:26:43,150
Jūs tiesiog parašyti "žodžiai"
kokios patinka PHP.

540
00:26:43,150 --> 00:26:44,890
Prasmės?

541
00:26:44,890 --> 00:26:47,770
>> Taigi, kas yra tai, kad turiu
apskaičiuoti, kad būtų galima apskaičiuoti

542
00:26:47,770 --> 00:26:49,360
tikimybės?

543
00:26:49,360 --> 00:26:55,110
Turiu apskaičiuoti "priors"
kiekvieno skirtingi

544
00:26:55,110 --> 00:26:56,710
klasės, kad aš.

545
00:26:56,710 --> 00:27:06,680
Turiu apskaičiuoti "posteriors",
ar gana daug tikimybes

546
00:27:06,680 --> 00:27:12,150
Kiekvieno iš skirtingų žodžių,
Galiu turėti kiekvienam menininkui.

547
00:27:12,150 --> 00:27:17,210
Taigi per Gaga, pavyzdžiui, aš ruošiuosi
turėti kiek kartų matau sąrašą

548
00:27:17,210 --> 00:27:19,250
kiekvienas iš žodžių.

549
00:27:19,250 --> 00:27:20,760
Prasmės?

550
00:27:20,760 --> 00:27:25,370
>> Ir pagaliau, aš tiesiog teks
sąrašas vadinamas "žodžiai", kuri yra tik ketina

551
00:27:25,370 --> 00:27:29,780
turėti kiek žodžių aš
turėti kiekvienam menininkui.

552
00:27:29,780 --> 00:27:33,760
Taigi Gaga, pavyzdžiui, kai aš žiūriu
su tekstais, aš manau, 24

553
00:27:33,760 --> 00:27:34,750
žodžiai iš viso.

554
00:27:34,750 --> 00:27:38,970
Taigi šis sąrašas yra tik teks
Gaga 24 ir Katy kitas numeris.

555
00:27:38,970 --> 00:27:40,130
Prasmės?

556
00:27:40,130 --> 00:27:40,560
Gerai.

557
00:27:40,560 --> 00:27:42,530
>> Taigi dabar, iš tikrųjų, tegul
eiti į kodavimas.

558
00:27:42,530 --> 00:27:45,270
Taigi, Python, jūs iš tikrųjų galite
grįžti yra skirtingi krūva

559
00:27:45,270 --> 00:27:46,630
viskas iš funkcijos.

560
00:27:46,630 --> 00:27:50,810
Taigi, aš ruošiuosi sukurti šią funkciją
vadinamas "sąlyginis", kuris vyksta

561
00:27:50,810 --> 00:27:53,890
grąžinti visus iš tų dalykų,
"nenuosavas", kad "tikimybės", ir

562
00:27:53,890 --> 00:28:05,690
"žodžiai". Taigi "Sąlyginai", ir tai
bus skambinama į "žodžiai".

563
00:28:05,690 --> 00:28:11,510
>> Taigi, dabar noriu jums iš tikrųjų
rašyti šią funkciją.

564
00:28:11,510 --> 00:28:17,750
Taigi, taip, kad aš galiu tai parašyti
funkcija aš tiesiog tai apibrėžta

565
00:28:17,750 --> 00:28:20,620
veikti su "Def. Taigi aš "Def
sąlyga ", o tai, atsižvelgiant

566
00:28:20,620 --> 00:28:28,700
"Žodžiai". O kas tai darys
yra, visų pirma, turiu priors

567
00:28:28,700 --> 00:28:31,030
kad aš noriu apskaičiuoti.

568
00:28:31,030 --> 00:28:34,330
>> Taigi, taip, kad aš tai galiu padaryti, tai sukurti
Python, kalbų žodynas

569
00:28:34,330 --> 00:28:37,320
yra beveik tas pats dalykas kaip maišos
stalo, ar tai kaip iteracinis

570
00:28:37,320 --> 00:28:40,480
masyvas PHP.

571
00:28:40,480 --> 00:28:44,150
Tai kaip man deklaruoti žodyną.

572
00:28:44,150 --> 00:28:53,580
Ir iš esmės, ką tai reiškia, kad
nenuosavas iš Gaga yra 0,5, jei, pavyzdžiui,

573
00:28:53,580 --> 00:28:57,200
50% dainų yra iš
Gaga, 50% yra Katy.

574
00:28:57,200 --> 00:28:58,450
Prasmės?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Taigi turiu išsiaiškinti, kaip
apskaičiuoti priors.

577
00:29:03,680 --> 00:29:07,120
>> Artimiausius tie, kad aš turi daryti, taip pat,
yra tikimybės ir žodžiai.

578
00:29:07,120 --> 00:29:17,100
Taigi iš Gaga tikimybės yra sąrašas
visų tikimybių, kad aš

579
00:29:17,100 --> 00:29:19,160
turėti atskiruose Gaga žodžių.

580
00:29:19,160 --> 00:29:23,880
Taigi, jei aš einu į tikimybių Gaga
"Kūdikis", pavyzdžiui, tai bus man

581
00:29:23,880 --> 00:29:28,750
kažkas panašaus į 2 per 24 šiuo atveju.

582
00:29:28,750 --> 00:29:30,070
Prasmės?

583
00:29:30,070 --> 00:29:36,120
Taigi aš einu į "tikimybės", eikite į
"Gaga" bucket, kad turi visą sąrašą

584
00:29:36,120 --> 00:29:40,550
kad Gaga žodžiai, tada aš einu į "kūdikis"
ir matau tikimybę.

585
00:29:40,550 --> 00:29:45,940
>> Ir pagaliau turiu tai
"Žodžiai" žodynas.

586
00:29:45,940 --> 00:29:53,620
Taigi čia ", tikimybės." Ir
"žodžiai". Taigi, jei aš "žodžiai", "Gaga"

587
00:29:53,620 --> 00:29:58,330
kas nutiks yra tai, kad
ketina suteikti man 24, sakydamas, kad aš

588
00:29:58,330 --> 00:30:01,990
turi 24 žodžius per žodžiai iš Gaga.

589
00:30:01,990 --> 00:30:04,110
Prasminga?

590
00:30:04,110 --> 00:30:07,070
Taigi čia "žodžiai" yra lygu DAH-Dah-Dah.

591
00:30:07,070 --> 00:30:07,620
Gerai

592
00:30:07,620 --> 00:30:12,210
>> Taigi, ką aš ruošiuosi padaryti tai aš ruošiuosi
kartoti per kiekvieną iš žodžių, todėl

593
00:30:12,210 --> 00:30:14,490
kiekvienas stygos kad
Turiu sąraše.

594
00:30:14,490 --> 00:30:18,040
Ir aš ruošiuosi apskaičiuoti tuos dalykus
už kiekvieną kandidatų.

595
00:30:18,040 --> 00:30:19,950
Prasminga?

596
00:30:19,950 --> 00:30:21,700
Taigi aš turiu padaryti už kilpą.

597
00:30:21,700 --> 00:30:26,300
>> Taigi, Python, ką aš galiu padaryti, tai "už linijos
iš dainų. "tas pats, kaip

598
00:30:26,300 --> 00:30:28,000
"Už kiekvieną" pareiškimą PHP.

599
00:30:28,000 --> 00:30:33,420
Prisiminkite, kaip aš, jei ji buvo PHP galėtų
sako: "kiekvienos dainos kaip

600
00:30:33,420 --> 00:30:35,220
linija. "Prasminga?

601
00:30:35,220 --> 00:30:38,900
Taigi, aš imtis kiekvienas iš šių linijų, šiuo
atveju, šios eilutės ir kitą

602
00:30:38,900 --> 00:30:44,540
string taip kiekvienai iš linijų, ką aš
ruošiuosi padaryti tai pirma, aš ruošiuosi

603
00:30:44,540 --> 00:30:49,150
padalyti šią eilutę į sąrašo
žodžiai, atskirti tarpais.

604
00:30:49,150 --> 00:30:53,730
>> Taigi cool dalykas apie Python yra tai, kad
galima tiesiog "Google", pavyzdžiui, "kaip aš galiu

605
00:30:53,730 --> 00:30:58,220
padalinti eilutę į žodžius? "Ir tai
ketina papasakoti, kaip tai padaryti.

606
00:30:58,220 --> 00:31:04,890
Ir kaip tai padaryti, tai tik "linija
= Line.split () "ir tai iš esmės

607
00:31:04,890 --> 00:31:08,640
ketina suteikti jums sąrašą
kiekvienas čia žodžių.

608
00:31:08,640 --> 00:31:09,620
Prasminga?

609
00:31:09,620 --> 00:31:15,870
Taigi dabar, kad aš padariau, kad aš noriu žinoti
kas yra tos dainos dainininkas.

610
00:31:15,870 --> 00:31:20,130
Ir tai, kad aš tiesiog gauti
Pirmasis elementas masyvo, tiesa?

611
00:31:20,130 --> 00:31:26,390
Taigi, galiu tik pasakyti, kad aš "dainininkas
= Linija (0) "Prasminga?

612
00:31:26,390 --> 00:31:32,010
>> Ir tada ką reikia padaryti, tai, pirmiausia
Apskritai, aš ruošiuosi atnaujinti kiek

613
00:31:32,010 --> 00:31:36,130
žodžiai Turiu pagal "Gaga". todėl aš tiesiog
ketina apskaičiuoti, kiek žodžių aš

614
00:31:36,130 --> 00:31:38,690
turėti šiame sąraše, tiesa?

615
00:31:38,690 --> 00:31:41,910
Kadangi tai yra kiek žodžių Turiu
į dainų ir aš tik ketina

616
00:31:41,910 --> 00:31:44,120
įtraukti jį į "Gaga" masyvo.

617
00:31:44,120 --> 00:31:47,090
Ar tai prasminga?

618
00:31:47,090 --> 00:31:49,010
Negalima per daug dėmesio sintaksę.

619
00:31:49,010 --> 00:31:50,430
Daugiau galvoti apie sąvokas.

620
00:31:50,430 --> 00:31:52,400
Tai svarbiausia dalis.

621
00:31:52,400 --> 00:31:52,720
Gerai.

622
00:31:52,720 --> 00:32:00,260
>> Taigi, ką aš galiu padaryti tai, jei "Gaga" yra
jau į tą sąrašą, todėl "jei dainininkas

623
00:32:00,260 --> 00:32:03,190
žodžiai ", o tai reiškia, kad aš jau
turi žodžius Gaga.

624
00:32:03,190 --> 00:32:06,640
Aš tik noriu pridėti papildomą
žodžiai, kad.

625
00:32:06,640 --> 00:32:15,810
Taigi, ką aš padaryti, tai "žodžiai (singer)
+ = Len (linija) - 1 ".

626
00:32:15,810 --> 00:32:18,250
Ir tada aš galiu tik daryti
linijos ilgis.

627
00:32:18,250 --> 00:32:21,860
Taigi, kaip daug elementų I
turi masyve.

628
00:32:21,860 --> 00:32:27,060
Ir aš turiu daryti atėmus 1 tik todėl,
Pirmasis elementas masyve yra tik

629
00:32:27,060 --> 00:32:29,180
dainininkė ir tie, kurie ne žodžiai.

630
00:32:29,180 --> 00:32:31,420
Prasminga?

631
00:32:31,420 --> 00:32:32,780
Gerai.

632
00:32:32,780 --> 00:32:35,820
>> "Kitas", tai reiškia, kad aš noriu, kad iš tikrųjų
įterpti Gaga į sąrašą.

633
00:32:35,820 --> 00:32:45,990
Taigi aš tiesiog padaryti "žodžiai (atlikėjas)
= Len (linija) - 1, "atsiprašau.

634
00:32:45,990 --> 00:32:49,200
Taigi, vienintelis skirtumas tarp dviejų
linijos yra tai, kad tai viena, tai nėra

635
00:32:49,200 --> 00:32:51,080
egzistuoja dar, kad aš tiesiog
Inicijuojama jį.

636
00:32:51,080 --> 00:32:53,820
Tai vienas aš iš tikrųjų pridėti.

637
00:32:53,820 --> 00:32:55,570
Gerai.

638
00:32:55,570 --> 00:32:59,480
Taigi tai buvo pridedant prie žodžių.

639
00:32:59,480 --> 00:33:03,040
>> Dabar aš noriu pridėti į Priors.

640
00:33:03,040 --> 00:33:05,480
Taigi, kaip man apskaičiuoti priors?

641
00:33:05,480 --> 00:33:11,580
Į nenuosavas gali būti apskaičiuojamas
pagal tai, kiek kartų.

642
00:33:11,580 --> 00:33:15,340
Taigi, kiek kartų jūs pamatysite, kad dainininkas
tarp visų dainininkų, kad jūs

643
00:33:15,340 --> 00:33:16,380
turi, tiesa?

644
00:33:16,380 --> 00:33:18,810
Taigi Gaga ir Katy Perry,
šiuo atveju, matau Gaga

645
00:33:18,810 --> 00:33:20,570
vieną kartą, Katy Perry kartą.

646
00:33:20,570 --> 00:33:23,320
>> Taigi, iš esmės yra skirtos Gaga nenuosavas
ir Katy Perry būtų

647
00:33:23,320 --> 00:33:24,390
tik vienas, tiesa?

648
00:33:24,390 --> 00:33:26,500
Jūs tiesiog kiek kartų
Matau menininkas.

649
00:33:26,500 --> 00:33:28,740
Taigi tai yra labai lengva apskaičiuoti.

650
00:33:28,740 --> 00:33:34,100
Galiu tik kažką panašaus, kaip, pavyzdžiui, "jei
dainininkas Priors, "Aš tik ketina

651
00:33:34,100 --> 00:33:38,970
pridėti 1 jų nenuosavas dėžutę.

652
00:33:38,970 --> 00:33:51,000
Taigi, "nenuosavas (dainuoti)" + = 1 ", tada" kita "
Aš ruošiuosi padaryti "priors (dainininkas)

653
00:33:51,000 --> 00:33:55,000
= 1. "Prasminga?

654
00:33:55,000 --> 00:34:00,080
>> Taigi, jei ji neegzistuoja aš tiesiog
kaip 1, kitaip aš tiesiog pridėkite 1.

655
00:34:00,080 --> 00:34:11,280
Gerai, kad dabar visi, kad man liko daryti
taip pat pridėti kiekvieno iš žodžių

656
00:34:11,280 --> 00:34:12,290
tikimybės.

657
00:34:12,290 --> 00:34:14,889
Taigi turiu suskaičiuoti, kiek kartų
Matau kiekvienas iš žodžių.

658
00:34:14,889 --> 00:34:18,780
Taigi, aš tiesiog padaryti kitą
už linijos į liniją.

659
00:34:18,780 --> 00:34:25,190
>> Taigi pirmas dalykas, kad aš ruošiuosi padaryti tai
patikrinti, ar dainininkė jau turi

660
00:34:25,190 --> 00:34:26,969
tikimybių matrica.

661
00:34:26,969 --> 00:34:31,739
Taigi, aš patikrinti, jei atlikėjas nėra
turi tikimybių matrica, aš tiesiog

662
00:34:31,739 --> 00:34:34,480
ketina inicijuoti vieną jų.

663
00:34:34,480 --> 00:34:36,400
Tai net ne masyvas, atsiprašau,
tai žodyną.

664
00:34:36,400 --> 00:34:43,080
Taigi dainininkas tikimybės vyksta
būti atvira žodynas, todėl aš

665
00:34:43,080 --> 00:34:45,830
tik inicijuojant už jį žodyną.

666
00:34:45,830 --> 00:34:46,820
Gerai?

667
00:34:46,820 --> 00:34:58,330
>> Ir dabar aš iš tikrųjų gali padaryti už linijos
apskaičiuoti kiekvieno iš žodžių '

668
00:34:58,330 --> 00:35:00,604
tikimybės.

669
00:35:00,604 --> 00:35:01,540
Gerai.

670
00:35:01,540 --> 00:35:04,160
Taigi, ką aš galiu padaryti, tai už linijos.

671
00:35:04,160 --> 00:35:06,590
Taigi, aš tik ketina pakartoti
per masyvo.

672
00:35:06,590 --> 00:35:15,320
Taigi būdas, kad aš galiu padaryti, kad Python
yra "for i in asortimentą." Nuo 1

673
00:35:15,320 --> 00:35:19,200
nes noriu pradėti antrąjį
elementas, nes pirmasis yra

674
00:35:19,200 --> 00:35:20,260
dainininkas pavadinimas.

675
00:35:20,260 --> 00:35:24,990
Taigi iš vienos iki
linijos ilgis.

676
00:35:24,990 --> 00:35:29,760
Ir kai aš svyruoti ji iš tikrųjų pereiti nuo
kaip čia nuo 1 iki len iš

677
00:35:29,760 --> 00:35:30,740
linijos minus 1.

678
00:35:30,740 --> 00:35:33,810
Taigi ji jau daro, kad daro ką
n minus 1 už masyvų, kuris yra labai

679
00:35:33,810 --> 00:35:35,500
patogu.

680
00:35:35,500 --> 00:35:37,850
Prasminga?

681
00:35:37,850 --> 00:35:42,770
>> Taigi, kiekvienas iš jų, ką aš ruošiuosi
padaryti, tai, kaip ir kitas,

682
00:35:42,770 --> 00:35:50,320
Aš ruošiuosi patikrinti, ar šioje žodis
pozicija eilutėje jau

683
00:35:50,320 --> 00:35:51,570
tikimybės.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
Ir tada, kaip sakiau čia tikimybės
žodžiai, kaip ir aš

686
00:35:57,260 --> 00:35:58,400
"tikimybes (dainininkų)".

687
00:35:58,400 --> 00:35:59,390
Taigi dainininkės vardas.

688
00:35:59,390 --> 00:36:03,450
Taigi, jei jis jau
"Probabilit (atlikėjas)", tai reiškia, kad aš

689
00:36:03,450 --> 00:36:11,960
norite pridėti 1 į jį, todėl aš ruošiuosi
padaryti "tikimybes (dainininkas)" ir

690
00:36:11,960 --> 00:36:14,100
žodis yra vadinamas "linija (i).

691
00:36:14,100 --> 00:36:22,630
Aš ruošiuosi įdėti 1 ir "kitas" aš tiesiog
ketina inicijuoti jį 1.

692
00:36:22,630 --> 00:36:23,880
"Linija (i).

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Prasminga?

695
00:36:28,420 --> 00:36:30,180
>> Taigi, aš skaičiuojami visi matricos.

696
00:36:30,180 --> 00:36:36,580
Taigi, dabar visi, kad aš turiu padaryti
tai vienas yra tiesiog "grįžti priors,

697
00:36:36,580 --> 00:36:43,230
tikimybės ir žodžiai ". tegul
pamatyti, jei yra kokių nors, Gerai.

698
00:36:43,230 --> 00:36:45,690
Atrodo viskas veikia iki šiol.

699
00:36:45,690 --> 00:36:46,900
Taigi, tai turi prasmę?

700
00:36:46,900 --> 00:36:47,750
Tam tikru būdu?

701
00:36:47,750 --> 00:36:49,280
Gerai.

702
00:36:49,280 --> 00:36:51,980
Taigi, dabar turiu visas tikimybes.

703
00:36:51,980 --> 00:36:55,100
Taigi, dabar vienintelis dalykas, kas man liko
yra tiesiog turėti tą daiktą, kad

704
00:36:55,100 --> 00:36:58,650
apskaičiuoja visas produktą
tikimybės, kai gausiu dainų.

705
00:36:58,650 --> 00:37:06,270
>> Taigi galime sakyti, kad aš noriu dabar vadiname
ši funkcija "klasifikuoti ()" ir

706
00:37:06,270 --> 00:37:08,880
dalykas, kad funkcija trunka
yra tiesiog argumentas.

707
00:37:08,880 --> 00:37:13,170
Tarkime, "Baby, aš esu ant ugnies", o tai
ketina išsiaiškinti, kas yra

708
00:37:13,170 --> 00:37:14,490
Tikimybė, kad tai Gaga?

709
00:37:14,490 --> 00:37:16,405
Kokia yra tikimybė,
kad tai yra Katie?

710
00:37:16,405 --> 00:37:19,690
Skamba gerai?

711
00:37:19,690 --> 00:37:25,750
Taigi aš tiesiog teks sukurti
nauja funkcija vadinama "klasifikuoti ()" ir

712
00:37:25,750 --> 00:37:29,180
ji ketina imtis tam tikrų
žodžiai taip pat.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
Ir be žodžių aš taip pat
turi siųsti priors,

715
00:37:36,160 --> 00:37:37,700
tikimybės ir žodžiai.

716
00:37:37,700 --> 00:37:44,000
Taigi, aš ruošiuosi siųsti Lyrics, priors,
tikimybės, žodžiai.

717
00:37:44,000 --> 00:37:51,840
>> Taigi tai yra atsižvelgiant Lyrics, priors,
tikimybės, žodžiai.

718
00:37:51,840 --> 00:37:53,530
Taigi, ką daryti?

719
00:37:53,530 --> 00:37:57,180
Ji iš esmės ketina eiti per visus
galimi kandidatai, kad jūs

720
00:37:57,180 --> 00:37:58,510
turėti kaip dainininkė.

721
00:37:58,510 --> 00:37:59,425
Ir kur tie kandidatai?

722
00:37:59,425 --> 00:38:01,020
Jie Per Priors, tiesa?

723
00:38:01,020 --> 00:38:02,710
Taigi turiu visus tuos ten.

724
00:38:02,710 --> 00:38:07,870
Taigi, aš ruošiuosi žodyną
visų galimų kandidatų.

725
00:38:07,870 --> 00:38:14,220
Ir tada kiekvieno kandidato
nenuosavas, taigi tai reiškia, kad jis ketina

726
00:38:14,220 --> 00:38:17,740
būti Gaga, Katie, jei aš turėjo
daugiau būtų daugiau.

727
00:38:17,740 --> 00:38:20,410
Aš ruošiuosi pradėti skaičiuoti
ši tikimybė.

728
00:38:20,410 --> 00:38:28,310
Tikimybė, kaip matėme
PowerPoint išankstiniai kartų

729
00:38:28,310 --> 00:38:30,800
produkto kiekvienos
kitos tikimybės.

730
00:38:30,800 --> 00:38:32,520
>> Taigi aš galiu padaryti pats čia.

731
00:38:32,520 --> 00:38:36,330
Aš galiu tik daryti tikimybė yra
Iš pradžių tik prieš.

732
00:38:36,330 --> 00:38:40,340
Taigi nenuosavas Kandidato.

733
00:38:40,340 --> 00:38:40,870
Teisė?

734
00:38:40,870 --> 00:38:45,360
Ir dabar turiu kartotis per visus
Žodžiai, kuriuos aš turiu dainų būtų

735
00:38:45,360 --> 00:38:48,820
galima pridėti tikimybę
kiekvienam iš jų, gerai?

736
00:38:48,820 --> 00:38:57,900
Taigi, "už žodžio žodžiai" ką aš ruošiuosi
reikia padaryti, tai, jei žodis yra

737
00:38:57,900 --> 00:39:01,640
"tikimybes (kandidatas)", kuris
reiškia, kad tai žodis, kuris

738
00:39:01,640 --> 00:39:03,640
Kandidatas turi savo dainų -

739
00:39:03,640 --> 00:39:05,940
Pavyzdžiui, "kūdikis" ir Gaga -

740
00:39:05,940 --> 00:39:11,710
ką aš ruošiuosi padaryti, tai, kad
tikimybė ketina dauginamas

741
00:39:11,710 --> 00:39:22,420
iki 1 plius tikimybės
už šio žodžio kandidatas.

742
00:39:22,420 --> 00:39:25,710
Ir tai vadinama "žodis".

743
00:39:25,710 --> 00:39:32,440
Tai padalintas iš žodžių skaičiaus
kad turiu už tą kandidatą.

744
00:39:32,440 --> 00:39:37,450
Bendras žodžių skaičius, kad turiu
dainininkas, kad aš žiūri.

745
00:39:37,450 --> 00:39:40,290
>> "Kitas". tai reiškia, kad jis naujas žodis
todėl būčiau kaip pavyzdžiui,

746
00:39:40,290 --> 00:39:41,860
"Ugnis" Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Taigi aš tiesiog noriu padaryti 1 per
"Žodis (kandidatas).

748
00:39:45,760 --> 00:39:47,710
Taigi aš nenoriu įdėti šią sąvoką čia.

749
00:39:47,710 --> 00:39:50,010
>> Taigi, tai bus iš esmės
kopijavimo ir įdėjimo tai.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Bet aš ištrinti šią dalį.

752
00:39:56,000 --> 00:39:57,610
Taigi, tai tik bus 1 per tai.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Skamba gerai?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
Ir dabar pabaigoje, aš tik ketina
spausdinti kandidato vardas, pavardė ir

757
00:40:09,700 --> 00:40:15,750
tikimybė, kad jūs turite iš
turintys "S savo dainų.

758
00:40:15,750 --> 00:40:16,200
Prasminga?

759
00:40:16,200 --> 00:40:18,390
Ir aš iš tikrųjų net
reikia šį žodyną.

760
00:40:18,390 --> 00:40:19,510
Prasminga?

761
00:40:19,510 --> 00:40:21,810
>> Taigi, pažiūrėkime, jei tai iš tiesų veikia.

762
00:40:21,810 --> 00:40:24,880
Taigi, jei aš paleisti tai, ji neveikia.

763
00:40:24,880 --> 00:40:26,130
Palaukti vieną sekundę.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Žodžiai (kandidatas)", "žodžiai (kandidatas)",
tai

766
00:40:31,720 --> 00:40:33,750
masyvo pavadinimas.

767
00:40:33,750 --> 00:40:41,435
Gerai Taigi, ji sako, yra keletas klaidų
dėl kandidato Priors.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Leiskite man tiesiog chill truputį.

770
00:40:48,760 --> 00:40:50,360
Gerai.

771
00:40:50,360 --> 00:40:51,305
Pabandykime.

772
00:40:51,305 --> 00:40:51,720
Gerai.

773
00:40:51,720 --> 00:40:58,710
>> Taigi ji suteikia Katy Perry turi tai
Tikimybė šio karto 10 iki

774
00:40:58,710 --> 00:41:02,200
atėmus 7, o Gaga turi tai
kartus nuo 10 iki minus 6.

775
00:41:02,200 --> 00:41:05,610
Taigi matote, tai rodo, kad Gaga
turi didesnę tikimybę.

776
00:41:05,610 --> 00:41:09,260
Taigi "Baby, aš on Fire" yra
tikriausiai GaGa daina.

777
00:41:09,260 --> 00:41:10,580
Prasminga?

778
00:41:10,580 --> 00:41:12,030
Taigi tai, ką mes padarėme.

779
00:41:12,030 --> 00:41:16,010
>> Šis kodas bus paskelbtas internete,
Taigi jūs vaikinai gali jį patikrinti.

780
00:41:16,010 --> 00:41:20,720
Gal naudoti kai jį, jei norite
daryti projektą ar kažką panašaus.

781
00:41:20,720 --> 00:41:22,150
Gerai.

782
00:41:22,150 --> 00:41:25,930
Tai buvo tiesiog parodyti
kas skaičiuojamoji

783
00:41:25,930 --> 00:41:27,230
lingvistika kodas atrodo.

784
00:41:27,230 --> 00:41:33,040
Bet dabar eikime daugiau
aukšto lygio dalykų.

785
00:41:33,040 --> 00:41:33,340
Gerai.

786
00:41:33,340 --> 00:41:35,150
>> Taigi kitų problemų aš
kalbu apie -

787
00:41:35,150 --> 00:41:37,550
segmentacijos problemą
yra pirmoji iš jų.

788
00:41:37,550 --> 00:41:40,820
Taigi jūs turite čia japonų.

789
00:41:40,820 --> 00:41:43,420
Ir tada pamatysite, kad
yra be tarpų.

790
00:41:43,420 --> 00:41:49,110
Taigi tai iš esmės reiškia, kad jis
kėdės viršaus, tiesa?

791
00:41:49,110 --> 00:41:50,550
Jūs kalbate japonų kalbos?

792
00:41:50,550 --> 00:41:52,840
Tai kėdės viršaus, tiesa?

793
00:41:52,840 --> 00:41:54,480
>> STUDENTAS: aš nežinau, ką
kandži ten yra.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS Freitas: Jis [PASISAKYMAS Japonų]

795
00:41:57,010 --> 00:41:57,950
Gerai.

796
00:41:57,950 --> 00:42:00,960
Taigi tai iš esmės reiškia, kėdė viršuje.

797
00:42:00,960 --> 00:42:03,620
Taigi, jei jums teko padėkite tarpą
būtų čia.

798
00:42:03,620 --> 00:42:05,970
Ir tada jūs turite [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Kuris iš esmės reiškia Mr Ueda.

800
00:42:09,040 --> 00:42:13,180
Ir pamatysite, kad "Ueda" ir jūs turite
vietos ir tada "san". Taigi matote, kad

801
00:42:13,180 --> 00:42:15,470
čia "UE" yra tarsi savaime.

802
00:42:15,470 --> 00:42:17,750
Ir čia jis turi charakterį
šalia jos.

803
00:42:17,750 --> 00:42:21,720
>> Taigi, tai ne kaip tose kalbose
ženklai reiškia žodį, nes tai

804
00:42:21,720 --> 00:42:23,980
tiesiog įdėti erdves daug.

805
00:42:23,980 --> 00:42:25,500
Veikėjai yra susiję tarpusavyje.

806
00:42:25,500 --> 00:42:28,680
Ir jie gali būti kartu
kaip du, trys, vienas.

807
00:42:28,680 --> 00:42:34,520
Taigi, jūs iš tikrųjų turite sukurti kokio nors
iš būdų išleisti tuos tarpus.

808
00:42:34,520 --> 00:42:38,850
>> Ir tai yra tai, kad kiekvieną kartą, kai jūs gaunate
duomenys iš šių Azijos kalbomis,

809
00:42:38,850 --> 00:42:40,580
viskas ateina unsegmented.

810
00:42:40,580 --> 00:42:45,940
Kadangi niekas, kas rašo japonų
ar kinų rašo su tarpais.

811
00:42:45,940 --> 00:42:48,200
Kai rašote Kinija,
Japonijos jūs tiesiog parašyti viską

812
00:42:48,200 --> 00:42:48,710
be tarpų.

813
00:42:48,710 --> 00:42:52,060
Ji nėra net prasmės
įdėti erdvėse.

814
00:42:52,060 --> 00:42:57,960
Taigi, kai jūs gaunate duomenis, kai
Rytų Azijos kalba, jei norite

815
00:42:57,960 --> 00:43:00,760
iš tikrųjų ką nors daryti su tuo
jūs turite segmente pirmas.

816
00:43:00,760 --> 00:43:05,130
>> Pagalvokite apie tai darome dėl pavyzdį
kad be tarpų žodžiai.

817
00:43:05,130 --> 00:43:07,950
Taigi vieninteliai žodžiai, kad jūs turite
bus sakiniai, tiesa?

818
00:43:07,950 --> 00:43:09,470
Atskirti laikotarpius.

819
00:43:09,470 --> 00:43:13,930
Bet tada turinti tik nuosprendis
tikrai ne padėti duoti informaciją

820
00:43:13,930 --> 00:43:17,760
kas tie žodžiai yra iš.

821
00:43:17,760 --> 00:43:18,120
Teisė?

822
00:43:18,120 --> 00:43:20,010
Taigi turėtumėte kelia tarpai pirmas.

823
00:43:20,010 --> 00:43:21,990
Taigi, kaip jūs galite padaryti, kad?

824
00:43:21,990 --> 00:43:24,920
>> Taigi kalbama apie kalbos idėja
modelis, kuris yra kažkas tikrai

825
00:43:24,920 --> 00:43:26,870
svarbu Skaičiuojamasis
lingvistika.

826
00:43:26,870 --> 00:43:32,790
Taigi kalbos modelis yra iš esmės
lentelėje tikimybes, kad rodo

827
00:43:32,790 --> 00:43:36,260
visų pirma, kas yra tikimybė,
turintys žodį kalba?

828
00:43:36,260 --> 00:43:39,590
Taigi rodo, kaip dažnai žodis.

829
00:43:39,590 --> 00:43:43,130
Ir tada taip pat rodo, kad ryšio
tarp sakinyje žodžių.

830
00:43:43,130 --> 00:43:51,500
>> Taigi, pagrindinė idėja yra, jei nepažįstamasis atėjo
jums ir sakė sakinys

831
00:43:51,500 --> 00:43:55,600
jums, kas yra tikimybė, kad,
Pavyzdžiui, "tai yra mano sesuo [? GTF?]

832
00:43:55,600 --> 00:43:57,480
buvo sakinys, kad asmuo sakė?

833
00:43:57,480 --> 00:44:00,380
Taigi akivaizdu, kai kurie sakiniai
dažniau nei kiti.

834
00:44:00,380 --> 00:44:04,450
Pavyzdžiui, "labas rytas" arba "geras
naktį "arba" Ei ten, "kur kas daugiau

835
00:44:04,450 --> 00:44:08,260
bendro, nei dauguma sakinių
kad mes turime angliškai.

836
00:44:08,260 --> 00:44:11,060
Taigi, kodėl šie sakiniai
dažniau?

837
00:44:11,060 --> 00:44:14,060
>> Visų pirma, tai yra todėl, kad jūs turite
žodžiai, kurie dažniau.

838
00:44:14,060 --> 00:44:20,180
Taigi, pavyzdžiui, jei jūs sakote, šuo
didelis, ir šuo yra milžiniška, jūs

839
00:44:20,180 --> 00:44:23,880
paprastai tikriausiai išgirsti šuo yra didelis
dažniau, nes "didelis" yra daugiau

840
00:44:23,880 --> 00:44:27,260
dažnai anglų kalba ne "milžiniška".
Taigi, vienas iš

841
00:44:27,260 --> 00:44:30,100
viskas yra žodis dažnis.

842
00:44:30,100 --> 00:44:34,490
>> Antras dalykas, kuris yra tikrai
Svarbu yra tik

843
00:44:34,490 --> 00:44:35,490
Kad žodžių.

844
00:44:35,490 --> 00:44:39,500
Taigi, tai įprasta sakyti "katė
Dėžės viduje. ", tačiau jūs neturite paprastai

845
00:44:39,500 --> 00:44:44,250
pamatyti "Dėžės vidus yra katė." taip
matote, kad yra tam tikrų svarba

846
00:44:44,250 --> 00:44:46,030
į žodžių tvarka.

847
00:44:46,030 --> 00:44:50,160
Jūs galite ne tik pasakyti, kad tie du
sakiniai turi tokią pačią tikimybę

848
00:44:50,160 --> 00:44:53,010
tik todėl, kad jie turi tuos pačius žodžius.

849
00:44:53,010 --> 00:44:55,550
Jūs iš tikrųjų turite rūpintis
apie tvarka, kaip gerai.

850
00:44:55,550 --> 00:44:57,650
Prasmės?

851
00:44:57,650 --> 00:44:59,490
>> Taigi, ką mes galime padaryti?

852
00:44:59,490 --> 00:45:01,550
Taigi, ką aš galėtų pabandyti jums?

853
00:45:01,550 --> 00:45:04,400
Bandau jums tai, ką mes
skambinti n-gramų modelius.

854
00:45:04,400 --> 00:45:09,095
Taigi n-gramų modeliai iš esmės prisiima
kad už kiekvieną žodį,

855
00:45:09,095 --> 00:45:10,960
turite sakinyje.

856
00:45:10,960 --> 00:45:15,020
Tai turintys tikimybė, kad
Žodis čia priklauso ne tik nuo

857
00:45:15,020 --> 00:45:18,395
dažnis šio žodžio ta kalba,
bet ir žodžių,

858
00:45:18,395 --> 00:45:19,860
yra aplink jį.

859
00:45:19,860 --> 00:45:25,810
>> Taigi, pavyzdžiui, paprastai, kai matai
kažkas panašaus ar ne jūs

860
00:45:25,810 --> 00:45:28,040
tikriausiai pamatyti
daiktavardis po jo, tiesa?

861
00:45:28,040 --> 00:45:31,750
Nes kai turite prielinksnį
paprastai užtrunka daiktavardį po jo.

862
00:45:31,750 --> 00:45:35,540
Arba, jei turite veiksmažodis, kuris yra pereinamas
jūs paprastai ketinate

863
00:45:35,540 --> 00:45:36,630
turi daiktavardžio frazę.

864
00:45:36,630 --> 00:45:38,780
Taigi jis ketina turėti daiktavardžio
kažkur aplink jį.

865
00:45:38,780 --> 00:45:44,950
>> Taigi, iš esmės, ką ji daro, yra tai, kad
mano, kad svarbu turėti tikimybę

866
00:45:44,950 --> 00:45:47,960
žodžiai vienas šalia kito, kai
jūs apskaičiuoti

867
00:45:47,960 --> 00:45:49,050
tikimybė sakinyje.

868
00:45:49,050 --> 00:45:50,960
Ir tai, ką kalba
modelis iš esmės.

869
00:45:50,960 --> 00:45:54,620
Tiesiog sakydamas kas tikimybė
turėti tam tikrą

870
00:45:54,620 --> 00:45:57,120
sakinys kalba?

871
00:45:57,120 --> 00:45:59,110
Taigi, kodėl tai, kad naudinga, iš esmės?

872
00:45:59,110 --> 00:46:02,390
Ir visų pirma, kas yra
n-gramas modelis, tada?

873
00:46:02,390 --> 00:46:08,850
>> Taigi n-gramas modelis reiškia, kad
kiekvienas žodis, priklauso nuo

874
00:46:08,850 --> 00:46:12,700
kitas N atėmus 1 žodžiai.

875
00:46:12,700 --> 00:46:18,150
Taigi, iš esmės, tai reiškia, kad jei man atrodo,
Pavyzdžiui, tuo CS50 TF kai

876
00:46:18,150 --> 00:46:21,500
Aš apskaičiuoti tikimybę
sakinys, jūs būsite kaip "

877
00:46:21,500 --> 00:46:25,280
tikimybė turintys žodį ""
kartų turintys tikimybė "

878
00:46:25,280 --> 00:46:31,720
CS50 "Times turintys tikimybė
"CS50 TF." Taigi, iš esmės, tikiuosi

879
00:46:31,720 --> 00:46:35,720
visos įmanomos galimybės jį tempiant.

880
00:46:35,720 --> 00:46:41,870
>> Ir tada paprastai, kai jūs darote tai,
kaip projekte, jūs įtraukėte N turi būti

881
00:46:41,870 --> 00:46:42,600
mažos vertės.

882
00:46:42,600 --> 00:46:45,930
Taigi, paprastai turi bigrams ar trigrams.

883
00:46:45,930 --> 00:46:51,090
Taigi, kad jūs tiesiog suskaičiuoti du tariant,
grupė iš dviejų žodžių ar trijų žodžių,

884
00:46:51,090 --> 00:46:52,620
tik veiklos klausimais.

885
00:46:52,620 --> 00:46:56,395
O taip pat, nes gal jei turite
kažką panašaus į "The CS50 TF." Jei

886
00:46:56,395 --> 00:47:00,510
turi "TF", tai labai svarbu, kad
"CS50" yra šalia jo, tiesa?

887
00:47:00,510 --> 00:47:04,050
Šie du dalykai yra paprastai
šalia vienas kito.

888
00:47:04,050 --> 00:47:06,410
>> Jei manote, kad "TF", tai tikriausiai
teks ko

889
00:47:06,410 --> 00:47:07,890
klasė tai TF'ing už.

890
00:47:07,890 --> 00:47:11,330
Taip pat "" yra tikrai svarbus
už CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Bet jei jūs turite ką nors panašaus į "The CS50
TF nuėjo į klasę ir davė savo

892
00:47:14,570 --> 00:47:20,060
studentai kai saldainiai. "Candy" ir ""
neturi nieko bendra su tikrai, tiesa?

893
00:47:20,060 --> 00:47:23,670
Jie taip toli viena nuo kitos, kad
tai tikrai ne klausimas, ką

894
00:47:23,670 --> 00:47:25,050
žodžiai turite.

895
00:47:25,050 --> 00:47:31,210
>> Taigi atlikdami Bigramų arba trigram, jis
tiesiog reiškia, kad jūs apriboti

896
00:47:31,210 --> 00:47:33,430
sau kai kurių žodžių
kurios yra aplink.

897
00:47:33,430 --> 00:47:35,810
Prasmės?

898
00:47:35,810 --> 00:47:40,630
Taigi, kai jūs norite daryti segmentaciją,
Iš esmės, ką norite padaryti, tai pamatyti

899
00:47:40,630 --> 00:47:44,850
kokie yra visi galimi būdai,
galite segmentas bausmę.

900
00:47:44,850 --> 00:47:49,090
>> Toks, kad jums pamatyti, kas yra
Tikimybė, kad kiekvienos iš šių sakinių

901
00:47:49,090 --> 00:47:50,880
esama kalba?

902
00:47:50,880 --> 00:47:53,410
Taigi, ką jūs darote, yra kaip, gerai, tegul
man pabandyti įdėti erdvę čia.

903
00:47:53,410 --> 00:47:55,570
Taigi, jūs padėkite tarpą ten
ir jums pamatyti, kas yra

904
00:47:55,570 --> 00:47:57,590
Tikimybė šio sakinio?

905
00:47:57,590 --> 00:48:00,240
Tada esate kaip, gerai, gal
tai buvo ne tai, kad gerai.

906
00:48:00,240 --> 00:48:03,420
Taigi aš padėkite tarpą ten ir erdvė
ten, ir jums apskaičiuoti

907
00:48:03,420 --> 00:48:06,240
tikimybė dabar, ir pamatysite, kad
tai didesnė tikimybė.

908
00:48:06,240 --> 00:48:12,160
>> Taigi tai yra algoritmas vadinamas tango
segmentavimo algoritmas, kuris yra

909
00:48:12,160 --> 00:48:14,990
iš tikrųjų kažkas, kad būtų tikrai
cool projektą, kuris

910
00:48:14,990 --> 00:48:20,860
iš esmės trunka unsegmented tekstą, kuris
gali būti japonų ar kinų, o gal

911
00:48:20,860 --> 00:48:26,080
Lietuvių be tarpų ir bando įdėti
tarpai tarp žodžių ir ji

912
00:48:26,080 --> 00:48:29,120
kad naudojant kalbos modelį ir
bando pamatyti, kas yra didžiausias

913
00:48:29,120 --> 00:48:31,270
Tikimybė, galite gauti.

914
00:48:31,270 --> 00:48:32,230
Gerai.

915
00:48:32,230 --> 00:48:33,800
Taigi tai yra segmentacija.

916
00:48:33,800 --> 00:48:35,450
>> Dabar sintaksė.

917
00:48:35,450 --> 00:48:40,940
Taigi, sintaksė yra naudojama
tiek daug dalykų dabar.

918
00:48:40,940 --> 00:48:44,880
Taigi, grafikas Paieška, už Siri
gana daug bet natūrali

919
00:48:44,880 --> 00:48:46,490
kalbos apdorojimas turite.

920
00:48:46,490 --> 00:48:49,140
Taigi, kas yra svarbu,
viskas apie sintaksę?

921
00:48:49,140 --> 00:48:52,390
Taigi, sakiniai paprastai turi
ką mes vadiname sudedamąsias dalis.

922
00:48:52,390 --> 00:48:57,080
Kuris yra lyg žodžių grupė
kad turime į sakinio funkciją.

923
00:48:57,080 --> 00:49:02,220
Ir jie tikrai negali būti
vienas nuo kito.

924
00:49:02,220 --> 00:49:07,380
>> Taigi, jei aš sakau, pavyzdžiui, "Laura myli
Milo. "Žinau, kad" Laura "yra

925
00:49:07,380 --> 00:49:10,180
sudedamoji ir tada "myli
Milo ", taip pat dar vienas.

926
00:49:10,180 --> 00:49:16,860
Kadangi jūs negalite pasakyti, kaip "Lauren Milo
myli "turi tą pačią reikšmę.

927
00:49:16,860 --> 00:49:18,020
Jis nesiruošia turėti
pačią reikšmę.

928
00:49:18,020 --> 00:49:22,500
Arba aš negaliu pasakyti, pavyzdžiui, "Milo Lauren
myli. "Ne viskas yra tas pats

929
00:49:22,500 --> 00:49:25,890
reiškia tai, kad.

930
00:49:25,890 --> 00:49:31,940
>> Jiedu daugiau svarbių dalykų, apie
sintaksė yra leksikos tipų, kurie yra

931
00:49:31,940 --> 00:49:35,390
iš esmės funkcija, kad jūs
turi žodžių patys.

932
00:49:35,390 --> 00:49:39,180
Taigi, jūs turite žinoti, kad "Laura"
Milo "yra daiktavardžiai.

933
00:49:39,180 --> 00:49:41,040
"Meilė" yra veiksmažodis.

934
00:49:41,040 --> 00:49:45,660
Ir antras svarbus dalykas yra tai,
kad jie Frazės tipai.

935
00:49:45,660 --> 00:49:48,990
Taigi jūs žinote, kad "myli Milo"
iš tikrųjų žodinis frazė.

936
00:49:48,990 --> 00:49:52,390
Taigi, kai aš sakau "Lauren", "Aš žinau, kad
Lauren daro kažką.

937
00:49:52,390 --> 00:49:53,620
Ką ji daro?

938
00:49:53,620 --> 00:49:54,570
Ji myli Milo.

939
00:49:54,570 --> 00:49:56,440
Todėl visa tai.

940
00:49:56,440 --> 00:50:01,640
Tačiau jos sudedamosios dalys yra
daiktavardis ir veiksmažodis.

941
00:50:01,640 --> 00:50:04,210
Tačiau kartu jie sudaro veiksmažodis frazę.

942
00:50:04,210 --> 00:50:08,680
>> Taigi, ką mes galime iš tikrųjų su
Kompiuterinė lingvistika?

943
00:50:08,680 --> 00:50:13,810
Taigi, jei aš turiu kažką, pavyzdžiui
"draugai Allison". Aš pamatyti, jei aš tiesiog

944
00:50:13,810 --> 00:50:17,440
nebuvo sintaksės medis norėčiau žinoti, kad
"Draugai" yra daiktavardis frazė yra

945
00:50:17,440 --> 00:50:21,480
daiktavardžio ir tada "iš Allison" yra
Esperanto frazę, kuri "iš" yra

946
00:50:21,480 --> 00:50:24,810
pasiūlymas ir "Allison" yra daiktavardis.

947
00:50:24,810 --> 00:50:30,910
Ką galėčiau padaryti, tai išmokyti savo kompiuterį
kad kai turiu daiktavardžio frazę vieną ir

948
00:50:30,910 --> 00:50:33,080
tada Esperanto frazė.

949
00:50:33,080 --> 00:50:39,020
Taigi, šiuo atveju, "draugai", tada "iš
Milo "Žinau, kad tai reiškia, kad

950
00:50:39,020 --> 00:50:43,110
NP2, antrasis valdo Np1.

951
00:50:43,110 --> 00:50:47,680
>> Taigi aš galiu sukurti tam tikrą susijusių natūra,
kai funkcija natūra už jį.

952
00:50:47,680 --> 00:50:52,370
Taigi, kai aš matau šią struktūrą, kuri
tiksliai atitinka su "draugais

953
00:50:52,370 --> 00:50:56,030
Allison "Aš žinau, kad Allison
valdo draugų.

954
00:50:56,030 --> 00:50:58,830
Taigi, draugai yra kažkas
kad Allison turi.

955
00:50:58,830 --> 00:50:59,610
Prasminga?

956
00:50:59,610 --> 00:51:01,770
Taigi tai iš esmės yra kas
Grafikas Paieška daro.

957
00:51:01,770 --> 00:51:04,360
Jis tiesiog sukuria taisykles
dėl daugelio dalykų.

958
00:51:04,360 --> 00:51:08,190
Taigi "draugai Allison", "my friends
kurie gyvena Kembridže "," mano draugai

959
00:51:08,190 --> 00:51:12,970
kurie eina į Harvardo. "Jis sukuria taisykles
dėl visų šių dalykų.

960
00:51:12,970 --> 00:51:14,930
>> Dabar mašininis vertimas.

961
00:51:14,930 --> 00:51:18,850
Taigi, mašininio vertimo, taip pat
kažkas statistikos.

962
00:51:18,850 --> 00:51:21,340
Ir iš tikrųjų, jei jūs gaunate dalyvauti
Kompiuterinė lingvistika, iš daug

963
00:51:21,340 --> 00:51:23,580
jūsų stuff bus statistika.

964
00:51:23,580 --> 00:51:26,670
Taigi, kaip darau pavyzdį
Tikimybių daug, kad buvau

965
00:51:26,670 --> 00:51:30,540
apskaičiuoti, ir tada jums tai
labai mažas skaičius, kad tai galutinis

966
00:51:30,540 --> 00:51:33,180
tikimybė, ir kad tai, ką
suteikia jums atsakymą.

967
00:51:33,180 --> 00:51:37,540
Mašininis vertimas taip pat naudoja
statistinis modelis.

968
00:51:37,540 --> 00:51:44,790
Ir jei jūs norite galvoti apie mašiną
vertimas paprasčiausias

969
00:51:44,790 --> 00:51:48,970
Beje, tai, ką jūs galite galvoti tik
išversti pažodžiui, tiesa?

970
00:51:48,970 --> 00:51:52,150
>> Kai jūs mokotės kalbą
pirmą kartą, tai paprastai kas

971
00:51:52,150 --> 00:51:52,910
jūs, tiesa?

972
00:51:52,910 --> 00:51:57,050
Jei norite, galite išversti sakinį
Jūsų kalbos į kalbą

973
00:51:57,050 --> 00:52:00,060
jūs mokotės, paprastai pirmiausia, jūs
išversti kiekvienas iš žodžių

974
00:52:00,060 --> 00:52:03,180
individualiai, ir tada bandyti
įdėti žodžius į vietą.

975
00:52:03,180 --> 00:52:07,100
>> Taigi, jei aš norėjau išversti tai,
[PASISAKYMAS PORTUGALIJOS]

976
00:52:07,100 --> 00:52:10,430
kuris reiškia "balta katė pabėgo."
Jei aš norėjau jį išversti iš

977
00:52:10,430 --> 00:52:13,650
Iš portugalų į anglų, ką aš
gali padaryti, tai, pirma, aš tiesiog

978
00:52:13,650 --> 00:52:14,800
išversti pažodžiui.

979
00:52:14,800 --> 00:52:20,570
Taigi, "o" yra "," gato "," katė "
"Branco", "balta", o tada "fugio" yra

980
00:52:20,570 --> 00:52:21,650
"Pabėgo".

981
00:52:21,650 --> 00:52:26,130
>> Taigi turiu visus žodžius čia
bet jie ne tam.

982
00:52:26,130 --> 00:52:29,590
Tai kaip "katė balta pabėgo"
kuris yra gramatikos.

983
00:52:29,590 --> 00:52:34,490
Taigi, tada aš gali turėti antrąjį žingsnį, kuris
bus rasti idealą

984
00:52:34,490 --> 00:52:36,610
pozicija kiekvienai iš žodžių.

985
00:52:36,610 --> 00:52:40,240
Taigi aš žinau, kad aš iš tikrųjų noriu turėti
"Balta katė", o ne "katė balta." Taip

986
00:52:40,240 --> 00:52:46,050
ką aš galiu padaryti, tai, labiausiai naivus metodą
būtų sukurti visi

987
00:52:46,050 --> 00:52:49,720
galimų kombinacijų
žodžiai, pozicijų.

988
00:52:49,720 --> 00:52:53,300
Ir tada pamatysite, kurie iš jų turi
didžiausia tikimybė pagal

989
00:52:53,300 --> 00:52:54,970
mano kalbos modelį.

990
00:52:54,970 --> 00:52:58,390
Ir tada, kai aš rasti vieną, kuri turi
didžiausia tikimybė tai, kuri yra

991
00:52:58,390 --> 00:53:01,910
tikriausiai "balta katė pabėgo"
tai mano vertimas.

992
00:53:01,910 --> 00:53:06,710
>> Ir tai yra paprastas būdas paaiškinti
kaip apie mašininį vertimą daug

993
00:53:06,710 --> 00:53:07,910
algoritmai dirbti.

994
00:53:07,910 --> 00:53:08,920
Ar tai prasminga?

995
00:53:08,920 --> 00:53:12,735
Tai taip pat yra kažkas tikrai įdomu
kad vaikinai gali gal tyrinėti

996
00:53:12,735 --> 00:53:13,901
galutinis projektas, taip?

997
00:53:13,901 --> 00:53:15,549
>> STUDENTAS: Na, sakė, kad tai buvo
naivus būdas, todėl tai, kas

998
00:53:15,549 --> 00:53:17,200
ne naivus būdas?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS Freitas: ne naivus būdas?

1000
00:53:18,400 --> 00:53:19,050
Gerai.

1001
00:53:19,050 --> 00:53:22,860
Taigi pirmas dalykas, kad yra blogai
šis metodas yra tai, kad aš tiesiog išversti

1002
00:53:22,860 --> 00:53:24,330
žodžiai, žodis po žodžio.

1003
00:53:24,330 --> 00:53:30,570
Bet kartais turite žodžius,
gali turėti kelis vertimus.

1004
00:53:30,570 --> 00:53:32,210
Aš einu bandyti galvoti
kažką.

1005
00:53:32,210 --> 00:53:37,270
Pavyzdžiui, "Manga" Portugalijos skardinę
būti arba "išdarkyti" arba "rankovės". Taip

1006
00:53:37,270 --> 00:53:40,450
kai bandote išversti žodį
žodžiu, ji gali būti suteikti jums

1007
00:53:40,450 --> 00:53:42,050
kažkas, kad nėra jokios prasmės.

1008
00:53:42,050 --> 00:53:45,770
>> Taigi jūs tikrai norite pažvelgti visi
galimi vertimai

1009
00:53:45,770 --> 00:53:49,840
žodžiai ir pamatyti, visų pirma,
kas yra tvarka.

1010
00:53:49,840 --> 00:53:52,000
Mes kalbame apie permutating
ką?

1011
00:53:52,000 --> 00:53:54,150
Norėdami pamatyti visus galimus užsakymus ir
pasirinkti vieną su didžiausia

1012
00:53:54,150 --> 00:53:54,990
tikimybė?

1013
00:53:54,990 --> 00:53:57,860
Taip pat galite pasirinkti visas įmanomas
vertimai kiekvienas

1014
00:53:57,860 --> 00:54:00,510
Žodis ir tada pamatyti, -

1015
00:54:00,510 --> 00:54:01,950
kartu su kombinacijomis -

1016
00:54:01,950 --> 00:54:03,710
kurių vienas turi didžiausią tikimybę.

1017
00:54:03,710 --> 00:54:08,590
>> Be to, jūs taip pat galite peržvelgti ne
tik žodžiai, bet frazės.

1018
00:54:08,590 --> 00:54:11,700
todėl galite analizuoti ryšius tarp santykių
žodžiai ir tada gauti

1019
00:54:11,700 --> 00:54:13,210
geriau vertimo.

1020
00:54:13,210 --> 00:54:16,690
Taip pat kažkas, todėl šį semestrą
Aš iš tikrųjų daro tyrimus

1021
00:54:16,690 --> 00:54:19,430
Kinų-anglų kalbų mašininio vertimo,
taip verčiant iš

1022
00:54:19,430 --> 00:54:20,940
Kinų į anglų kalbą.

1023
00:54:20,940 --> 00:54:26,760
>> Ir ką mes darome, yra, be to, naudojant
statistinis modelis, kuris yra tik

1024
00:54:26,760 --> 00:54:30,570
matome mato tikimybes
kai sakinyje pozicija, aš

1025
00:54:30,570 --> 00:54:35,360
iš tikrųjų taip pat pridedant keletą sintaksę mano
modelis, sakydamas: oh, jei matau, tokio pobūdžio

1026
00:54:35,360 --> 00:54:39,420
statybos, tai yra tai, ką noriu
jį pakeisti, kai aš išversti.

1027
00:54:39,420 --> 00:54:43,880
Taigi, jūs taip pat galite pridėti šiek tiek natūra
elementas sintaksė padaryti

1028
00:54:43,880 --> 00:54:47,970
vertimas efektyviau
ir tikslesnis.

1029
00:54:47,970 --> 00:54:48,550
Gerai.

1030
00:54:48,550 --> 00:54:51,010
>> Taigi, kaip jūs galite pradėti, jei norite
daryti kažką Skaičiuojamasis

1031
00:54:51,010 --> 00:54:51,980
lingvistika?

1032
00:54:51,980 --> 00:54:54,560
>> Pirma, pasirinkti projektą
kuris apima kalbas.

1033
00:54:54,560 --> 00:54:56,310
Taigi, yra tiek daug ten.

1034
00:54:56,310 --> 00:54:58,420
Yra tiek daug dalykų, kuriuos galite padaryti.

1035
00:54:58,420 --> 00:55:00,510
Ir tada gali galvoti apie modelio
kad jūs galite naudoti.

1036
00:55:00,510 --> 00:55:04,710
Paprastai tai reiškia, kad mąstymas
prielaidos, kaip, pavyzdžiui, oi, kai buvau

1037
00:55:04,710 --> 00:55:05,770
kaip mąstymo dainų.

1038
00:55:05,770 --> 00:55:09,510
Aš, pavyzdžiui, gerai, jei noriu suprasti
iš rašęs tai, aš tikriausiai norite

1039
00:55:09,510 --> 00:55:15,400
ieškoti žodžiai asmuo naudojami ir
matyti, kas naudoja šį žodį labai dažnai.

1040
00:55:15,400 --> 00:55:18,470
Taigi pabandykite daryti prielaidas ir
pabandykite galvoti apie modelius.

1041
00:55:18,470 --> 00:55:21,395
Ir tada jūs taip pat galite ieškoti internete
tokios problemos, kad jūs turite,

1042
00:55:21,395 --> 00:55:24,260
ir jis ketina pasiūlyti
jums modelių, kurie gal

1043
00:55:24,260 --> 00:55:26,560
modeliuojama, kad dalykas gerai.

1044
00:55:26,560 --> 00:55:29,080
>> Ir taip pat visada galite rašyti man.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
Ir aš galiu tik atsakyti į jūsų klausimus.

1047
00:55:34,940 --> 00:55:38,600
Mes galime net gali susitikti, kad galiu
pateikti pasiūlymus, kaip būtų galima

1048
00:55:38,600 --> 00:55:41,490
įgyvendindami projektą.

1049
00:55:41,490 --> 00:55:45,610
Aš turiu galvoje, jei jūs įsitraukti
Kompiuterinė lingvistika, jis ketina

1050
00:55:45,610 --> 00:55:46,790
būti didelis.

1051
00:55:46,790 --> 00:55:48,370
Jūs einate pamatyti ten
Yra tiek daug galimybių.

1052
00:55:48,370 --> 00:55:52,060
Ir pramonė nori samdyti
jums taip blogai dėl to.

1053
00:55:52,060 --> 00:55:54,720
Taigi, aš tikiuosi jus vaikinai patiko tai.

1054
00:55:54,720 --> 00:55:57,030
Jei vaikinai turite kokių nors klausimų,
galite paklausti manęs po to.

1055
00:55:57,030 --> 00:55:58,280
Bet ačiū.

1056
00:55:58,280 --> 00:56:00,150