1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS FREITAS: Hei.

3
00:00:08,870 --> 00:00:09,980
Gaidīti visi.

4
00:00:09,980 --> 00:00:11,216
Mans vārds ir Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Es esmu junioru pie [dzirdams] studijām
datorzinātnes ar mērķtiecīgi

6
00:00:15,220 --> 00:00:16,410
skaitļošanas lingvistika.

7
00:00:16,410 --> 00:00:19,310
Tātad mans vidusskolas ir valodā
un valodu teorija.

8
00:00:19,310 --> 00:00:21,870
Es esmu patiesi satraukti, lai mācītu jums guys
mazliet par jomā.

9
00:00:21,870 --> 00:00:24,300
Tas ir ļoti aizraujoša joma mācīties.

10
00:00:24,300 --> 00:00:27,260
Arī ar lielu potenciālu
nākotnē.

11
00:00:27,260 --> 00:00:30,160
Tātad, es esmu patiesi satraukti, ka jūs guys
apsver projektus

12
00:00:30,160 --> 00:00:31,160
skaitļošanas lingvistika.

13
00:00:31,160 --> 00:00:35,460
Un man būs vairāk nekā laimīgs, lai konsultētu
kāds no jums, ja jūs nolemjat

14
00:00:35,460 --> 00:00:37,090
veikt kādu no tiem.

15
00:00:37,090 --> 00:00:40,010
>> Tātad, pirmkārt, kādi ir skaitļošanas
lingvistika?

16
00:00:40,010 --> 00:00:44,630
Tāpēc skaitļošanas lingvistika ir
krustojas valodniecībā un

17
00:00:44,630 --> 00:00:46,390
datorzinātnes.

18
00:00:46,390 --> 00:00:47,415
Tātad, kas ir lingvistika?

19
00:00:47,415 --> 00:00:48,490
Kas ir datorzinātnes?

20
00:00:48,490 --> 00:00:51,580
Nu no valodniecībā, ko
mēs esam valodas.

21
00:00:51,580 --> 00:00:54,960
Tāpēc lingvistika ir faktiski pētījums
dabiskā valodu vispār.

22
00:00:54,960 --> 00:00:58,330
Tik dabiski valoda - mēs runājam par
valoda, kas mēs faktiski izmantot, lai

23
00:00:58,330 --> 00:00:59,770
komunicēt ar otru.

24
00:00:59,770 --> 00:01:02,200
Tāpēc mēs neesam īsti runā
par C vai Java.

25
00:01:02,200 --> 00:01:05,900
Mēs runājam vairāk par angļu un
Ķīniešu un citās valodās, ko mēs

26
00:01:05,900 --> 00:01:07,780
izmantot komunicēt ar otru.

27
00:01:07,780 --> 00:01:12,470
>> Grūti lieta par to, ka
tagad mums ir gandrīz 7000

28
00:01:12,470 --> 00:01:14,260
valodām pasaulē.

29
00:01:14,260 --> 00:01:19,520
Tāpēc ir diezgan augsts šķirne
valodu, ko mēs varam mācīties.

30
00:01:19,520 --> 00:01:22,600
Un tad jūs domājat, ka tas ir iespējams,
ir ļoti grūti izdarīt, piemēram,

31
00:01:22,600 --> 00:01:26,960
tulkošana no vienas valodas uz
otrkārt, ņemot vērā, ka jums ir

32
00:01:26,960 --> 00:01:28,240
gandrīz 7000 no tiem.

33
00:01:28,240 --> 00:01:31,450
Tātad, ja jūs domājat, kā to tulkojumu
no vienas valodas uz otru tu

34
00:01:31,450 --> 00:01:35,840
ir gandrīz vairāk nekā miljons
dažādas kombinācijas, ka jūs varat

35
00:01:35,840 --> 00:01:37,330
ir no valodas uz valodu.

36
00:01:37,330 --> 00:01:40,820
Tātad, tas ir tiešām grūti darīt daži
veida piemērs tulkošanas sistēmas

37
00:01:40,820 --> 00:01:43,540
katru valoda.

38
00:01:43,540 --> 00:01:47,120
>> Tātad, Valodniecība ārstē ar sintaksi,
semantika, pragmatika.

39
00:01:47,120 --> 00:01:49,550
Jūs puiši nav īsti nepieciešams
zināt, ko viņi ir.

40
00:01:49,550 --> 00:01:55,090
Bet ļoti interesanta lieta ir tas, ka
kā dzimtā valoda, tad, kad jūs mācīties

41
00:01:55,090 --> 00:01:59,010
valoda kā bērns, jūs faktiski mācīties
visas šīs lietas - sintakses semantika

42
00:01:59,010 --> 00:02:00,500
un pragmatika -

43
00:02:00,500 --> 00:02:01,430
pats.

44
00:02:01,430 --> 00:02:04,820
Un nevienam nav iemācīt jums sintakse
jums saprast, kā teikumus

45
00:02:04,820 --> 00:02:05,290
strukturēta.

46
00:02:05,290 --> 00:02:07,980
Tātad, tas ir patiešām interesanti, jo
tas ir kaut kas, kas nāk ļoti

47
00:02:07,980 --> 00:02:10,389
intuitīvi.

48
00:02:10,389 --> 00:02:13,190
>> Un ko jūs lietojat no
datorzinātnes?

49
00:02:13,190 --> 00:02:16,700
Nu, vissvarīgākā lieta, ka mēs
ir datorzinātnes, ir pirmais

50
00:02:16,700 --> 00:02:19,340
viss, mākslīgais intelekts
un mašīnu mācīšanās.

51
00:02:19,340 --> 00:02:22,610
Tātad, ko mēs cenšamies darīt
skaitļošanas lingvistika ir mācīt

52
00:02:22,610 --> 00:02:26,990
dators, kā kaut ko darīt
ar valodu.

53
00:02:26,990 --> 00:02:28,630
>> Tā, piemēram, mašīnu
tulkošana.

54
00:02:28,630 --> 00:02:32,490
Es cenšos mācīt manu datoru how
zināt, kā pāreja no viena

55
00:02:32,490 --> 00:02:33,310
valodas uz otru.

56
00:02:33,310 --> 00:02:35,790
Tātad, būtībā, piemēram, mācību
dators divas valodas.

57
00:02:35,790 --> 00:02:38,870
Ja man dabiskās valodas apstrāde,
kas ir gadījums, piemēram, par

58
00:02:38,870 --> 00:02:41,810
Facebook Graph Search, jūs mācāt
dators, kā izprast

59
00:02:41,810 --> 00:02:42,730
vaicājumi labi.

60
00:02:42,730 --> 00:02:48,130
>> Tātad, ja jūs sakāt: "fotogrāfijas no maniem
draugi. "Facebook neuzskata, ka

61
00:02:48,130 --> 00:02:51,130
kopumā virkni, kas ir
tikai ķekars vārdu.

62
00:02:51,130 --> 00:02:56,020
Tas faktiski saprot attiecības
starp "fotogrāfijas" un "draugiem" un

63
00:02:56,020 --> 00:02:59,620
saprot, ka "fotogrāfijas" ir
īpašums "maniem draugiem."

64
00:02:59,620 --> 00:03:02,350
>> Tātad, kas ir daļa no, piemēram,
dabiskās valodas apstrāde.

65
00:03:02,350 --> 00:03:04,790
Tā cenšas saprast, ko
ir attiecība starp

66
00:03:04,790 --> 00:03:07,520
vārdus teikumā.

67
00:03:07,520 --> 00:03:11,170
Un liels jautājums ir, jūs varat
mācīt datoru, kā runāt

68
00:03:11,170 --> 00:03:12,650
valodu vispār?

69
00:03:12,650 --> 00:03:17,810
Kas ir ļoti interesants jautājums
domā, kā varbūt nākotnē,

70
00:03:17,810 --> 00:03:19,930
jūs gatavojas, lai varētu
konsultējieties ar savu mobilo tālruni.

71
00:03:19,930 --> 00:03:23,290
Veida, piemēram, to, ko mēs darām ar Siri, bet
kaut ko vairāk, piemēram, jūs faktiski var

72
00:03:23,290 --> 00:03:25,690
saka, ko jūs vēlaties, un tālrunis
gatavojas saprast visu.

73
00:03:25,690 --> 00:03:28,350
Un tas var būt sekot jautājumi
un turpini runāt.

74
00:03:28,350 --> 00:03:30,880
Tas ir kaut kas aizraujošs,
manuprāt.

75
00:03:30,880 --> 00:03:33,070
>> Tātad, kaut ko par dabas valodu.

76
00:03:33,070 --> 00:03:36,220
Kaut kas patiešām interesantu par
dabas valodas ir tāds, ka, un tas ir

77
00:03:36,220 --> 00:03:38,470
kredīts uz manu valodniecības profesors,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Viņa dod piemēru, un es domāju, ka
tas ir patiešām interesanti.

79
00:03:40,830 --> 00:03:47,060
Tāpēc, ka mēs mācīties valodu no brīža, kad
mēs esam dzimuši, un tad mūsu dzimtā

80
00:03:47,060 --> 00:03:49,170
valoda veida aug mums.

81
00:03:49,170 --> 00:03:52,570
>> Un būtībā jūs mācīties valodu
No minimālu ieguldījumu, vai ne?

82
00:03:52,570 --> 00:03:56,700
Jūs vienkārši iegūt datus no jūsu
vecāki, kas savu valodu izklausās

83
00:03:56,700 --> 00:03:58,770
patīk un jūs vienkārši iemācīties to.

84
00:03:58,770 --> 00:04:02,240
Tātad, tas ir interesanti, jo, ja paskatās
šajos teikumos, piemēram,.

85
00:04:02,240 --> 00:04:06,980
Tu izskaties, "Mary liek uz mētelis katrā
reizi viņa atstāj māju. "

86
00:04:06,980 --> 00:04:10,650
>> Šajā gadījumā, tas ir iespējams, ka
vārds "viņa" attiecas uz Mariju, vai ne?

87
00:04:10,650 --> 00:04:13,500
Jūs varat teikt: "Marija liek uz mētelis
Katru reizi, kad Marija atstāj

88
00:04:13,500 --> 00:04:14,960
māja. "tā, ka ir labi.

89
00:04:14,960 --> 00:04:19,370
Bet tad, ja paskatās teikumu
"Viņa liek uz mētelis katru reizi Mary

90
00:04:19,370 --> 00:04:22,850
atstāj māju. "Jūs zināt, tas ir
iespējams pateikt, ka "viņa" ir

91
00:04:22,850 --> 00:04:24,260
atsaucoties uz Marijas.

92
00:04:24,260 --> 00:04:27,070
>> Nav veids, kā pateikt, ka "Marija liek
uz mētelis katru reizi Marija atstāj

93
00:04:27,070 --> 00:04:30,790
māja. "Tātad, tas ir interesanti, jo
tas ir sava veida intuīcija

94
00:04:30,790 --> 00:04:32,890
ka katram dzimtā valoda ir.

95
00:04:32,890 --> 00:04:36,370
Un neviens tika mācīts, ka tas ir
tā, ka sintakse darbojas.

96
00:04:36,370 --> 00:04:41,930
Un ka jums var būt tikai šo "viņa"
atsaucoties uz Marijas šajā pirmajā gadījumā,

97
00:04:41,930 --> 00:04:44,260
un faktiski šo citu
pārāk, bet ne šīs.

98
00:04:44,260 --> 00:04:46,500
Bet visi veida izpaužas
ar tādu pašu atbildi.

99
00:04:46,500 --> 00:04:48,580
Visi piekrīt, ka.

100
00:04:48,580 --> 00:04:53,280
Tātad, tas ir patiešām interesanti, kā gan
jūs nezināt visus noteikumus

101
00:04:53,280 --> 00:04:55,575
savā valodā jūs veida saprotat
kā valoda darbojas.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Tik interesanta lieta par dabīgā
valoda, ir tas, ka jums nav

104
00:05:01,530 --> 00:05:06,970
zināt kādu sintaksi zināt, ja sods
ir gramatikas vai ungrammatical par

105
00:05:06,970 --> 00:05:08,810
vairumā gadījumu.

106
00:05:08,810 --> 00:05:13,220
Kas padara Jūs domājat, ka varbūt tas, ko
notiek, ir tas, ka ar savu dzīvi, jums

107
00:05:13,220 --> 00:05:17,410
tikai glabāt kļūst arvien vairāk un vairāk
teikumi teicis jums.

108
00:05:17,410 --> 00:05:19,800
Un tad jūs saglabāt iegaumēšanas
visas sodu.

109
00:05:19,800 --> 00:05:24,230
Un tad, kad kāds stāsta jums
kaut kas, jūs dzirdat šo teikumu un

110
00:05:24,230 --> 00:05:27,040
paskatās savu vārdu krājumu
teikumus un redzēt, ja

111
00:05:27,040 --> 00:05:28,270
šis teikums ir tur.

112
00:05:28,270 --> 00:05:29,830
Un, ja tas ir tur jums
teic, ka tas ir gramatikas.

113
00:05:29,830 --> 00:05:31,740
Ja tas nav jums teikt, tas ir
ungrammatical.

114
00:05:31,740 --> 00:05:35,150
>> Tātad, šajā gadījumā, jūs varētu teikt, ak,
tāpēc jums ir milzīgs saraksts ar visiem

115
00:05:35,150 --> 00:05:36,140
iespējamie sodi.

116
00:05:36,140 --> 00:05:38,240
Un tad, kad jūs dzirdat kādu teikumu,
jūs zināt, ja tas ir gramatikas vai

117
00:05:38,240 --> 00:05:39,450
nav balstīta uz to.

118
00:05:39,450 --> 00:05:42,360
Lieta ir tāda, ka, ja paskatās
teikums, piemēram, "

119
00:05:42,360 --> 00:05:47,540
Piecu vada CS50 TFS vārīti neredzīgajiem
astoņkājis izmantojot DAPA krūze. "Tas ir

120
00:05:47,540 --> 00:05:49,630
noteikti nav sods
ka esat dzirdējuši iepriekš.

121
00:05:49,630 --> 00:05:52,380
Bet tajā pašā laikā jūs zināt, tas ir
diezgan daudz gramatikas, vai ne?

122
00:05:52,380 --> 00:05:55,570
Nav gramatiskās kļūdas
un jūs varat teikt, ka

123
00:05:55,570 --> 00:05:57,020
tas ir iespējams teikums.

124
00:05:57,020 --> 00:06:01,300
>> Tāpēc tas liek mums domāt, ka faktiski
veids, kā mēs mācīties valodu, ir ne tikai

125
00:06:01,300 --> 00:06:07,090
, ņemot milzīgu datu bāzi ar iespēju
vārdus vai teikumus, bet vairāk

126
00:06:07,090 --> 00:06:11,490
izprast sakarību starp
vārdi šajos teikumos.

127
00:06:11,490 --> 00:06:14,570
Vai tas ir jēga?

128
00:06:14,570 --> 00:06:19,370
Tā, tad jautājums ir, var
datori mācīties valodas?

129
00:06:19,370 --> 00:06:21,490
Mēs varam iemācīt valodu ar datoriem?

130
00:06:21,490 --> 00:06:24,230
>> Tātad, pieņemsim domāt par starpību
starp dzimtā valoda

131
00:06:24,230 --> 00:06:25,460
un dators.

132
00:06:25,460 --> 00:06:27,340
Tātad, kas notiek ar skaļruni?

133
00:06:27,340 --> 00:06:30,430
Nu, dzimtā valoda, mācās
valodas iedarbības uz to.

134
00:06:30,430 --> 00:06:34,200
Parasti tās agrīnās bērnības gadiem.

135
00:06:34,200 --> 00:06:38,570
Tātad, būtībā, jums vienkārši ir bērns,
un tu turpini runāt to, un tas

136
00:06:38,570 --> 00:06:40,540
tikai mācās, kā runāt
valoda, vai ne?

137
00:06:40,540 --> 00:06:42,660
Tātad, jūs būtībā dodot
ieguldījums bērnu.

138
00:06:42,660 --> 00:06:45,200
Tātad, tad jūs varat apgalvot, ka dators
var darīt to pašu, vai ne?

139
00:06:45,200 --> 00:06:49,510
Jūs varat dot valoda
kā ievade datorā.

140
00:06:49,510 --> 00:06:53,410
>> Kā, piemēram, ķekars failus
ka ir grāmatas angļu valodā.

141
00:06:53,410 --> 00:06:56,190
Varbūt tas ir viens no veidiem, ka jūs
iespējams, varētu mācīt

142
00:06:56,190 --> 00:06:57,850
dators angļu, vai ne?

143
00:06:57,850 --> 00:07:01,000
Un patiesībā, ja jūs domājat par to,
tas aizņem jums varbūt pāris

144
00:07:01,000 --> 00:07:02,680
dienas, lai lasītu grāmatu.

145
00:07:02,680 --> 00:07:05,760
Par datoru, tas aizņem sekundi, lai
apskatīt visus vārdus grāmatā.

146
00:07:05,760 --> 00:07:10,810
Tātad jūs varat iedomāties, ka varētu būt tikai to
arguments ieejas no jums apkārt,

147
00:07:10,810 --> 00:07:15,440
tas nav pietiekami, lai pateikt, ka tas ir
kaut ko, ka tikai cilvēki var darīt.

148
00:07:15,440 --> 00:07:17,680
Jūs varat domāt datorus
arī var saņemt informāciju.

149
00:07:17,680 --> 00:07:21,170
>> Otra lieta ir tā, ka dzimtā valoda
ir arī smadzenes, kas ir

150
00:07:21,170 --> 00:07:23,870
valodu mācīšanās iespējas.

151
00:07:23,870 --> 00:07:27,020
Bet, ja jūs domājat par to,
smadzenes ir cieta lieta.

152
00:07:27,020 --> 00:07:30,450
Kad jūs esat dzimis, tas jau noteikti -

153
00:07:30,450 --> 00:07:31,320
Tas ir jūsu smadzenes.

154
00:07:31,320 --> 00:07:34,660
Un, kā jūs augt uz augšu, jūs tikai iegūt vairāk
valodas ievades un varbūt uzturvielas

155
00:07:34,660 --> 00:07:35,960
un citi sīkumi.

156
00:07:35,960 --> 00:07:38,170
Bet diezgan daudz jūsu smadzenes
ir cieta lieta.

157
00:07:38,170 --> 00:07:41,290
>> Tātad jūs varat teikt, labi, varbūt varat
veidot datoru, kas ir ķekars

158
00:07:41,290 --> 00:07:45,890
funkcijas un metodes, kas vienkārši atdarina
valodu mācīšanās iespējas.

159
00:07:45,890 --> 00:07:49,630
Tātad šajā ziņā, jūs varētu teikt, labi, es
var būt dators, kas ir visas

160
00:07:49,630 --> 00:07:52,270
lietas, kas man ir nepieciešams mācīties valodu.

161
00:07:52,270 --> 00:07:56,200
Un pēdējā lieta ir tā, ka dzimtā
runātājs mācās no izmēģinājumu un kļūdu.

162
00:07:56,200 --> 00:08:01,090
Vārdu sakot, vēl viena svarīga lieta
valodu apguve ir tas, ka jūs veida

163
00:08:01,090 --> 00:08:05,340
un iemācīties lietas, padarot
vispārinājumi par to, ko jūs dzirdat.

164
00:08:05,340 --> 00:08:10,280
>> Tātad, kā jūs aug jūs uzzināt, ka
daži vārdi ir vairāk kā lietvārdi,

165
00:08:10,280 --> 00:08:11,820
daži citi tiem ir īpašības vārdi.

166
00:08:11,820 --> 00:08:14,250
Un jums nav nekādu
zināšanas valodniecībā

167
00:08:14,250 --> 00:08:15,040
saprast, ka.

168
00:08:15,040 --> 00:08:18,560
Bet jūs tikai zināt, ka ir daži vārdi
ir novietota kādu daļu no

169
00:08:18,560 --> 00:08:22,570
teikumu un daži citi citās
daļas teikuma.

170
00:08:22,570 --> 00:08:26,110
>> Un, ka, ja jūs kaut ko darīt, kas ir
kā teikums, kas nav pareizs -

171
00:08:26,110 --> 00:08:28,770
varbūt tāpēc, ka pār vispārinājums
piemēram.

172
00:08:28,770 --> 00:08:32,210
Varbūt, ja jūs aug, jūs ievērosiet,
ka plural parasti

173
00:08:32,210 --> 00:08:35,809
veido liekot S at
vārda beigām.

174
00:08:35,809 --> 00:08:40,042
Un tad jūs mēģināt darīt daudzskaitļa
"briedis", kā "briežus" vai "zobs", kā

175
00:08:40,042 --> 00:08:44,780
"zobi." Tātad jūsu vecāki vai
kāds labo jums un saka, nē,

176
00:08:44,780 --> 00:08:49,020
daudzskaitļa "briedis" ir "briedis", un
daudzskaitļa "zobu" ir "zobi." Un tad

177
00:08:49,020 --> 00:08:50,060
Jūs uzzināsiet šīs lietas.

178
00:08:50,060 --> 00:08:51,520
Tātad jūs mācīties no izmēģinājumu un kļūdu.

179
00:08:51,520 --> 00:08:53,100
>> Bet jūs varat darīt, ka
ar datoru.

180
00:08:53,100 --> 00:08:55,310
Jums var būt kaut kas ko sauc
stiprināšana mācīšanās.

181
00:08:55,310 --> 00:08:58,560
Kas būtībā ir kā dodot
Datoru atlīdzība, ja tas

182
00:08:58,560 --> 00:08:59,410
kaut ko pareizi.

183
00:08:59,410 --> 00:09:04,710
Un piešķirot tai pretējs atlīdzību
un, kad tas kaut ko nepareizi.

184
00:09:04,710 --> 00:09:07,410
Jūs faktiski var redzēt, ka, ja jums iet
uz Google Translate un jūs mēģināt

185
00:09:07,410 --> 00:09:10,220
tulkot teikumu, tā
lūdz jums atsauksmes.

186
00:09:10,220 --> 00:09:13,240
Tātad, ja jūs sakāt, ak, tur ir labāks
tulkojumu šajā teikumā.

187
00:09:13,240 --> 00:09:18,140
Jūs varat ierakstīt to uz augšu, un tad, ja daudz
cilvēki turpina sakot, ka ir labāks

188
00:09:18,140 --> 00:09:21,560
tulkojums, tas tikai uzzina, ka tā
vajadzētu nevis izmantot šo tulkojumu

189
00:09:21,560 --> 00:09:22,960
viens tas dod.

190
00:09:22,960 --> 00:09:28,830
>> Tātad, tas ir ļoti filozofisks jautājums
lai redzētu, vai datori būs

191
00:09:28,830 --> 00:09:30,340
spēj runāt vai ne nākotnē.

192
00:09:30,340 --> 00:09:34,440
Bet man ir lielas cerības, ka viņi var
tikai, pamatojoties uz šiem argumentiem.

193
00:09:34,440 --> 00:09:38,570
Bet tas ir tikai vairāk filozofiska
jautājums.

194
00:09:38,570 --> 00:09:43,460
>> Tāpēc, kamēr datori joprojām nevar runāt,
kādi ir lietas, ko mēs varam darīt?

195
00:09:43,460 --> 00:09:47,070
Daži patiešām atdzist lietas ir
datu klasifikācija.

196
00:09:47,070 --> 00:09:53,210
Tātad, piemēram, jūs guys zināt
ka e-pasta pakalpojumus darīt, lai

197
00:09:53,210 --> 00:09:55,580
Piemēram, surogātpasta filtrēšana.

198
00:09:55,580 --> 00:09:59,070
Tātad, ja jūs saņemat surogātpastu, tas
cenšas, lai filtrētu uz citu lodziņu.

199
00:09:59,070 --> 00:10:00,270
Tātad, kā tas dara, ka?

200
00:10:00,270 --> 00:10:06,080
Tas nav, piemēram, dators vienkārši zina
kādi e-pasta adreses surogātpasta.

201
00:10:06,080 --> 00:10:09,130
Tāpēc tas ir vairāk balstīta uz saturu
ziņu, vai varbūt nosaukumu, vai

202
00:10:09,130 --> 00:10:11,310
varbūt kāds raksts, kas jums ir.

203
00:10:11,310 --> 00:10:15,690
>> Tātad, būtībā, ko jūs varat darīt, ir iegūt
Datu e-pastiem, kas ir surogātpasta partijas,

204
00:10:15,690 --> 00:10:19,980
e-pasta vēstules, kas nav surogātpasts, un uzzināt, ko
veida modeļiem jums ir

205
00:10:19,980 --> 00:10:21,000
Tiem, kas ir surogātpasts.

206
00:10:21,000 --> 00:10:23,260
Un tas ir daļa no skaitļošanas
lingvistika.

207
00:10:23,260 --> 00:10:24,720
To sauc par datu klasifikācija.

208
00:10:24,720 --> 00:10:28,100
Un mēs patiešām redzēsim
piemērs, ka nākamo slaidu.

209
00:10:28,100 --> 00:10:32,910
>> Otrā lieta ir dabiskās valodas
pārstrādi, kas ir tas, kas

210
00:10:32,910 --> 00:10:36,580
Graph Meklēt dara, ļaujot
rakstīt teikumu.

211
00:10:36,580 --> 00:10:38,690
Un tas uzticas jūs saprotat, ko
ir nozīme, un sniedz

212
00:10:38,690 --> 00:10:39,940
jums rezultāts labāks.

213
00:10:39,940 --> 00:10:43,880
Patiesībā, ja jūs doties uz Google vai Bing
un jūs meklēt kaut ko līdzīgu Lady

214
00:10:43,880 --> 00:10:47,060
Gaga augstums, jūs faktiski iet
iegūt 5 '1 ", nevis informācijas

215
00:10:47,060 --> 00:10:50,170
no viņas, jo tas tiešām saprot
ko jūs runājat par.

216
00:10:50,170 --> 00:10:52,140
Tātad, kas ir daļa no dabiska
valodas apstrāde.

217
00:10:52,140 --> 00:10:57,000
>> Vai arī, ja jūs izmantojat Siri, vispirms
Jums ir algoritmu, kas mēģina

218
00:10:57,000 --> 00:11:01,130
tulkot to, ko jūs sakāt
vārdos, tekstā.

219
00:11:01,130 --> 00:11:03,690
Un tad mēģina tulkot
kas stājas nozīmi.

220
00:11:03,690 --> 00:11:06,570
Tātad tas viss ir daļa no dabiskā
valodas apstrāde.

221
00:11:06,570 --> 00:11:08,320
>> Tad jums ir mašīntulkošanu -

222
00:11:08,320 --> 00:11:10,300
kas faktiski ir viens
no maniem favorītiem -

223
00:11:10,300 --> 00:11:14,060
kas ir tikai tulkojot no
valodas uz citu.

224
00:11:14,060 --> 00:11:17,950
Tātad jūs varat iedomāties, ka tad, kad jūs darāt
mašīntulkošana, jums ir

225
00:11:17,950 --> 00:11:19,750
bezgalīgās iespējas sodu.

226
00:11:19,750 --> 00:11:22,960
Tāpēc nav veids, kā vienkārši uzglabāt
katru tulkojumu.

227
00:11:22,960 --> 00:11:27,440
Tātad jums ir jānāk klajā ar interesantu
algoritmu, lai spētu

228
00:11:27,440 --> 00:11:30,110
tulkot katru
teikums kaut kādā veidā.

229
00:11:30,110 --> 00:11:32,483
>> Jūs guys ir kādi jautājumi līdz šim?

230
00:11:32,483 --> 00:11:34,450
Nē?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> Tātad, ko mēs redzēsim šodien?

233
00:11:36,900 --> 00:11:39,300
Pirmkārt, es esmu gatavojas runāt par
klasifikācijas problēmas.

234
00:11:39,300 --> 00:11:41,440
Tik viens, ka es biju
saka par surogātpastu.

235
00:11:41,440 --> 00:11:46,820
Ko es esmu gatavojas darīt, ir, ņemot vērā lyrics
dziesmu, jūs varat mēģināt izdomāt

236
00:11:46,820 --> 00:11:49,810
ar lielu varbūtību
kurš ir dziedātājs?

237
00:11:49,810 --> 00:11:53,590
Pieņemsim, ka man ir dziesmas no Lady
Gaga un Katy Perry, ja es jums

238
00:11:53,590 --> 00:11:58,130
jauna dziesma, jūs varat izrēķināt, ja
tas ir Katy Perry vai Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> Otrs, es esmu tikai gatavojas runāt
par segmentācijas problēmu.

240
00:12:01,490 --> 00:12:05,780
Tāpēc es nezinu, ja jūs guys zināt, bet
Ķīniešu, japāņu, citas Austrumāzijas

241
00:12:05,780 --> 00:12:08,090
valodas un citas valodas
vispār nav

242
00:12:08,090 --> 00:12:09,830
atstarpes starp vārdiem.

243
00:12:09,830 --> 00:12:13,540
Un tad, ja jūs domājat par to, kā šo
dators veida mēģina

244
00:12:13,540 --> 00:12:18,600
saprast dabiskās valodas apstrāde,
tas izskatās pēc vārdiem un

245
00:12:18,600 --> 00:12:21,500
mēģina saprast attiecības
starp tām, vai ne?

246
00:12:21,500 --> 00:12:25,440
Bet tad, ja jums ir ķīniešu, un jūs
ir nulle telpas, tas ir tiešām grūti

247
00:12:25,440 --> 00:12:28,360
uzzināt, kāda ir saistība starp
Citiem vārdiem sakot, jo viņiem nav nekādu

248
00:12:28,360 --> 00:12:29,530
Vārdi sākumā.

249
00:12:29,530 --> 00:12:32,600
Tātad jums ir kaut ko darīt ar nosaukumu
segmentēšana, kas nozīmē tikai to, liekot

250
00:12:32,600 --> 00:12:36,490
atstarpes starp to, ko mēs gribētu zvans
vārdus šīm valodām.

251
00:12:36,490 --> 00:12:37,740
Jēga?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> Un tad mēs ejam
runāt par sintaksi.

254
00:12:41,540 --> 00:12:44,050
Tāpēc tikai mazliet par dabīgā
valodas apstrāde.

255
00:12:44,050 --> 00:12:45,420
Tas būs tikai pārskats.

256
00:12:45,420 --> 00:12:50,700
Tātad šodien, būtībā to, ko es gribu darīt
ir sniegt jums guys mazliet

257
00:12:50,700 --> 00:12:53,930
iekšpusē, kādas ir iespējas
ka jūs varat darīt ar skaitļošanas

258
00:12:53,930 --> 00:12:54,960
lingvistika.

259
00:12:54,960 --> 00:13:00,410
Un tad jūs varat redzēt, ko jūs domājat
ir forši starp šīm lietām.

260
00:13:00,410 --> 00:13:02,270
Un varbūt jūs varat domāt par projektu
un nāk runāt ar mani.

261
00:13:02,270 --> 00:13:05,260
Un es varu dot jums padomu
par to, kā to īstenot.

262
00:13:05,260 --> 00:13:09,060
>> Tātad sintakse būs mazliet
par Graph meklēšana un mašīnu

263
00:13:09,060 --> 00:13:09,670
tulkošana.

264
00:13:09,670 --> 00:13:13,650
Es esmu tikai gatavojas sniegt piemēru, kā
Jūs varētu, piemēram, tulkot

265
00:13:13,650 --> 00:13:16,020
kaut ko no portugāļu valodā.

266
00:13:16,020 --> 00:13:17,830
Izklausās labi?

267
00:13:17,830 --> 00:13:19,293
>> Tātad, pirmkārt, klasifikācija problēma.

268
00:13:19,293 --> 00:13:23,590
Es saku, ka tas ir daļa no semināra
būs ļoti grūti

269
00:13:23,590 --> 00:13:27,560
viens tikai tāpēc, ka notiek
būt dažas kodēšana.

270
00:13:27,560 --> 00:13:29,470
Bet tas būs Python.

271
00:13:29,470 --> 00:13:34,380
Es zinu, ka jūs guys nezinu Python, tāpēc
Es esmu tikai gatavojas izskaidrot par augstu

272
00:13:34,380 --> 00:13:35,750
līmenis, ko es daru.

273
00:13:35,750 --> 00:13:40,900
Un jums nav īsti aprūpi, pārāk
daudz par sintaksi, jo tas ir

274
00:13:40,900 --> 00:13:42,140
kaut ko jūs guys var mācīties.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
Izklausās labi.

277
00:13:43,580 --> 00:13:46,020
>> Tātad, kas ir klasifikācijas problēma?

278
00:13:46,020 --> 00:13:49,140
Tātad jūs esat dota dažas lyrics
dziesmu, un jūs vēlaties, lai uzminēt

279
00:13:49,140 --> 00:13:50,620
kurš dzied to.

280
00:13:50,620 --> 00:13:54,045
Un tas var būt jebkāda veida
citas problēmas.

281
00:13:54,045 --> 00:13:59,980
Lai tā var būt, piemēram, jums
prezidenta kampaņa un jums ir

282
00:13:59,980 --> 00:14:02,610
runas, un jūs vēlaties, lai atrastu
, ja tas ir, piemēram,

283
00:14:02,610 --> 00:14:04,470
Obama un Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Vai arī jums var būt ķekars e-pastu un
Jūs vēlaties, lai noskaidrotu, vai tās ir

285
00:14:07,700 --> 00:14:08,890
surogātpasts vai ne.

286
00:14:08,890 --> 00:14:11,440
Tāpēc tas ir tikai klasificētu dažas
dati, kas balstīti uz vārdiem

287
00:14:11,440 --> 00:14:13,790
ka jums ir tur.

288
00:14:13,790 --> 00:14:16,295
>> Tātad, lai to izdarītu, jums ir
veikt dažus pieņēmumus.

289
00:14:16,295 --> 00:14:20,570
Tik daudz par skaitļošanas valodniecībā
ir izdarīt pieņēmumus,

290
00:14:20,570 --> 00:14:24,100
Parasti smart pieņēmumi, lai
Jūs varat iegūt labus rezultātus.

291
00:14:24,100 --> 00:14:26,670
Mēģinot radīt modeli to.

292
00:14:26,670 --> 00:14:31,290
Un tad mēģināt to, un redzēt, ja tā darbojas,
ja tas dod jums labu precizitāti.

293
00:14:31,290 --> 00:14:33,940
Un, ja tas tā ir, tad jūs
mēģināt to uzlabot.

294
00:14:33,940 --> 00:14:37,640
Ja tā nav, jūs, piemēram, OK, varbūt es
būtu atšķirīgs pieņēmumu.

295
00:14:37,640 --> 00:14:44,030
>> Tāpēc pieņēmums, ka mēs ejam
ir, ka mākslinieks parasti dzied

296
00:14:44,030 --> 00:14:49,220
par tēmu vairākas reizes, un varbūt
izmanto vārdus vairākas reizes tikai

297
00:14:49,220 --> 00:14:50,270
jo tie ir izmantoti, lai to.

298
00:14:50,270 --> 00:14:51,890
Jūs varat domāt par savu draugu.

299
00:14:51,890 --> 00:14:57,350
Es esmu pārliecināts, ka jums puiši visi ir draugi
kas saka savu parakstu frāzi

300
00:14:57,350 --> 00:14:59,260
burtiski par katru teikumu -

301
00:14:59,260 --> 00:15:02,660
piemēram, kādu konkrētu vārdu vai dažiem īpašiem
frāze, ka viņi saka, lai

302
00:15:02,660 --> 00:15:04,020
katru teikumu.

303
00:15:04,020 --> 00:15:07,920
>> Un ko jūs varat teikt, ka, ja jūs redzat
teikums, kas ir paraksts

304
00:15:07,920 --> 00:15:11,450
frāze, jūs varat uzminēt, ka, iespējams,
Jūsu draugs ir

305
00:15:11,450 --> 00:15:13,310
viens sakot, ka tas, vai ne?

306
00:15:13,310 --> 00:15:18,410
Tātad jums padarīt šo pieņēmumu, un pēc tam
tas, kā jūs izveidot modeli.

307
00:15:18,410 --> 00:15:24,440
>> Piemēram, ka es esmu gatavojas sniegt, ir par
kā Lady Gaga, piemēram, cilvēku

308
00:15:24,440 --> 00:15:27,430
saka, ka viņa izmanto "Baby", lai
visi viņas numur viens dziesmas.

309
00:15:27,430 --> 00:15:32,270
Un faktiski tas ir video, kas rāda
viņas pasakot vārdu "baby", lai

310
00:15:32,270 --> 00:15:33,410
dažādas dziesmas.

311
00:15:33,410 --> 00:15:33,860
>> [VIDEO PLAYBACK]

312
00:15:33,860 --> 00:15:34,310
>> - (Dzied) Baby.

313
00:15:34,310 --> 00:15:36,220
Baby.

314
00:15:36,220 --> 00:15:37,086
Baby.

315
00:15:37,086 --> 00:15:37,520
Baby.

316
00:15:37,520 --> 00:15:37,770
Baby.

317
00:15:37,770 --> 00:15:38,822
Babe.

318
00:15:38,822 --> 00:15:39,243
Baby.

319
00:15:39,243 --> 00:15:40,085
Baby.

320
00:15:40,085 --> 00:15:40,510
Baby.

321
00:15:40,510 --> 00:15:40,850
Baby.

322
00:15:40,850 --> 00:15:41,090
>> [END Video atskaņošana-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS FREITAS: Tātad tur ir, es domāju,
40 dziesmas šeit, kur viņa saka

324
00:15:44,020 --> 00:15:48,690
vārdu "baby". Tātad jūs varat būtībā uzminēt
ka, ja jūs redzat kādu dziesmu, kurai ir

325
00:15:48,690 --> 00:15:52,180
vārdu "baby", tur ir dažas liels
varbūtība, ka tā ir Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Bet pieņemsim mēģināt attīstīt šo
vēl vairāk formāli.

327
00:15:56,450 --> 00:16:00,470
>> Tātad šie ir vārdi, lai dziesmas
Lady Gaga un Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Tā paskatās Lady Gaga, jūs redzat tās
ir daudz notikumu ar "bērnu"

329
00:16:04,120 --> 00:16:07,710
par gadījumiem, partija "veidā." Un tad
Katy Perry ir daudz atkārtojumu

330
00:16:07,710 --> 00:16:10,360
"," Daudz gadījumiem, "uguns".

331
00:16:10,360 --> 00:16:14,560
>> Vārdu sakot, tas, ko mēs vēlamies, lai
darīt, ir, jums lirisks.

332
00:16:14,560 --> 00:16:20,480
Pieņemsim, ka jums ir lirisks par
dziesma, kas ir "bērns", tikai "baby". Ja

333
00:16:20,480 --> 00:16:24,750
Jums tikai iegūt vārdu "bērnu", un tas
ir visi dati, kas jums ir no

334
00:16:24,750 --> 00:16:27,880
Lady Gaga un Katy Perry, kurš būtu
jūs uzminēt ir cilvēks

335
00:16:27,880 --> 00:16:29,370
kas dzied dziesmu?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga un Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, vai ne?

338
00:16:33,150 --> 00:16:37,400
Jo viņa ir vienīgā, kas saka:
"Baby". Tas izklausās muļķīgi, vai ne?

339
00:16:37,400 --> 00:16:38,760
OK, tas ir patiešām viegli.

340
00:16:38,760 --> 00:16:41,860
Es esmu tikai apskatot divas dziesmas un
Protams, viņa ir vienīgā, kas ir

341
00:16:41,860 --> 00:16:42,660
"Baby".

342
00:16:42,660 --> 00:16:44,740
>> Bet ko tad, ja jums ir ķekars vārdu?

343
00:16:44,740 --> 00:16:50,900
Ja jums ir faktiskā lirisks, kaut
piemēram, "baby, es tikko

344
00:16:50,900 --> 00:16:51,610
devās redzēt [? CFT?]

345
00:16:51,610 --> 00:16:54,020
lekcija "vai kaut kas tamlīdzīgs, un
tad jums tiešām ir izdomāt -

346
00:16:54,020 --> 00:16:55,780
pamatojoties uz visiem šiem vārdiem -

347
00:16:55,780 --> 00:16:58,350
kurš ir mākslinieks, kurš, iespējams,
dziedāja šo dziesmu?

348
00:16:58,350 --> 00:17:01,860
Tāpēc pieņemsim mēģināt attīstīt
Tas mazliet tālāk.

349
00:17:01,860 --> 00:17:05,630
>> Labi, tā balstās tikai uz datiem, kas mums
got, šķiet, ka Gaga ir iespējams

350
00:17:05,630 --> 00:17:06,260
dziedātājs.

351
00:17:06,260 --> 00:17:07,904
Bet kā mēs varam rakstīt
tas vēl oficiāli?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
Un tur būs maz
Mazliet statistikas.

354
00:17:13,140 --> 00:17:15,880
Tātad, ja jūs pazust, tikai mēģināt
lai izprastu jēdzienu.

355
00:17:15,880 --> 00:17:18,700
Tas nav svarīgi, ja jūs saprotat
vienādojumi ļoti labi.

356
00:17:18,700 --> 00:17:22,150
Tas viss būs tiešsaistē.

357
00:17:22,150 --> 00:17:25,490
>> Vārdu sakot, tas, ko es esmu aprēķināšanai ir
varbūtība, ka šī dziesma ir par

358
00:17:25,490 --> 00:17:28,040
Lady Gaga ņemot vērā, ka -

359
00:17:28,040 --> 00:17:30,660
tāpēc šī josla nozīmē, ņemot vērā, ka -

360
00:17:30,660 --> 00:17:33,680
Es redzēju vārdu "bērnu".
Vai tas ir jēga?

361
00:17:33,680 --> 00:17:35,540
Tāpēc es cenšos, lai aprēķinātu
ka varbūtība.

362
00:17:35,540 --> 00:17:38,540
>> Tātad ir šī teorēma sauc
Bayes teorēmu, kas saka, ka

363
00:17:38,540 --> 00:17:43,330
varbūtība dota B, ir
varbūtība B dota, reizes

364
00:17:43,330 --> 00:17:47,660
varbūtība, pār varbūtību
B. Tas ir garš vienādojums.

365
00:17:47,660 --> 00:17:51,970
Bet to, kas jums ir jāsaprot, no
tas ir, ka tas ir tas, ko es vēlos

366
00:17:51,970 --> 00:17:52,830
aprēķināt, vai ne?

367
00:17:52,830 --> 00:17:56,570
Tā varbūtība, ka šī dziesma ir par
Lady Gaga ņemot vērā, ka es redzēju vārdu

368
00:17:56,570 --> 00:17:58,230
"Baby".

369
00:17:58,230 --> 00:18:02,960
>> Un tagad tas, ko es saņemu, ir
varbūtība vārdu "baby", ņemot

370
00:18:02,960 --> 00:18:04,390
ka man ir Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
Un kas ir tas būtībā?

372
00:18:07,220 --> 00:18:10,500
Ko tas nozīmē, kas ir
varbūtība redzēt vārdu "baby"

373
00:18:10,500 --> 00:18:12,130
in Gaga dziesmu?

374
00:18:12,130 --> 00:18:16,240
Ja es gribu, lai aprēķinātu, ka ļoti
Vienkāršs veids, tas ir tikai skaits

375
00:18:16,240 --> 00:18:23,640
reizes es redzu "Baby" pār kopskaita
gada vārdu Gaga dziesmu, vai ne?

376
00:18:23,640 --> 00:18:27,600
Kas ir frekvence, ka es redzu
ka vārds Gaga darbā?

377
00:18:27,600 --> 00:18:30,530
Jēga?

378
00:18:30,530 --> 00:18:33,420
>> Otrais termiņš ir
varbūtība Gaga.

379
00:18:33,420 --> 00:18:34,360
Ko tas nozīmē?

380
00:18:34,360 --> 00:18:38,550
Tas būtībā nozīmē, kāda ir
varbūtība klasificējot

381
00:18:38,550 --> 00:18:40,690
daži vārdi kā Gaga?

382
00:18:40,690 --> 00:18:45,320
Un tas ir sava veida dīvaini, bet
pieņemsim domāt par piemēru.

383
00:18:45,320 --> 00:18:49,230
Tātad pieņemsim, ka varbūtība
ar "baby" dziesmā ir tāds pats

384
00:18:49,230 --> 00:18:51,760
par Gaga un Britniju Spīrsu.

385
00:18:51,760 --> 00:18:54,950
Bet Britney Spears ir divreiz
vairāk dziesmas par Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Tāpēc, ja kāds tikai nejauši dod jums
dziesmu "baby", pirmā lieta, jums

387
00:19:00,570 --> 00:19:04,710
apskatīt ir, kāda ir varbūtība
ar "Baby" ar Gaga dziesmu "baby"

388
00:19:04,710 --> 00:19:05,410
ar Britney dziesmu?

389
00:19:05,410 --> 00:19:06,460
Un tas pats.

390
00:19:06,460 --> 00:19:10,040
>> Tā otrā lieta, ka jūs redzēt, ir,
labi, kāda ir varbūtība

391
00:19:10,040 --> 00:19:13,770
Tas lirisks pats to Gaga lyric,
un kāda ir varbūtība

392
00:19:13,770 --> 00:19:15,380
ir Britney lirisks?

393
00:19:15,380 --> 00:19:18,950
Tāpēc, ka Britnija ir tik daudz vairāk dziesmu
nekā Gaga, jūs, iespējams,

394
00:19:18,950 --> 00:19:21,470
teiksim, labi, tas ir iespējams
Britney lirisks.

395
00:19:21,470 --> 00:19:23,340
Tātad, tas ir iemesls, kāpēc mums ir šī
termins tieši šeit.

396
00:19:23,340 --> 00:19:24,670
Varbūtība Gaga.

397
00:19:24,670 --> 00:19:26,950
Jēga?

398
00:19:26,950 --> 00:19:28,660
Vai tā?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> Un pēdējais ir tikai varbūtība
par "bērnu", kas nav

401
00:19:33,500 --> 00:19:34,810
īsti jautājums, ka daudz.

402
00:19:34,810 --> 00:19:39,940
Bet tas ir varbūtība
redzot "Baby" angļu valodā.

403
00:19:39,940 --> 00:19:42,725
Mēs parasti nav vienalga, ka
daudz par šo terminu.

404
00:19:42,725 --> 00:19:44,490
Vai tas ir jēga?

405
00:19:44,490 --> 00:19:48,110
Tāpēc varbūtība Gaga ir
sauc pirms varbūtība

406
00:19:48,110 --> 00:19:49,530
no klases Gaga.

407
00:19:49,530 --> 00:19:53,840
Jo tas tikai nozīmē, ka to, kas ir
varbūtība, ka tā, ka klasē -

408
00:19:53,840 --> 00:19:55,520
kas ir Gaga -

409
00:19:55,520 --> 00:19:59,350
tikai vispār, tikko
bez nosacījumiem.

410
00:19:59,350 --> 00:20:02,560
>> Un tad, kad man ir varbūtība
Gaga dota "baby", mēs to saucam par plus

411
00:20:02,560 --> 00:20:06,160
Teary varbūtību, jo tas ir
varbūtība, ka

412
00:20:06,160 --> 00:20:08,300
Gaga devušas pierādījumus.

413
00:20:08,300 --> 00:20:11,050
Tāpēc es esmu sniedzot jums pierādījumus
ka es redzēju vārdu bērnu un

414
00:20:11,050 --> 00:20:12,690
dziesma jēga?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> Tātad, ja es aprēķināts, ka par katru
dziesmas par Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
kas tas varētu būt -

419
00:20:25,916 --> 00:20:27,730
acīmredzot, es nevaru pārvietot šo.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Gada Gaga varbūtība būs
kaut ko līdzīgu, 2 ir lielāks par 24, times 1/2,

422
00:20:36,920 --> 00:20:38,260
vairāk 2 pāri 53.

423
00:20:38,260 --> 00:20:40,640
Tas nav svarīgi, ja jūs zināt, ko
šie skaitļi, tiek saņemtas no.

424
00:20:40,640 --> 00:20:44,750
Bet tas ir tikai skaitlis, kas notiek
ir vairāk nekā 0, vai ne?

425
00:20:44,750 --> 00:20:48,610
>> Un tad, kad man Katy Perry,
varbūtība "Baby", ņemot vērā Katy ir

426
00:20:48,610 --> 00:20:49,830
jau 0, vai ne?

427
00:20:49,830 --> 00:20:52,820
Jo tur nav "baby"
ar Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Tātad, tad tas kļūst 0, un Gaga
uzvaras, kas nozīmē, ka Gaga ir

429
00:20:56,360 --> 00:20:57,310
iespējams dziedātājs.

430
00:20:57,310 --> 00:20:58,560
Vai tas ir jēga?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Tātad, ja es vēlos, lai padarītu šo amatpersonu,
Es patiesībā var darīt modeli

435
00:21:11,750 --> 00:21:12,700
vairākiem vārdiem.

436
00:21:12,700 --> 00:21:14,610
Tātad pieņemsim, ka man ir kaut kas
piemēram, "baby, es esmu

437
00:21:14,610 --> 00:21:16,030
uz uguns, "vai kaut ko.

438
00:21:16,030 --> 00:21:17,760
Tāpēc tas ir vairākus vārdus.

439
00:21:17,760 --> 00:21:20,880
Un šajā gadījumā, jūs varat redzēt
ka "bērns" ir Gaga,

440
00:21:20,880 --> 00:21:21,710
bet tas nav Katy.

441
00:21:21,710 --> 00:21:24,940
Un "uguns" ir Katy, bet
tas nav Gaga, vai ne?

442
00:21:24,940 --> 00:21:27,200
Tātad, tas kļūst trickier, vai ne?

443
00:21:27,200 --> 00:21:31,440
Jo šķiet, ka jūs gandrīz
ir saikne starp diviem.

444
00:21:31,440 --> 00:21:36,980
>> Tātad, kas jums jādara, ir jāuzņemas
neatkarība starp vārdiem.

445
00:21:36,980 --> 00:21:41,210
Vārdu sakot, ko tas nozīmē, ka
Es esmu tikai aprēķināšanai, kas ir

446
00:21:41,210 --> 00:21:44,330
varbūtība redzēt "bērnu", kas ir
varbūtība redzēt "I" un

447
00:21:44,330 --> 00:21:46,670
"Am", un "par" un "uguns,"
all atsevišķi.

448
00:21:46,670 --> 00:21:48,670
Tad es esmu reizinot tos visus.

449
00:21:48,670 --> 00:21:52,420
Un es esmu redzēt, kāda ir varbūtība
redzēt visu teikumu.

450
00:21:52,420 --> 00:21:55,210
Jēga?

451
00:21:55,210 --> 00:22:00,270
>> Tātad, būtībā, ja man ir tikai viens vārds,
ko es gribu, lai atrastu, ir arg max,

452
00:22:00,270 --> 00:22:05,385
kas nozīmē, kas ir klase, kas ir
dod man vislielāko varbūtību?

453
00:22:05,385 --> 00:22:10,010
Tātad, kas ir klase, kas dod
man augstākais varbūtība

454
00:22:10,010 --> 00:22:11,940
varbūtība klases dots vārds.

455
00:22:11,940 --> 00:22:17,610
Tātad šajā gadījumā, Gaga dota "bērnu."
Vai Katy dota "bērnu." Jēga?

456
00:22:17,610 --> 00:22:21,040
>> Un tikai no Bayes, ka
vienādojums, kas man parādīja,

457
00:22:21,040 --> 00:22:24,780
mēs radām šo frakciju.

458
00:22:24,780 --> 00:22:28,750
Vienīgais ir tas, ka jūs redzēt, ka
Vārda varbūtība, ņemot

459
00:22:28,750 --> 00:22:31,370
klases mainās atkarībā
no klases, vai ne?

460
00:22:31,370 --> 00:22:34,260
Par "bērnu" s, ka man ir vairāki
jo Gaga ir atšķirīgs no Katy.

461
00:22:34,260 --> 00:22:37,640
No klases varbūtība arī
izmaiņas, jo tas ir tikai skaitlis

462
00:22:37,640 --> 00:22:39,740
dziesmas katrai no tām ir.

463
00:22:39,740 --> 00:22:43,980
>> Bet varbūtība vārda together
būs vienāda visiem

464
00:22:43,980 --> 00:22:44,740
mākslinieki, labi?

465
00:22:44,740 --> 00:22:47,150
Tāpēc varbūtība vārds ir
tikai, kāda ir varbūtība

466
00:22:47,150 --> 00:22:49,820
redzot šo vārdu
Angļu valodas?

467
00:22:49,820 --> 00:22:51,420
Tātad, tas ir pats par visiem no tiem.

468
00:22:51,420 --> 00:22:55,790
Tāpēc, ka tas ir nemainīgs, mēs varam tikai
piliens šo un nav jārūpējas par to.

469
00:22:55,790 --> 00:23:00,230
Tāpēc tas būs patiešām
mēs meklējam vienādojums.

470
00:23:00,230 --> 00:23:03,360
>> Un, ja man ir vairāki vārdi, es esmu
vēl nāksies iepriekš

471
00:23:03,360 --> 00:23:04,610
varbūtība šeit.

472
00:23:04,610 --> 00:23:06,980
Vienīgais ir tas, ka es esmu reizinot
varbūtība

473
00:23:06,980 --> 00:23:08,490
visiem citiem vārdiem.

474
00:23:08,490 --> 00:23:10,110
Tāpēc es esmu reizinot tos visus.

475
00:23:10,110 --> 00:23:12,610
Jēga?

476
00:23:12,610 --> 00:23:18,440
Tas izskatās dīvaini, bet būtībā nozīmē,
aprēķināt iepriekš no klases, un

477
00:23:18,440 --> 00:23:22,100
reizinot ar varbūtību katras
vārdus esot šajā klasē.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> Un jūs zināt, ka varbūtība
vārds dots klases būs

480
00:23:29,150 --> 00:23:34,520
vairākas reizes, jūs redzēsiet, ka vārdu
ka klase, dalot ar skaitu

481
00:23:34,520 --> 00:23:37,020
vārdi jums ir, ka
klasē kopumā.

482
00:23:37,020 --> 00:23:37,990
Jēga?

483
00:23:37,990 --> 00:23:41,680
Tas ir vienkārši, kā "baby" bija 2 pāri
vārdu skaits, kas

484
00:23:41,680 --> 00:23:43,020
Man bija lyrics.

485
00:23:43,020 --> 00:23:45,130
Lai tikai frekvenci.

486
00:23:45,130 --> 00:23:46,260
>> Bet ir viena lieta.

487
00:23:46,260 --> 00:23:51,250
Atceros, kā es biju rāda, ka
varbūtība "Baby" esot lyrics

488
00:23:51,250 --> 00:23:56,350
no Katy Perry bija 0 tikai tāpēc Katy
Perry nebija "Baby" vispār?

489
00:23:56,350 --> 00:24:04,900
Bet tas izklausās nedaudz skarbi, lai tikai
vienkārši teikt, ka vārdi nevar būt no

490
00:24:04,900 --> 00:24:10,040
mākslinieks tikai tāpēc, ka viņiem nav
šis vārds īpaši jebkurā laikā.

491
00:24:10,040 --> 00:24:13,330
>> Lai jūs varētu vienkārši teikt, labi, ja jūs
nav šo vārdu, es esmu gatavojas

492
00:24:13,330 --> 00:24:15,640
jums mazāku varbūtību,
bet es esmu tikai nav gatavojas

493
00:24:15,640 --> 00:24:17,420
sniegt jums 0 uzreiz.

494
00:24:17,420 --> 00:24:21,040
Jo varbūt tas bija kaut kas līdzīgs,
"Ugunsdrošības, ugunsdzēsības, uguns, uguns", kas ir

495
00:24:21,040 --> 00:24:21,990
pilnīgi Katy Perry.

496
00:24:21,990 --> 00:24:26,060
Un tad "baby", un tas tikai iet, lai
0 uzreiz, jo tur bija viens

497
00:24:26,060 --> 00:24:27,250
"Baby".

498
00:24:27,250 --> 00:24:31,440
>> Vārdu sakot, tas, ko mēs darām, ir kaut kas
sauc par Laplasa izlīdzināšanas.

499
00:24:31,440 --> 00:24:36,260
Un tas tikai nozīmē, ka es esmu, kas
daži varbūtība pat vārdiem

500
00:24:36,260 --> 00:24:37,850
ka nav.

501
00:24:37,850 --> 00:24:43,170
Tātad, ko es daru, ir tas, ka tad, kad es esmu
Aprēķinot to, es vienmēr pievienot 1 līdz

502
00:24:43,170 --> 00:24:44,180
skaitītājs.

503
00:24:44,180 --> 00:24:48,060
Tātad, pat tad, ja vārds neeksistē, jo
Šajā gadījumā, ja tas ir 0, es esmu vēl

504
00:24:48,060 --> 00:24:51,250
aprēķinot to kā 1 pāri
Kopējais vārdu skaits.

505
00:24:51,250 --> 00:24:55,060
Pretējā gadījumā, man, cik daudz vārdu
Man ir un es pievienot 1.

506
00:24:55,060 --> 00:24:58,300
Tāpēc es esmu skaitīšanas abiem gadījumiem.

507
00:24:58,300 --> 00:25:00,430
Jēga?

508
00:25:00,430 --> 00:25:03,060
>> Tāpēc tagad pieņemsim darīt kādu kodēšanas.

509
00:25:03,060 --> 00:25:06,440
Es esmu nāksies darīt to diezgan ātri,
bet tas ir tikai svarīgi, ka jums

510
00:25:06,440 --> 00:25:08,600
guys saprast jēdzienus.

511
00:25:08,600 --> 00:25:13,450
Tātad, ko mēs cenšamies darīt
ir tieši īstenot šo

512
00:25:13,450 --> 00:25:14,330
lieta, ko es tikko teicu -

513
00:25:14,330 --> 00:25:19,110
Es gribu, lai jūs nodot dziesmas no
Lady Gaga un Katy Perry.

514
00:25:19,110 --> 00:25:22,980
Un programma būs spējīgs
teikt, ja šie jaunie vārdi ir no Gaga

515
00:25:22,980 --> 00:25:24,170
vai Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Jēga?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> Tāpēc man ir šī programma, es esmu gatavojas
zvanīt classify.py.

519
00:25:30,710 --> 00:25:31,970
Tāpēc tas ir Python.

520
00:25:31,970 --> 00:25:34,210
Tā ir jauna programmēšanas valoda.

521
00:25:34,210 --> 00:25:38,020
Tas ir ļoti līdzīgs dažās
veidi, C un PHP.

522
00:25:38,020 --> 00:25:43,180
Tas ir līdzīgi, jo, ja jūs vēlaties, lai
mācīties Python pēc tam, zinot C, tas ir

523
00:25:43,180 --> 00:25:46,270
tiešām nav tik daudz problēmu
tikai tāpēc, ka Python ir daudz vieglāk

524
00:25:46,270 --> 00:25:47,520
nekā C, vispirms.

525
00:25:47,520 --> 00:25:49,370
Un daudzas lietas jau ir
īstenoti jums.

526
00:25:49,370 --> 00:25:56,820
Tik vienkārši, kā, piemēram, PHP ir funkcijas, kas
kārtotu sarakstu, vai pievienot kaut ko

527
00:25:56,820 --> 00:25:58,780
masīva, vai blah, blah, blah.

528
00:25:58,780 --> 00:26:00,690
Python ir visas tās, kā arī.

529
00:26:00,690 --> 00:26:05,960
>> Tāpēc es esmu tikai gatavojas izskaidrot ātri
kā mēs varētu darīt klasifikāciju

530
00:26:05,960 --> 00:26:07,860
problēma šeit.

531
00:26:07,860 --> 00:26:13,230
Tātad pieņemsim, ka šajā gadījumā, man ir
lyrics no Gaga un Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Veidā, ka man ir tie lyrics ir tas, ka
Pirmais vārds lyrics ir

533
00:26:21,880 --> 00:26:25,250
mākslinieka vārdu, un
pārējais ir dzeja.

534
00:26:25,250 --> 00:26:29,470
Tātad pieņemsim, ka man ir šī sarakstu
kurā pirmais ir lyrics by Gaga.

535
00:26:29,470 --> 00:26:31,930
Tātad, šeit es esmu uz pareizā ceļa.

536
00:26:31,930 --> 00:26:35,270
Un nākamais ir Katy, un
tas ir arī dziesmu tekstus.

537
00:26:35,270 --> 00:26:38,040
>> Tātad, tas ir, kā jūs deklarēt
mainīgais Python.

538
00:26:38,040 --> 00:26:40,200
Jums nav, lai dotu datu tipu.

539
00:26:40,200 --> 00:26:43,150
Jūs vienkārši uzrakstīt "Lyrics"
veida, piemēram, PHP.

540
00:26:43,150 --> 00:26:44,890
Jēga?

541
00:26:44,890 --> 00:26:47,770
>> Tātad, kādi ir lietas, kas man ir
aprēķināšanai, lai varētu aprēķināt

542
00:26:47,770 --> 00:26:49,360
varbūtības?

543
00:26:49,360 --> 00:26:55,110
Man ir, lai aprēķinātu "Priors"
katra atšķiras

544
00:26:55,110 --> 00:26:56,710
klases, kas man ir.

545
00:26:56,710 --> 00:27:06,680
Man ir, lai aprēķinātu "aposteriorie,"
vai diezgan daudz varbūtības

546
00:27:06,680 --> 00:27:12,150
katrs no dažādiem vārdiem, kas
Es varu būt katram māksliniekam.

547
00:27:12,150 --> 00:27:17,210
Tātad laikā Gaga, piemēram, es esmu gatavojas
ir saraksts par to, cik reizes es redzu

548
00:27:17,210 --> 00:27:19,250
katrs no vārdiem.

549
00:27:19,250 --> 00:27:20,760
Jēga?

550
00:27:20,760 --> 00:27:25,370
>> Un visbeidzot, es esmu tikai nāksies
sarakstu, ko sauc par "vārdi", kas ir tikai gatavojas

551
00:27:25,370 --> 00:27:29,780
ir, cik daudz vārdu es
ir katram māksliniekam.

552
00:27:29,780 --> 00:27:33,760
Tātad Gaga, piemēram, kad es izskatās
ar dziesmu, man bija, es domāju, ka 24

553
00:27:33,760 --> 00:27:34,750
vārdus kopā.

554
00:27:34,750 --> 00:27:38,970
Tāpēc šis saraksts ir tikai nāksies
Gaga 24, un Katy citu numuru.

555
00:27:38,970 --> 00:27:40,130
Jēga?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> Tāpēc tagad, faktiski, pieņemsim
iet uz kodēšanu.

558
00:27:42,530 --> 00:27:45,270
Tātad Python, jūs faktiski var
atpakaļ ķekars dažādās

559
00:27:45,270 --> 00:27:46,630
lietas no funkciju.

560
00:27:46,630 --> 00:27:50,810
Tāpēc es esmu gatavojas, lai radītu šo funkciju
sauc par "nosacījumu", kas notiek

561
00:27:50,810 --> 00:27:53,890
atdotu visu no šīm lietām,
"priors," par "varbūtības", un

562
00:27:53,890 --> 00:28:05,690
"vārdiem." Tātad "nosacījuma", un tas ir
būs zvanot uz "dziesmu."

563
00:28:05,690 --> 00:28:11,510
>> Tāpēc tagad es gribu, lai jūs faktiski
rakstīt šo funkciju.

564
00:28:11,510 --> 00:28:17,750
Tāpēc, ka es varu rakstīt šo
funkcija ir es tikko noteikts šīs

565
00:28:17,750 --> 00:28:20,620
darboties ar "def". Tāpēc es darīju "def
nosacīta, "un tas ir ņemot

566
00:28:20,620 --> 00:28:28,700
"Lyrics". Un ko tas gatavojas darīt
ir, pirmkārt, man ir mana priors

567
00:28:28,700 --> 00:28:31,030
ka es gribu, lai aprēķinātu.

568
00:28:31,030 --> 00:28:34,330
>> Tāpēc, ka es varu darīt, ir izveidot
vārdnīca Python, kurā

569
00:28:34,330 --> 00:28:37,320
ir diezgan daudz pats kā hash
galda, vai tas ir kā iteratīvs

570
00:28:37,320 --> 00:28:40,480
masīvs PHP.

571
00:28:40,480 --> 00:28:44,150
Tas ir, kā es apliecinu vārdnīcu.

572
00:28:44,150 --> 00:28:53,580
Un būtībā, ko tas nozīmē, ka
priors of Gaga ir 0,5, piemēram, ja

573
00:28:53,580 --> 00:28:57,200
50% no lyrics ir no
Gaga, 50% ir no Katy.

574
00:28:57,200 --> 00:28:58,450
Jēga?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Tāpēc man ir izdomāt, kā
lai aprēķinātu Priors.

577
00:29:03,680 --> 00:29:07,120
>> Nākamie, kas man ir jādara, arī,
ir varbūtības un vārdi.

578
00:29:07,120 --> 00:29:17,100
Tāpēc varbūtības Gaga ir saraksts
visu varbūtību, ka es

579
00:29:17,100 --> 00:29:19,160
ir katrā no vārdiem Gaga.

580
00:29:19,160 --> 00:29:23,880
Tātad, ja es eju uz varbūtībām Gaga
"Baby", piemēram, tas būs man

581
00:29:23,880 --> 00:29:28,750
kaut kā 2 pāri 24 šajā lietā.

582
00:29:28,750 --> 00:29:30,070
Jēga?

583
00:29:30,070 --> 00:29:36,120
Tad es eju uz "varbūtības", pāriet uz
"Gaga" bucket, kas ir saraksts ar visiem

584
00:29:36,120 --> 00:29:40,550
tad Gaga vārdi, tad es eju uz "bērnu,"
un es redzu varbūtību.

585
00:29:40,550 --> 00:29:45,940
>> Un, visbeidzot, man ir tas
"Vārdus" vārdnīcu.

586
00:29:45,940 --> 00:29:53,620
Tātad, šeit, "varbūtības". Un tad
"vārdiem." Tātad, ja man "vārdus", "Gaga,"

587
00:29:53,620 --> 00:29:58,330
kas notiek varētu notikt, ir, ka tas ir
gatavojas sniegt man 24, sakot, ka es

588
00:29:58,330 --> 00:30:01,990
ir 24 vārdi, kas dziesmu no Gaga.

589
00:30:01,990 --> 00:30:04,110
Jēga?

590
00:30:04,110 --> 00:30:07,070
Tātad šeit, "vārdi" ir vienāds Dah-Dah-DAH.

591
00:30:07,070 --> 00:30:07,620
Labi

592
00:30:07,620 --> 00:30:12,210
>> Tātad, ko es esmu gatavojas darīt, ir es esmu gatavojas
pārietu pār katru no lyrics, lai

593
00:30:12,210 --> 00:30:14,490
katrs no virknes, kas
Man sarakstā.

594
00:30:14,490 --> 00:30:18,040
Un es esmu gatavojas, lai aprēķinātu tās lietas
attiecībā uz katru no kandidātu.

595
00:30:18,040 --> 00:30:19,950
Jēga?

596
00:30:19,950 --> 00:30:21,700
Tāpēc man ir jādara, lai cilpu.

597
00:30:21,700 --> 00:30:26,300
>> Tātad, Python, ko es varu darīt, ir "uz līnijas
ar vārdiem. "to pašu,

598
00:30:26,300 --> 00:30:28,000
"Katram" paziņojumu PHP.

599
00:30:28,000 --> 00:30:33,420
Atceros, kā tad, ja tas ir PHP varēju
saka "par katru dziesmu, kā

600
00:30:33,420 --> 00:30:35,220
line. "Ir jēga?

601
00:30:35,220 --> 00:30:38,900
Tāpēc es ka katru no līnijām, šajā
gadījumā šo stīgu un nākamais

602
00:30:38,900 --> 00:30:44,540
string, lai katram no līnijas, ko es
gatavojas darīt, ir, pirmkārt, es esmu gatavojas

603
00:30:44,540 --> 00:30:49,150
sadalīt šo līniju uz sarakstu
vārdi atdalīti ar atstarpēm.

604
00:30:49,150 --> 00:30:53,730
>> Tik cool lieta par Python ir tas, ka
jūs varētu tikai Google, piemēram, "Kā es varu

605
00:30:53,730 --> 00:30:58,220
sadalīt virkni vārdos? ", Un tas ir
dodas uz jums pastāstīt, kā to izdarīt.

606
00:30:58,220 --> 00:31:04,890
Un veids, kā to darīt, tas ir tikai "līnija
= Line.split () ", un tas ir pamatā

607
00:31:04,890 --> 00:31:08,640
gatavojas sniegt jums sarakstu ar
katrs no vārdiem šeit.

608
00:31:08,640 --> 00:31:09,620
Jēga?

609
00:31:09,620 --> 00:31:15,870
Tāpēc tagad, ka man bija, ka es gribu zināt
kas ir dziedātāja šī dziesma.

610
00:31:15,870 --> 00:31:20,130
Un to, ka man vienkārši ir, lai saņemtu
masīva pirmais elements, vai ne?

611
00:31:20,130 --> 00:31:26,390
Tāpēc es varu tikai teikt, ka es "dziedātājs
= Līnija (0) "Ir jēga?

612
00:31:26,390 --> 00:31:32,010
>> Un tad to, kas man ir nepieciešams darīt, ir, pirmkārt,
viss, es esmu gatavojas atjaunināt cik

613
00:31:32,010 --> 00:31:36,130
vārdi man ir zem "Gaga". tāpēc es esmu tikai
gatavojas, lai aprēķinātu, cik daudz vārdu es

614
00:31:36,130 --> 00:31:38,690
ir šajā sarakstā, vai ne?

615
00:31:38,690 --> 00:31:41,910
Jo tas ir, cik daudz vārdi man ir
in lyrics, un es esmu tikai gatavojas

616
00:31:41,910 --> 00:31:44,120
pievienojiet to "Gaga" masīvs.

617
00:31:44,120 --> 00:31:47,090
Vai tas ir jēga?

618
00:31:47,090 --> 00:31:49,010
Nelietojiet koncentrēties pārāk daudz par sintaksi.

619
00:31:49,010 --> 00:31:50,430
Vairāk domā par jēdzieniem.

620
00:31:50,430 --> 00:31:52,400
Tas ir ļoti svarīga daļa.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> Tātad, ko es varu darīt, ir, ja "gaga" ir
jau šajā sarakstā, tāpēc "ja dziedātājs

623
00:32:00,260 --> 00:32:03,190
vārdus "kas nozīmē, ka es jau
ir vārdi, ko Gaga.

624
00:32:03,190 --> 00:32:06,640
Es tikai vēlos, lai pievienotu papildu
vārdi, ka.

625
00:32:06,640 --> 00:32:15,810
Tātad, ko es daru, ir "vārdi (dziedātāja)
+ = Len (līnija) - 1 ".

626
00:32:15,810 --> 00:32:18,250
Un tad es varu tikai darīt
garuma līniju.

627
00:32:18,250 --> 00:32:21,860
Tā kā daudzi elementi I
ir masīvā.

628
00:32:21,860 --> 00:32:27,060
Un man ir jādara, mīnus 1 tikai tāpēc, ka
masīva pirmais elements ir tikai

629
00:32:27,060 --> 00:32:29,180
dziedātājs un tie nav lyrics.

630
00:32:29,180 --> 00:32:31,420
Jēga?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "Else", tas nozīmē, ka es vēlos, lai faktiski
ievietot Gaga šajā sarakstā.

633
00:32:35,820 --> 00:32:45,990
Tāpēc es vienkārši darīt "vārdi (dziedātāja)
= Len (līnija) - 1, "sorry.

634
00:32:45,990 --> 00:32:49,200
Tātad vienīgā atšķirība starp diviem
pozīcijas ir tāda, ka tas viens, tā nav

635
00:32:49,200 --> 00:32:51,080
pastāv vēl, tāpēc es esmu tikai
inicializēšana to.

636
00:32:51,080 --> 00:32:53,820
Šis viens es esmu faktiski pievienojot.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
Tātad tas bija pievienojot vārdus.

639
00:32:59,480 --> 00:33:03,040
>> Tagad es vēlos, lai vairotu Priors.

640
00:33:03,040 --> 00:33:05,480
Tātad, kā es varu aprēķināt priors?

641
00:33:05,480 --> 00:33:11,580
Šā priors var aprēķināt
cik daudz reižu.

642
00:33:11,580 --> 00:33:15,340
Tik, cik reizes jūs redzēsiet, ka dziedātāja
starp visiem dziedātājiem, kas jums

643
00:33:15,340 --> 00:33:16,380
ir, vai ne?

644
00:33:16,380 --> 00:33:18,810
Tātad Gaga un Katy Perry,
Šajā gadījumā, es redzu Gaga

645
00:33:18,810 --> 00:33:20,570
reizi, Katy Perry vienu reizi.

646
00:33:20,570 --> 00:33:23,320
>> Vārdu sakot, priors par Gaga
un Katy Perry būtu

647
00:33:23,320 --> 00:33:24,390
tikai viens, vai ne?

648
00:33:24,390 --> 00:33:26,500
Jūs vienkārši, cik reizes
Es redzu, ka mākslinieks.

649
00:33:26,500 --> 00:33:28,740
Tāpēc tas ir ļoti viegli aprēķināt.

650
00:33:28,740 --> 00:33:34,100
Es varu tikai kaut kas līdzīgs, kā, piemēram, "ja
dziedātājs priors, "es esmu tikai gatavojas

651
00:33:34,100 --> 00:33:38,970
pievienot 1 to lodziņā Priors.

652
00:33:38,970 --> 00:33:51,000
Tātad, "priors (dziedāt)" + = 1 "un tad" cits "
Es esmu gatavojas darīt "Priors (dziedātāja)

653
00:33:51,000 --> 00:33:55,000
= 1. "Ir jēga?

654
00:33:55,000 --> 00:34:00,080
>> Tātad, ja tas neeksistē es tikai izvirzīti
kā 1, citādi es vienkārši pievienojiet 1.

655
00:34:00,080 --> 00:34:11,280
Labi, tāpēc tagad viss, kas man ir pa kreisi, lai darīt
arī pievienot katru no vārdiem

656
00:34:11,280 --> 00:34:12,290
varbūtības.

657
00:34:12,290 --> 00:34:14,889
Tāpēc man ir, lai saskaitītu, cik reižu
Es redzu katru no vārdiem.

658
00:34:14,889 --> 00:34:18,780
Tāpēc es vienkārši ir jādara citā
cilpa rindā.

659
00:34:18,780 --> 00:34:25,190
>> Tātad pirmā lieta, ko es esmu gatavojas darīt, ir
pārbaudiet, vai dziedātājs jau ir

660
00:34:25,190 --> 00:34:26,969
varbūtības masīvs.

661
00:34:26,969 --> 00:34:31,739
Tāpēc es esmu pārbaudīt, ja dziedātājs nav
ir varbūtības masīvs, es esmu tikai

662
00:34:31,739 --> 00:34:34,480
gatavojas, lai sāktu vienu viņiem.

663
00:34:34,480 --> 00:34:36,400
Tas pat nav masīvs, piedodiet,
tas ir vārdnīca.

664
00:34:36,400 --> 00:34:43,080
Tāpēc varbūtības dziedātāja gatavojas
būs atvērta vārdnīca, tāpēc es esmu

665
00:34:43,080 --> 00:34:45,830
tikai inicializēšana vārdnīcu par to.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> Un tagad es tiešām varu darīt, lai cilpu
lai aprēķinātu katrai no vārdiem '

668
00:34:58,330 --> 00:35:00,604
varbūtības.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
Tātad, ko es varu darīt, ir, lai cilpu.

671
00:35:04,160 --> 00:35:06,590
Tāpēc es esmu tikai gatavojas atkārtot
pa masīva.

672
00:35:06,590 --> 00:35:15,320
Tāpēc, ka es varu darīt, ka Python
ir "par i diapazonā." No 1

673
00:35:15,320 --> 00:35:19,200
jo es gribu sākt otrajā
elements, jo pirmā ir

674
00:35:19,200 --> 00:35:20,260
dziedātājs nosaukums.

675
00:35:20,260 --> 00:35:24,990
Tātad, no viena līdz
garuma līniju.

676
00:35:24,990 --> 00:35:29,760
Un, kad es svārstās tas tiešām iet no
piemēram, šeit no 1 līdz Len no

677
00:35:29,760 --> 00:35:30,740
line mīnus 1.

678
00:35:30,740 --> 00:35:33,810
Tāpēc tas jau ir tas, ka lieta, kas dara
n mīnus 1 uz blokiem, kas ir ļoti

679
00:35:33,810 --> 00:35:35,500
ērti.

680
00:35:35,500 --> 00:35:37,850
Jēga?

681
00:35:37,850 --> 00:35:42,770
>> Tāpēc katrai no tām, ko es esmu gatavojas
do ir, tāpat kā otra,

682
00:35:42,770 --> 00:35:50,320
Es esmu gatavojas, lai pārbaudītu, vai vārds šajā
pozīciju rindā jau

683
00:35:50,320 --> 00:35:51,570
varbūtības.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
Un tad kā es šeit teicu, varbūtības
vārdi, tāpat kā man

686
00:35:57,260 --> 00:35:58,400
"varbūtības (dziedātājs)".

687
00:35:58,400 --> 00:35:59,390
Tā nosaukums dziedātājs.

688
00:35:59,390 --> 00:36:03,450
Tātad, ja tas jau ir
"Probabilit (dziedātāja)", tas nozīmē, ka es

689
00:36:03,450 --> 00:36:11,960
vēlaties pievienot 1 to, tāpēc es esmu gatavojas
do "varbūtības (dziedātājs)" un

690
00:36:11,960 --> 00:36:14,100
vārdu sauc par "line (i)".

691
00:36:14,100 --> 00:36:22,630
Es esmu gatavojas pievienot 1 un "cits" Es esmu tikai
gatavojas, lai sāktu to 1.

692
00:36:22,630 --> 00:36:23,880
"Line (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Jēga?

695
00:36:28,420 --> 00:36:30,180
>> Tātad, es calculated visas masīvi.

696
00:36:30,180 --> 00:36:36,580
Tātad, tagad viss, kas man ir jādara, lai
tas viens ir tikai "atgriešanās priors,

697
00:36:36,580 --> 00:36:43,230
varbūtības un vārdiem. "Let '
redzēt, ja tādi ir, OK.

698
00:36:43,230 --> 00:36:45,690
Šķiet, ka viss strādā līdz šim.

699
00:36:45,690 --> 00:36:46,900
Tātad, tas ir jēga?

700
00:36:46,900 --> 00:36:47,750
Kaut kādā veidā?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
Tāpēc tagad man ir visas varbūtības.

703
00:36:51,980 --> 00:36:55,100
Tāpēc tagad vienīgā lieta, ko es esmu pa kreisi
ir tikai, lai ir, ka lieta, ka

704
00:36:55,100 --> 00:36:58,650
aprēķina ierīci visu
varbūtības, kad man dziesmu.

705
00:36:58,650 --> 00:37:06,270
>> Tātad pieņemsim, ka es vēlos, lai tagad zvanīt
šī funkcija "klasificētu ()" un

706
00:37:06,270 --> 00:37:08,880
lieta, ka funkcija tiek
ir tikai arguments.

707
00:37:08,880 --> 00:37:13,170
Teiksim "Baby, es esmu par uguns", un tas ir
gatavojas, lai noskaidrotu, kāda ir

708
00:37:13,170 --> 00:37:14,490
varbūtība, ka tas ir Gaga?

709
00:37:14,490 --> 00:37:16,405
Kāda ir varbūtība
ka tas ir Katie?

710
00:37:16,405 --> 00:37:19,690
Izklausās labi?

711
00:37:19,690 --> 00:37:25,750
Tāpēc es esmu tikai nāksies izveidot
jauna funkcija sauc par "klasificētu ()" un

712
00:37:25,750 --> 00:37:29,180
tas ir gatavojas veikt kādu
lyrics, kā arī.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
Un papildus dziesmu es arī
ir jānosūta priors,

715
00:37:36,160 --> 00:37:37,700
varbūtības un vārdi.

716
00:37:37,700 --> 00:37:44,000
Tāpēc es esmu gatavojas nosūtīt lyrics, Priors,
varbūtības, vārdus.

717
00:37:44,000 --> 00:37:51,840
>> Tāpēc tas ir ņemot lyrics, Priors,
varbūtības, vārdus.

718
00:37:51,840 --> 00:37:53,530
Tātad, ko tas dara?

719
00:37:53,530 --> 00:37:57,180
Tā būtībā ir gatavojas iet cauri visiem
iespējamie kandidāti, kas jums

720
00:37:57,180 --> 00:37:58,510
ir kā dziedātājs.

721
00:37:58,510 --> 00:37:59,425
Un kur ir tie kandidāti?

722
00:37:59,425 --> 00:38:01,020
Viņi ir priors, vai ne?

723
00:38:01,020 --> 00:38:02,710
Tāpēc man ir visi no tiem tur.

724
00:38:02,710 --> 00:38:07,870
Tāpēc es esmu nāksies vārdnīca
no visiem iespējamajiem kandidātiem.

725
00:38:07,870 --> 00:38:14,220
Un tad katram kandidātam
priors, tāpēc tas nozīmē, ka tas būs

726
00:38:14,220 --> 00:38:17,740
būt Gaga, Keitija, ja man bija
more tas būtu.

727
00:38:17,740 --> 00:38:20,410
Es esmu gatavojas sākt aprēķināšanai
šī varbūtība.

728
00:38:20,410 --> 00:38:28,310
Kā mēs redzējām varbūtība
PowerPoint ir iepriekšējās reizes

729
00:38:28,310 --> 00:38:30,800
Produkts katra
citas varbūtības.

730
00:38:30,800 --> 00:38:32,520
>> Lai es varētu darīt pats šeit.

731
00:38:32,520 --> 00:38:36,330
Es varu tikai darīt varbūtība ir
Sākotnēji tieši pirms.

732
00:38:36,330 --> 00:38:40,340
Tātad priors par kandidātu.

733
00:38:40,340 --> 00:38:40,870
Tiesības?

734
00:38:40,870 --> 00:38:45,360
Un tagad man ir atkārtot visā
vārdi, kas man ir, lyrics, lai būtu

735
00:38:45,360 --> 00:38:48,820
var pievienot varbūtību
attiecībā uz katru no tiem, OK?

736
00:38:48,820 --> 00:38:57,900
Tātad, "par vārdu dziesmu", ko es esmu gatavojas
to darīt, ir, ja vārds ir

737
00:38:57,900 --> 00:39:01,640
"varbūtības (kandidāts)", kas
nozīmē, ka tas ir vārds, kas

738
00:39:01,640 --> 00:39:03,640
Kandidātam ir viņu dziesmu -

739
00:39:03,640 --> 00:39:05,940
Piemēram, "baby" par Gaga -

740
00:39:05,940 --> 00:39:11,710
ko es esmu gatavojas darīt, ir, ka
varbūtība būs jāreizina

741
00:39:11,710 --> 00:39:22,420
līdz 1 plus varbūtībām
kandidāts šo vārdu.

742
00:39:22,420 --> 00:39:25,710
Un to sauc "vārds".

743
00:39:25,710 --> 00:39:32,440
Tas dalot ar vairākiem vārdiem
ka man ir par šo kandidātu.

744
00:39:32,440 --> 00:39:37,450
Kopējais skaits vārdiem, kas man ir
par dziedātāju, ka es esmu meklē.

745
00:39:37,450 --> 00:39:40,290
>> "Else". tas nozīmē, ka tas ir jauns vārds
tāpēc tas lūdzu būt, piemēram, piemēram,

746
00:39:40,290 --> 00:39:41,860
"Uguns" Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Tāpēc es vienkārši gribu darīt 1 vairāk
"Vārdu (kandidāts)".

748
00:39:45,760 --> 00:39:47,710
Tāpēc es nevēlos, lai šo termiņu šeit.

749
00:39:47,710 --> 00:39:50,010
>> Tātad tas būs pamatā
kopēt un ielīmēt to.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Bet es esmu gatavojas dzēst šo daļu.

752
00:39:56,000 --> 00:39:57,610
Tāpēc tas ir tikai būs 1 pār to.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Izklausās labi?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
Un tagad beigās, es esmu tikai gatavojas
drukāt kandidāta vārdu un

757
00:40:09,700 --> 00:40:15,750
varbūtība, ka jums ir par
kam S uz to vārdiem.

758
00:40:15,750 --> 00:40:16,200
Jēga?

759
00:40:16,200 --> 00:40:18,390
Un es tiešām nav pat
vajag šo vārdnīcu.

760
00:40:18,390 --> 00:40:19,510
Jēga?

761
00:40:19,510 --> 00:40:21,810
>> Tātad, pieņemsim redzēt, ja tas tiešām darbojas.

762
00:40:21,810 --> 00:40:24,880
Tātad, ja es palaist, tas nestrādāja.

763
00:40:24,880 --> 00:40:26,130
Pagaidiet vienu sekundi.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Vārdi (kandidāts)", "vārdus (kandidāts)",
tas ir

766
00:40:31,720 --> 00:40:33,750
nosaukums masīva.

767
00:40:33,750 --> 00:40:41,435
OK Tātad, tas saka, ka ir dažas bug
par kandidāta Priors.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Ļaujiet man tikai chill mazliet.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
Pamēģināsim.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> Tāpēc tas dod Katy Perry ir šis
varbūtība, ka šī reizes 10 līdz

774
00:40:58,710 --> 00:41:02,200
mīnus 7, un Gaga ir tas
reizes 10 līdz mīnus 6.

775
00:41:02,200 --> 00:41:05,610
Tātad jūs redzat, tas liecina, ka Gaga
ir lielāka varbūtība.

776
00:41:05,610 --> 00:41:09,260
Tātad "Baby, es esmu on Fire" ir
iespējams Gaga dziesmu.

777
00:41:09,260 --> 00:41:10,580
Jēga?

778
00:41:10,580 --> 00:41:12,030
Tātad šis ir tas, ko mēs darījām.

779
00:41:12,030 --> 00:41:16,010
>> Šis kods tiks publicēta internetā,
Tātad jūs guys var to pārbaudīt out.

780
00:41:16,010 --> 00:41:20,720
Varbūt izmantot dažas no tā, ja jūs vēlaties, lai
darīt projekts vai kaut kas līdzīgs.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
Tas bija tikai, lai parādītu
kādi skaitļošanas

783
00:41:25,930 --> 00:41:27,230
lingvistika kods izskatās.

784
00:41:27,230 --> 00:41:33,040
Bet tagad iesim uz vairāk
augsta līmeņa sīkumi.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> Tāpēc citas problēmas I
runāja par -

787
00:41:35,150 --> 00:41:37,550
segmentācijas problēma
ir pirmais no tiem.

788
00:41:37,550 --> 00:41:40,820
Tātad jums ir šeit japāņu.

789
00:41:40,820 --> 00:41:43,420
Un tad jūs redzēsiet, ka
nav vietas.

790
00:41:43,420 --> 00:41:49,110
Tāpēc tas būtībā nozīmē, ka tā ir
top no krēsla, vai ne?

791
00:41:49,110 --> 00:41:50,550
Tu runā japāņu?

792
00:41:50,550 --> 00:41:52,840
Tā ir top no krēsla, vai ne?

793
00:41:52,840 --> 00:41:54,480
>> STUDENTU: Es nezinu, ko
Kanji tur ir.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS FREITAS: Tas [RUNĀJOŠĀ japāņu]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
Tātad, tas būtībā nozīmē vadībā top.

797
00:42:00,960 --> 00:42:03,620
Tātad, ja jums bija, lai telpu
tas būtu šeit.

798
00:42:03,620 --> 00:42:05,970
Un tad jums ir [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Kas būtībā nozīmē, Mr Ueda.

800
00:42:09,040 --> 00:42:13,180
Un jūs redzēsiet, ka "Ueda", un jums ir
telpu un tad "san." Tātad jūs redzat, ka

801
00:42:13,180 --> 00:42:15,470
Šeit jūs "UE" ir kā pati par sevi.

802
00:42:15,470 --> 00:42:17,750
Un šeit tas ir raksturs
tai blakus.

803
00:42:17,750 --> 00:42:21,720
>> Tāpēc tas nav, piemēram, šajās valodās
rakstzīmes nozīmē vārdu tā, lai jūs

804
00:42:21,720 --> 00:42:23,980
vienkārši ielieciet daudz telpu.

805
00:42:23,980 --> 00:42:25,500
Rakstzīmes ir saistīti viens ar otru.

806
00:42:25,500 --> 00:42:28,680
, Un tie var būt kopā
, piemēram, divas, trīs, vienu.

807
00:42:28,680 --> 00:42:34,520
Tātad jums tiešām ir izveidot sava veida
no veidiem, kā liekot uz šīm telpām.

808
00:42:34,520 --> 00:42:38,850
>> Un tas ir tas, ka, ja jums
dati no šīm Āzijas valodām,

809
00:42:38,850 --> 00:42:40,580
viss nāk unsegmented.

810
00:42:40,580 --> 00:42:45,940
Tāpēc, ka neviens, kas raksta japāņu
vai ķīniešu raksta ar atstarpēm.

811
00:42:45,940 --> 00:42:48,200
Ikreiz, kad jūs esat rakstiski ķīniešu,
Japāņu jūs vienkārši rakstīt visu

812
00:42:48,200 --> 00:42:48,710
bez atstarpēm.

813
00:42:48,710 --> 00:42:52,060
Tas pat nav jēgas
likt atstarpes.

814
00:42:52,060 --> 00:42:57,960
Tātad, ja jums iegūt datus no dažas
Austrumāzijas valodu, ja vēlaties

815
00:42:57,960 --> 00:43:00,760
faktiski darīt kaut ko ar to
Jums segmentā pirmās.

816
00:43:00,760 --> 00:43:05,130
>> Domā darīt piemēru
lyrics bez atstarpēm.

817
00:43:05,130 --> 00:43:07,950
Tāpēc vienīgais dziesmu, kas jums ir
būs teikumus, vai ne?

818
00:43:07,950 --> 00:43:09,470
Atdalīti ar periodiem.

819
00:43:09,470 --> 00:43:13,930
Bet tad ar tikai sodu būs
nav īsti palīdzēt, par to informāciju

820
00:43:13,930 --> 00:43:17,760
par to, kas šie vārdi ir līdz.

821
00:43:17,760 --> 00:43:18,120
Tiesības?

822
00:43:18,120 --> 00:43:20,010
Tātad, jums vajadzētu liek atstarpes pirmās.

823
00:43:20,010 --> 00:43:21,990
Tātad, kā jūs varat darīt?

824
00:43:21,990 --> 00:43:24,920
>> Tātad nāk ideja par valodu
modelis, kas ir kaut kas patiešām

825
00:43:24,920 --> 00:43:26,870
svarīgi skaitļošanas
lingvistika.

826
00:43:26,870 --> 00:43:32,790
Tāpēc valodas modelis pamatā
tabula varbūtību, ka izrādes

827
00:43:32,790 --> 00:43:36,260
pirmkārt, kāda ir varbūtība
, kam vārdu valodā?

828
00:43:36,260 --> 00:43:39,590
Tātad, kas parāda, cik bieži vārds ir.

829
00:43:39,590 --> 00:43:43,130
Un tad arī parāda attiecības
starp vārdiem teikumā.

830
00:43:43,130 --> 00:43:51,500
>> Tā galvenā ideja ir, ja svešinieks atnāca
jums un teica teikumu

831
00:43:51,500 --> 00:43:55,600
Jums, kāda ir varbūtība, ka,
Piemēram, "šī ir mana māsa [GTF?"?]

832
00:43:55,600 --> 00:43:57,480
bija teikums, ka persona teica?

833
00:43:57,480 --> 00:44:00,380
Tātad, protams, daži teikumi ir
biežāk nekā citi.

834
00:44:00,380 --> 00:44:04,450
Piemēram, "Labrīt" vai "labs
nakts "vai" hey tur, "ir daudz

835
00:44:04,450 --> 00:44:08,260
biežāk, nekā lielākā daļa sodu
ka mums ir angļu valodā.

836
00:44:08,260 --> 00:44:11,060
Tātad, kāpēc šie teikumi
biežāk?

837
00:44:11,060 --> 00:44:14,060
>> Pirmkārt, tas ir tāpēc, ka jums ir
vārdus, kas ir biežāk.

838
00:44:14,060 --> 00:44:20,180
Tā, piemēram, ja jūs sakāt, suns
liels, un suns ir gigantisks, jūs

839
00:44:20,180 --> 00:44:23,880
parasti iespējams dzirdēt suns ir liels
biežāk, jo "lielais" ir vairāk

840
00:44:23,880 --> 00:44:27,260
bieži angļu valodā par "gigantisku."
Tātad, viens no

841
00:44:27,260 --> 00:44:30,100
lietas ir vārds frekvences.

842
00:44:30,100 --> 00:44:34,490
>> Otra lieta, kas ir patiešām
svarīgs ir tikai

843
00:44:34,490 --> 00:44:35,490
pasūtījums no vārdiem.

844
00:44:35,490 --> 00:44:39,500
Tātad, tas ir kopīgs teikt "kaķis
iekšā kastē. ", bet jums nav parasti

845
00:44:39,500 --> 00:44:44,250
redzēt "kastē iekšā ir kaķis." tā
Jūs redzēsiet, ka tur ir dažas nozīme

846
00:44:44,250 --> 00:44:46,030
ar vārdiem kārtībā.

847
00:44:46,030 --> 00:44:50,160
Jūs varat ne tikai teikt, ka šie divi
teikumi ir tāda pati varbūtība

848
00:44:50,160 --> 00:44:53,010
tikai tāpēc, ka tie ir tie paši vārdi.

849
00:44:53,010 --> 00:44:55,550
Jums tiešām ir jārūpējas
par to, lai arī.

850
00:44:55,550 --> 00:44:57,650
Jēga?

851
00:44:57,650 --> 00:44:59,490
>> Tātad, ko mēs darām?

852
00:44:59,490 --> 00:45:01,550
Tātad, ko es varētu mēģināt, lai saņemtu jums?

853
00:45:01,550 --> 00:45:04,400
Es cenšos, lai jūs to, ko mēs
zvaniet n-gramu modeļiem.

854
00:45:04,400 --> 00:45:09,095
Tā n-gramu modeļi būtībā uzņemas
ka katram vārdam, kas

855
00:45:09,095 --> 00:45:10,960
Jums ir teikumā.

856
00:45:10,960 --> 00:45:15,020
Tas ir varbūtība, ka tas
vārds tur ir atkarīga ne tikai no

857
00:45:15,020 --> 00:45:18,395
biežumu šī vārda valodā,
bet arī par vārdiem, kas

858
00:45:18,395 --> 00:45:19,860
ir ap to.

859
00:45:19,860 --> 00:45:25,810
>> Tā, piemēram, parasti, kad jūs redzat
kaut kas līdzīgs uz vai jūs

860
00:45:25,810 --> 00:45:28,040
iespējams, gatavojas, lai redzētu
lietvārds pēc tā, vai ne?

861
00:45:28,040 --> 00:45:31,750
Jo, kad jums ir prievārds
parasti tas aizņem lietvārdus pēc tā.

862
00:45:31,750 --> 00:45:35,540
Vai ja jums ir darbības vārds, kas ir pārejošs
jūs parasti gatavojas

863
00:45:35,540 --> 00:45:36,630
ir lietvārdu frāze.

864
00:45:36,630 --> 00:45:38,780
Tātad, tas notiek, ir lietvārds
kaut kur ap to.

865
00:45:38,780 --> 00:45:44,950
>> Tātad, būtībā, ko tā dara, ir, ka tas
uzskata, ka varbūtība, ka tā

866
00:45:44,950 --> 00:45:47,960
Vārdi blakus viens otram, kad
jūs aprēķinot

867
00:45:47,960 --> 00:45:49,050
varbūtība teikumā.

868
00:45:49,050 --> 00:45:50,960
Un tas, ko valoda
modelis pamatā.

869
00:45:50,960 --> 00:45:54,620
Vienkārši sakot, kāda ir varbūtība
, kam īpašs

870
00:45:54,620 --> 00:45:57,120
teikums valodā?

871
00:45:57,120 --> 00:45:59,110
Tātad, kāpēc ir tā, ka noderīga, būtībā?

872
00:45:59,110 --> 00:46:02,390
Un pirmkārt, to, kas ir
n-gram modeli, tad?

873
00:46:02,390 --> 00:46:08,850
>> Tātad, n-gram modelis nozīmē, ka
katrs vārds ir atkarīga no

874
00:46:08,850 --> 00:46:12,700
Nākamais N mīnus 1 vārdi.

875
00:46:12,700 --> 00:46:18,150
Tātad, būtībā, tas nozīmē, ka, ja es paskatos,
Piemēram, pie CS50 TF kad

876
00:46:18,150 --> 00:46:21,500
Es esmu aprēķinot varbūtību
teikumu, jums būs, piemēram, "

877
00:46:21,500 --> 00:46:25,280
varbūtība, ka vārdu ""
reizes varbūtība, ka "

878
00:46:25,280 --> 00:46:31,720
CS50 "reizes varbūtība, ka
"CS50 TF." Tātad, būtībā, es paļaujos

879
00:46:31,720 --> 00:46:35,720
visi iespējamie veidi, izstiepjot to.

880
00:46:35,720 --> 00:46:41,870
>> Un tad parasti, kad jūs darāt to,
kā projektā, jūs likts N būt

881
00:46:41,870 --> 00:46:42,600
zemu vērtību.

882
00:46:42,600 --> 00:46:45,930
Tātad, parasti ir bigrams vai Trigrammas.

883
00:46:45,930 --> 00:46:51,090
Tā, ka jūs vienkārši rēķināties divas vārdiem sakot,
no diviem vārdiem, vai trim vārdiem grupa,

884
00:46:51,090 --> 00:46:52,620
tikai veiktspējas jautājumiem.

885
00:46:52,620 --> 00:46:56,395
Un arī tāpēc, ka varbūt, ja jums ir
kaut ko līdzīgu "The CS50 TF." Kad jūs

886
00:46:56,395 --> 00:47:00,510
ir "TF", tas ir ļoti svarīgi, ka
"CS50" ir blakus, vai ne?

887
00:47:00,510 --> 00:47:04,050
Šīs divas lietas parasti
viens otram blakus.

888
00:47:04,050 --> 00:47:06,410
>> Ja jūs domājat par "TF", tas ir iespējams,
nāksies ko

889
00:47:06,410 --> 00:47:07,890
klasē tas TF'ing par.

890
00:47:07,890 --> 00:47:11,330
Arī "" ir ļoti svarīga
par CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Bet, ja jums ir kaut kas līdzīgs "The CS50
TF devās uz klasi un deva to

892
00:47:14,570 --> 00:47:20,060
studentiem dažas konfektes. "" Candy "un" "
nav nekāda sakara tiešām, labi?

893
00:47:20,060 --> 00:47:23,670
Viņi tik tālu viena no otras, ka
tas nav īsti jautājums, ko

894
00:47:23,670 --> 00:47:25,050
vārdi ir.

895
00:47:25,050 --> 00:47:31,210
>> Tātad, darot bigram vai Trigram, tas
tikai nozīmē, ka jūs ierobežo

896
00:47:31,210 --> 00:47:33,430
sevi ar dažiem vārdiem
, kas ir apkārt.

897
00:47:33,430 --> 00:47:35,810
Jēga?

898
00:47:35,810 --> 00:47:40,630
Tātad, ja jūs vēlaties darīt segmentāciju,
būtībā, ko jūs vēlaties darīt, ir redzēt

899
00:47:40,630 --> 00:47:44,850
kādi ir visi iespējamie veidi,
jūs varat segments sodu.

900
00:47:44,850 --> 00:47:49,090
>> Piemēram, ka jūs redzēt, kas ir
varbūtība, ka katrs no šiem teikumiem

901
00:47:49,090 --> 00:47:50,880
esošo valodā?

902
00:47:50,880 --> 00:47:53,410
Tātad, kas jums jādara, ir, piemēram, labi, pieņemsim
man mēģināt likt atstarpi šeit.

903
00:47:53,410 --> 00:47:55,570
Tātad jūs varat ievietot atstarpi tur
un jūs redzat, kas ir

904
00:47:55,570 --> 00:47:57,590
varbūtība, ka šī teikuma?

905
00:47:57,590 --> 00:48:00,240
Tad jums ir līdzīgi, OK, varbūt
tas nebija tik labs.

906
00:48:00,240 --> 00:48:03,420
Tāpēc man vietu tur un kosmosa
tur, un jūs varat aprēķināt

907
00:48:03,420 --> 00:48:06,240
varbūtība tagad, un jūs redzēsiet, ka
tā ir lielāka varbūtība.

908
00:48:06,240 --> 00:48:12,160
>> Tātad šis ir algoritms sauc TANGO
segmentācija algoritmu, kas ir

909
00:48:12,160 --> 00:48:14,990
tiešām kaut kas būtu patiešām
cool projektam, kas

910
00:48:14,990 --> 00:48:20,860
būtībā notiek unsegmented tekstu, kas
var būt japāņu vai ķīniešu, vai varbūt

911
00:48:20,860 --> 00:48:26,080
Angļu bez atstarpēm un mēģina nodot
atstarpes starp vārdiem un tas

912
00:48:26,080 --> 00:48:29,120
ka, izmantojot valodu modeli un
mēģinot lai redzētu, kas ir augstākais

913
00:48:29,120 --> 00:48:31,270
varbūtība, jūs varat saņemt.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
Tāpēc tas ir segmentācija.

916
00:48:33,800 --> 00:48:35,450
>> Tagad sintakse.

917
00:48:35,450 --> 00:48:40,940
Tātad, sintakse tiek izmantota
tik daudz lietas, tiesības tagad.

918
00:48:40,940 --> 00:48:44,880
Tātad Graph Meklēt, lai Siri par
diezgan daudz jebkāda veida fiziska

919
00:48:44,880 --> 00:48:46,490
valodas apstrāde jums ir.

920
00:48:46,490 --> 00:48:49,140
Tātad, kādi ir svarīgi
lietas par sintaksi?

921
00:48:49,140 --> 00:48:52,390
Tātad, teikumi vispār ir
tas, ko mēs saucam sastāvdaļas.

922
00:48:52,390 --> 00:48:57,080
Kas ir veida, piemēram, vārdu grupu
kas ir funkciju teikumā.

923
00:48:57,080 --> 00:49:02,220
Un viņi nevar īsti būt
neatkarīgi viena no otras.

924
00:49:02,220 --> 00:49:07,380
>> Tātad, ja es saku, piemēram, "Lauren mīl
Milo. "Es zinu, ka" Lauren "ir

925
00:49:07,380 --> 00:49:10,180
komponents, un tad "mīl
Milo "ir arī vēl viens.

926
00:49:10,180 --> 00:49:16,860
Jo jūs nevarat pateikt, piemēram, "Lauren Milo
mīl "ir tāda pati nozīme.

927
00:49:16,860 --> 00:49:18,020
Tas nav nāksies
pati nozīme.

928
00:49:18,020 --> 00:49:22,500
Vai es nevaru teikt, piemēram, "Milo Lauren
mīl. "Ne viss ir tāds pats

929
00:49:22,500 --> 00:49:25,890
nozīmē darīt.

930
00:49:25,890 --> 00:49:31,940
>> Tātad divas svarīgākas lietas par
sintakse ir leksikas veidi, kas ir

931
00:49:31,940 --> 00:49:35,390
būtībā funkcija, kas jums
ir vārdus ar sevi.

932
00:49:35,390 --> 00:49:39,180
Tātad jums ir jāzina, ka "Lauren"
un "Milo" ir lietvārdi.

933
00:49:39,180 --> 00:49:41,040
"Love" ir darbības vārds.

934
00:49:41,040 --> 00:49:45,660
Un otrs svarīga lieta ir
ka viņi Phrasal veidiem.

935
00:49:45,660 --> 00:49:48,990
Tātad, jūs zināt, ka "mīl Milo"
faktiski verbālās frāze.

936
00:49:48,990 --> 00:49:52,390
Tātad, kad es saku "Lauren," Es zinu, ka
Lauren dara kaut ko.

937
00:49:52,390 --> 00:49:53,620
Ko viņa dara?

938
00:49:53,620 --> 00:49:54,570
Viņa ir mīlošs Milo.

939
00:49:54,570 --> 00:49:56,440
Tātad, tas ir viss.

940
00:49:56,440 --> 00:50:01,640
Bet tās sastāvdaļas ir
lietvārds un darbības vārds.

941
00:50:01,640 --> 00:50:04,210
Bet kopā viņi dara verb frāze.

942
00:50:04,210 --> 00:50:08,680
>> Tātad, ko mēs varam reāli darīt ar
skaitļošanas lingvistika?

943
00:50:08,680 --> 00:50:13,810
Tātad, ja man ir kaut kas, piemēram
"draugi Allison." Es redzu, ja es tikko

944
00:50:13,810 --> 00:50:17,440
bija sintaktisko koks es zinātu, ka
"Draugi" ir lietvārda frāze ir

945
00:50:17,440 --> 00:50:21,480
lietvārds, un tad "no Allison" ir
prepozicionāls frāze, kurā "par" ir

946
00:50:21,480 --> 00:50:24,810
piedāvājums un "Allison" ir lietvārds.

947
00:50:24,810 --> 00:50:30,910
Ko es varētu darīt, ir mācīt manu datoru
ka tad, kad man ir lietvārda frāze vienu un

948
00:50:30,910 --> 00:50:33,080
tad prepozicionāls frāze.

949
00:50:33,080 --> 00:50:39,020
Tātad šajā gadījumā, "draugi", un tad "no
Milo "Es zinu, ka tas nozīmē, ka

950
00:50:39,020 --> 00:50:43,110
NP2, otrs, pieder NP1.

951
00:50:43,110 --> 00:50:47,680
>> Lai es varētu izveidot kādu saistībā,
sava veida funkcijas par to.

952
00:50:47,680 --> 00:50:52,370
Tāpēc, kad es redzu šo struktūru, kas
precīzi atbilst "ar draugiem

953
00:50:52,370 --> 00:50:56,030
Allison, "Es zinu, ka Allison
pieder draugiem.

954
00:50:56,030 --> 00:50:58,830
Tātad draugi ir kaut kas
ka Allison ir.

955
00:50:58,830 --> 00:50:59,610
Jēga?

956
00:50:59,610 --> 00:51:01,770
Tātad tas ir būtībā kas
Graph Meklēt dara.

957
00:51:01,770 --> 00:51:04,360
Tas tikai rada noteikumus
par daudz lietām.

958
00:51:04,360 --> 00:51:08,190
Tāpēc "draugi Allison", "Mani draugi
kas dzīvo Cambridge, "" mani draugi

959
00:51:08,190 --> 00:51:12,970
kas iet uz Harvard. "Tas rada noteikumus
visām šīm lietām.

960
00:51:12,970 --> 00:51:14,930
>> Tagad mašīntulkošanu.

961
00:51:14,930 --> 00:51:18,850
Tātad, mašīntulkošana ir arī
kaut statistikas.

962
00:51:18,850 --> 00:51:21,340
Un faktiski, ja jūs iesaistīties
skaitļošanas valodniecība, daudz

963
00:51:21,340 --> 00:51:23,580
jūsu stuff būs statistika.

964
00:51:23,580 --> 00:51:26,670
Tā kā man bija darīt piemēru ar
daudz varbūtību, ka es biju

965
00:51:26,670 --> 00:51:30,540
aprēķināšanai, un tad jums šo
ļoti mazs skaitlis, kas ir galīgais

966
00:51:30,540 --> 00:51:33,180
varbūtība, un tas, ko
sniedz jums atbildi.

967
00:51:33,180 --> 00:51:37,540
Mašīntulkošana izmanto arī
statistiskais modelis.

968
00:51:37,540 --> 00:51:44,790
Un, ja jūs vēlaties, lai padomātu par mašīnu
tulkojumu iespējas vienkāršākā

969
00:51:44,790 --> 00:51:48,970
veidā, ko jūs varat iedomāties, ir tikai
tulkot burtiski, vai ne?

970
00:51:48,970 --> 00:51:52,150
>> Kad jūs mācīties valodu, lai
pirmo reizi, tas ir parasti, ko

971
00:51:52,150 --> 00:51:52,910
jums, vai ne?

972
00:51:52,910 --> 00:51:57,050
Ja vēlaties, jūs tulkotu sodu
jūsu valodas uz valodu

973
00:51:57,050 --> 00:52:00,060
jūs mācīties, parasti vispirms, jums
pārvērst katru no vārdiem

974
00:52:00,060 --> 00:52:03,180
atsevišķi, un tad mēģināt
likt vārdus vietā.

975
00:52:03,180 --> 00:52:07,100
>> Tātad, ja es gribēju tulkot to,
[RUNĀJOŠĀ PORTUGĀLES]

976
00:52:07,100 --> 00:52:10,430
kas nozīmē "baltais kaķis skrēja prom."
Ja es gribēju tulkot no

977
00:52:10,430 --> 00:52:13,650
Portugāļu angļu, ko es
varētu darīt, ir, pirmkārt, es tikko

978
00:52:13,650 --> 00:52:14,800
tulkot vārdu pa vārdam.

979
00:52:14,800 --> 00:52:20,570
Tik "o" ir "," "Gato", "kaķis"
"Branco", "balts", un tad "Fugio" ir

980
00:52:20,570 --> 00:52:21,650
"Skrēja prom."

981
00:52:21,650 --> 00:52:26,130
>> Tātad man ir visi vārdi šeit
bet viņi nav kārtībā.

982
00:52:26,130 --> 00:52:29,590
Tas ir tāpat kā "kaķis baltais aizbēga"
kas ir ungrammatical.

983
00:52:29,590 --> 00:52:34,490
Tātad, tad es varētu būt otrais solis, kas
būs atrast ideālu

984
00:52:34,490 --> 00:52:36,610
pozīciju attiecībā uz katru no vārdiem.

985
00:52:36,610 --> 00:52:40,240
Tāpēc es zinu, ka es tiešām gribu, lai būtu
"White Cat", nevis "kaķis balta." Tā

986
00:52:40,240 --> 00:52:46,050
ko es varu darīt, ir, visvairāk naivi metodi Nr
būtu izveidot visu

987
00:52:46,050 --> 00:52:49,720
iespējamās permutācijas
vārdiem, no pozīcijām.

988
00:52:49,720 --> 00:52:53,300
Un tad redzētu, kura ir
visaugstākā varbūtība saskaņā

989
00:52:53,300 --> 00:52:54,970
manu valodu modeli.

990
00:52:54,970 --> 00:52:58,390
Un tad, kad es atrast vienu, kas ir
augstākais varbūtība tam, kas ir

991
00:52:58,390 --> 00:53:01,910
iespējams, "baltais kaķis skrēja prom,"
tas ir mans tulkojums.

992
00:53:01,910 --> 00:53:06,710
>> Un tas ir vienkāršs veids, kā izskaidrot
cik daudz mašīntulkošanu

993
00:53:06,710 --> 00:53:07,910
algoritmi strādā.

994
00:53:07,910 --> 00:53:08,920
Vai tas ir jēga?

995
00:53:08,920 --> 00:53:12,735
Tas ir arī kaut kas aizraujošs
ka jūs guys var varbūt izpētīt

996
00:53:12,735 --> 00:53:13,901
galīgais projekts, jā?

997
00:53:13,901 --> 00:53:15,549
>> STUDENTU: Nu, jūs teicāt, tas bija
naivs kā, lai to, kas ir

998
00:53:15,549 --> 00:53:17,200
nav naivi veidā?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS FREITAS: nav naivi veidā?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
Tātad pirmā lieta, kas ir slikti par
šī metode ir tā, ka es tikai tulkots

1002
00:53:22,860 --> 00:53:24,330
vārdi, vārdu pa vārdam.

1003
00:53:24,330 --> 00:53:30,570
Bet dažreiz jums ir vārdi, kas
var būt vairāki tulkojumi.

1004
00:53:30,570 --> 00:53:32,210
Es esmu gatavojas, lai mēģinātu domāt
par kaut ko.

1005
00:53:32,210 --> 00:53:37,270
Piemēram, "manga" Portugāles can
nu "rullēt" vai "piedurknes". Tā

1006
00:53:37,270 --> 00:53:40,450
kad jūs mēģināt tulkot vārdu
ar vārdiem, tas varētu būt sniedzot jums

1007
00:53:40,450 --> 00:53:42,050
kaut kas, kas nav jēgas.

1008
00:53:42,050 --> 00:53:45,770
>> Tātad jūs tiešām vēlaties, lai jums apskatīt visas
iespējamie tulkojumi

1009
00:53:45,770 --> 00:53:49,840
vārdus un redzēt, pirmkārt,
kāda ir kārtība.

1010
00:53:49,840 --> 00:53:52,000
Mēs runājām par permutating
lietas?

1011
00:53:52,000 --> 00:53:54,150
Lai redzētu visas iespējamās pasūtījumus un
izvēlēties vienu ar augstāko

1012
00:53:54,150 --> 00:53:54,990
varbūtība?

1013
00:53:54,990 --> 00:53:57,860
Jūs varat izvēlēties arī visas iespējas
tulkojumi par katru

1014
00:53:57,860 --> 00:54:00,510
vārdu, un tad redzēt, -

1015
00:54:00,510 --> 00:54:01,950
apvienojumā ar permutāciju -

1016
00:54:01,950 --> 00:54:03,710
kuriem viens ir augstākais varbūtība.

1017
00:54:03,710 --> 00:54:08,590
>> Plus, jūs varat arī apskatīt ne
tikai vārdus, bet frāzes.

1018
00:54:08,590 --> 00:54:11,700
lai jūs varētu analizēt attiecības starp
vārdi un tad saņemt

1019
00:54:11,700 --> 00:54:13,210
labāku tulkojumu.

1020
00:54:13,210 --> 00:54:16,690
Arī kaut kas cits, tāpēc šajā semestrī
Es esmu faktiski dara pētījumus

1021
00:54:16,690 --> 00:54:19,430
Ķīniešu-angļu mašīntulkošanu,
tā tulkojot no

1022
00:54:19,430 --> 00:54:20,940
Ķīniešu angļu valodā.

1023
00:54:20,940 --> 00:54:26,760
>> Un kaut ko mēs darām, ir, papildus izmantojot
statistiskais modelis, kas ir tikai

1024
00:54:26,760 --> 00:54:30,570
redzot varbūtības redzēt
daži pozīciju teikumā, es esmu

1025
00:54:30,570 --> 00:54:35,360
faktiski arī pievienojot dažas sintaksi manu
modelis, sacīdams: ak, ja es redzu šāda veida

1026
00:54:35,360 --> 00:54:39,420
būvniecības, tas ir tas, ko es vēlos
, lai mainītu to, kad es tulkot.

1027
00:54:39,420 --> 00:54:43,880
Tātad jūs varat pievienot arī kādu
elements sintakse, lai padarītu

1028
00:54:43,880 --> 00:54:47,970
tulkošanas efektīvāku
un precīzāk.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> Tātad, kā jūs varat sākt, ja vēlaties
darīt kaut skaitļošanas

1031
00:54:51,010 --> 00:54:51,980
lingvistika?

1032
00:54:51,980 --> 00:54:54,560
>> Pirmkārt, jums izvēlēties projektu
kas ietver valodas.

1033
00:54:54,560 --> 00:54:56,310
Tātad, tur ir tik daudz, kas tur.

1034
00:54:56,310 --> 00:54:58,420
Ir tik daudz lietas, varat darīt.

1035
00:54:58,420 --> 00:55:00,510
Un tad var domāt par modeli
ka jūs varat izmantot.

1036
00:55:00,510 --> 00:55:04,710
Parasti tas nozīmē, ka domāšanu
pieņēmumi, kā, piemēram, ak, kad man bija

1037
00:55:04,710 --> 00:55:05,770
piemēram, domājot par lyrics.

1038
00:55:05,770 --> 00:55:09,510
Man bija līdzīgi, labi, ja es vēlos, lai noskaidrotu
out, kurš rakstīja šo, es, iespējams, vēlas

1039
00:55:09,510 --> 00:55:15,400
apskatīt vārdiem persona izmanto, un
redzēt, kas lieto šo vārdu ļoti bieži.

1040
00:55:15,400 --> 00:55:18,470
Lai mēģinātu izdarīt pieņēmumus un
mēģiniet domāt par modeļiem.

1041
00:55:18,470 --> 00:55:21,395
Un tad jūs varat arī meklēt tiešsaistē
veida problēma, ka jums ir,

1042
00:55:21,395 --> 00:55:24,260
un tā gatavojas ierosināt
lai jums modeļiem, kas varbūt

1043
00:55:24,260 --> 00:55:26,560
modelēts, ka lieta labi.

1044
00:55:26,560 --> 00:55:29,080
>> Un arī jūs vienmēr varat e-pastu man.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
Un es varu tikai atbildēt uz Jūsu jautājumiem.

1047
00:55:34,940 --> 00:55:38,600
Mēs varam pat varētu tikties, lai es varētu
sniegt ieteikumus par to, kā

1048
00:55:38,600 --> 00:55:41,490
savu projektu īstenošanai.

1049
00:55:41,490 --> 00:55:45,610
Un es domāju, ja jūs iesaistīties ar
Skaitļošanas valodniecības, tas notiek

1050
00:55:45,610 --> 00:55:46,790
būt liels.

1051
00:55:46,790 --> 00:55:48,370
Jūs esat dodas, lai redzētu, ka
ir tik daudz potenciāla.

1052
00:55:48,370 --> 00:55:52,060
Un nozare vēlas īrēt
jūs tik slikti, jo no tā.

1053
00:55:52,060 --> 00:55:54,720
Tāpēc es ceru, ka jūs guys baudīt to.

1054
00:55:54,720 --> 00:55:57,030
Ja jūs guys ir kādi jautājumi,
Jūs varat uzdot man pēc tam.

1055
00:55:57,030 --> 00:55:58,280
Bet paldies.

1056
00:55:58,280 --> 00:56:00,150