1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> Lucas Freitas: Hey.

3
00:00:08,870 --> 00:00:09,980
Mirë se vini të gjithë.

4
00:00:09,980 --> 00:00:11,216
Emri im është Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Unë jam një i vogël në [padëgjueshme] studiuar
shkenca kompjuterike me një fokus në

6
00:00:15,220 --> 00:00:16,410
gjuhësi kompjuterike.

7
00:00:16,410 --> 00:00:19,310
Pra mesëm im është në gjuhën
dhe teoria gjuhësore.

8
00:00:19,310 --> 00:00:21,870
Unë jam i gëzuar me të vërtetë për të mësuar ju djema
pak pak për këtë fushë.

9
00:00:21,870 --> 00:00:24,300
Kjo është një zonë shumë emocionuese për të studiuar.

10
00:00:24,300 --> 00:00:27,260
Gjithashtu me shumë potencial
për të ardhmen.

11
00:00:27,260 --> 00:00:30,160
Pra, unë jam i gëzuar me të vërtetë se ju djema
janë marrë parasysh projekte në

12
00:00:30,160 --> 00:00:31,160
gjuhësi kompjuterike.

13
00:00:31,160 --> 00:00:35,460
Dhe unë do të jenë më se të lumtur për të këshilluar
ndonjë nga ju, nëse ju vendosni të

14
00:00:35,460 --> 00:00:37,090
ndjekin një nga ata.

15
00:00:37,090 --> 00:00:40,010
>> Pra, në radhë të parë se cilat janë kompjuterike
gjuhësi?

16
00:00:40,010 --> 00:00:44,630
Pra, gjuhësi kompjuterike është
ndërprerje midis linguistikës dhe

17
00:00:44,630 --> 00:00:46,390
shkenca kompjuterike.

18
00:00:46,390 --> 00:00:47,415
Pra, çfarë është gjuhësi?

19
00:00:47,415 --> 00:00:48,490
Çfarë është shkenca kompjuterike?

20
00:00:48,490 --> 00:00:51,580
Pra nga gjuhësi, çfarë
kemi marrë janë gjuhë.

21
00:00:51,580 --> 00:00:54,960
Pra, gjuhësi është në të vërtetë studimi
e gjuhës natyrore në përgjithësi.

22
00:00:54,960 --> 00:00:58,330
Gjuha kaq e natyrshme - ne flasim për
Gjuha që ne në fakt përdorin të

23
00:00:58,330 --> 00:00:59,770
komunikuar me njëri tjetrin.

24
00:00:59,770 --> 00:01:02,200
Pra, ne nuk jemi duke folur saktësisht
në lidhje me C apo Java.

25
00:01:02,200 --> 00:01:05,900
Ne jemi duke folur më shumë për gjuhën angleze dhe
Gjuhët kineze dhe të tjera që ne

26
00:01:05,900 --> 00:01:07,780
përdorim për të komunikuar me njëri tjetrin.

27
00:01:07,780 --> 00:01:12,470
>> Gjë e vështirë në lidhje me atë është se
tani ne kemi gati 7,000

28
00:01:12,470 --> 00:01:14,260
Gjuhët në botë.

29
00:01:14,260 --> 00:01:19,520
Pra, ka një shumëllojshmëri mjaft të larta
e gjuhëve që ne mund të studiojnë.

30
00:01:19,520 --> 00:01:22,600
Dhe pastaj ju mendoni se kjo është ndoshta
shumë e vështirë për të bërë, për shembull,

31
00:01:22,600 --> 00:01:26,960
Përkthimi nga një gjuhë në
tjetër, duke marrë parasysh se ju keni

32
00:01:26,960 --> 00:01:28,240
pothuajse 7,000 prej tyre.

33
00:01:28,240 --> 00:01:31,450
Pra, nëse ju mendoni se e bën të përkthimit
nga një gjuhë në tjetrën ju

34
00:01:31,450 --> 00:01:35,840
kanë pothuajse më shumë se një milion
kombinime të ndryshme që ju mund të

35
00:01:35,840 --> 00:01:37,330
kanë nga gjuha në gjuhë.

36
00:01:37,330 --> 00:01:40,820
Pra, është e vërtetë e vështirë për të bërë disa
lloj sistemi shembull i përkthimit për

37
00:01:40,820 --> 00:01:43,540
çdo gjuhë të vetme.

38
00:01:43,540 --> 00:01:47,120
>> Pra, letërsi trajton me sintaksë,
semantikë, Pragmatikë.

39
00:01:47,120 --> 00:01:49,550
Ju djema nuk kanë nevojë pikërisht
të dinë se çfarë janë ata.

40
00:01:49,550 --> 00:01:55,090
Por gjë shumë interesante është se
si një Gjuha amtare, kur ju të mësoni

41
00:01:55,090 --> 00:01:59,010
Gjuha si fëmijë, ju në të vërtetë të mësojnë
të gjitha ato gjëra - semantikë sintakse

42
00:01:59,010 --> 00:02:00,500
dhe pragmatics -

43
00:02:00,500 --> 00:02:01,430
me veten.

44
00:02:01,430 --> 00:02:04,820
Dhe askush nuk ka për të mësuar ju sintaksë për
ju të kuptoni se si dënimet janë

45
00:02:04,820 --> 00:02:05,290
strukturuar.

46
00:02:05,290 --> 00:02:07,980
Pra, kjo është me të vërtetë interesante, sepse
kjo është diçka që vjen shumë

47
00:02:07,980 --> 00:02:10,389
intuitive.

48
00:02:10,389 --> 00:02:13,190
>> Dhe çfarë jeni duke marrë nga
shkenca kompjuterike?

49
00:02:13,190 --> 00:02:16,700
E pra, gjëja më e rëndësishme që ne të
kanë në shkenca kompjuterike është parë e

50
00:02:16,700 --> 00:02:19,340
gjitha, inteligjencës artificiale
dhe të mësuarit e makinës.

51
00:02:19,340 --> 00:02:22,610
Pra, ajo që ne jemi duke u përpjekur për të bërë
gjuhësi kompjuterike është i mësojnë

52
00:02:22,610 --> 00:02:26,990
kompjuterin tuaj si të bëjë diçka
me gjuhën.

53
00:02:26,990 --> 00:02:28,630
>> Kështu, për shembull, në makinë
përkthim.

54
00:02:28,630 --> 00:02:32,490
Unë jam duke u përpjekur për të mësuar se si kompjuterin tim
të dinë se si të kalojnë nga një

55
00:02:32,490 --> 00:02:33,310
gjuhë të tjera.

56
00:02:33,310 --> 00:02:35,790
Pra, në thelb të doja të mësimdhënies
një kompjuter dy gjuhë.

57
00:02:35,790 --> 00:02:38,870
Nëse unë bëjë përpunimin e gjuhës natyrore,
e cila është rasti për shembull të

58
00:02:38,870 --> 00:02:41,810
Facebook Grafiku Kërkim, ju mësojnë
kompjuterin tuaj se si për të kuptuar

59
00:02:41,810 --> 00:02:42,730
pyetje e mirë.

60
00:02:42,730 --> 00:02:48,130
>> Pra, nëse ju thoni "fotot e mia
miqtë. "Facebook nuk trajtojnë që

61
00:02:48,130 --> 00:02:51,130
si një varg të tërë që ka
vetëm një bandë e fjalëve.

62
00:02:51,130 --> 00:02:56,020
Ajo në fakt kupton relacionin
midis "fotot" dhe "miqtë e mi" dhe

63
00:02:56,020 --> 00:02:59,620
e kupton se "fotot" janë
pronë e "miqve të mi."

64
00:02:59,620 --> 00:03:02,350
>> Pra, kjo është pjesë e, për shembull,
të përpunimit të gjuhës natyrore.

65
00:03:02,350 --> 00:03:04,790
Ajo është duke u përpjekur për të kuptuar se çfarë
është raporti ndërmjet

66
00:03:04,790 --> 00:03:07,520
fjalët në një fjali.

67
00:03:07,520 --> 00:03:11,170
Dhe pyetja e madhe është, ju mund të
mësojnë se si një kompjuter për të folur

68
00:03:11,170 --> 00:03:12,650
një gjuhë në përgjithësi?

69
00:03:12,650 --> 00:03:17,810
E cila është një pyetje shumë interesante për të
mendojnë, si në qoftë se ndoshta në të ardhmen,

70
00:03:17,810 --> 00:03:19,930
ju jeni do të jetë në gjendje të
flisni në telefonin tuaj celular.

71
00:03:19,930 --> 00:03:23,290
Lloj si ajo që ne bëjmë me Siri, por
diçka më shumë si, ju mund të vërtetë

72
00:03:23,290 --> 00:03:25,690
thonë çfarë të doni dhe telefoni
do të kuptojnë çdo gjë.

73
00:03:25,690 --> 00:03:28,350
Dhe kjo mund të ketë ndjekur deri pyetje
dhe vazhdoni të flisni.

74
00:03:28,350 --> 00:03:30,880
Kjo është diçka me të vërtetë emocionuese,
sipas mendimit tim.

75
00:03:30,880 --> 00:03:33,070
>> Pra, diçka në lidhje me gjuhët natyrore.

76
00:03:33,070 --> 00:03:36,220
Diçka me të vërtetë interesante në lidhje me
gjuhët natyrore është se, dhe kjo është

77
00:03:36,220 --> 00:03:38,470
kredia për gjuhësi profesori im,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Ajo jep një shembull dhe unë mendoj
kjo është me të vërtetë interesante.

79
00:03:40,830 --> 00:03:47,060
Sepse ne mësojnë gjuhën nga kur
ne jemi lindur dhe pastaj amtare ynë

80
00:03:47,060 --> 00:03:49,170
Gjuha lloj rritet mbi ne.

81
00:03:49,170 --> 00:03:52,570
>> Dhe në thelb ju mësojnë gjuhën
nga input minimal, apo jo?

82
00:03:52,570 --> 00:03:56,700
Ju jeni vetëm duke marrë të dhëna nga tuaj
prindërit e asaj që tingëllon gjuhën tuaj

83
00:03:56,700 --> 00:03:58,770
pëlqen dhe ju vetëm të mësojnë atë.

84
00:03:58,770 --> 00:04:02,240
Pra, kjo është interesante, sepse në qoftë se ju shikoni
në ato fjali, për shembull.

85
00:04:02,240 --> 00:04:06,980
Ju shikoni, "Mary e vë në një pallto çdo
Ora ajo largohet nga shtëpia. "

86
00:04:06,980 --> 00:04:10,650
>> Në këtë rast, është e mundur që të ketë
Fjala "ajo" i referohet Marisë, e drejtë?

87
00:04:10,650 --> 00:04:13,500
Ju mund të thoni "Mary e vë në një pallto
çdo herë Mary lë

88
00:04:13,500 --> 00:04:14,960
shtëpi. "kështu që kjo është në rregull.

89
00:04:14,960 --> 00:04:19,370
Por atëherë në qoftë se ju shikoni në fjalinë
"Ajo e vë në një pallto çdo herë Mary

90
00:04:19,370 --> 00:04:22,850
lë shtëpinë. "ju e dini se është
e pamundur të thuhet se "ajo" është

91
00:04:22,850 --> 00:04:24,260
duke iu referuar Marisë.

92
00:04:24,260 --> 00:04:27,070
>> Nuk ka asnjë mënyrë për të thënë se "Mary vë
në një pallto çdo herë Mary lë

93
00:04:27,070 --> 00:04:30,790
shtëpi. "Pra, kjo është interesante për shkak se
kjo është lloj i intuitës

94
00:04:30,790 --> 00:04:32,890
se çdo Gjuha amtare ka.

95
00:04:32,890 --> 00:04:36,370
Dhe askush nuk u mësoi se kjo është
mënyra se punon sintaksë.

96
00:04:36,370 --> 00:04:41,930
Dhe që ju vetëm mund të keni këtë "ajo"
duke iu referuar Marisë në këtë rastin e parë,

97
00:04:41,930 --> 00:04:44,260
dhe në fakt në këtë tjetrin
shumë, por jo në këtë një të tillë.

98
00:04:44,260 --> 00:04:46,500
Por të gjithë llojet e merr
në të njëjtën përgjigje.

99
00:04:46,500 --> 00:04:48,580
Të gjithë janë dakord me këtë.

100
00:04:48,580 --> 00:04:53,280
Pra, është me të vërtetë interesante se si edhe pse
ju nuk e dini të gjitha rregullat

101
00:04:53,280 --> 00:04:55,575
në gjuhën tuaj ju lloj i kuptoni
se si funksionon gjuha.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Pra Gjëja interesante në lidhje e natyrshme
Gjuha është që ju nuk keni për të

104
00:05:01,530 --> 00:05:06,970
di ndonjë sintaksë të dini nëse një fjali
është gramatikor ose ungrammatical për

105
00:05:06,970 --> 00:05:08,810
shumicën e rasteve.

106
00:05:08,810 --> 00:05:13,220
Cili ju bën të mendoni se ndoshta ajo që
ndodh është që nëpërmjet jetës tuaj, ju

107
00:05:13,220 --> 00:05:17,410
vetëm i mbajnë duke marrë gjithnjë e më shumë
Dënimet thënë për ju.

108
00:05:17,410 --> 00:05:19,800
Dhe pastaj ju mbani memorizimin
të gjitha të dënimeve.

109
00:05:19,800 --> 00:05:24,230
Dhe pastaj kur dikush ju tregon
diçka, ju dëgjoni atë dënim dhe

110
00:05:24,230 --> 00:05:27,040
ju shikoni në fjalorin tuaj
e dënimeve dhe të shohim nëse

111
00:05:27,040 --> 00:05:28,270
se dënimi është atje.

112
00:05:28,270 --> 00:05:29,830
Dhe në qoftë se ajo është atje ju
thonë se është e gramatikor.

113
00:05:29,830 --> 00:05:31,740
Nëse nuk është që ju thoni se është
ungrammatical.

114
00:05:31,740 --> 00:05:35,150
>> Pra, në këtë rast, ju do të thoni, oh,
kështu që ju keni një listë të madhe të të gjithë

115
00:05:35,150 --> 00:05:36,140
dënimet e mundshme.

116
00:05:36,140 --> 00:05:38,240
Dhe atëherë kur dëgjoni një fjali,
ju e dini nëse është e gramatikore apo

117
00:05:38,240 --> 00:05:39,450
nuk bazohet në atë.

118
00:05:39,450 --> 00:05:42,360
Gjë është se në qoftë se ju shikoni në
një dënim, për shembull, "

119
00:05:42,360 --> 00:05:47,540
pesë koka CS50 NGP gatuar të verbërit
oktapod duke përdorur një gotë e madhe DAPA. "Kjo është

120
00:05:47,540 --> 00:05:49,630
definitivisht jo një dënim
që keni dëgjuar më parë.

121
00:05:49,630 --> 00:05:52,380
Por në të njëjtën kohë ju e dini se është
shumë e shumë gramatikore, e drejtë?

122
00:05:52,380 --> 00:05:55,570
Nuk ka gabime gramatikore
dhe ju mund të them se

123
00:05:55,570 --> 00:05:57,020
kjo është një fjali e mundur.

124
00:05:57,020 --> 00:06:01,300
>> Pra, kjo na bën të mendojmë se në të vërtetë
mënyrë që ne të mësojmë gjuhë nuk është vetëm

125
00:06:01,300 --> 00:06:07,090
duke pasur një bazë të madhe të mundur
fjalë apo fjali, por më shumë i

126
00:06:07,090 --> 00:06:11,490
kuptuar lidhjen midis
Fjalët në këto fjali.

127
00:06:11,490 --> 00:06:14,570
A ka kjo kuptim?

128
00:06:14,570 --> 00:06:19,370
Pra, atëherë pyetja është, mund të
kompjutera të mësojnë gjuhë?

129
00:06:19,370 --> 00:06:21,490
A mund të mësojnë gjuhën në kompjuter?

130
00:06:21,490 --> 00:06:24,230
>> Pra, le të mendojnë për ndryshim
në mes të një Gjuha amtare e një gjuhe

131
00:06:24,230 --> 00:06:25,460
dhe një kompjuter.

132
00:06:25,460 --> 00:06:27,340
Pra, çfarë ndodh me folësit?

133
00:06:27,340 --> 00:06:30,430
E pra, Gjuha amtare mëson një
Gjuha nga ekspozimi ndaj saj.

134
00:06:30,430 --> 00:06:34,200
Zakonisht vitet e saj të hershme të fëmijërisë.

135
00:06:34,200 --> 00:06:38,570
Pra, në thelb, ju vetëm keni një fëmijë,
dhe ju vazhdoni të flisni me të, dhe ajo

136
00:06:38,570 --> 00:06:40,540
vetëm të mëson se si të flas
gjuha, apo jo?

137
00:06:40,540 --> 00:06:42,660
Pra, ju jeni në thelb duke i dhënë
input për fëmijën.

138
00:06:42,660 --> 00:06:45,200
Pra, atëherë ju mund të argumentojnë se një kompjuter
mund të bëjë të njëjtën gjë, apo jo?

139
00:06:45,200 --> 00:06:49,510
Ju vetëm mund të jepni gjuhën
si input në kompjuter.

140
00:06:49,510 --> 00:06:53,410
>> Sa për shembull një bandë e dosjeve
që kanë libra në gjuhën angleze.

141
00:06:53,410 --> 00:06:56,190
Ndoshta kjo është një mënyrë që ju
ndoshta mund të mësojnë një

142
00:06:56,190 --> 00:06:57,850
kompjuter Anglisht, apo jo?

143
00:06:57,850 --> 00:07:01,000
Dhe në fakt, në qoftë se ju mendoni rreth saj,
ajo ju merr ndoshta një çift

144
00:07:01,000 --> 00:07:02,680
ditë për të lexuar një libër.

145
00:07:02,680 --> 00:07:05,760
Për një kompjuter që e merr një të dytë për të
shikojmë në të gjitha fjalë në një libër.

146
00:07:05,760 --> 00:07:10,810
Kështu që ju mund të mendoni se mund të jetë vetëm kjo
Argumenti i input nga rreth jush,

147
00:07:10,810 --> 00:07:15,440
kjo nuk mjafton për të thënë se kjo është
diçka që vetëm njerëzit mund të bëjnë.

148
00:07:15,440 --> 00:07:17,680
Ju mund të mendoni kompjutera
gjithashtu mund të marrë të dhëna.

149
00:07:17,680 --> 00:07:21,170
>> Gjëja e dytë është se native speakers
gjithashtu kanë një tru që ka

150
00:07:21,170 --> 00:07:23,870
aftësi mësimi i gjuhës.

151
00:07:23,870 --> 00:07:27,020
Por nëse ju mendoni rreth saj,
një tru është një gjë e ngurta.

152
00:07:27,020 --> 00:07:30,450
Kur ju jeni të lindur, është vendosur tashmë -

153
00:07:30,450 --> 00:07:31,320
kjo është truri juaj.

154
00:07:31,320 --> 00:07:34,660
Dhe si ju rriten, ju vetëm të merrni më shumë
kontributin e gjuhës dhe ndoshta ushqyesve

155
00:07:34,660 --> 00:07:35,960
dhe sende të tjera.

156
00:07:35,960 --> 00:07:38,170
Por shumë e shumë trurin tuaj
është një gjë e ngurta.

157
00:07:38,170 --> 00:07:41,290
>> Kështu që ju mund të them, mirë, ndoshta ju mund të
të ndërtuar një kompjuter që ka një bandë e

158
00:07:41,290 --> 00:07:45,890
Funksionet dhe metoda që vetëm imitojnë
aftësi mësimi i gjuhës.

159
00:07:45,890 --> 00:07:49,630
Pra, në këtë kuptim, ju mund të thoni, mirë, unë
mund të ketë një kompjuter që ka të gjitha

160
00:07:49,630 --> 00:07:52,270
gjëra që unë duhet të mësojnë gjuhën.

161
00:07:52,270 --> 00:07:56,200
Dhe gjëja e fundit është se një vendas
Gjuha mëson nga gjykimi dhe gabim.

162
00:07:56,200 --> 00:08:01,090
Pra, në thelb një tjetër gjë e rëndësishme në
mësimi i gjuhës është që ju lloji

163
00:08:01,090 --> 00:08:05,340
i mësojnë gjërat duke i bërë
përgjithësimet e asaj që ju dëgjoni.

164
00:08:05,340 --> 00:08:10,280
>> Kështu si ju janë në rritje deri të mësoni se
disa fjalë janë më shumë si nouns,

165
00:08:10,280 --> 00:08:11,820
disa të tjera janë mbiemra.

166
00:08:11,820 --> 00:08:14,250
Dhe ju nuk duhet të ketë ndonjë
njohja e gjuhësisë

167
00:08:14,250 --> 00:08:15,040
për të kuptuar se.

168
00:08:15,040 --> 00:08:18,560
Por ju vetëm e di se ka disa fjalë
janë pozicionuar në një pjesë të

169
00:08:18,560 --> 00:08:22,570
dënimi dhe disa të tjera në të tjera
pjesë të fjalisë.

170
00:08:22,570 --> 00:08:26,110
>> Dhe se kur ju bëni diçka që është
si një dënim që nuk është e saktë -

171
00:08:26,110 --> 00:08:28,770
ndoshta për shkak të një mbi përgjithësimin
për shembull.

172
00:08:28,770 --> 00:08:32,210
Ndoshta kur ju jeni duke u rritur, vëreni
se shumësi është zakonisht

173
00:08:32,210 --> 00:08:35,809
formuar duke vendosur një S në
fundi i fjalës.

174
00:08:35,809 --> 00:08:40,042
Dhe pastaj ju të përpiqet të bëjë shumësin e
"dre" si "deers" ose "dhëmb" si

175
00:08:40,042 --> 00:08:44,780
"tooths." Kështu, pra, prindërit tuaj ose
dikush ju korrigjon dhe të thotë, jo,

176
00:08:44,780 --> 00:08:49,020
shumësi i "dre" është "dreri," dhe
shumësi i "dhëmb" është "dhëmbët." Dhe pastaj

177
00:08:49,020 --> 00:08:50,060
ju mësojnë ato gjëra.

178
00:08:50,060 --> 00:08:51,520
Kështu që ju të mësoni nga gjykimi dhe gabim.

179
00:08:51,520 --> 00:08:53,100
>> Por ju gjithashtu mund të bëjë që
me një kompjuter.

180
00:08:53,100 --> 00:08:55,310
Ju mund të keni diçka të quajtur
mësuarit përforcim.

181
00:08:55,310 --> 00:08:58,560
Cili është në thelb si duke i dhënë një
kompjuter shpërblim sa herë që ajo ka

182
00:08:58,560 --> 00:08:59,410
diçka e saktë.

183
00:08:59,410 --> 00:09:04,710
Dhe duke i dhënë asaj të kundërtën e një shpërblim
dhe kur e bën diçka të gabuar.

184
00:09:04,710 --> 00:09:07,410
Ju në fakt mund të shihni se në qoftë se ju shkoni
për Google Translate dhe ju të përpiqet të

185
00:09:07,410 --> 00:09:10,220
të përkthyer një fjali, ajo
ju pyet për reagime.

186
00:09:10,220 --> 00:09:13,240
Pra, nëse ju thoni, oh, ka një të mirë
përkthim për këtë fjali.

187
00:09:13,240 --> 00:09:18,140
Ju mund të shtypni atë dhe pastaj në qoftë se një shumë e
njerëz të mbajtur duke thënë se është një më të mirë

188
00:09:18,140 --> 00:09:21,560
përkthim, ai thjesht mëson se ajo
duhet të përdorin atë në vend të përkthimit

189
00:09:21,560 --> 00:09:22,960
e ai ishte duke i dhënë.

190
00:09:22,960 --> 00:09:28,830
>> Pra, kjo është një pyetje shumë filozofike
për të parë nëse kompjuterat do të jenë të

191
00:09:28,830 --> 00:09:30,340
në gjendje për të folur apo jo në të ardhmen.

192
00:09:30,340 --> 00:09:34,440
Por unë kam shpresa të mëdha që ata të mund të
vetëm bazuar në këto argumente.

193
00:09:34,440 --> 00:09:38,570
Por kjo është vetëm shumë e një filozofike
pyetje.

194
00:09:38,570 --> 00:09:43,460
>> Kështu, ndërsa kompjuterët ende nuk mund të flas,
cilat janë gjërat që ne mund të bëjmë?

195
00:09:43,460 --> 00:09:47,070
Disa gjëra janë me të vërtetë të ftohtë
Klasifikimi i të dhënave.

196
00:09:47,070 --> 00:09:53,210
Kështu, për shembull, ju djema e di
se shërbimet e email bëjë, për

197
00:09:53,210 --> 00:09:55,580
shembull, spam filtering.

198
00:09:55,580 --> 00:09:59,070
Pra, sa herë që ju të merrni spam, ajo
përpiqet për të filtruar në një tjetër kuti.

199
00:09:59,070 --> 00:10:00,270
Pra, si e bën atë të bëjë këtë?

200
00:10:00,270 --> 00:10:06,080
Ajo nuk është si kompjuter vetëm e di
adresat e-mail janë çfarë dërgimin e spam.

201
00:10:06,080 --> 00:10:09,130
Kështu që është më shumë i bazuar në përmbajtjen e
mesazhi, ose ndoshta titulli, ose

202
00:10:09,130 --> 00:10:11,310
ndoshta disa model që ju keni.

203
00:10:11,310 --> 00:10:15,690
>> Pra, në thelb, ajo që ju mund të bëni është të merrni një
shumë të dhënave e-mail që janë të bllokuara,

204
00:10:15,690 --> 00:10:19,980
email që nuk janë të bllokuara, dhe të mësojnë se çfarë
lloj modele që keni në

205
00:10:19,980 --> 00:10:21,000
ato që janë të bllokuara.

206
00:10:21,000 --> 00:10:23,260
Dhe kjo është pjesë e kompjuterike
gjuhësi.

207
00:10:23,260 --> 00:10:24,720
Ajo që quhet klasifikim të dhënave.

208
00:10:24,720 --> 00:10:28,100
Dhe ne jemi në të vërtetë do të shohim një
shembull se në slides ardhshme.

209
00:10:28,100 --> 00:10:32,910
>> Gjëja e dytë është gjuha e natyrshme
përpunimin e cila është gjë që

210
00:10:32,910 --> 00:10:36,580
Grafiku Kërko është duke bërë të lënë
ju shkruani një dënim.

211
00:10:36,580 --> 00:10:38,690
Dhe kjo ka besim tek ju e kuptoni se çfarë
është kuptimi dhe jep

212
00:10:38,690 --> 00:10:39,940
ju një rezultat më të mirë.

213
00:10:39,940 --> 00:10:43,880
Në fakt, në qoftë se ju shkoni në Google apo Bing
dhe ju të kërkoni diçka si Lady

214
00:10:43,880 --> 00:10:47,060
Lartësia Gaga, ju jeni në të vërtetë duke shkuar
për të marrë 5 '1 "në vend të informacionit

215
00:10:47,060 --> 00:10:50,170
prej saj, sepse ai në të vërtetë e kupton
atë që ju jeni duke folur për.

216
00:10:50,170 --> 00:10:52,140
Pra, kjo është pjesë e natyrshme
të përpunimit të gjuhës.

217
00:10:52,140 --> 00:10:57,000
>> Ose edhe kur ju jeni duke përdorur Siri, së pari
ju keni një algoritmi që përpiqet të

218
00:10:57,000 --> 00:11:01,130
përkthejnë atë që ju jeni duke thënë
në fjalë, në tekst.

219
00:11:01,130 --> 00:11:03,690
Dhe atëherë ajo përpiqet për të përkthyer
që në kuptimin.

220
00:11:03,690 --> 00:11:06,570
Pra, kjo është e gjitha pjesë e natyrshme
të përpunimit të gjuhës.

221
00:11:06,570 --> 00:11:08,320
>> Pastaj ju keni përkthim mekanik -

222
00:11:08,320 --> 00:11:10,300
e cila është në fakt një
nga të preferuarat e mia -

223
00:11:10,300 --> 00:11:14,060
e cila është vetëm përkthimin nga
një gjuhë në një tjetër.

224
00:11:14,060 --> 00:11:17,950
Kështu që ju mund të mendoni se kur ju jeni duke bërë
përkthim makinë, ju keni

225
00:11:17,950 --> 00:11:19,750
mundësitë e pafund e fjalive.

226
00:11:19,750 --> 00:11:22,960
Pra, nuk ka asnjë mënyrë për të vetëm ruajtjen
çdo përkthimi të vetëm.

227
00:11:22,960 --> 00:11:27,440
Kështu që ju duhet të dalë me interesante
algoritme të jenë në gjendje të

228
00:11:27,440 --> 00:11:30,110
përkthejnë çdo të vetme
fjali në një farë mënyre.

229
00:11:30,110 --> 00:11:32,483
>> Ju djema keni ndonjë pyetje deri më tani?

230
00:11:32,483 --> 00:11:34,450
Nuk ka?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> Pra, çfarë do të shkojmë të shohim sot?

233
00:11:36,900 --> 00:11:39,300
Para së gjithash, unë jam do të flasim për
problemi klasifikimit.

234
00:11:39,300 --> 00:11:41,440
Pra, ai që isha
duke thënë se për spam.

235
00:11:41,440 --> 00:11:46,820
Ajo që unë jam duke shkuar për të bërë është, lyrics dhënë
në një këngë, ju mund të përpiqen të kuptoj se

236
00:11:46,820 --> 00:11:49,810
me probabilitet të lartë
kush është këngëtari?

237
00:11:49,810 --> 00:11:53,590
Le të thonë se unë kam këngë nga Lady
Gaga dhe Katy Perry, në qoftë se unë ju jap një

238
00:11:53,590 --> 00:11:58,130
kantik të ri, mund të kuptoj se në qoftë se
kjo është Katy Perry apo Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> E dyta, unë jam vetëm do të flasim
për problemin copëzim.

240
00:12:01,490 --> 00:12:05,780
Kështu që unë nuk e di nëse ju djema e di, por
Kineze, japoneze, të tjera të Azisë Lindore

241
00:12:05,780 --> 00:12:08,090
gjuhë, dhe gjuhë të tjera
në përgjithësi, nuk kanë

242
00:12:08,090 --> 00:12:09,830
hapësirat midis fjalëve.

243
00:12:09,830 --> 00:12:13,540
Dhe pastaj në qoftë se ju mendoni për mënyrën se
lloj kompjuteri juaj të përpiqet për të

244
00:12:13,540 --> 00:12:18,600
kuptojnë përpunimit të gjuhës natyrore,
kjo duket nga fjalët dhe

245
00:12:18,600 --> 00:12:21,500
përpiqet për të kuptuar marrëdhëniet
mes tyre, e drejtë?

246
00:12:21,500 --> 00:12:25,440
Por atëherë në qoftë se ju keni Kinezisht, dhe ju
të ketë zero hapësira, është e vërtetë e vështirë për të

247
00:12:25,440 --> 00:12:28,360
të gjetur se çfarë është lidhja midis
fjalë, për shkak se ata nuk kanë ndonjë

248
00:12:28,360 --> 00:12:29,530
Fjalët në fillim.

249
00:12:29,530 --> 00:12:32,600
Kështu që ju duhet të bëni diçka të quajtur
Segmentimi i cili vetëm do të thotë vënien

250
00:12:32,600 --> 00:12:36,490
hapësirat midis asaj që ne do të thërrasë
Fjalët në këto gjuhë.

251
00:12:36,490 --> 00:12:37,740
Kuptim?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> Dhe pastaj ne do të
flasim për sintaksë.

254
00:12:41,540 --> 00:12:44,050
Pra vetëm pak mbi natyrore
të përpunimit të gjuhës.

255
00:12:44,050 --> 00:12:45,420
Ajo do të jetë vetëm një përmbledhje.

256
00:12:45,420 --> 00:12:50,700
Pra sot, në thelb ajo që unë dua të bëj
po ju jap djema një pak e një

257
00:12:50,700 --> 00:12:53,930
brenda të cilat janë mundësitë
që ju mund të bëni me kompjuterike

258
00:12:53,930 --> 00:12:54,960
gjuhësi.

259
00:12:54,960 --> 00:13:00,410
Dhe pastaj ju mund të shihni se çfarë mendoni
është e ftohtë në mesin e atyre gjërave.

260
00:13:00,410 --> 00:13:02,270
Dhe ndoshta ju mund të mendoj për një projekt
dhe të vijnë të bisedoni me mua.

261
00:13:02,270 --> 00:13:05,260
Dhe unë mund të ju japin këshilla
se si ta zbatojnë atë.

262
00:13:05,260 --> 00:13:09,060
>> Pra Sintaksa do të jetë pak
rreth Grafiku Kërkoni dhe makinë

263
00:13:09,060 --> 00:13:09,670
përkthim.

264
00:13:09,670 --> 00:13:13,650
Unë jam vetëm duke shkuar për të dhënë një shembull se si
ju mund, për shembull, të përkthyer

265
00:13:13,650 --> 00:13:16,020
diçka nga portugalisht në anglisht.

266
00:13:16,020 --> 00:13:17,830
Tinguj e mirë?

267
00:13:17,830 --> 00:13:19,293
>> Pra, së pari, problemi klasifikimi.

268
00:13:19,293 --> 00:13:23,590
Unë do të them se kjo pjesë e seminarit
do të jetë më i vështirë

269
00:13:23,590 --> 00:13:27,560
e vetëm sepse atje është duke ndodhur
të jetë disa coding.

270
00:13:27,560 --> 00:13:29,470
Por ajo do të jetë Python.

271
00:13:29,470 --> 00:13:34,380
Unë e di ju djema nuk e di Python, kështu
Unë jam vetëm duke shkuar për të shpjeguar më lartë

272
00:13:34,380 --> 00:13:35,750
nivelit ajo që unë jam duke bërë.

273
00:13:35,750 --> 00:13:40,900
Dhe ju nuk keni për të kujdesit të vërtetë shumë
shumë për sintaksë sepse kjo është

274
00:13:40,900 --> 00:13:42,140
diçka që ju djema mund të mësojnë.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
Tingëllon mirë.

277
00:13:43,580 --> 00:13:46,020
>> Pra, çfarë është problemi klasifikimi?

278
00:13:46,020 --> 00:13:49,140
Pra, ju jeni duke i dhënë disa tekst kënge për të
një këngë, dhe ju doni të mendoj

279
00:13:49,140 --> 00:13:50,620
i cili është kënduar atë.

280
00:13:50,620 --> 00:13:54,045
Dhe kjo mund të jetë për çdo lloj
e problemeve të tjera.

281
00:13:54,045 --> 00:13:59,980
Pra, ajo mund të jetë, për shembull, ju keni një
Fushata presidenciale dhe ju keni një

282
00:13:59,980 --> 00:14:02,610
të folurit, dhe ju doni të gjeni
nëse ajo ishte, për shembull,

283
00:14:02,610 --> 00:14:04,470
Obama apo Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Ose ju mund të ketë një bandë e-mail dhe të
ju doni të kuptoj se në qoftë se ata janë të

285
00:14:07,700 --> 00:14:08,890
spam apo jo.

286
00:14:08,890 --> 00:14:11,440
Pra, kjo është vetëm klasifikimin e disa
të dhënat në bazë të fjalëve të

287
00:14:11,440 --> 00:14:13,790
se ju keni atje.

288
00:14:13,790 --> 00:14:16,295
>> Pra, për të bërë këtë, ju duhet të
bëjnë disa supozime.

289
00:14:16,295 --> 00:14:20,570
Pra, shumë për gjuhësi kompjuterike
është duke bërë supozime,

290
00:14:20,570 --> 00:14:24,100
Supozimet zakonisht i zgjuar, në mënyrë që
ju mund të merrni rezultate të mira.

291
00:14:24,100 --> 00:14:26,670
Duke u përpjekur për të krijuar një model për të.

292
00:14:26,670 --> 00:14:31,290
Dhe pastaj provoni atë dhe të shohim nëse ajo punon,
në qoftë se ajo ju jep saktësi të mirë.

293
00:14:31,290 --> 00:14:33,940
Dhe nëse bën atë, atëherë ju
të përpiqet për të përmirësuar atë.

294
00:14:33,940 --> 00:14:37,640
Në qoftë se kjo nuk ka, ju jeni si, OK, ndoshta unë
duhet të bëjë një supozim të ndryshme.

295
00:14:37,640 --> 00:14:44,030
>> Pra, supozimi se ne do të
të bëjë është që një artist zakonisht këndon

296
00:14:44,030 --> 00:14:49,220
rreth një herë temë të shumta, dhe ndoshta
përdor fjalë shumë herë vetëm

297
00:14:49,220 --> 00:14:50,270
sepse ata janë mësuar me të.

298
00:14:50,270 --> 00:14:51,890
Ju vetëm mund të mendoj e mikut tuaj.

299
00:14:51,890 --> 00:14:57,350
Unë jam i sigurt të gjithë ju djema keni miq
që thonë se fraza e tyre nënshkrim,

300
00:14:57,350 --> 00:14:59,260
fjalë për fjalë për çdo fjali të vetme -

301
00:14:59,260 --> 00:15:02,660
si disa fjalë të veçanta ose disa specifike
fraza që ata thonë për

302
00:15:02,660 --> 00:15:04,020
çdo fjali të vetme.

303
00:15:04,020 --> 00:15:07,920
>> Dhe çfarë mund të them është se në qoftë se ju shihni
një fjali që ka një nënshkrim

304
00:15:07,920 --> 00:15:11,450
fraza, ju mund të mendoj që ndoshta
miku juaj është

305
00:15:11,450 --> 00:15:13,310
një duke thënë atë, e drejtë?

306
00:15:13,310 --> 00:15:18,410
Kështu që ju të bëni atë supozim dhe pastaj
kjo është se si keni krijuar një model.

307
00:15:18,410 --> 00:15:24,440
>> Shembulli që unë jam duke shkuar për të dhënë është në
se si Lady Gaga, për shembull, njerëzit

308
00:15:24,440 --> 00:15:27,430
thonë se ajo përdor "fëmijën" për
të gjitha e saj numër një këngë.

309
00:15:27,430 --> 00:15:32,270
Dhe në fakt kjo është një video që tregon
saj duke thënë fjalën "fëmijën" për

310
00:15:32,270 --> 00:15:33,410
këngë të ndryshme.

311
00:15:33,410 --> 00:15:33,860
>> [VIDEO Playback]

312
00:15:33,860 --> 00:15:34,310
>> - (Të kënduarit) Baby.

313
00:15:34,310 --> 00:15:36,220
Fëmijë.

314
00:15:36,220 --> 00:15:37,086
Fëmijë.

315
00:15:37,086 --> 00:15:37,520
Fëmijë.

316
00:15:37,520 --> 00:15:37,770
Fëmijë.

317
00:15:37,770 --> 00:15:38,822
Babe.

318
00:15:38,822 --> 00:15:39,243
Fëmijë.

319
00:15:39,243 --> 00:15:40,085
Fëmijë.

320
00:15:40,085 --> 00:15:40,510
Fëmijë.

321
00:15:40,510 --> 00:15:40,850
Fëmijë.

322
00:15:40,850 --> 00:15:41,090
>> [END VIDEO Playback-

323
00:15:41,090 --> 00:15:44,020
>> Lucas Freitas: Pra, ka, unë mendoj,
40 këngë këtu në të cilin ajo thotë

324
00:15:44,020 --> 00:15:48,690
fjala "fëmijë." Kështu që ju mund të thelb të mendoj
se në qoftë se ju shihni një këngë që ka

325
00:15:48,690 --> 00:15:52,180
fjala "foshnja", ka disa të lartë
probabiliteti që kjo është Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Por le të përpiqemi për të zhvilluar këtë
më tej më zyrtarisht.

327
00:15:56,450 --> 00:16:00,470
>> Pra, këto janë tekstet të këngëve nga
Lady Gaga dhe Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Kështu që ju shikoni në Lady Gaga, ju shihni ata
kanë shumë ndodhive të "fëmijës", një

329
00:16:04,120 --> 00:16:07,710
shumë dukurive të "rrugës." Dhe pastaj
Katy Perry ka shumë dukurive të

330
00:16:07,710 --> 00:16:10,360
"," Shumë dukurive të "zjarrit."

331
00:16:10,360 --> 00:16:14,560
>> Pra, në thelb ajo që ne duam të
bëni është, që ju të merrni një lirike.

332
00:16:14,560 --> 00:16:20,480
Le të thonë se ju të merrni një lirike për një
këngë që është "fëmija," vetëm "fëmijë." Nëse

333
00:16:20,480 --> 00:16:24,750
ju vetëm të marrë fjalën "baby," dhe kjo
është e gjitha të dhënat që ju keni nga

334
00:16:24,750 --> 00:16:27,880
Lady Gaga dhe Katy Perry, të cilët do të
ju me mend është personi

335
00:16:27,880 --> 00:16:29,370
që e këndon këngën?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga apo Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, e drejtë?

338
00:16:33,150 --> 00:16:37,400
Për shkak se ajo është i vetmi i cili thotë
"Fëmijë." Kjo tingëllon budalla, apo jo?

339
00:16:37,400 --> 00:16:38,760
OK, kjo është me të vërtetë e lehtë.

340
00:16:38,760 --> 00:16:41,860
Unë jam vetëm duke kërkuar në të dy këngë dhe i
Sigurisht, ajo është i vetmi që ka

341
00:16:41,860 --> 00:16:42,660
"Fëmijë."

342
00:16:42,660 --> 00:16:44,740
>> Por, çfarë nëse ju keni një bandë e fjalëve?

343
00:16:44,740 --> 00:16:50,900
Nëse ju keni një lirike aktuale, diçka
si, "fëmija, unë vetëm

344
00:16:50,900 --> 00:16:51,610
shkoi për të parë një [? CFT?]

345
00:16:51,610 --> 00:16:54,020
leksion, "ose diçka të tillë, dhe
atëherë ju në të vërtetë duhet të kuptoj se -

346
00:16:54,020 --> 00:16:55,780
në bazë të të gjitha atyre fjalëve -

347
00:16:55,780 --> 00:16:58,350
kush është artisti që ndoshta
këndoi këtë këngë?

348
00:16:58,350 --> 00:17:01,860
Pra, le të përpiqemi për të zhvilluar
kjo pak më tej.

349
00:17:01,860 --> 00:17:05,630
>> OK, kështu që bazuar vetëm në të dhënat që ne
mori, duket se Gaga është ndoshta

350
00:17:05,630 --> 00:17:06,260
këngëtari.

351
00:17:06,260 --> 00:17:07,904
Por si mund ta shkruaj
kjo më shumë zyrtarisht?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
Dhe nuk do të jetë pak më
bit e statistikave.

354
00:17:13,140 --> 00:17:15,880
Pra, nëse ju merrni humbur, vetëm përpjekje
për të kuptuar konceptin.

355
00:17:15,880 --> 00:17:18,700
Nuk ka rëndësi nëse ju i kuptoni
ekuacionet përkryer edhe.

356
00:17:18,700 --> 00:17:22,150
Kjo është e gjitha do të jetë online.

357
00:17:22,150 --> 00:17:25,490
>> Pra, në thelb ajo që unë jam llogaritjes është
probabiliteti që kjo këngë është duke

358
00:17:25,490 --> 00:17:28,040
Lady Gaga duke qenë se -

359
00:17:28,040 --> 00:17:30,660
kështu që ky bar do të thotë duke pasur parasysh se -

360
00:17:30,660 --> 00:17:33,680
Unë pashë fjalën "fëmijë."
A ka kjo kuptim?

361
00:17:33,680 --> 00:17:35,540
Kështu që unë jam duke u përpjekur për të llogaritur
se probabiliteti.

362
00:17:35,540 --> 00:17:38,540
>> Pra, ekziston kjo teoremë quhet
Bayes Teorema që thotë se

363
00:17:38,540 --> 00:17:43,330
Probabiliteti i një B të dhënë, është
Mundësia e dhënë A, B herë

364
00:17:43,330 --> 00:17:47,660
probabiliteti i A, mbi probabilitetin
e B. Kjo është një ekuacion i gjatë.

365
00:17:47,660 --> 00:17:51,970
Por ajo që ju duhet të kuptoni nga
që është se kjo është ajo që unë dua të

366
00:17:51,970 --> 00:17:52,830
llogaritur, e drejtë?

367
00:17:52,830 --> 00:17:56,570
Pra, probabiliteti që kjo këngë është duke
Lady Gaga duke qenë se e kam parë fjalën

368
00:17:56,570 --> 00:17:58,230
"Fëmijë."

369
00:17:58,230 --> 00:18:02,960
>> Dhe tani ajo që unë jam marrë është
probabiliteti i fjalës "fëmijë" i dhënë

370
00:18:02,960 --> 00:18:04,390
se unë kam Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
Dhe çfarë është ajo në thelb?

372
00:18:07,220 --> 00:18:10,500
Çfarë kjo do të thotë është, ajo që është
Mundësia e parë fjalën "fëmijë"

373
00:18:10,500 --> 00:18:12,130
Gaga në tekst?

374
00:18:12,130 --> 00:18:16,240
Nëse unë dua të llogaritur se në një shumë të
mënyrë e thjeshtë, kjo është vetëm numri i

375
00:18:16,240 --> 00:18:23,640
herë unë shoh "fëmijën" mbi numrin e përgjithshëm
i fjalëve në tekst Gaga, e drejtë?

376
00:18:23,640 --> 00:18:27,600
Cila është frekuenca që unë shoh
se fjala në punën Gaga?

377
00:18:27,600 --> 00:18:30,530
Kuptim?

378
00:18:30,530 --> 00:18:33,420
>> Termi dytë është
probabiliteti i Gaga.

379
00:18:33,420 --> 00:18:34,360
Çfarë do të thotë kjo?

380
00:18:34,360 --> 00:18:38,550
Kjo në thelb do të thotë, çfarë është
Mundësia e klasifikimin e

381
00:18:38,550 --> 00:18:40,690
disa Lyrics si Gaga?

382
00:18:40,690 --> 00:18:45,320
Dhe kjo është lloj i çuditshëm, por
le të mendojnë për një shembull.

383
00:18:45,320 --> 00:18:49,230
Pra, le të thonë se probabiliteti i
që ka "fëmijën" në një këngë është e njëjtë

384
00:18:49,230 --> 00:18:51,760
për Gaga dhe Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Por Britney Spears ka dy herë
më shumë këngë se Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Pra, nëse dikush vetëm rastësisht ju jep
Lyrics e "fëmijës", gjëja e parë që ju

387
00:19:00,570 --> 00:19:04,710
shikoni në është, çfarë është probabiliteti i
që ka "fëmijën" në një këngë Gaga, "fëmijë"

388
00:19:04,710 --> 00:19:05,410
në një këngë Britney?

389
00:19:05,410 --> 00:19:06,460
Dhe kjo është e njëjta gjë.

390
00:19:06,460 --> 00:19:10,040
>> Pra, gjëja e dytë që ju do të shihni është,
mirë, çfarë është probabiliteti i

391
00:19:10,040 --> 00:19:13,770
kjo lyric vetvetiu qenë një lirike Gaga,
dhe çfarë është probabiliteti i

392
00:19:13,770 --> 00:19:15,380
duke qenë një lirik Britney?

393
00:19:15,380 --> 00:19:18,950
Pra, që nga Britney ka kaq shumë më shumë tekst kënge
se Gaga, ju do të ndoshta

394
00:19:18,950 --> 00:19:21,470
të themi, edhe, kjo është ndoshta
një lirik Britney.

395
00:19:21,470 --> 00:19:23,340
Pra, kjo është arsyeja pse ne e kemi këtë
quaj të drejtë këtu.

396
00:19:23,340 --> 00:19:24,670
Probabiliteti i Gaga.

397
00:19:24,670 --> 00:19:26,950
Ka kuptim?

398
00:19:26,950 --> 00:19:28,660
E bën këtë?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> Dhe e fundit është vetëm probabiliteti
i "fëmijës", e cila nuk

401
00:19:33,500 --> 00:19:34,810
ka rëndësi se shumë.

402
00:19:34,810 --> 00:19:39,940
Por është probabiliteti i
duke parë "fëmijën" në anglisht.

403
00:19:39,940 --> 00:19:42,725
Ne zakonisht nuk e kujdesit që
shumë për këtë term.

404
00:19:42,725 --> 00:19:44,490
A ka kjo kuptim?

405
00:19:44,490 --> 00:19:48,110
Pra probabiliteti i Gaga është
quajtur probabiliteti para

406
00:19:48,110 --> 00:19:49,530
i Gaga të klasës.

407
00:19:49,530 --> 00:19:53,840
Për shkak se ai thjesht do të thotë se, ajo që është
mundësia e të pasurit që klasë -

408
00:19:53,840 --> 00:19:55,520
cila është Gaga -

409
00:19:55,520 --> 00:19:59,350
vetëm në përgjithësi, vetëm
pa kushte.

410
00:19:59,350 --> 00:20:02,560
>> Dhe atëherë kur unë kam mundësinë e
Gaga dhënë "fëmijë", ne e quajmë atë plus

411
00:20:02,560 --> 00:20:06,160
përlotur një probabilitet për shkak se është
mundësia e të pasurit

412
00:20:06,160 --> 00:20:08,300
Gaga dhënë disa prova.

413
00:20:08,300 --> 00:20:11,050
Kështu që unë jam duke ju dhënë provat
që kisha parë fjalën fëmijën dhe

414
00:20:11,050 --> 00:20:12,690
këngë kuptim?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> Pra, Nëse unë llogaritur se për çdo
nga këngët për Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
atë që do të jetë -

419
00:20:25,916 --> 00:20:27,730
me sa duket, unë nuk mund të lëvizë këtë.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Mundësia e Gaga do të jetë
diçka si, 2 mbi 24, herë 1/2,

422
00:20:36,920 --> 00:20:38,260
mbi 2 mbi 53.

423
00:20:38,260 --> 00:20:40,640
Nuk ka rëndësi në qoftë se ju e dini se çfarë
këto shifra janë të ardhur nga.

424
00:20:40,640 --> 00:20:44,750
Por kjo është vetëm një numër që është duke shkuar
të jetë më shumë se 0, e drejtë?

425
00:20:44,750 --> 00:20:48,610
>> Dhe atëherë kur unë bëj Katy Perry,
probabiliteti i "fëmijës" është dhënë Katy

426
00:20:48,610 --> 00:20:49,830
tashmë 0, e drejtë?

427
00:20:49,830 --> 00:20:52,820
Sepse nuk ka asnjë "fëmijë"
në Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Pra, atëherë kjo bëhet 0, dhe Gaga
fiton, që do të thotë se Gaga është

429
00:20:56,360 --> 00:20:57,310
ndoshta këngëtari.

430
00:20:57,310 --> 00:20:58,560
A ka kjo kuptim?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Pra, nëse unë dua të bërë këtë zyrtar më shumë,
Unë në fakt mund të bëjë një model

435
00:21:11,750 --> 00:21:12,700
për fjalë të shumta.

436
00:21:12,700 --> 00:21:14,610
Pra, le të themi se unë kam diçka
si, "baby, unë jam

437
00:21:14,610 --> 00:21:16,030
në zjarr, "ose diçka.

438
00:21:16,030 --> 00:21:17,760
Pra, ajo ka fjalë të shumta.

439
00:21:17,760 --> 00:21:20,880
Dhe në këtë rast, ju mund të shihni
se "fëmija" është në Gaga,

440
00:21:20,880 --> 00:21:21,710
por nuk është në Katy.

441
00:21:21,710 --> 00:21:24,940
Dhe "zjarri" është në Katy, por
nuk është në Gaga, e drejtë?

442
00:21:24,940 --> 00:21:27,200
Pra, është duke u komplikuar, apo jo?

443
00:21:27,200 --> 00:21:31,440
Për shkak se ajo duket që ju pothuajse
kanë një kravatë në mes të dy.

444
00:21:31,440 --> 00:21:36,980
>> Pra, çfarë ju duhet të bëni është të marrë
pavarësi në mesin e fjalëve.

445
00:21:36,980 --> 00:21:41,210
Pra, në thelb ajo që do të thotë është se
Unë jam vetëm duke llogaritur se çfarë është

446
00:21:41,210 --> 00:21:44,330
Mundësia e parë "fëmijë", ajo që është
mundësia e parë "unë," dhe

447
00:21:44,330 --> 00:21:46,670
"Me", dhe "," dhe "zjarri"
të gjithë veç e veç.

448
00:21:46,670 --> 00:21:48,670
Atëherë unë jam duke shumëzuar të gjitha prej tyre.

449
00:21:48,670 --> 00:21:52,420
Dhe unë jam duke parë atë që është probabiliteti
e duke parë tërë dënimin.

450
00:21:52,420 --> 00:21:55,210
Kuptim?

451
00:21:55,210 --> 00:22:00,270
>> Pra, në thelb, në qoftë se unë kam vetëm një fjalë,
ajo që unë dua të gjej është max arg,

452
00:22:00,270 --> 00:22:05,385
që do të thotë, ajo që është klasa që është
duke i dhënë me probabilitetin më të lartë?

453
00:22:05,385 --> 00:22:10,010
Pra, çfarë është klasa që është duke i dhënë
mua probabiliteti më të lartë për

454
00:22:10,010 --> 00:22:11,940
Mundësia e klasës dhënë fjalën.

455
00:22:11,940 --> 00:22:17,610
Pra, në këtë rast, duke pasur parasysh Gaga "fëmijë."
Ose Katy dhënë "fëmijë." Kuptim?

456
00:22:17,610 --> 00:22:21,040
>> Dhe vetëm nga Bayes, që
ekuacion që kam treguar,

457
00:22:21,040 --> 00:22:24,780
kemi krijuar këtë pjesë.

458
00:22:24,780 --> 00:22:28,750
E vetmja gjë është që ju të shihni se
probabiliteti i fjalës dhënë

459
00:22:28,750 --> 00:22:31,370
Ndryshimet e klasës varësi
të klasës, apo jo?

460
00:22:31,370 --> 00:22:34,260
Numri i "fëmijës"-s që i kanë
në Gaga është i ndryshëm nga Katy.

461
00:22:34,260 --> 00:22:37,640
Mundësia e klasës gjithashtu
Ndryshimet sepse kjo është vetëm numri

462
00:22:37,640 --> 00:22:39,740
i këngëve secili prej tyre ka.

463
00:22:39,740 --> 00:22:43,980
>> Por probabiliteti i fjalës vetë
do të jetë i njëjtë për të gjithë

464
00:22:43,980 --> 00:22:44,740
artistë, apo jo?

465
00:22:44,740 --> 00:22:47,150
Pra probabiliteti i fjalës është
vetëm, atë që është probabiliteti i

466
00:22:47,150 --> 00:22:49,820
duke parë atë fjalë në
Gjuhës angleze?

467
00:22:49,820 --> 00:22:51,420
Kështu që është e njëjtë për të gjithë ata.

468
00:22:51,420 --> 00:22:55,790
Pra, pasi që kjo është konstante, ne mund vetëm të
rënie këtë dhe nuk kujdesen për të.

469
00:22:55,790 --> 00:23:00,230
Pra, kjo do të jetë në të vërtetë
ekuacioni ne jemi duke kërkuar për.

470
00:23:00,230 --> 00:23:03,360
>> Dhe në qoftë se unë kam fjalë të shumta, unë jam i
ende do të ketë para

471
00:23:03,360 --> 00:23:04,610
probabiliteti këtu.

472
00:23:04,610 --> 00:23:06,980
E vetmja gjë është se unë jam duke shumëzuar
probabiliteti i

473
00:23:06,980 --> 00:23:08,490
të gjitha fjalët e tjera.

474
00:23:08,490 --> 00:23:10,110
Kështu që unë jam duke shumëzuar të gjitha prej tyre.

475
00:23:10,110 --> 00:23:12,610
Kuptim?

476
00:23:12,610 --> 00:23:18,440
Ajo duket e çuditshme, por në thelb do të thotë,
të llogaritur para e klasës, dhe

477
00:23:18,440 --> 00:23:22,100
pastaj shumohen me probabilitetin e çdo
e fjalëve të qenë në atë klasë.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> Dhe ju e dini se probabiliteti i një
Fjala dhënë një klasë do të jetë

480
00:23:29,150 --> 00:23:34,520
numri i herë ju shihni atë fjalë në
që klasë, ndahet nga numri i

481
00:23:34,520 --> 00:23:37,020
Fjalët që ju keni në se
klasë në përgjithësi.

482
00:23:37,020 --> 00:23:37,990
Kuptim?

483
00:23:37,990 --> 00:23:41,680
Është vetëm se si "fëmijë" ishte 2 mbi
numri i fjalëve që

484
00:23:41,680 --> 00:23:43,020
Unë kisha në lyrics.

485
00:23:43,020 --> 00:23:45,130
Pra, vetëm të frekuencave.

486
00:23:45,130 --> 00:23:46,260
>> Por ka një gjë.

487
00:23:46,260 --> 00:23:51,250
Mos harroni se si unë u treguar se
probabiliteti i "fëmijës" duke u tekst

488
00:23:51,250 --> 00:23:56,350
nga Katy Perry ishte 0 vetëm për shkak Katy
Perry nuk e kanë "fëmijën" në të gjitha?

489
00:23:56,350 --> 00:24:04,900
Por kjo tingëllon pak ashpër për të vetëm
thjesht thonë se tekstet nuk mund të jetë nga

490
00:24:04,900 --> 00:24:10,040
një artist vetëm për shkak se ata nuk kanë
që fjalë në veçanti në çdo kohë.

491
00:24:10,040 --> 00:24:13,330
>> Kështu që ju mund të them vetëm, mirë, në qoftë se ju
nuk e kanë këtë fjalë, unë jam duke shkuar për

492
00:24:13,330 --> 00:24:15,640
ju jap një probabilitet më të ulët,
por unë jam vetëm do të

493
00:24:15,640 --> 00:24:17,420
ju jap 0 menjëherë.

494
00:24:17,420 --> 00:24:21,040
Për shkak se ndoshta kjo ishte diçka si,
"Zjarr, zjarr, zjarr, zjarr", e cila është

495
00:24:21,040 --> 00:24:21,990
krejtësisht Katy Perry.

496
00:24:21,990 --> 00:24:26,060
Dhe pastaj "fëmijë", dhe ai shkon vetëm për të
0 menjëherë sepse nuk ishte një

497
00:24:26,060 --> 00:24:27,250
"Fëmijë."

498
00:24:27,250 --> 00:24:31,440
>> Pra, në thelb ajo që ne bëjmë është diçka
quajtur Laplace zbutjes.

499
00:24:31,440 --> 00:24:36,260
Dhe kjo thjesht do të thotë se unë jam duke i dhënë
disa probabiliteti edhe fjalët

500
00:24:36,260 --> 00:24:37,850
që nuk ekzistojnë.

501
00:24:37,850 --> 00:24:43,170
Pra, ajo që unë bëj është se kur unë jam
llogaritjen këtë, unë gjithmonë shtoni 1 të

502
00:24:43,170 --> 00:24:44,180
numëruesi.

503
00:24:44,180 --> 00:24:48,060
Pra, edhe në qoftë se fjala nuk ekziston, në
këtë rast, në qoftë se kjo është 0, unë jam ende i

504
00:24:48,060 --> 00:24:51,250
llogaritur këtë si 1 mbi
Numri i përgjithshëm i fjalëve.

505
00:24:51,250 --> 00:24:55,060
Përndryshe, unë të marrë sa shumë fjalë
Unë kam dhe unë shtoj 1.

506
00:24:55,060 --> 00:24:58,300
Kështu që unë jam duke numëruar për të dy rastet.

507
00:24:58,300 --> 00:25:00,430
Kuptim?

508
00:25:00,430 --> 00:25:03,060
>> Pra, tani le të bëjë disa coding.

509
00:25:03,060 --> 00:25:06,440
Unë do të keni për të bërë atë shumë shpejt,
por kjo është vetëm e rëndësishme që ju

510
00:25:06,440 --> 00:25:08,600
djema kuptoni konceptet.

511
00:25:08,600 --> 00:25:13,450
Pra, ajo që ne jemi duke u përpjekur për të bërë
pikërisht është zbatuar këtë

512
00:25:13,450 --> 00:25:14,330
gjë që unë vetëm se -

513
00:25:14,330 --> 00:25:19,110
Unë dua që ju të vendosni tekst kënge nga
Lady Gaga dhe Katy Perry.

514
00:25:19,110 --> 00:25:22,980
Dhe programi do të jetë në gjendje të
thonë se nëse këto këngët e reja janë nga Gaga

515
00:25:22,980 --> 00:25:24,170
ose Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Kuptim?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> Kështu që unë kam këtë program unë jam duke shkuar
për të thirrur classify.py.

519
00:25:30,710 --> 00:25:31,970
Pra, kjo është Python.

520
00:25:31,970 --> 00:25:34,210
Kjo është një gjuhë programimi e re.

521
00:25:34,210 --> 00:25:38,020
Ajo është shumë e ngjashme në disa
mënyra për C dhe PHP.

522
00:25:38,020 --> 00:25:43,180
Është e ngjashme, sepse në qoftë se ju doni të
mësojnë Python pas ditur C, është e

523
00:25:43,180 --> 00:25:46,270
me të vërtetë nuk është se shumë nga një sfidë
vetëm për shkak Python është shumë më e lehtë

524
00:25:46,270 --> 00:25:47,520
se C, para se gjithash.

525
00:25:47,520 --> 00:25:49,370
Dhe shumë gjëra janë tashmë të
zbatohet për ju.

526
00:25:49,370 --> 00:25:56,820
Pra, se sa si PHP ka funksione që
lloj një listë, ose append diçka

527
00:25:56,820 --> 00:25:58,780
në një grup, ose blah, blah, blah.

528
00:25:58,780 --> 00:26:00,690
Python ka të gjithë ata si.

529
00:26:00,690 --> 00:26:05,960
>> Kështu që unë jam vetëm do të shpjegojë shpejt
se si ne mund të bëjmë klasifikimin

530
00:26:05,960 --> 00:26:07,860
problem për këtu.

531
00:26:07,860 --> 00:26:13,230
Pra, le të themi se në këtë rast, unë kam
Lyrics nga Gaga dhe Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Mënyra se kam ato tekst kënge është se
fjala e parë e lyrics është

533
00:26:21,880 --> 00:26:25,250
emri i artistit, dhe
pjesa tjetër është lyrics.

534
00:26:25,250 --> 00:26:29,470
Pra, le të themi se unë kam këtë listë në
të cilat e para është tekst kënge nga Gaga.

535
00:26:29,470 --> 00:26:31,930
Kështu që këtu unë jam në rrugën e duhur.

536
00:26:31,930 --> 00:26:35,270
Dhe një tjetër është Katy, dhe
ajo ka gjithashtu lyrics.

537
00:26:35,270 --> 00:26:38,040
>> Pra, kjo është se si ju të deklarojë
një variabël në Python.

538
00:26:38,040 --> 00:26:40,200
Ju nuk keni për të dhënë llojin e të dhënave.

539
00:26:40,200 --> 00:26:43,150
Ju vetëm shkruani "lyrics,"
lloj i pëlqen në PHP.

540
00:26:43,150 --> 00:26:44,890
Kuptim?

541
00:26:44,890 --> 00:26:47,770
>> Pra cilat janë gjërat që kam për të
llogaritur të jetë në gjendje për të llogaritur

542
00:26:47,770 --> 00:26:49,360
probabilitetet?

543
00:26:49,360 --> 00:26:55,110
Unë kam për të llogaritur "Priors"
secili prej të ndryshëm

544
00:26:55,110 --> 00:26:56,710
Klasat që kam.

545
00:26:56,710 --> 00:27:06,680
Unë kam për të llogaritur "posteriors,"
apo shumë e shumë probabilitetet e

546
00:27:06,680 --> 00:27:12,150
secili prej fjalë të ndryshme që
Unë mund të ketë për çdo artist.

547
00:27:12,150 --> 00:27:17,210
Pra brenda Gaga, për shembull, unë jam duke shkuar
që të ketë një listë të se sa herë unë shoh

548
00:27:17,210 --> 00:27:19,250
secili prej fjalë.

549
00:27:19,250 --> 00:27:20,760
Kuptim?

550
00:27:20,760 --> 00:27:25,370
>> Dhe së fundi, unë jam vetëm do të ketë një
Lista e quajtur "fjalët" që është vetëm do

551
00:27:25,370 --> 00:27:29,780
që të ketë sa shumë fjalë unë
kanë për çdo artist.

552
00:27:29,780 --> 00:27:33,760
Pra për Gaga, për shembull, kur unë shoh
me lyrics, kisha, unë mendoj, 24

553
00:27:33,760 --> 00:27:34,750
Fjalët në total.

554
00:27:34,750 --> 00:27:38,970
Pra, kjo listë është vetëm do të ketë
Gaga 24, dhe Katy një numër tjetër.

555
00:27:38,970 --> 00:27:40,130
Kuptim?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> Deri tani, në të vërtetë, le të
shkojnë në kodim.

558
00:27:42,530 --> 00:27:45,270
Pra në Python, ju mund të vërtetë
kthyer një bandë e ndryshme

559
00:27:45,270 --> 00:27:46,630
gjërat nga një funksion.

560
00:27:46,630 --> 00:27:50,810
Kështu që unë jam duke shkuar për të krijuar këtë funksion
quajtur "kushtëzuar", e cila do

561
00:27:50,810 --> 00:27:53,890
të kthehen të gjitha ato gjëra,
"Priors," e "probabilitetet," dhe

562
00:27:53,890 --> 00:28:05,690
"fjalë". Pra "kushtëzuar", dhe është e
do të vënë në "tekst".

563
00:28:05,690 --> 00:28:11,510
>> Pra, tani unë dua që ju të vërtetë
shkruaj këtë funksion.

564
00:28:11,510 --> 00:28:17,750
Kështu që mënyra që unë mund të shkruaj këtë
funksion është I përcaktuar vetëm këtë

565
00:28:17,750 --> 00:28:20,620
funksionojnë me "def". Kështu që unë e bëri "def
kushtëzuar, "dhe është duke marrë

566
00:28:20,620 --> 00:28:28,700
"Lyrics." Dhe çfarë kjo do të bëjë
është, para së gjithash, unë kam Priors e mia

567
00:28:28,700 --> 00:28:31,030
që unë dua për të llogaritur.

568
00:28:31,030 --> 00:28:34,330
>> Kështu që mënyra që unë mund ta bëjë këtë është të krijojë
një fjalor në Python, i cili

569
00:28:34,330 --> 00:28:37,320
është shumë e shumë të njëjtën gjë si një hash
tavolinë, ose është si një përsëritës

570
00:28:37,320 --> 00:28:40,480
array në PHP.

571
00:28:40,480 --> 00:28:44,150
Kjo është se si unë deklaroj një fjalor.

572
00:28:44,150 --> 00:28:53,580
Dhe në thelb ajo që kjo do të thotë është se
Priors e Gaga është 0.5, për shembull, në qoftë se

573
00:28:53,580 --> 00:28:57,200
50% nga vargjet janë nga
Gaga, 50% janë nga Katy.

574
00:28:57,200 --> 00:28:58,450
Kuptim?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Kështu që unë duhet të kuptoj se si
për të llogaritur Priors.

577
00:29:03,680 --> 00:29:07,120
>> Ato ardhshëm që kam për të bërë, gjithashtu,
janë probabilitetet dhe fjalët.

578
00:29:07,120 --> 00:29:17,100
Pra, probabilitetet e Gaga është lista
të gjitha probabiliteteve që unë

579
00:29:17,100 --> 00:29:19,160
kanë për secilin nga fjalët për Gaga.

580
00:29:19,160 --> 00:29:23,880
Pra, nëse unë shkoj në probabilitet Gaga
"Baby," për shembull, ajo do të më jepni

581
00:29:23,880 --> 00:29:28,750
diçka si 2 mbi 24 në atë rast.

582
00:29:28,750 --> 00:29:30,070
Kuptim?

583
00:29:30,070 --> 00:29:36,120
Kështu që unë të shkojnë në "probabilitetet," të shkojnë në
"Gaga" kovë që ka një listë të të gjitha

584
00:29:36,120 --> 00:29:40,550
fjalët Gaga, pastaj të shkoj në "fëmijën",
dhe unë shoh probabilitetin.

585
00:29:40,550 --> 00:29:45,940
>> Dhe së fundi unë kam këtë
"Fjalët" fjalor.

586
00:29:45,940 --> 00:29:53,620
Kështu që këtu, "probabilities." Dhe pastaj
"fjalë". Pra, në qoftë se bëj "fjalë", "Gaga,"

587
00:29:53,620 --> 00:29:58,330
çfarë do të ndodhë është se është e
do të më jepni 24, duke thënë se unë

588
00:29:58,330 --> 00:30:01,990
kemi 24 fjalë në tekst nga Gaga.

589
00:30:01,990 --> 00:30:04,110
Ka kuptim?

590
00:30:04,110 --> 00:30:07,070
Kështu që këtu, "fjalët" e barabartë me dah-dah-dah.

591
00:30:07,070 --> 00:30:07,620
Në rregull

592
00:30:07,620 --> 00:30:12,210
>> Pra, ajo që unë jam duke shkuar për të bërë është që unë jam duke shkuar për
iterate mbi secilën nga vargjet, kështu

593
00:30:12,210 --> 00:30:14,490
secili prej vargjeve që
Unë kam në listë.

594
00:30:14,490 --> 00:30:18,040
Dhe unë jam duke shkuar për të llogaritur këto gjëra
për secilin nga kandidatët.

595
00:30:18,040 --> 00:30:19,950
Ka kuptim?

596
00:30:19,950 --> 00:30:21,700
Kështu që unë duhet të bëjë një për lak.

597
00:30:21,700 --> 00:30:26,300
>> Pra, në Python atë që unë mund të bëj është "për linjë
në tekst. "e njëjta gjë si një

598
00:30:26,300 --> 00:30:28,000
"Për çdo" deklaratë në PHP.

599
00:30:28,000 --> 00:30:33,420
Mos harroni se në qoftë se ajo ishte PHP unë mund të
thonë se "për çdo tekst si

600
00:30:33,420 --> 00:30:35,220
linjë. "Ka kuptim?

601
00:30:35,220 --> 00:30:38,900
Kështu I marr secila nga linjat, në këtë
rast, ky varg dhe të ardhshëm

602
00:30:38,900 --> 00:30:44,540
string kështu që për secilën nga linjat e asaj që unë jam
do të bëni është së pari, unë jam duke shkuar për

603
00:30:44,540 --> 00:30:49,150
ndarë këtë linjë në një listë të
fjalë të ndara nga hapësira.

604
00:30:49,150 --> 00:30:53,730
>> Pra, gjëja e ftohtë në lidhje Python është se
ju mund vetëm të Google si "se si do të mundja

605
00:30:53,730 --> 00:30:58,220
ndarë një varg në fjalë? "Dhe kjo është
do të ju tregojnë se si të bëhet kjo.

606
00:30:58,220 --> 00:31:04,890
Dhe mënyra për të bërë atë, është vetëm "linjë
= Line.split () "dhe kjo është në thelb

607
00:31:04,890 --> 00:31:08,640
do të ju japin një listë me
secili prej fjalë këtu.

608
00:31:08,640 --> 00:31:09,620
Ka kuptim?

609
00:31:09,620 --> 00:31:15,870
Pra, tani që kam bërë se unë dua të di
kush është këngëtarja e kësaj kënge.

610
00:31:15,870 --> 00:31:20,130
Dhe për të bërë këtë unë vetëm duhet të marrë
Elementi i parë i vargut, apo jo?

611
00:31:20,130 --> 00:31:26,390
Kështu që unë mund të them vetëm se unë "këngëtar
= Linjë (0) "Ka kuptim?

612
00:31:26,390 --> 00:31:32,010
>> Dhe pastaj ajo që unë duhet të bëni është, para së
të gjithë, unë jam duke shkuar për të rinovuar sa

613
00:31:32,010 --> 00:31:36,130
Fjalët Unë kam nën "Gaga." kështu që unë jam vetëm
duke shkuar për të llogaritur si shumë fjalë unë

614
00:31:36,130 --> 00:31:38,690
kanë në këtë listë, e drejtë?

615
00:31:38,690 --> 00:31:41,910
Për shkak se kjo është fjalë sa kam
në lyrics dhe unë jam vetëm do të

616
00:31:41,910 --> 00:31:44,120
shtoni atë në "Gaga" array.

617
00:31:44,120 --> 00:31:47,090
A ka kjo kuptim?

618
00:31:47,090 --> 00:31:49,010
A nuk përqëndrohet shumë në sintaksë.

619
00:31:49,010 --> 00:31:50,430
Mendoni më shumë për konceptet.

620
00:31:50,430 --> 00:31:52,400
Kjo është pjesa më e rëndësishme.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> Pra, ajo që unë mund ta bëjë këtë është në qoftë se "Gaga" është
tashmë në atë listë, kështu që "nëse këngëtarja në

623
00:32:00,260 --> 00:32:03,190
fjalët "që do të thotë se unë tashmë
kanë fjalë nga Gaga.

624
00:32:03,190 --> 00:32:06,640
Unë vetëm dua të shtoni shtesë
fjalë për se.

625
00:32:06,640 --> 00:32:15,810
Pra, ajo që unë bëj është "fjalë (këngëtar)
+ = Len (linjë) - 1 ".

626
00:32:15,810 --> 00:32:18,250
Dhe atëherë unë vetëm mund të bëjë
gjatësia e linjës.

627
00:32:18,250 --> 00:32:21,860
Pra, si shumë elemente I
kanë në rrjet.

628
00:32:21,860 --> 00:32:27,060
Dhe unë duhet të bëni minus 1 vetëm për shkak se
elementi i parë i vektorit është vetëm

629
00:32:27,060 --> 00:32:29,180
një këngëtare dhe ata nuk janë Lyrics.

630
00:32:29,180 --> 00:32:31,420
Ka kuptim?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "Tjetër", kjo do të thotë që unë dua të vërtetë
Gaga futur në listë.

633
00:32:35,820 --> 00:32:45,990
Kështu që unë vetëm të bëjë "fjalët (këngëtar)
= Len (linjë) - 1, "keq.

634
00:32:45,990 --> 00:32:49,200
Pra, i vetmi ndryshim në mes të dy
Linjat është se kjo, ajo nuk ka

635
00:32:49,200 --> 00:32:51,080
ekzistojnë ende, kështu që unë jam vetëm
Initializing atë.

636
00:32:51,080 --> 00:32:53,820
Kjo Unë jam në të vërtetë duke shtuar.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
Pra, kjo ishte shtuar në fjalë.

639
00:32:59,480 --> 00:33:03,040
>> Tani unë dua të shtoj në Priors.

640
00:33:03,040 --> 00:33:05,480
Pra, si mund ta llogarisin Priors?

641
00:33:05,480 --> 00:33:11,580
Të Priors mund të llogaritet
nga se sa herë.

642
00:33:11,580 --> 00:33:15,340
Pra, sa herë që ju të shihni se këngëtar
ndër të gjitha që ju këngëtarët

643
00:33:15,340 --> 00:33:16,380
keni, apo jo?

644
00:33:16,380 --> 00:33:18,810
Pra, për Gaga dhe Katy Perry,
në këtë rast, unë shoh Gaga

645
00:33:18,810 --> 00:33:20,570
një herë, Katy Perry herë.

646
00:33:20,570 --> 00:33:23,320
>> Pra, në thelb Priors për Gaga
dhe për Katy Perry do të

647
00:33:23,320 --> 00:33:24,390
vetëm të jetë një, e drejtë?

648
00:33:24,390 --> 00:33:26,500
Ju vetëm sa herë
Unë shoh artist.

649
00:33:26,500 --> 00:33:28,740
Pra, kjo është shumë e lehtë për të llogaritur.

650
00:33:28,740 --> 00:33:34,100
Unë mund vetëm diçka të ngjashme si si "nëse
Këngëtarja në Priors, "Unë jam vetëm duke shkuar

651
00:33:34,100 --> 00:33:38,970
për të shtuar 1 në kutinë e tyre Priors.

652
00:33:38,970 --> 00:33:51,000
Pra, "Priors (këndojë)" + = 1 "dhe pastaj" tjetër "
Unë jam duke shkuar për të bërë "Priors (këngëtarëve)

653
00:33:51,000 --> 00:33:55,000
= 1. "Ka kuptim?

654
00:33:55,000 --> 00:34:00,080
>> Pra, në qoftë se ajo nuk ekziston unë vetëm vënë
si 1, përndryshe unë vetëm të shtoni 1.

655
00:34:00,080 --> 00:34:11,280
OK, kështu që tani të gjitha që kam lënë për të bërë
është gjithashtu e shtuar secilin nga fjalë të

656
00:34:11,280 --> 00:34:12,290
probabilitetet.

657
00:34:12,290 --> 00:34:14,889
Pra, unë kam për të numëruar se sa herë
Unë shoh secilën prej fjalëve.

658
00:34:14,889 --> 00:34:18,780
Kështu që unë vetëm duhet të bëni një tjetër
lak në përputhje.

659
00:34:18,780 --> 00:34:25,190
>> Gjëja e parë kështu që unë jam duke shkuar për të bërë është
kontrolloni nëse Këngëtari tashmë ka një

660
00:34:25,190 --> 00:34:26,969
probabilitetet array.

661
00:34:26,969 --> 00:34:31,739
Kështu që unë jam duke kontrolluar nëse këngëtari nuk
kanë një rrjet të probabilities, unë jam vetëm

662
00:34:31,739 --> 00:34:34,480
do të nisja një për ta.

663
00:34:34,480 --> 00:34:36,400
Kjo nuk është edhe një koleksion, sorry,
kjo është një fjalor.

664
00:34:36,400 --> 00:34:43,080
Pra, probabilitetet e këngëtares do
të jetë një fjalor të hapur, kështu që unë jam

665
00:34:43,080 --> 00:34:45,830
vetëm Initializing një fjalor për të.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> Dhe tani unë në fakt mund të bëjë një për lak
për të llogaritur secilën nga fjalët '

668
00:34:58,330 --> 00:35:00,604
probabilitetet.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
Pra, çfarë mund të bëj është një për lak.

671
00:35:04,160 --> 00:35:06,590
Kështu që unë jam vetëm do të iterate
mbi array.

672
00:35:06,590 --> 00:35:15,320
Kështu që mënyra që unë mund të bëjë që në Python
është "për i në varg." Nga 1

673
00:35:15,320 --> 00:35:19,200
sepse unë dua të fillojë në pjesën e dytë
element shkak e parë është

674
00:35:19,200 --> 00:35:20,260
Emri këngëtar.

675
00:35:20,260 --> 00:35:24,990
Pra, nga një deri në
gjatësia e linjës.

676
00:35:24,990 --> 00:35:29,760
Dhe kur unë të shkojnë në të vërtetë të shkojnë nga
si here nga 1 deri len e

677
00:35:29,760 --> 00:35:30,740
linjë minus 1.

678
00:35:30,740 --> 00:35:33,810
Pra, tashmë e bën atë gjë e bërë
n minus 1 për të vargjeve të cilat është shumë e

679
00:35:33,810 --> 00:35:35,500
përshtatshëm.

680
00:35:35,500 --> 00:35:37,850
Ka kuptim?

681
00:35:37,850 --> 00:35:42,770
>> Pra, për secilin prej tyre, atë që unë jam duke shkuar për të
bëni është, ashtu si në një tjetër,

682
00:35:42,770 --> 00:35:50,320
Unë jam duke shkuar për të parë në qoftë se fjala në këtë
Pozita në linjë është tashmë në

683
00:35:50,320 --> 00:35:51,570
probabilitetet.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
Dhe pastaj si kam thënë këtu, probabilities
fjalë, si në kam vënë

686
00:35:57,260 --> 00:35:58,400
"probabilitetet (këngëtar)".

687
00:35:58,400 --> 00:35:59,390
Pra, emri i këngëtares.

688
00:35:59,390 --> 00:36:03,450
Pra, në qoftë se është tashmë në
"Probabilit (këngëtar)", kjo do të thotë se unë

689
00:36:03,450 --> 00:36:11,960
doni të shtoni 1 në të, kështu që unë jam duke shkuar për
të bëjë "probabilities (e këngëtarëve të)", dhe

690
00:36:11,960 --> 00:36:14,100
Fjala është quajtur "Vija (i)".

691
00:36:14,100 --> 00:36:22,630
Unë jam duke shkuar për të shtuar 1 dhe "tjetër" Unë jam vetëm
do të nisja atë në 1.

692
00:36:22,630 --> 00:36:23,880
"Line (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Ka kuptim?

695
00:36:28,420 --> 00:36:30,180
>> Pra, unë llogaritur të gjitha vargjeve.

696
00:36:30,180 --> 00:36:36,580
Pra, tani të gjitha që më duhet të bëj për
kjo është vetëm "kthehet Priors,

697
00:36:36,580 --> 00:36:43,230
probabilitetet dhe fjalët. "Le
të parë nëse ka ndonjë, OK.

698
00:36:43,230 --> 00:36:45,690
Duket çdo gjë është duke punuar deri tani.

699
00:36:45,690 --> 00:36:46,900
Pra, kjo ka kuptim?

700
00:36:46,900 --> 00:36:47,750
Në një farë mënyre?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
Deri tani unë kam të gjitha probabilities.

703
00:36:51,980 --> 00:36:55,100
Deri tani e vetmja gjë që kam lënë
është vetëm që të ketë atë gjë që

704
00:36:55,100 --> 00:36:58,650
llogarit produkt i të gjitha
probabilitetet kur unë të marrë lyrics.

705
00:36:58,650 --> 00:37:06,270
>> Pra, le të themi se unë dua të telefononi tani
ky funksion "të klasifikuar ()" dhe

706
00:37:06,270 --> 00:37:08,880
gjë që funksion merr
është vetëm një argument.

707
00:37:08,880 --> 00:37:13,170
Le të thonë se "Baby, unë jam në zjarr", dhe është e
do të kuptoj se çfarë është

708
00:37:13,170 --> 00:37:14,490
probabiliteti që kjo është Gaga?

709
00:37:14,490 --> 00:37:16,405
Cili është probabiliteti
se kjo është e Katie?

710
00:37:16,405 --> 00:37:19,690
Tinguj e mirë?

711
00:37:19,690 --> 00:37:25,750
Kështu që unë jam vetëm do të duhet për të krijuar një
Funksioni i ri i quajtur "të klasifikuar ()" dhe

712
00:37:25,750 --> 00:37:29,180
ajo do të marrë disa
Lyrics si.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
Dhe përveç kësaj lyrics Unë gjithashtu
kanë për të dërguar Priors,

715
00:37:36,160 --> 00:37:37,700
probabilitetet dhe fjalët.

716
00:37:37,700 --> 00:37:44,000
Kështu që unë jam duke shkuar për të dërguar lyrics, Priors,
probabilitetet, fjalë.

717
00:37:44,000 --> 00:37:51,840
>> Pra, kjo është duke marrë lyrics, Priors,
probabilitetet, fjalë.

718
00:37:51,840 --> 00:37:53,530
Pra, çfarë e bën këtë?

719
00:37:53,530 --> 00:37:57,180
Kjo në thelb do të kalojnë nëpër të gjitha
kandidatët e mundshme që ju

720
00:37:57,180 --> 00:37:58,510
kanë si këngëtare.

721
00:37:58,510 --> 00:37:59,425
Dhe ku janë ata kandidatë?

722
00:37:59,425 --> 00:38:01,020
Ata janë Në Priors, e drejtë?

723
00:38:01,020 --> 00:38:02,710
Pra, unë kam të gjithë ata atje.

724
00:38:02,710 --> 00:38:07,870
Kështu që unë jam i do të ketë një fjalor
e të gjithë kandidatëve të mundshëm.

725
00:38:07,870 --> 00:38:14,220
Dhe më pas për secilin kandidat në
Priors, kështu që do të thotë se ajo do të

726
00:38:14,220 --> 00:38:17,740
jetë Gaga, Katie nëse unë kam
më shumë ajo do të jetë më.

727
00:38:17,740 --> 00:38:20,410
Unë jam duke shkuar për të filluar llogaritjen
ky probabilitet.

728
00:38:20,410 --> 00:38:28,310
Probabiliteti siç e pamë në
PowerPoint është herë paraprake

729
00:38:28,310 --> 00:38:30,800
Produkti i secilit prej
probabilitetet e tjera.

730
00:38:30,800 --> 00:38:32,520
>> Kështu që unë mund të bëjë të njëjtën gjë këtu.

731
00:38:32,520 --> 00:38:36,330
Unë mund të bëjë vetëm probabiliteti është
fillimisht vetëm para.

732
00:38:36,330 --> 00:38:40,340
Kështu Priors të kandidatit.

733
00:38:40,340 --> 00:38:40,870
E drejtë?

734
00:38:40,870 --> 00:38:45,360
Dhe tani më duhet të iterate mbi të gjitha
fjalët që të kam në lyrics të jetë

735
00:38:45,360 --> 00:38:48,820
në gjendje për të shtuar probabilitetin
për secilin prej tyre, OK?

736
00:38:48,820 --> 00:38:57,900
Pra, "për fjalë në tekst" atë që unë jam duke shkuar
për të bërë është, në qoftë se fjala është në

737
00:38:57,900 --> 00:39:01,640
"probabilitetet (kandidate)", të cilat
do të thotë se kjo është një fjalë që

738
00:39:01,640 --> 00:39:03,640
Kandidati ka në tekst kënge e tyre -

739
00:39:03,640 --> 00:39:05,940
për shembull, "fëmija" për Gaga -

740
00:39:05,940 --> 00:39:11,710
ajo që unë jam duke shkuar për të bërë është që
probabiliteti do të jetë shumëzuar

741
00:39:11,710 --> 00:39:22,420
me 1 plus probabilitetet e
kandidat për atë fjalë.

742
00:39:22,420 --> 00:39:25,710
Dhe ajo që quhet "Fjala".

743
00:39:25,710 --> 00:39:32,440
Kjo e ndarë me numrin e fjalëve
që unë kam për atë kandidat.

744
00:39:32,440 --> 00:39:37,450
Numri i përgjithshëm i fjalëve që unë kam
për këngëtaren që unë jam duke kërkuar në.

745
00:39:37,450 --> 00:39:40,290
>> "Else." kjo do të thotë se është një fjalë të re
kështu ajo do të jetë si për shembull

746
00:39:40,290 --> 00:39:41,860
"Zjarri" për Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Kështu që unë vetëm dua të bëj 1 mbi
"Fjala (kandidat)".

748
00:39:45,760 --> 00:39:47,710
Kështu që unë nuk dua të vënë këtë term këtu.

749
00:39:47,710 --> 00:39:50,010
>> Pra, ajo do të jetë në thelb
kopjimi dhe pasting këtë.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Por unë jam duke shkuar për të fshirë këtë pjesë.

752
00:39:56,000 --> 00:39:57,610
Pra, kjo është vetëm do të jetë 1 mbi këtë.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Tinguj e mirë?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
Dhe tani në fund, unë jam vetëm do të
shtypura emrin e kandidatit dhe

757
00:40:09,700 --> 00:40:15,750
probabiliteti që ju keni të
pasur S në tekst kënge e tyre.

758
00:40:15,750 --> 00:40:16,200
Ka kuptim?

759
00:40:16,200 --> 00:40:18,390
Dhe unë në fakt as nuk
nevojë për këtë fjalor.

760
00:40:18,390 --> 00:40:19,510
Ka kuptim?

761
00:40:19,510 --> 00:40:21,810
>> Pra, le të shohim nëse kjo në të vërtetë punon.

762
00:40:21,810 --> 00:40:24,880
Pra, nëse unë të drejtuar këtë, ajo nuk ka punë.

763
00:40:24,880 --> 00:40:26,130
Prisni një të dytë.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Fjalë (kandidate)", "fjalë (kandidate)",
kjo është

766
00:40:31,720 --> 00:40:33,750
Emri i array.

767
00:40:33,750 --> 00:40:41,435
OK Pra, ajo thotë se ka disa bug
për kandidat në Priors.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Më lejoni vetëm të qetësohuni pak.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
Le të provoni.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> Kështu që i jep Katy Perry ka këtë
Mundësia e kjo herë 10 deri

774
00:40:58,710 --> 00:41:02,200
minus 7, dhe Gaga ka këtë
10 herë në minus 6.

775
00:41:02,200 --> 00:41:05,610
Kështu që ju shihni tregon se Gaga
ka një probabilitet më të lartë.

776
00:41:05,610 --> 00:41:09,260
Pra "Baby, unë jam në zjarr" është
ndoshta një këngë Gaga.

777
00:41:09,260 --> 00:41:10,580
Ka kuptim?

778
00:41:10,580 --> 00:41:12,030
Pra, kjo është ajo që ne e bëmë.

779
00:41:12,030 --> 00:41:16,010
>> Ky kod do të jetë postuar në internet,
kështu që ju djema mund të kontrolloni atë.

780
00:41:16,010 --> 00:41:20,720
Ndoshta përdorin një pjesë e saj për në qoftë se ju doni të
të bëjë një projekt apo diçka të ngjashme.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
Kjo ishte vetëm për të treguar
çfarë kompjuterike

783
00:41:25,930 --> 00:41:27,230
Kodi gjuhësi duket si.

784
00:41:27,230 --> 00:41:33,040
Por tani le të shkojnë në më shumë
gjëra të nivelit të lartë.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> Pra, problemet e tjera I
ishte duke folur për -

787
00:41:35,150 --> 00:41:37,550
problemi Segmentimi
është i pari i tyre.

788
00:41:37,550 --> 00:41:40,820
Kështu që ju keni këtu japonisht.

789
00:41:40,820 --> 00:41:43,420
Dhe pastaj ju shihni se
nuk ka hapësira.

790
00:41:43,420 --> 00:41:49,110
Pra, kjo është në thelb do të thotë se është e
maja e karrige, e drejtë?

791
00:41:49,110 --> 00:41:50,550
Ti flet japonisht?

792
00:41:50,550 --> 00:41:52,840
Është maja e karrige, e drejtë?

793
00:41:52,840 --> 00:41:54,480
>> STUDENT: Unë nuk e di se çfarë
kanji atje është.

794
00:41:54,480 --> 00:41:57,010
>> Lucas Freitas: Është [Duke folur Japanese]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
Kështu që në thelb do të thotë kryetar i lartë.

797
00:42:00,960 --> 00:42:03,620
Pra, nëse keni pasur për të vënë një hapësirë
do të ishte këtu.

798
00:42:03,620 --> 00:42:05,970
Dhe atëherë ju keni [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
E cila në thelb do të thotë z Ueda.

800
00:42:09,040 --> 00:42:13,180
Dhe ju shihni se "Ueda" dhe ju keni një
hapësirë ​​dhe pastaj "san." Kështu që ju të shihni se

801
00:42:13,180 --> 00:42:15,470
këtu ju "Ue" është si në vetvete.

802
00:42:15,470 --> 00:42:17,750
Dhe këtu ka karakter të
tjetër për të.

803
00:42:17,750 --> 00:42:21,720
>> Pra, nuk është si në ato gjuhë
karaktere që do të thotë një fjalë atë në mënyrë ju

804
00:42:21,720 --> 00:42:23,980
vetëm vënë një shumë të hapësirave.

805
00:42:23,980 --> 00:42:25,500
Figurë lidhen me njëri-tjetrin.

806
00:42:25,500 --> 00:42:28,680
Dhe ata mund të jenë së bashku
si dy, tre, e.

807
00:42:28,680 --> 00:42:34,520
Pra, ju në të vërtetë keni për të krijuar një lloj
e mënyrë për të vënë këto hapësira.

808
00:42:34,520 --> 00:42:38,850
>> Dhe kjo gjë është se sa herë që ju të merrni
të dhënat nga këto gjuhë aziatike,

809
00:42:38,850 --> 00:42:40,580
çdo gjë vjen unsegmented.

810
00:42:40,580 --> 00:42:45,940
Sepse askush nuk i cili shkruan Japanese
ose kinez shkruan me hapësira.

811
00:42:45,940 --> 00:42:48,200
Kurdo që jeni të shkruar Kinezisht,
Japanese ju vetëm të shkruani çdo gjë

812
00:42:48,200 --> 00:42:48,710
pa hapësira.

813
00:42:48,710 --> 00:42:52,060
Ajo nuk ka edhe kuptim
për të vënë hapësira.

814
00:42:52,060 --> 00:42:57,960
Pra, atëherë kur ju merrni të dhëna nga, disa
Gjuha e Azisë Lindore, në qoftë se ju doni të

815
00:42:57,960 --> 00:43:00,760
në të vërtetë të bëjë diçka me atë
ju duhet të segmentit të parë.

816
00:43:00,760 --> 00:43:05,130
>> Mendoni për të bërë shembullin e
lyrics pa hapësira.

817
00:43:05,130 --> 00:43:07,950
Pra, vetëm tekstet që ju keni
will be fjali, apo jo?

818
00:43:07,950 --> 00:43:09,470
Të ndara nga periudha.

819
00:43:09,470 --> 00:43:13,930
Por pastaj duke pasur vetëm e dënimit do të
jo të vërtetë të ndihmojë në dhënien e informacionit

820
00:43:13,930 --> 00:43:17,760
të cilët ato janë Lyrics nga.

821
00:43:17,760 --> 00:43:18,120
E drejtë?

822
00:43:18,120 --> 00:43:20,010
Kështu që ju duhet të vë hapësira parë.

823
00:43:20,010 --> 00:43:21,990
Pra, si mund ta bëni këtë?

824
00:43:21,990 --> 00:43:24,920
>> Kështu pastaj vjen ideja e një gjuhe
model i cili është diçka me të vërtetë

825
00:43:24,920 --> 00:43:26,870
rëndësishme për kompjuterike
gjuhësi.

826
00:43:26,870 --> 00:43:32,790
Pra, një model i gjuhës është në thelb një
Tabela e probabiliteteve që tregon

827
00:43:32,790 --> 00:43:36,260
para së gjithash ajo është probabiliteti
e ka fjalën për një gjuhë?

828
00:43:36,260 --> 00:43:39,590
Pra, duke treguar se si të shpeshta një fjalë është.

829
00:43:39,590 --> 00:43:43,130
Dhe pastaj edhe duke treguar lidhjen
në mes të fjalëve në një fjali.

830
00:43:43,130 --> 00:43:51,500
>> Pra, ideja kryesore është, në qoftë se një i huaj erdhi
për ju dhe tha një fjali të

831
00:43:51,500 --> 00:43:55,600
ju, çfarë është probabiliteti që, për
shembull, "kjo është motra ime [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
ishte dënimi që personi i ka thënë?

833
00:43:57,480 --> 00:44:00,380
Pra, padyshim disa fjali janë
më të zakonshme se të tjerët.

834
00:44:00,380 --> 00:44:04,450
Për shembull, "mëngjes të mirë," ose "të mirë
natën, "ose" hej atje, "është shumë më tepër

835
00:44:04,450 --> 00:44:08,260
zakonshme se shumica e dënimeve
se ne kemi një anglisht.

836
00:44:08,260 --> 00:44:11,060
Pra, pse janë ato fjali
më të shpeshta?

837
00:44:11,060 --> 00:44:14,060
>> Para së gjithash, kjo është për shkak se ju keni
fjalë që janë më të shpeshta.

838
00:44:14,060 --> 00:44:20,180
Kështu, për shembull, në qoftë se ju thonë, qen është
i madh, dhe qeni është gjigant, ju

839
00:44:20,180 --> 00:44:23,880
zakonisht ndoshta dëgjoni qeni është i madh
më shpesh për shkak se "i madh" është më e

840
00:44:23,880 --> 00:44:27,260
të shpeshta në gjuhën angleze se "gjigant."
Pra, një nga

841
00:44:27,260 --> 00:44:30,100
gjëra është frekuenca fjala.

842
00:44:30,100 --> 00:44:34,490
>> Gjëja e dytë e cila është me të vërtetë
e rëndësishme është vetëm

843
00:44:34,490 --> 00:44:35,490
Rendi i fjalëve.

844
00:44:35,490 --> 00:44:39,500
Pra, është e zakonshme për të thënë "cat është
brenda kutisë ". por ju nuk e bëni zakonisht

845
00:44:39,500 --> 00:44:44,250
shohin në "kutinë brenda është cat." kështu
ju të shihni se ka një rëndësi

846
00:44:44,250 --> 00:44:46,030
në rendin e fjalëve.

847
00:44:46,030 --> 00:44:50,160
Ju nuk mund të them vetëm se këto të dyja
Dënimet kanë të njëjtin probabilitet

848
00:44:50,160 --> 00:44:53,010
vetëm për shkak se ata kanë të njëjtat fjalë.

849
00:44:53,010 --> 00:44:55,550
Ju në fakt duhet të kujdesit
për mënyrë si.

850
00:44:55,550 --> 00:44:57,650
Kuptim?

851
00:44:57,650 --> 00:44:59,490
>> Pra, çfarë bëjmë ne?

852
00:44:59,490 --> 00:45:01,550
Pra, ajo që unë mund të përpiqen për të marrë ju?

853
00:45:01,550 --> 00:45:04,400
Unë jam duke u përpjekur për të marrë ju atë që ne
telefononi modelet e n-gram.

854
00:45:04,400 --> 00:45:09,095
Pra modele n-gram në thelb të marrë
se për çdo fjalë që

855
00:45:09,095 --> 00:45:10,960
ju keni në një fjali.

856
00:45:10,960 --> 00:45:15,020
Kjo është mundësia e të pasurit që
Fjala nuk varet jo vetëm nga

857
00:45:15,020 --> 00:45:18,395
Frekuenca e kësaj fjale në gjuhën,
por edhe në fjalët që

858
00:45:18,395 --> 00:45:19,860
janë që lidhen me të.

859
00:45:19,860 --> 00:45:25,810
>> Kështu për shembull, zakonisht kur ju shihni
diçka si në ose në ju jeni

860
00:45:25,810 --> 00:45:28,040
ndoshta do të shohim një
noun pas atë, e drejtë?

861
00:45:28,040 --> 00:45:31,750
Sepse kur ju keni një parafjalë
zakonisht kjo merr një emër pas saj.

862
00:45:31,750 --> 00:45:35,540
Ose në qoftë se ju keni një folje që është kalimtare
ju zakonisht do të

863
00:45:35,540 --> 00:45:36,630
kanë një frazë nominale.

864
00:45:36,630 --> 00:45:38,780
Pra, kjo do të ketë një emër
diku rreth tij.

865
00:45:38,780 --> 00:45:44,950
>> Pra, në thelb, ajo që bën është se ajo
konsideron mundësinë e të pasurit

866
00:45:44,950 --> 00:45:47,960
Fjalët pranë njëri-tjetrit, kur
ju jeni llogaritjen

867
00:45:47,960 --> 00:45:49,050
mundësia e një dënimi.

868
00:45:49,050 --> 00:45:50,960
Dhe kjo është ajo që një gjuhë
Modeli është në thelb.

869
00:45:50,960 --> 00:45:54,620
Vetëm duke thënë se çfarë është probabiliteti
të paturit e një specifik

870
00:45:54,620 --> 00:45:57,120
fjali në një gjuhë?

871
00:45:57,120 --> 00:45:59,110
Pra, pse është se e dobishme, në thelb?

872
00:45:59,110 --> 00:46:02,390
Dhe para së gjithash ajo që është
një model n-gram, atëherë?

873
00:46:02,390 --> 00:46:08,850
>> Pra, një model n-gram do të thotë se
çdo fjalë varet nga

874
00:46:08,850 --> 00:46:12,700
N tjetër minus 1 fjalë.

875
00:46:12,700 --> 00:46:18,150
Pra, në thelb, kjo do të thotë se në qoftë se unë shoh,
për shembull, në TF CS50 kur

876
00:46:18,150 --> 00:46:21,500
Unë jam duke llogaritur probabilitetin e
dënimi, ju do të jetë si "

877
00:46:21,500 --> 00:46:25,280
mundësia e të pasurit fjalën ""
herë mundësia e të pasurit "

878
00:46:25,280 --> 00:46:31,720
CS50 "herë mundësia e të pasurit
"TF CS50." Pra, në thelb, unë numërimin

879
00:46:31,720 --> 00:46:35,720
të gjitha mënyrat e mundshme të shtrihen atë.

880
00:46:35,720 --> 00:46:41,870
>> Dhe pastaj zakonisht kur jeni duke bërë këtë,
si në një projekt, të vendosni N të jetë

881
00:46:41,870 --> 00:46:42,600
një vlerë të ulët.

882
00:46:42,600 --> 00:46:45,930
Pra, zakonisht kanë bigrams apo trigrams.

883
00:46:45,930 --> 00:46:51,090
Kështu që ju vetëm të mbështeteni dy fjalë, a
Grupi nga dy fjalë, apo tri fjalë,

884
00:46:51,090 --> 00:46:52,620
vetëm për çështjet e performancës.

885
00:46:52,620 --> 00:46:56,395
Dhe gjithashtu për shkak se ndoshta në qoftë se ju keni
diçka si "The CS50 TF." Kur ju

886
00:46:56,395 --> 00:47:00,510
kanë "TF", është shumë e rëndësishme që
"CS50" është pranë tij, e drejtë?

887
00:47:00,510 --> 00:47:04,050
Këto dy gjëra janë zakonisht të
pranë njëri-tjetrit.

888
00:47:04,050 --> 00:47:06,410
>> Nëse ju mendoni se e "TF", është ndoshta
do të kenë çfarë

889
00:47:06,410 --> 00:47:07,890
klasë është e TF'ing për.

890
00:47:07,890 --> 00:47:11,330
Gjithashtu "" është me të vërtetë e rëndësishme
për CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Por në qoftë se ju keni diçka si "The CS50
TF shkoi në klasë dhe i dha tyre

892
00:47:14,570 --> 00:47:20,060
Nxënësit disa karamele. "" Candy "dhe" "
nuk kanë lidhje me të vërtetë, e drejtë?

893
00:47:20,060 --> 00:47:23,670
Ata janë kaq të largët nga njëri-tjetri që
kjo nuk ka rëndësi se çfarë

894
00:47:23,670 --> 00:47:25,050
Fjalët që ju keni.

895
00:47:25,050 --> 00:47:31,210
>> Pra, duke bërë një bigram ose një trigram, ajo
thjesht do të thotë se ju jeni të kufizuar

896
00:47:31,210 --> 00:47:33,430
veten për disa fjalë të
që janë përreth.

897
00:47:33,430 --> 00:47:35,810
Kuptim?

898
00:47:35,810 --> 00:47:40,630
Pra, kur ju doni të bëni ndarje,
në thelb, ajo që ju doni të bëni është të shikoni

899
00:47:40,630 --> 00:47:44,850
çfarë janë të gjitha mënyrat e mundshme që
ju mund segment dënimin.

900
00:47:44,850 --> 00:47:49,090
>> I tillë që ju të shihni se çfarë është
Mundësia e secilit prej këtyre dënimeve

901
00:47:49,090 --> 00:47:50,880
ekzistuese në gjuhën?

902
00:47:50,880 --> 00:47:53,410
Pra, atë që bëni ju është si, mirë, le të
unë të përpiqet për të vënë një hapësirë ​​këtu.

903
00:47:53,410 --> 00:47:55,570
Pra, ju vendosni një hapësirë ​​atje
dhe ju të shihni se çfarë është

904
00:47:55,570 --> 00:47:57,590
Mundësia e këtij dënimi?

905
00:47:57,590 --> 00:48:00,240
Pastaj ju jeni si, OK, ndoshta
se nuk ishte se e mirë.

906
00:48:00,240 --> 00:48:03,420
Kështu që unë vë një hapësirë ​​atje dhe një hapësirë ​​e
atje, dhe ju të llogaritur

907
00:48:03,420 --> 00:48:06,240
probabiliteti tani, dhe ju të shihni se
kjo është një probabilitet më të lartë.

908
00:48:06,240 --> 00:48:12,160
>> Pra, kjo është një algoritmi të quajtur TANGO
Segmentimi algorithm, e cila është

909
00:48:12,160 --> 00:48:14,990
në fakt diçka që do të jetë me të vërtetë
ftohtë për një projekt, i cili

910
00:48:14,990 --> 00:48:20,860
në thelb merr tekstin unsegmented cilat
mund të jetë japoneze apo kineze apo ndoshta

911
00:48:20,860 --> 00:48:26,080
English pa hapësira dhe të përpiqet për të vënë
hapësirat midis fjalëve dhe ajo ka

912
00:48:26,080 --> 00:48:29,120
se duke përdorur një model të gjuhës dhe
duke u përpjekur për të parë se çfarë është më e larta

913
00:48:29,120 --> 00:48:31,270
probabiliteti që ju mund të merrni.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
Pra, kjo është segmentimit.

916
00:48:33,800 --> 00:48:35,450
>> Tani sintaksë.

917
00:48:35,450 --> 00:48:40,940
Pra, sintaksa është duke u përdorur për
kaq shumë gjëra tani.

918
00:48:40,940 --> 00:48:44,880
Pra, për Graph Kerko, për Siri për
shumë e shumë çdo lloj natyrore

919
00:48:44,880 --> 00:48:46,490
përpunimin e gjuhës që ju keni.

920
00:48:46,490 --> 00:48:49,140
Pra cilat janë të rëndësishme
gjëra në lidhje me sintaksë?

921
00:48:49,140 --> 00:48:52,390
Pra, dënime në përgjithësi kanë
ajo që ne e quajmë zgjedhësit.

922
00:48:52,390 --> 00:48:57,080
Cilat janë lloj si grupet e fjalëve
që kanë një funksion në fjali.

923
00:48:57,080 --> 00:49:02,220
Dhe ata nuk mund të jetë me të vërtetë
pavarësisht nga njëri-tjetri.

924
00:49:02,220 --> 00:49:07,380
>> Pra, në qoftë se unë them, për shembull, "e do Lauren
Milo. "Unë e di se" Lauren "është një

925
00:49:07,380 --> 00:49:10,180
përbërëse dhe pastaj "dashuritë
Milo "është edhe një tjetër.

926
00:49:10,180 --> 00:49:16,860
Sepse ju nuk mund të them si "Lauren Milo
e do "që të kenë të njëjtin kuptim.

927
00:49:16,860 --> 00:49:18,020
Kjo nuk do të ketë
njëjtin kuptim.

928
00:49:18,020 --> 00:49:22,500
Ose unë nuk mund të them si "Milo Lauren
e do. "Jo çdo gjë ka të njëjtën

929
00:49:22,500 --> 00:49:25,890
që do të thotë duke bërë atë.

930
00:49:25,890 --> 00:49:31,940
>> Kështu dy gjërat më të rëndësishme në lidhje
Sintaksa janë llojet leksikore që është

931
00:49:31,940 --> 00:49:35,390
në thelb funksion që ju
kanë për fjalë me veten e tyre.

932
00:49:35,390 --> 00:49:39,180
Kështu që ju duhet të dini se "Lauren"
dhe "Milo" janë emra.

933
00:49:39,180 --> 00:49:41,040
"Dashuria" është një folje.

934
00:49:41,040 --> 00:49:45,660
Dhe gjëja e dytë e rëndësishme është
se ata janë llojet frazore.

935
00:49:45,660 --> 00:49:48,990
Pra, ju e dini se "e do Milo"
është në fakt një frazë verbal.

936
00:49:48,990 --> 00:49:52,390
Pra, kur them "Lauren," Unë e di se
Lauren është duke bërë diçka.

937
00:49:52,390 --> 00:49:53,620
Ç'farë është duke bërë ajo?

938
00:49:53,620 --> 00:49:54,570
Ajo është dashur Milo.

939
00:49:54,570 --> 00:49:56,440
Pra, kjo është një gjë e tërë.

940
00:49:56,440 --> 00:50:01,640
Por komponentët e tij janë të
një emër dhe një folje.

941
00:50:01,640 --> 00:50:04,210
Por së bashku, ata bëjnë një frazë folje.

942
00:50:04,210 --> 00:50:08,680
>> Pra, çfarë mund të bëjë në fakt me
gjuhësi kompjuterike?

943
00:50:08,680 --> 00:50:13,810
Pra, në qoftë se unë kam diçka për shembull
"miqtë e Allison." Unë po të shoh nëse unë vetëm

944
00:50:13,810 --> 00:50:17,440
ka një pemë sintaktik unë do të di se
"Miqtë" është një frazë noun kjo është një

945
00:50:17,440 --> 00:50:21,480
n dhe pastaj "i Allison" është një
frazë parafjalor në të cilat "i" është

946
00:50:21,480 --> 00:50:24,810
një propozim dhe "Allison" është një emër.

947
00:50:24,810 --> 00:50:30,910
Ajo që unë mund të bëni është të mësojnë kompjuterin tim
se kur unë kam një frazë Noun një dhe

948
00:50:30,910 --> 00:50:33,080
pastaj një frazë parafjalor.

949
00:50:33,080 --> 00:50:39,020
Pra, në këtë rast, "miqtë" dhe pastaj "i
Milo "Unë e di se kjo do të thotë se

950
00:50:39,020 --> 00:50:43,110
NP2, e dyta, zotëron NP1.

951
00:50:43,110 --> 00:50:47,680
>> Kështu që unë mund të krijojë një lloj lidhje,
një lloj funksioni për të.

952
00:50:47,680 --> 00:50:52,370
Pra, sa herë që unë shoh këtë strukturë, e cila
përputhet saktësisht me "shokët e

953
00:50:52,370 --> 00:50:56,030
Allison, "Unë e di se Allison
zotëron miqtë.

954
00:50:56,030 --> 00:50:58,830
Pra, miqtë janë diçka
se Allison ka.

955
00:50:58,830 --> 00:50:59,610
Ka kuptim?

956
00:50:59,610 --> 00:51:01,770
Pra, kjo është në thelb ajo që
Grafiku Kërkim i bën.

957
00:51:01,770 --> 00:51:04,360
Ajo vetëm krijon rregulla
për shumë gjëra.

958
00:51:04,360 --> 00:51:08,190
Kështu "miqtë e Allison", "miq e mi
të cilët jetojnë në Kembrixh, "" miqtë e mi

959
00:51:08,190 --> 00:51:12,970
të cilët shkojnë në Harvard. "Ajo krijon rregullat
për të gjitha ato gjëra.

960
00:51:12,970 --> 00:51:14,930
>> Tani përkthimi makinë.

961
00:51:14,930 --> 00:51:18,850
Pra, përkthimi makinë është gjithashtu
diçka statistikor.

962
00:51:18,850 --> 00:51:21,340
Dhe në të vërtetë në qoftë se ju të përfshiheni në
gjuhësi kompjuterike, shumë

963
00:51:21,340 --> 00:51:23,580
stuff tuaj do të jetë e statistikave.

964
00:51:23,580 --> 00:51:26,670
Pra, si unë ishte duke bërë shembullin me
një shumë e probabiliteteve që unë kam qenë

965
00:51:26,670 --> 00:51:30,540
llogaritjen, dhe pastaj ju merrni për këtë
numër shumë i vogël që është i formës së prerë

966
00:51:30,540 --> 00:51:33,180
probabiliteti, dhe kjo është ajo që
ju jep përgjigje.

967
00:51:33,180 --> 00:51:37,540
Përkthimi Machine gjithashtu përdor
një model statistikor.

968
00:51:37,540 --> 00:51:44,790
Dhe në qoftë se ju doni të mendoni se e makinës
përkthim në më të thjeshtë të mundshme

969
00:51:44,790 --> 00:51:48,970
mënyrë, atë që ju mund të mendoni se është vetëm
përkthehet fjalë për fjalë, e drejtë?

970
00:51:48,970 --> 00:51:52,150
>> Kur ju jeni mësuar një gjuhë për
herë të parë, kjo është zakonisht ajo që

971
00:51:52,150 --> 00:51:52,910
ju bëni, apo jo?

972
00:51:52,910 --> 00:51:57,050
Nëse ju dëshironi, ju përktheni një fjali
në gjuhën tuaj me gjuhën

973
00:51:57,050 --> 00:52:00,060
ju jeni mësuar, zakonisht së pari, ju
përkthejnë secili nga fjalët

974
00:52:00,060 --> 00:52:03,180
individualisht, dhe pastaj ju provoni
për të vënë fjalët në vend.

975
00:52:03,180 --> 00:52:07,100
>> Pra, nëse kam kërkuar për të përkthyer këtë,
[Duke folur PORTUGALISË]

976
00:52:07,100 --> 00:52:10,430
që do të thotë "mace e bardhë iku."
Në qoftë se unë të kërkuar për të përkthyer atë nga

977
00:52:10,430 --> 00:52:13,650
Portugalisht në anglisht, atë që kam
mund të bëni është, së pari, unë vetëm

978
00:52:13,650 --> 00:52:14,800
përkthehet fjalë për fjalë.

979
00:52:14,800 --> 00:52:20,570
Kështu "O" është "," "gato", "mace"
"Branco," "e bardhë", dhe pastaj "fugio" është

980
00:52:20,570 --> 00:52:21,650
"Iku."

981
00:52:21,650 --> 00:52:26,130
>> Pra, atëherë unë kam të gjitha fjalët këtu,
por ata nuk janë në rregull.

982
00:52:26,130 --> 00:52:29,590
Është si "të bardhë cat ikën"
cila është ungrammatical.

983
00:52:29,590 --> 00:52:34,490
Pra, atëherë unë mund të ketë një hap të dytë, i cili
do të jetë gjetur idealin

984
00:52:34,490 --> 00:52:36,610
pozita për secilën nga fjalët.

985
00:52:36,610 --> 00:52:40,240
Kështu që unë e di se unë në fakt duan të kenë
"Mace e bardhë" në vend të "bardhë cat." Kështu

986
00:52:40,240 --> 00:52:46,050
ajo që unë mund të bëni është, metoda më naiv
do të ishte për të krijuar të gjithë

987
00:52:46,050 --> 00:52:49,720
permutations e mundshme të
fjalë, të pozicioneve.

988
00:52:49,720 --> 00:52:53,300
Dhe pastaj të parë që e ka
probabilitet më të lartë sipas

989
00:52:53,300 --> 00:52:54,970
për modelin tim të gjuhës.

990
00:52:54,970 --> 00:52:58,390
Dhe atëherë kur unë të gjeni një që ka
probabiliteti më të lartë se, e cila është

991
00:52:58,390 --> 00:53:01,910
ndoshta "mace e bardhë ikën,"
kjo është përkthimi im.

992
00:53:01,910 --> 00:53:06,710
>> Dhe kjo është një mënyrë e thjeshtë për të shpjeguar
se si shumë machine translation

993
00:53:06,710 --> 00:53:07,910
algoritme të punojnë.

994
00:53:07,910 --> 00:53:08,920
A ka kjo kuptim?

995
00:53:08,920 --> 00:53:12,735
Kjo është gjithashtu diçka me të vërtetë emocionuese
se ju djema mund të ndoshta të eksplorojnë për një

996
00:53:12,735 --> 00:53:13,901
Projekti final, vërtet?

997
00:53:13,901 --> 00:53:15,549
>> STUDENT: E pra, ju tha se ishte e
mënyrë naive, kështu që çfarë është

998
00:53:15,549 --> 00:53:17,200
mënyrë jo-naiv?

999
00:53:17,200 --> 00:53:18,400
>> Lucas Freitas: Mënyra jo-naiv?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
Pra, gjëja e parë që është e keqe për
kjo metodë është se unë vetëm të përkthyera

1002
00:53:22,860 --> 00:53:24,330
Fjalë, fjalë për fjalë.

1003
00:53:24,330 --> 00:53:30,570
Por ndonjëherë ju keni fjalë se
mund të ketë përkthime të shumta.

1004
00:53:30,570 --> 00:53:32,210
Unë do të përpiqen për të menduar
e diçka.

1005
00:53:32,210 --> 00:53:37,270
Për shembull, "manga" në portugalisht kanaçe
të jetë ose "sakatoj" ose "mëngë." Kështu

1006
00:53:37,270 --> 00:53:40,450
kur jeni duke u përpjekur për të përkthyer fjalën
me fjalë, ajo mund të jetë duke ju dhënë

1007
00:53:40,450 --> 00:53:42,050
diçka që nuk ka kuptim.

1008
00:53:42,050 --> 00:53:45,770
>> Pra, ju në të vërtetë doni të shikoni në të gjitha
përkthimet e mundshme të

1009
00:53:45,770 --> 00:53:49,840
fjalët dhe të shihni, para së gjithash,
çfarë është urdhri.

1010
00:53:49,840 --> 00:53:52,000
Ne ishim duke folur për permutating
gjërat?

1011
00:53:52,000 --> 00:53:54,150
Për të parë të gjitha urdhrat e mundshme dhe
zgjidhni një me më të lartë

1012
00:53:54,150 --> 00:53:54,990
probabiliteti?

1013
00:53:54,990 --> 00:53:57,860
Ju gjithashtu mund të zgjidhni të gjitha të jetë e mundur
përkthime për çdo

1014
00:53:57,860 --> 00:54:00,510
Fjala dhe pastaj të shohim -

1015
00:54:00,510 --> 00:54:01,950
kombinuar me permutations -

1016
00:54:01,950 --> 00:54:03,710
e cila e ka probabilitetin më të lartë.

1017
00:54:03,710 --> 00:54:08,590
>> Plus, ju gjithashtu mund të shikoni në nuk
vetëm fjalë por frazat.

1018
00:54:08,590 --> 00:54:11,700
kështu që ju mund të analizuar marrëdhëniet midis
fjalët dhe pastaj të marrë një

1019
00:54:11,700 --> 00:54:13,210
përkthim më të mirë.

1020
00:54:13,210 --> 00:54:16,690
Gjithashtu diçka tjetër, kështu që ky semestër
Unë jam në të vërtetë duke bërë hulumtime në

1021
00:54:16,690 --> 00:54:19,430
Kineze-Anglisht përkthim makinë,
kështu përkthimin nga

1022
00:54:19,430 --> 00:54:20,940
Kineze në anglisht.

1023
00:54:20,940 --> 00:54:26,760
>> Dhe diçka që ne bëjmë është, përveç duke përdorur
një model statistikor, i cili është vetëm

1024
00:54:26,760 --> 00:54:30,570
duke parë probabilities e parë
disa pozita në një fjali, unë jam i

1025
00:54:30,570 --> 00:54:35,360
në fakt edhe duke shtuar disa sintaksë për të tim
model, duke thënë, oh, në qoftë se unë shoh këtë lloj

1026
00:54:35,360 --> 00:54:39,420
e ndërtimit, kjo është ajo që unë dua
për të ndryshuar atë në kur unë të përkthyer.

1027
00:54:39,420 --> 00:54:43,880
Kështu që ju mund të shtoni disa lloj
element i sintaksës për të bërë

1028
00:54:43,880 --> 00:54:47,970
përkthim më të efektshme
dhe më të saktë.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> Pra, si mund të merrni filluar, në qoftë se ju doni
për të bërë diçka në kompjuterike

1031
00:54:51,010 --> 00:54:51,980
gjuhësi?

1032
00:54:51,980 --> 00:54:54,560
>> Së pari, ju zgjidhni një projekt
që përfshin gjuhët.

1033
00:54:54,560 --> 00:54:56,310
Pra, nuk ka aq shumë atje.

1034
00:54:56,310 --> 00:54:58,420
Ka kaq shumë gjëra që ju mund të bëni.

1035
00:54:58,420 --> 00:55:00,510
Dhe pastaj mund të mendojnë për një model të
që ju mund të përdorni.

1036
00:55:00,510 --> 00:55:04,710
Zakonisht kjo do të thotë të menduarit e
supozimet, si si, oh, kur isha

1037
00:55:04,710 --> 00:55:05,770
si të menduarit e lyrics.

1038
00:55:05,770 --> 00:55:09,510
Unë kam qenë si, dhe, në qoftë se unë dua të kuptoj
nga një i cili shkroi këtë, unë ndoshta dëshironi

1039
00:55:09,510 --> 00:55:15,400
për të parë në fjalët personi të përdorura dhe
të parë që përdor këtë fjalë shumë shpesh.

1040
00:55:15,400 --> 00:55:18,470
Kështu që të përpiqet për të bërë supozime dhe
përpiqen të mendojnë për modele.

1041
00:55:18,470 --> 00:55:21,395
Dhe pastaj ju mund të kërkoni në internet për
lloj problemi që ju keni,

1042
00:55:21,395 --> 00:55:24,260
dhe ajo do të sugjeroj
për ju modeleve që ndoshta

1043
00:55:24,260 --> 00:55:26,560
modeluar atë gjë mirë.

1044
00:55:26,560 --> 00:55:29,080
>> Dhe gjithashtu ju gjithmonë mund të email mua.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
Dhe unë vetëm mund të përgjigjet në pyetjet tuaja.

1047
00:55:34,940 --> 00:55:38,600
Ne mund edhe mund të takohen deri kështu që unë mund të
japin sugjerime mbi mënyrat e

1048
00:55:38,600 --> 00:55:41,490
zbatimin e projektit tuaj.

1049
00:55:41,490 --> 00:55:45,610
Dhe Unë do të thotë në qoftë se ju merrni përfshirë me
gjuhësi kompjuterike, ajo do

1050
00:55:45,610 --> 00:55:46,790
të jetë i madh.

1051
00:55:46,790 --> 00:55:48,370
Ju jeni do të shohim atje
është aq shumë potencial.

1052
00:55:48,370 --> 00:55:52,060
Dhe industria dëshiron të punësojë
ju aq keq për shkak të kësaj.

1053
00:55:52,060 --> 00:55:54,720
Kështu që unë shpresoj se ju djema gëzuar këtë.

1054
00:55:54,720 --> 00:55:57,030
Nëse ju djema keni ndonjë pyetje,
ju mund të më pyesni pas kësaj.

1055
00:55:57,030 --> 00:55:58,280
Por ju falënderoj.

1056
00:55:58,280 --> 00:56:00,150