1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS FREITAS: Hej.

3
00:00:08,870 --> 00:00:09,980
Witam wszystkich.

4
00:00:09,980 --> 00:00:11,216
Nazywam się Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Jestem młodszy w [niesłyszalne] studia
informatyka z naciskiem na

6
00:00:15,220 --> 00:00:16,410
lingwistyki komputerowej.

7
00:00:16,410 --> 00:00:19,310
Tak jest w moim języku wtórny
i teorii lingwistycznej.

8
00:00:19,310 --> 00:00:21,870
Jestem bardzo podekscytowany, aby uczyć chłopaki
trochę o tej dziedzinie.

9
00:00:21,870 --> 00:00:24,300
To bardzo ekscytujące obszar do zbadania.

10
00:00:24,300 --> 00:00:27,260
Również z dużym potencjałem
przyszłości.

11
00:00:27,260 --> 00:00:30,160
Tak, jestem bardzo podekscytowany, że chłopaki
rozważają projekty w

12
00:00:30,160 --> 00:00:31,160
lingwistyki komputerowej.

13
00:00:31,160 --> 00:00:35,460
I będę bardziej niż szczęśliwy, aby doradzać
każdy z was, jeśli zdecydujesz się

14
00:00:35,460 --> 00:00:37,090
realizować jeden z nich.

15
00:00:37,090 --> 00:00:40,010
>> Więc przede wszystkim, jakie są obliczeniowa
językoznawstwo?

16
00:00:40,010 --> 00:00:44,630
Językoznawstwo obliczeniowe jest tak
skrzyżowanie między językoznawstwa i

17
00:00:44,630 --> 00:00:46,390
informatyka.

18
00:00:46,390 --> 00:00:47,415
Więc, co jest językoznawstwo?

19
00:00:47,415 --> 00:00:48,490
Co to jest ekonomia?

20
00:00:48,490 --> 00:00:51,580
Cóż z językoznawstwa, co
bierzemy to języki.

21
00:00:51,580 --> 00:00:54,960
Tak faktycznie jest lingwistyka nauka
języka naturalnego w ogóle.

22
00:00:54,960 --> 00:00:58,330
Język tak naturalne - mówimy o
język, który rzeczywiście używamy do

23
00:00:58,330 --> 00:00:59,770
komunikować się ze sobą.

24
00:00:59,770 --> 00:01:02,200
Więc nie będziemy dokładnie mówić
o C lub Java.

25
00:01:02,200 --> 00:01:05,900
Mówimy więcej o języku angielskim i
Języki chińskie i inne, które

26
00:01:05,900 --> 00:01:07,780
wykorzystania do komunikowania się ze sobą.

27
00:01:07,780 --> 00:01:12,470
>> Trudne rzeczą, że jest to, że
teraz mamy prawie 7000

28
00:01:12,470 --> 00:01:14,260
języki świata.

29
00:01:14,260 --> 00:01:19,520
Więc są dość wysokie odmiany
języków, które możemy badać.

30
00:01:19,520 --> 00:01:22,600
A następnie, że jest to prawdopodobnie
Bardzo trudne do wykonania, na przykład

31
00:01:22,600 --> 00:01:26,960
tłumaczenie z jednego języka na
innych, biorąc pod uwagę, że masz

32
00:01:26,960 --> 00:01:28,240
Prawie 7000 z nich.

33
00:01:28,240 --> 00:01:31,450
Tak więc, jeśli myślisz, że robi tłumaczenie
z jednego języka na inny jesteś

34
00:01:31,450 --> 00:01:35,840
ma prawie ponad milion
różne kombinacje, które można

35
00:01:35,840 --> 00:01:37,330
mają z języka na język.

36
00:01:37,330 --> 00:01:40,820
Więc jest to naprawdę trudne do zrobienia niektóre
rodzaj systemu tłumaczeń na przykład

37
00:01:40,820 --> 00:01:43,540
każdy język.

38
00:01:43,540 --> 00:01:47,120
>> Tak, językoznawstwo traktuje z składni,
semantyka, pragmatyka.

39
00:01:47,120 --> 00:01:49,550
Chłopaki nie muszą dokładnie
wiedzieć, co oni są.

40
00:01:49,550 --> 00:01:55,090
Ale bardzo ciekawe jest to, że
jako native speaker, gdy nauczysz się

41
00:01:55,090 --> 00:01:59,010
język jako dziecko, to rzeczywiście nauczyć
wszystkie z tych rzeczy - semantyka składni

42
00:01:59,010 --> 00:02:00,500
i pragmatyka -

43
00:02:00,500 --> 00:02:01,430
samodzielnie.

44
00:02:01,430 --> 00:02:04,820
I nikt nie ma nauczyć się składni
zrozumieć, jak zdania są

45
00:02:04,820 --> 00:02:05,290
zorganizowany.

46
00:02:05,290 --> 00:02:07,980
Tak, to bardzo ciekawe, ponieważ
to jest coś, co przychodzi bardzo

47
00:02:07,980 --> 00:02:10,389
intuicyjnie.

48
00:02:10,389 --> 00:02:13,190
>> A co zabierasz ze
informatyka?

49
00:02:13,190 --> 00:02:16,700
Cóż, najważniejsze, że my
mają w informatyce jest przede

50
00:02:16,700 --> 00:02:19,340
wszystko, sztuczna inteligencja
i uczenie maszynowe.

51
00:02:19,340 --> 00:02:22,610
Więc, co staramy się robić
lingwistyki jest uczyć

52
00:02:22,610 --> 00:02:26,990
komputer jak coś zrobić
z językiem.

53
00:02:26,990 --> 00:02:28,630
>> Tak więc, na przykład, w maszynie
tłumaczenie.

54
00:02:28,630 --> 00:02:32,490
Staram się uczyć moje komputera how
wiedzieć, jak przejście z jednego

55
00:02:32,490 --> 00:02:33,310
Język do drugiej.

56
00:02:33,310 --> 00:02:35,790
Tak więc, w zasadzie jak nauczanie
Komputer dwóch językach.

57
00:02:35,790 --> 00:02:38,870
Jeśli zrobić przetwarzania języka naturalnego,
który jest na przykład przypadek

58
00:02:38,870 --> 00:02:41,810
Facebook w Graph Search, uczysz
komputer jak zrozumieć

59
00:02:41,810 --> 00:02:42,730
Zapytania dobrze.

60
00:02:42,730 --> 00:02:48,130
>> Więc, jeśli powiesz "zdjęcia z moich
przyjaciele. "Facebook, że nie traktuje

61
00:02:48,130 --> 00:02:51,130
jako cały ciąg, który ma
tylko kilka słów.

62
00:02:51,130 --> 00:02:56,020
To rzeczywiście rozumie zależność
między "Zdjęcia" i "znajomych" i

63
00:02:56,020 --> 00:02:59,620
rozumie, że "zdjęcia" są
własnością "moich przyjaciół."

64
00:02:59,620 --> 00:03:02,350
>> Tak więc, jest to część, na przykład
przetwarzanie języka naturalnego.

65
00:03:02,350 --> 00:03:04,790
Próbuje zrozumieć, co
jest relacja między

66
00:03:04,790 --> 00:03:07,520
słowa w zdaniu.

67
00:03:07,520 --> 00:03:11,170
I pytanie brzmi, można
nauczyć komputer, jak mówić

68
00:03:11,170 --> 00:03:12,650
język w ogóle?

69
00:03:12,650 --> 00:03:17,810
Co jest bardzo ciekawe pytanie
że, jak może w przyszłości

70
00:03:17,810 --> 00:03:19,930
będziesz w stanie
rozmowy na telefon komórkowy.

71
00:03:19,930 --> 00:03:23,290
Coś jak to, co robimy z Siri, ale
coś więcej jak możesz rzeczywiście

72
00:03:23,290 --> 00:03:25,690
powiedzieć, co chcesz, a telefon
będzie zrozumieć wszystko.

73
00:03:25,690 --> 00:03:28,350
I może mieć dodatkowe pytania
i rozmawiać.

74
00:03:28,350 --> 00:03:30,880
To jest coś naprawdę ekscytujące,
w mojej opinii.

75
00:03:30,880 --> 00:03:33,070
>> Tak, coś w językach naturalnych.

76
00:03:33,070 --> 00:03:36,220
Coś naprawdę ciekawego
Języki naturalne jest to, że i to jest

77
00:03:36,220 --> 00:03:38,470
językoznawstwo kredyt do mojego profesora,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Ona daje przykład i myślę,
to jest naprawdę interesujące.

79
00:03:40,830 --> 00:03:47,060
Ponieważ uczymy się języka od kiedy
my urodził, a następnie nasz rodzimy

80
00:03:47,060 --> 00:03:49,170
język rodzaj rośnie na nas.

81
00:03:49,170 --> 00:03:52,570
>> I w zasadzie można nauczyć się języka
z minimalnym nakładzie, prawda?

82
00:03:52,570 --> 00:03:56,700
Jesteś po prostu coraz sygnału wejściowego z
Rodzice, co brzmi język

83
00:03:56,700 --> 00:03:58,770
jak i po prostu się go nauczyć.

84
00:03:58,770 --> 00:04:02,240
Tak, to ciekawe, bo jeśli spojrzeć
w tych zdaniach, na przykład.

85
00:04:02,240 --> 00:04:06,980
Wyglądasz, "Mary wkłada płaszcz każdego
razem, kiedy wychodzi z domu. "

86
00:04:06,980 --> 00:04:10,650
>> W tym przypadku, to jest możliwe, aby
słowo "ona" odnoszą się do Maryi, prawda?

87
00:04:10,650 --> 00:04:13,500
Możesz powiedzieć: "Maryja stawia na płaszczu
za każdym razem, Mary pozostawia

88
00:04:13,500 --> 00:04:14,960
dom. "tak, że jest w porządku.

89
00:04:14,960 --> 00:04:19,370
Ale jeśli spojrzeć na zdanie
"Ona wkłada płaszcz każdym Maryja

90
00:04:19,370 --> 00:04:22,850
wychodzi z domu. "wiesz, że to
można powiedzieć, że "ona" jest

91
00:04:22,850 --> 00:04:24,260
odwołując się do Maryi.

92
00:04:24,260 --> 00:04:27,070
>> Nie ma sposobu na powiedzenie, że "Maryja kładzie
na każdym płaszczem liści Maryja

93
00:04:27,070 --> 00:04:30,790
dom. "Więc to jest interesujące, ponieważ
jest to rodzaj intuicji

94
00:04:30,790 --> 00:04:32,890
że każdy native speaker ma.

95
00:04:32,890 --> 00:04:36,370
I nikt nie uczył, że jest to
sposób, w jaki działa składnia.

96
00:04:36,370 --> 00:04:41,930
I że można mieć tylko to "ona"
odwołując się do Maryi w tym pierwszym przypadku,

97
00:04:41,930 --> 00:04:44,260
i faktycznie w tym inne
również, ale nie jest to.

98
00:04:44,260 --> 00:04:46,500
Ale każdy rodzaj pobiera
do tej samej odpowiedzi.

99
00:04:46,500 --> 00:04:48,580
Wszyscy zgadzają się na to.

100
00:04:48,580 --> 00:04:53,280
Więc jest to naprawdę ciekawe, jak chociaż
nie znasz wszystkie zasady

101
00:04:53,280 --> 00:04:55,575
w języku, którego rodzaj zrozumieć
jak działa język.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Tak ciekawe o naturalne
języka jest to, że nie masz do

104
00:05:01,530 --> 00:05:06,970
znam żadnej składni wiedzieć, czy zdanie
jest gramatyczna lub ungrammatical dla

105
00:05:06,970 --> 00:05:08,810
większości przypadków.

106
00:05:08,810 --> 00:05:13,220
Co sprawia, że ​​może być to, co
zdarza się, że przez całe swoje życie, jesteś

107
00:05:13,220 --> 00:05:17,410
po prostu zachować się coraz bardziej
zdania powiedział do ciebie.

108
00:05:17,410 --> 00:05:19,800
A następnie zachować zapamiętywanie
wszystkich zdań.

109
00:05:19,800 --> 00:05:24,230
I wtedy, gdy ktoś mówi,
coś, słyszysz to zdanie i

110
00:05:24,230 --> 00:05:27,040
obejrzysz słownika
zdań i sprawdzić, czy

111
00:05:27,040 --> 00:05:28,270
to zdanie jest.

112
00:05:28,270 --> 00:05:29,830
A jeśli jest tam jesteś
powiedzieć, że jest gramatyczna.

113
00:05:29,830 --> 00:05:31,740
Jeśli to nie można powiedzieć, że to
ungrammatical.

114
00:05:31,740 --> 00:05:35,150
>> Tak więc, w tym przypadku, można by powiedzieć, oh,
więc masz ogromną listę wszystkich

115
00:05:35,150 --> 00:05:36,140
ewentualne zdania.

116
00:05:36,140 --> 00:05:38,240
A następnie po usłyszeniu wyroku,
wiesz, czy to gramatyczne lub

117
00:05:38,240 --> 00:05:39,450
nie opiera się na tym.

118
00:05:39,450 --> 00:05:42,360
Chodzi o to, że jeśli spojrzeć na
zdanie, na przykład "

119
00:05:42,360 --> 00:05:47,540
pięć-headed CS50 TF gotowane niewidomych
ośmiornice wykorzystujące kubek DAPA. "To

120
00:05:47,540 --> 00:05:49,630
na pewno nie zdanie
że słyszał.

121
00:05:49,630 --> 00:05:52,380
Ale jednocześnie wiesz, że to
prawie gramatyczna, prawda?

122
00:05:52,380 --> 00:05:55,570
Nie ma żadnych błędów gramatycznych
i można powiedzieć, że

123
00:05:55,570 --> 00:05:57,020
to jest możliwe zdanie.

124
00:05:57,020 --> 00:06:01,300
>> Więc to każe nam myśleć, że rzeczywiście
sposób, w jaki uczymy się języka jest nie tylko

125
00:06:01,300 --> 00:06:07,090
poprzez ogromną bazę można
słowa lub zdania, ale więcej

126
00:06:07,090 --> 00:06:11,490
zrozumienia zależność pomiędzy
słów w tych zdaniach.

127
00:06:11,490 --> 00:06:14,570
Czy to ma sens?

128
00:06:14,570 --> 00:06:19,370
Tak, to pytanie jest, może
komputery uczyć się języków?

129
00:06:19,370 --> 00:06:21,490
Możemy nauczyć języka na komputerach?

130
00:06:21,490 --> 00:06:24,230
>> Więc pomyślmy różnicy
między native speaker języka

131
00:06:24,230 --> 00:06:25,460
i komputer.

132
00:06:25,460 --> 00:06:27,340
Więc, co się dzieje, do głośnika?

133
00:06:27,340 --> 00:06:30,430
Cóż, native speaker uczy
język z narażenia na nią.

134
00:06:30,430 --> 00:06:34,200
Wysyłka wczesnych latach dzieciństwa.

135
00:06:34,200 --> 00:06:38,570
Tak więc, w zasadzie, po prostu mieć dziecko,
i rozmawiać z nim, i to

136
00:06:38,570 --> 00:06:40,540
po prostu uczy się mówić
język, prawda?

137
00:06:40,540 --> 00:06:42,660
Tak, jesteś w zasadzie daje
Wejście do dziecka.

138
00:06:42,660 --> 00:06:45,200
Tak więc, można argumentować, że komputer
może zrobić to samo, prawda?

139
00:06:45,200 --> 00:06:49,510
Możesz po prostu dać jezyk
jako wejście do komputera.

140
00:06:49,510 --> 00:06:53,410
>> Jak na przykład kilka plików
że mają książki w języku angielskim.

141
00:06:53,410 --> 00:06:56,190
Być może to jest jeden sposób, który
mógłby uczyć

142
00:06:56,190 --> 00:06:57,850
Komputer angielski, prawda?

143
00:06:57,850 --> 00:07:01,000
I rzeczywiście, jeśli myślisz o tym,
to ma być może kilka

144
00:07:01,000 --> 00:07:02,680
dni czytać książki.

145
00:07:02,680 --> 00:07:05,760
Dla komputera zajmuje chwilę, aby
patrzeć na wszystkich słów w książce.

146
00:07:05,760 --> 00:07:10,810
Więc można pomyśleć, że to może być tylko
Argument wkład wokół ciebie,

147
00:07:10,810 --> 00:07:15,440
to nie wystarczy, aby powiedzieć, że jest to
coś, że tylko ludzie mogą zrobić.

148
00:07:15,440 --> 00:07:17,680
Możesz myśleć komputerów
Można również uzyskać wejście.

149
00:07:17,680 --> 00:07:21,170
>> Drugą rzeczą jest to, że native speakerzy
również mózg, który ma

150
00:07:21,170 --> 00:07:23,870
możliwość nauki języka.

151
00:07:23,870 --> 00:07:27,020
Ale jeśli myślisz o tym,
Mózg jest solidny rzeczą.

152
00:07:27,020 --> 00:07:30,450
Kiedy urodził się, to już zestaw -

153
00:07:30,450 --> 00:07:31,320
to jest twój mózg.

154
00:07:31,320 --> 00:07:34,660
A jak dorośniesz, to po prostu więcej
Wejście od języka, a może odżywcze

155
00:07:34,660 --> 00:07:35,960
i inne rzeczy.

156
00:07:35,960 --> 00:07:38,170
Ale dość dużo mózg
jest solidny rzeczą.

157
00:07:38,170 --> 00:07:41,290
>> Więc można powiedzieć, no, może można
zbudować komputer, który ma kilka

158
00:07:41,290 --> 00:07:45,890
funkcje i metody, które po prostu naśladują
możliwość nauki języka.

159
00:07:45,890 --> 00:07:49,630
Więc w tym sensie, że można powiedzieć, dobrze,
może mieć komputer, który ma wszystko

160
00:07:49,630 --> 00:07:52,270
rzeczy potrzebne do nauki języka.

161
00:07:52,270 --> 00:07:56,200
I ostatnia rzecz to, że rodzimy
głośnik uczy się od prób i błędów.

162
00:07:56,200 --> 00:08:01,090
Więc w zasadzie kolejna ważna rzecz w
nauka języka jest to, że rodzaj

163
00:08:01,090 --> 00:08:05,340
z dowiedzieć się rzeczy, przez co
uogólnienia, co słyszysz.

164
00:08:05,340 --> 00:08:10,280
>> Tak jak rosną Ci się, że
Niektóre słowa są jak rzeczowniki,

165
00:08:10,280 --> 00:08:11,820
niektóre z nich są inne przymiotniki.

166
00:08:11,820 --> 00:08:14,250
I nie trzeba mieć dowolny
wiedza z językoznawstwa

167
00:08:14,250 --> 00:08:15,040
to zrozumieć.

168
00:08:15,040 --> 00:08:18,560
Ale po prostu wiem, że jest kilka słów
są umieszczone w pewnej części

169
00:08:18,560 --> 00:08:22,570
zdanie i inni w innych
części zdania.

170
00:08:22,570 --> 00:08:26,110
>> I że kiedy robisz coś, co jest
jak wyrok, który nie jest prawidłowy -

171
00:08:26,110 --> 00:08:28,770
być może z powodu uogólnienia na
na przykład.

172
00:08:28,770 --> 00:08:32,210
Może kiedy dorasta, można zauważyć,
że liczba mnoga jest zazwyczaj

173
00:08:32,210 --> 00:08:35,809
utworzone poprzez umieszczenie s przy
koniec słowa.

174
00:08:35,809 --> 00:08:40,042
, A następnie spróbować zrobić liczbę mnogą
"Jeleń" AS "jeleni" lub "ząb" jak

175
00:08:40,042 --> 00:08:44,780
"Tooths". Więc twoi rodzice lub
ktoś koryguje cię i mówi: nie,

176
00:08:44,780 --> 00:08:49,020
liczba mnoga od "jeleni" jest "Jeleń", a
liczba mnoga od "zęba" to "zęby". A następnie

177
00:08:49,020 --> 00:08:50,060
dowiedzieć się tych rzeczy.

178
00:08:50,060 --> 00:08:51,520
Więc dowiedzieć się z prób i błędów.

179
00:08:51,520 --> 00:08:53,100
>> Ale można też zrobić
z komputerem.

180
00:08:53,100 --> 00:08:55,310
Możesz mieć coś, co nazywa
nauka zbrojenia.

181
00:08:55,310 --> 00:08:58,560
Która jest w zasadzie jak daje
komputer, gdy to nie nagroda

182
00:08:58,560 --> 00:08:59,410
coś poprawnie.

183
00:08:59,410 --> 00:09:04,710
I nadanie jej przeciwieństwo nagrodę
i kiedy to robi coś złego.

184
00:09:04,710 --> 00:09:07,410
Rzeczywiście można zobaczyć, że jeśli się
do Google Translate i próby

185
00:09:07,410 --> 00:09:10,220
przetłumaczyć zdanie, że
prosi o opinie.

186
00:09:10,220 --> 00:09:13,240
Więc jeśli mówisz, oh, jest lepiej
Tłumaczenie do tego zdania.

187
00:09:13,240 --> 00:09:18,140
Możesz wpisać go, a następnie, jeśli dużo
ludzie ciągle mówią, że jest lepiej

188
00:09:18,140 --> 00:09:21,560
Tłumaczenie, że to właśnie dowiaduje się, że
należy użyć zamiast tego tłumaczenia

189
00:09:21,560 --> 00:09:22,960
jeden to dawał.

190
00:09:22,960 --> 00:09:28,830
>> Tak, to jest pytanie bardzo filozoficzne
aby sprawdzić, czy komputery będą w

191
00:09:28,830 --> 00:09:30,340
w stanie rozmowy, czy też nie w przyszłości.

192
00:09:30,340 --> 00:09:34,440
Ale mam nadzieje, że się da
tylko na podstawie tych argumentów.

193
00:09:34,440 --> 00:09:38,570
Ale to jest po prostu bardziej filozoficzny
pytanie.

194
00:09:38,570 --> 00:09:43,460
>> Tak więc, podczas gdy komputery wciąż nie może mówić,
jakie są rzeczy, które możemy zrobić?

195
00:09:43,460 --> 00:09:47,070
Niektóre rzeczy są naprawdę fajne
Klasyfikacja danych.

196
00:09:47,070 --> 00:09:53,210
Tak więc, na przykład, wiecie
że usługi e-mail nie, dla

197
00:09:53,210 --> 00:09:55,580
przykład, filtrowanie spamu.

198
00:09:55,580 --> 00:09:59,070
Więc gdy otrzymasz spam, to
stara się filtrować na innym polu.

199
00:09:59,070 --> 00:10:00,270
Więc jak to zrobić?

200
00:10:00,270 --> 00:10:06,080
To nie jest tak, że komputer po prostu wie
Adresy e-mail są co wysyłać spam.

201
00:10:06,080 --> 00:10:09,130
Więc jest to bardziej na podstawie treści
wiadomość, a może tytuł lub

202
00:10:09,130 --> 00:10:11,310
może jakiś wzór, który masz.

203
00:10:11,310 --> 00:10:15,690
>> Tak więc, w zasadzie, co możesz zrobić, to
Wiele danych z e-maili, które są spamem,

204
00:10:15,690 --> 00:10:19,980
e-maile, które nie są spamem i dowiedz się, co
rodzaju wzorców masz w

205
00:10:19,980 --> 00:10:21,000
te, które są spamem.

206
00:10:21,000 --> 00:10:23,260
I to jest część obliczeniowa
językoznawstwo.

207
00:10:23,260 --> 00:10:24,720
To się nazywa klasyfikacja danych.

208
00:10:24,720 --> 00:10:28,100
A my rzeczywiście zobaczymy
Przykład że w kolejnych slajdów.

209
00:10:28,100 --> 00:10:32,910
>> Drugą rzeczą jest to język naturalny
przetwarzania, które jest rzeczą, że

210
00:10:32,910 --> 00:10:36,580
Wykres Szukaj robi z najmu
piszesz zdanie.

211
00:10:36,580 --> 00:10:38,690
I ufa Ci zrozumieć, co
jest sens i daje

212
00:10:38,690 --> 00:10:39,940
jesteś lepszy wynik.

213
00:10:39,940 --> 00:10:43,880
Właściwie, jeśli pójdziesz do Google lub Bing
i wyszukać coś Bożej

214
00:10:43,880 --> 00:10:47,060
Wysokość Gaga, jesteś rzeczywiście dzieje
dostać 5 '1 "zamiast informacji

215
00:10:47,060 --> 00:10:50,170
od niej, bo to faktycznie rozumie
to, co mówisz.

216
00:10:50,170 --> 00:10:52,140
Więc to jest częścią naturalnego
przetwarzania języka.

217
00:10:52,140 --> 00:10:57,000
>> Lub też, gdy używasz Siri, pierwszy
masz algorytm, który próbuje

218
00:10:57,000 --> 00:11:01,130
tłumaczyć, co mówisz
słowami, w tekście.

219
00:11:01,130 --> 00:11:03,690
, A następnie stara się tłumaczyć
że w ten sposób.

220
00:11:03,690 --> 00:11:06,570
Tak, że wszystko jest częścią naturalnego
przetwarzania języka.

221
00:11:06,570 --> 00:11:08,320
>> Wtedy masz tłumaczenia maszynowego -

222
00:11:08,320 --> 00:11:10,300
co jest rzeczywiście jednym
z moich ulubionych -

223
00:11:10,300 --> 00:11:14,060
który jest tylko tłumaczeniem z
Język do drugiego.

224
00:11:14,060 --> 00:11:17,950
Więc można pomyśleć, że kiedy robisz
tłumaczenie maszynowe, masz

225
00:11:17,950 --> 00:11:19,750
nieskończone możliwości zdań.

226
00:11:19,750 --> 00:11:22,960
Tak więc nie ma mowy, po prostu przechowywanie
każdego tłumaczenia.

227
00:11:22,960 --> 00:11:27,440
Więc trzeba wymyślić ciekawy
Algorytmy móc

228
00:11:27,440 --> 00:11:30,110
tłumaczyć każdy
zdanie w jakiś sposób.

229
00:11:30,110 --> 00:11:32,483
>> Macie jakieś pytania do tej pory?

230
00:11:32,483 --> 00:11:34,450
Nie?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> Tak więc to, co mamy zamiar zobaczyć dziś?

233
00:11:36,900 --> 00:11:39,300
Przede wszystkim mam zamiar mówić o
Problem klasyfikacji.

234
00:11:39,300 --> 00:11:41,440
Tak, że byłem jednym
mówiąc o spam.

235
00:11:41,440 --> 00:11:46,820
Podane informacje Tekst i słowa piosenki, co mam zamiar zrobić, to,
do piosenki, możesz spróbować dowiedzieć się,

236
00:11:46,820 --> 00:11:49,810
z wysokim prawdopodobieństwem
kto jest piosenkarką?

237
00:11:49,810 --> 00:11:53,590
Powiedzmy, że mam piosenki z Lady
Gaga i Katy Perry, jeśli dam ci

238
00:11:53,590 --> 00:11:58,130
nowa piosenka, można dowiedzieć się, czy
to Katy Perry czy Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> Drugi, mam zamiar porozmawiać
o problem segmentacji.

240
00:12:01,490 --> 00:12:05,780
Więc nie wiem, czy wiecie, ale
Chiński, japoński, innych wschodnioazjatyckich

241
00:12:05,780 --> 00:12:08,090
Języki i inne języki
na ogół nie ma

242
00:12:08,090 --> 00:12:09,830
Przestrzenie między słowami.

243
00:12:09,830 --> 00:12:13,540
A jeśli myślisz o tym, jak to
Twój rodzaj komputera z prób do

244
00:12:13,540 --> 00:12:18,600
zrozumieć przetwarzania języka naturalnego,
wygląda na słowa i

245
00:12:18,600 --> 00:12:21,500
stara się zrozumieć relacje
między nimi, prawda?

246
00:12:21,500 --> 00:12:25,440
Ale jeśli masz chiński, a ty
mają zero miejsca, jest to naprawdę trudne do

247
00:12:25,440 --> 00:12:28,360
dowiedzieć się, jaka jest relacja między
słowa, bo nie ma żadnych

248
00:12:28,360 --> 00:12:29,530
słowa na początku.

249
00:12:29,530 --> 00:12:32,600
Więc trzeba zrobić coś, co nazywa
segmentacji, które oznacza po prostu oddanie

250
00:12:32,600 --> 00:12:36,490
przestrzenie między co my nazywamy
słowa w tych językach.

251
00:12:36,490 --> 00:12:37,740
Ma sens?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> A następnie jedziemy do
mówić o składni.

254
00:12:41,540 --> 00:12:44,050
Więc trochę o naturalne
przetwarzania języka.

255
00:12:44,050 --> 00:12:45,420
To będzie po prostu przegląd.

256
00:12:45,420 --> 00:12:50,700
Więc dzisiaj, w zasadzie to, co chcę zrobić
jest dać wam trochę

257
00:12:50,700 --> 00:12:53,930
wewnątrz, jakie są możliwości
, które można zrobić z obliczeniowych

258
00:12:53,930 --> 00:12:54,960
językoznawstwo.

259
00:12:54,960 --> 00:13:00,410
A następnie można zobaczyć, co myślisz
jest cool wśród tych rzeczy.

260
00:13:00,410 --> 00:13:02,270
A może myślisz o projekcie
i pochodzą ze mną rozmawiać.

261
00:13:02,270 --> 00:13:05,260
I mogę dać rady
, w jaki sposób jego realizacji.

262
00:13:05,260 --> 00:13:09,060
>> Więc składnia będzie trochę
o Graph Search i maszyny

263
00:13:09,060 --> 00:13:09,670
tłumaczenie.

264
00:13:09,670 --> 00:13:13,650
Mam zamiar dać przykład, jak
Możesz, na przykład, w tłumaczeniu

265
00:13:13,650 --> 00:13:16,020
coś z portugalskiego na angielski.

266
00:13:16,020 --> 00:13:17,830
Brzmi dobrze?

267
00:13:17,830 --> 00:13:19,293
>> Więc po pierwsze, problem klasyfikacji.

268
00:13:19,293 --> 00:13:23,590
Powiem, że ta część seminarium
będzie największym wyzwaniem

269
00:13:23,590 --> 00:13:27,560
jeden tylko dlatego, że się dzieje
być niektóre kodowania.

270
00:13:27,560 --> 00:13:29,470
Ale to będzie Python.

271
00:13:29,470 --> 00:13:34,380
Wiem, że chłopaki nie wiem Pythona, więc
Ja tylko wyjaśnię na wysoki

272
00:13:34,380 --> 00:13:35,750
poziom, co robię.

273
00:13:35,750 --> 00:13:40,900
I nie trzeba się naprawdę dbają zbyt
wiele o składni, ponieważ jest to

274
00:13:40,900 --> 00:13:42,140
coś wam może się nauczyć.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
Brzmi dobrze.

277
00:13:43,580 --> 00:13:46,020
>> Więc jaki jest problem klasyfikacji?

278
00:13:46,020 --> 00:13:49,140
Więc biorąc pod uwagę pewne słowa do
piosenki i chcesz się domyślić

279
00:13:49,140 --> 00:13:50,620
kto śpiewa go.

280
00:13:50,620 --> 00:13:54,045
I może być w jakiejkolwiek
innych problemów.

281
00:13:54,045 --> 00:13:59,980
Tak więc może on być, na przykład, mieć
kampania prezydencka i masz

282
00:13:59,980 --> 00:14:02,610
mowy, a chcesz znaleźć
czy był, na przykład,

283
00:14:02,610 --> 00:14:04,470
Obama i Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Czy można mieć kilka e-maili i
Aby dowiedzieć się, czy są one

285
00:14:07,700 --> 00:14:08,890
spam czy nie.

286
00:14:08,890 --> 00:14:11,440
Więc to jest po prostu klasyfikacji niektórych
Dane oparte na słowa

287
00:14:11,440 --> 00:14:13,790
że masz tam.

288
00:14:13,790 --> 00:14:16,295
>> Tak, aby to zrobić, trzeba
poczynić pewne założenia.

289
00:14:16,295 --> 00:14:20,570
Tak wiele o lingwistyce obliczeniowej
robi założenia,

290
00:14:20,570 --> 00:14:24,100
zazwyczaj inteligentne założenia, tak aby
można uzyskać dobre rezultaty.

291
00:14:24,100 --> 00:14:26,670
Stara się stworzyć model dla niego.

292
00:14:26,670 --> 00:14:31,290
A następnie go wypróbować i zobaczyć, czy to działa,
jeśli to daje dobrą dokładność.

293
00:14:31,290 --> 00:14:33,940
A jeśli tak, to
spróbuj to poprawić.

294
00:14:33,940 --> 00:14:37,640
Jeśli nie, jesteś jak, OK, może
powinien dokonać innego założenia.

295
00:14:37,640 --> 00:14:44,030
>> Tak więc założenie, że będziemy
sprawiają, że artysta zazwyczaj śpiewa

296
00:14:44,030 --> 00:14:49,220
na dany temat wiele razy, a może
używa słowa tak wiele razy

297
00:14:49,220 --> 00:14:50,270
bo są do tego przyzwyczajeni.

298
00:14:50,270 --> 00:14:51,890
Możesz tylko myśleć o swoim przyjacielem.

299
00:14:51,890 --> 00:14:57,350
Jestem pewien, że wy wszyscy mają przyjaciół
które mówią, że ich zdanie podpisu,

300
00:14:57,350 --> 00:14:59,260
dosłownie na każdym jednym zdaniu -

301
00:14:59,260 --> 00:15:02,660
jak jakiś określony wyraz lub niektórych szczególnych
zdanie, które mówią o

302
00:15:02,660 --> 00:15:04,020
każdy zdanie.

303
00:15:04,020 --> 00:15:07,920
>> A co można powiedzieć, to to, że jeśli widzisz
Zdanie, które ma podpisu

304
00:15:07,920 --> 00:15:11,450
zdanie, można się domyślać, że prawdopodobnie
Twój przyjaciel jest

305
00:15:11,450 --> 00:15:13,310
jeden mówi, prawda?

306
00:15:13,310 --> 00:15:18,410
Więc przyjąć takie założenie, a następnie
To, w jaki sposób stworzyć model.

307
00:15:18,410 --> 00:15:24,440
>> Przykład, że mam zamiar dać to na
jak Lady Gaga, na przykład, ludzie

308
00:15:24,440 --> 00:15:27,430
powiedzieć, że używa "dziecko" dla
wszystkie jej piosenki. numer jeden

309
00:15:27,430 --> 00:15:32,270
I rzeczywiście jest to film, który pokazuje,
jej mówiąc słowo "dziecko" dla

310
00:15:32,270 --> 00:15:33,410
różne utwory.

311
00:15:33,410 --> 00:15:33,860
>> [ODTWARZANIE]

312
00:15:33,860 --> 00:15:34,310
>> - (Śpiewa) Dziecko.

313
00:15:34,310 --> 00:15:36,220
Dziecko.

314
00:15:36,220 --> 00:15:37,086
Dziecko.

315
00:15:37,086 --> 00:15:37,520
Dziecko.

316
00:15:37,520 --> 00:15:37,770
Dziecko.

317
00:15:37,770 --> 00:15:38,822
Lasek.

318
00:15:38,822 --> 00:15:39,243
Dziecko.

319
00:15:39,243 --> 00:15:40,085
Dziecko.

320
00:15:40,085 --> 00:15:40,510
Dziecko.

321
00:15:40,510 --> 00:15:40,850
Dziecko.

322
00:15:40,850 --> 00:15:41,090
>> [KONIEC ODTWARZANIE-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS FREITAS: Tak jest, jak sądzę,
40 utworów, w których tutaj mówi

324
00:15:44,020 --> 00:15:48,690
Słowo "dziecko". Tak więc można w zasadzie odgadnąć
że jeśli widzisz utwór, do którego

325
00:15:48,690 --> 00:15:52,180
Słowo "dziecko", jest trochę wysoka
Prawdopodobieństwo, że to Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Ale spróbujmy rozwinąć ten
jeszcze bardziej formalnie.

327
00:15:56,450 --> 00:16:00,470
>> To są słowa do piosenek
Lady Gaga i Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Więc spójrz na Lady Gaga, widać, że
mają wiele zdarzeń z "dzieckiem"

329
00:16:04,120 --> 00:16:07,710
Wiele wystąpień "sposób." A następnie
Katy Perry ma wiele wystąpień

330
00:16:07,710 --> 00:16:10,360
"," Wiele wystąpień "ognia".

331
00:16:10,360 --> 00:16:14,560
>> Więc w zasadzie to, co chcemy
zrobić to, masz liryczny.

332
00:16:14,560 --> 00:16:20,480
Powiedzmy, że masz tekst utworu na
Piosenka to "dziecko", tylko "dziecko". Jeśli

333
00:16:20,480 --> 00:16:24,750
jesteś po prostu słowo "dziecko", a to
to wszystkie dane, które masz od

334
00:16:24,750 --> 00:16:27,880
Lady Gaga i Katy Perry, który by
się domyślić jest osoba

335
00:16:27,880 --> 00:16:29,370
kto śpiewa piosenkę?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga i Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, prawda?

338
00:16:33,150 --> 00:16:37,400
Dlatego, że jest jedynym, który mówi
"Dziecko". To brzmi głupio, prawda?

339
00:16:37,400 --> 00:16:38,760
OK, to jest bardzo proste.

340
00:16:38,760 --> 00:16:41,860
Po prostu patrząc na dwóch piosenek i
Oczywiście, że jest jedynym, który ma

341
00:16:41,860 --> 00:16:42,660
"Dziecko".

342
00:16:42,660 --> 00:16:44,740
>> Ale co, jeśli masz kilka słów?

343
00:16:44,740 --> 00:16:50,900
Jeśli masz coś rzeczywistego liryczny,
jak: "dziecko, po prostu

344
00:16:50,900 --> 00:16:51,610
poszliśmy zobaczyć [? CFT?]

345
00:16:51,610 --> 00:16:54,020
Wykład "lub coś w tym stylu, a
wtedy trzeba rzeczywiście dowiedzieć się -

346
00:16:54,020 --> 00:16:55,780
na podstawie wszystkich tych słów -

347
00:16:55,780 --> 00:16:58,350
kto jest artystą, który prawdopodobnie
śpiewał tę piosenkę?

348
00:16:58,350 --> 00:17:01,860
Więc staram się rozwijać
to trochę dalej.

349
00:17:01,860 --> 00:17:05,630
>> OK, więc oparte tylko na danych, które
ma, wydaje się, że Gaga jest prawdopodobnie

350
00:17:05,630 --> 00:17:06,260
piosenkarka.

351
00:17:06,260 --> 00:17:07,904
Ale jak możemy napisać
to bardziej formalnie?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
I tam będzie trochę
Trochę statystyk.

354
00:17:13,140 --> 00:17:15,880
Więc jeśli się zgubisz, po prostu spróbuj
zrozumieć pojęcie.

355
00:17:15,880 --> 00:17:18,700
Nie ma znaczenia, czy rozumiesz
równania doskonale.

356
00:17:18,700 --> 00:17:22,150
To wszystko dzieje się w Internecie.

357
00:17:22,150 --> 00:17:25,490
>> Więc w zasadzie, co mam obliczania jest
prawdopodobieństwo, że ta piosenka jest przez

358
00:17:25,490 --> 00:17:28,040
Lady Gaga jako że -

359
00:17:28,040 --> 00:17:30,660
więc ten pasek oznacza, że ​​podano -

360
00:17:30,660 --> 00:17:33,680
Widziałem słowo "dziecko".
Czy to ma sens?

361
00:17:33,680 --> 00:17:35,540
Więc staram się obliczyć
że prawdopodobieństwo.

362
00:17:35,540 --> 00:17:38,540
>> Więc nie jest to twierdzenie nazywane
Twierdzenie Bayesa, który mówi, że

363
00:17:38,540 --> 00:17:43,330
prawdopodobieństwo danej B, jest
prawdopodobieństwo B otrzymał, czasy

364
00:17:43,330 --> 00:17:47,660
Prawdopodobieństwo, ponad prawdopodobieństwa
B. Jest to długi równanie.

365
00:17:47,660 --> 00:17:51,970
Ale to, co trzeba zrozumieć, z
to jest, że to jest to, co chcę

366
00:17:51,970 --> 00:17:52,830
obliczyć, prawda?

367
00:17:52,830 --> 00:17:56,570
Tak więc prawdopodobieństwo, że ta piosenka jest przez
Lady Gaga jako że widziałem słowo

368
00:17:56,570 --> 00:17:58,230
"Dziecko".

369
00:17:58,230 --> 00:18:02,960
>> A teraz o co mi chodzi to
prawdopodobieństwo słowo "dziecko" podano

370
00:18:02,960 --> 00:18:04,390
że mam Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
A co to jest w zasadzie?

372
00:18:07,220 --> 00:18:10,500
Co to znaczy to, co jest
prawdopodobieństwo widząc słowo "dziecko"

373
00:18:10,500 --> 00:18:12,130
Teksty piosenek Gaga w?

374
00:18:12,130 --> 00:18:16,240
Jeśli chcę, aby obliczyć, że w bardzo
Prosty sposób, to tylko liczba

375
00:18:16,240 --> 00:18:23,640
razy widzę "dziecko" na ogólnej liczby
słów piosenki Gaga, prawda?

376
00:18:23,640 --> 00:18:27,600
Co to jest częstotliwość, że widzę
to słowo w pracy Gagi?

377
00:18:27,600 --> 00:18:30,530
Ma sens?

378
00:18:30,530 --> 00:18:33,420
>> Drugi termin jest
prawdopodobieństwo Gaga.

379
00:18:33,420 --> 00:18:34,360
Co to znaczy?

380
00:18:34,360 --> 00:18:38,550
Że w zasadzie oznacza, to, co jest
prawdopodobieństwo klasyfikacji

381
00:18:38,550 --> 00:18:40,690
niektóre teksty jak Gaga?

382
00:18:40,690 --> 00:18:45,320
I to jest trochę dziwne, ale
pomyślmy o przykład.

383
00:18:45,320 --> 00:18:49,230
Więc powiedzmy, że prawdopodobieństwo
konieczności "dziecko" w piosence jest taki sam

384
00:18:49,230 --> 00:18:51,760
dla Gagi i Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Ale Britney Spears ma dwa razy
więcej utworów niż Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Więc jeśli ktoś po prostu losowo daje
teksty piosenek z "dzieckiem", pierwszą rzeczą, którą

387
00:19:00,570 --> 00:19:04,710
spojrzeć na to, jakie jest prawdopodobieństwo
konieczności "dziecko" w piosence Gaga, "dziecko"

388
00:19:04,710 --> 00:19:05,410
w piosence Britney?

389
00:19:05,410 --> 00:19:06,460
I to samo.

390
00:19:06,460 --> 00:19:10,040
>> Więc druga rzecz, że zobaczysz to,
dobrze, co to jest prawdopodobieństwo

391
00:19:10,040 --> 00:19:13,770
ten sam liryczny jest liryczny Gaga,
i jakie jest prawdopodobieństwo

392
00:19:13,770 --> 00:19:15,380
jest liryczny Britney?

393
00:19:15,380 --> 00:19:18,950
Więc od Britney ma tak wiele więcej tekstów
niż Gaga, prawdopodobnie

394
00:19:18,950 --> 00:19:21,470
powiedzmy, dobrze, że jest to prawdopodobnie
liryczny Britney.

395
00:19:21,470 --> 00:19:23,340
Więc dlatego mamy to
nazwać tutaj.

396
00:19:23,340 --> 00:19:24,670
Prawdopodobieństwo Gaga.

397
00:19:24,670 --> 00:19:26,950
Ma sens?

398
00:19:26,950 --> 00:19:28,660
Nie?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> I ostatnia jest tylko prawdopodobieństwo
z "dzieckiem", która nie

401
00:19:33,500 --> 00:19:34,810
ma znaczenia, że ​​dużo.

402
00:19:34,810 --> 00:19:39,940
Ale to prawdopodobieństwo
widząc "dziecko" w języku angielskim.

403
00:19:39,940 --> 00:19:42,725
Zwykle nie obchodzi, że
wiele o tym okresie.

404
00:19:42,725 --> 00:19:44,490
Czy to ma sens?

405
00:19:44,490 --> 00:19:48,110
Tak więc prawdopodobieństwo Gaga
zwany przed prawdopodobieństwo

406
00:19:48,110 --> 00:19:49,530
z Gaga klasy.

407
00:19:49,530 --> 00:19:53,840
Bo to po prostu oznacza, że ​​to, co jest
prawdopodobieństwo posiadania tej klasy -

408
00:19:53,840 --> 00:19:55,520
który jest Gaga -

409
00:19:55,520 --> 00:19:59,350
tak na ogół, wystarczy
bez warunków.

410
00:19:59,350 --> 00:20:02,560
>> I wtedy, gdy mam prawdopodobieństwo
Gaga dane "dziecko", my nazywamy to Plus

411
00:20:02,560 --> 00:20:06,160
łzami prawdopodobieństwo, ponieważ jest
prawdopodobieństwo konieczności

412
00:20:06,160 --> 00:20:08,300
Gaga podane jakieś dowody.

413
00:20:08,300 --> 00:20:11,050
Więc daję ci dowody
Widziałem, że słowa i dziecka

414
00:20:11,050 --> 00:20:12,690
Piosenka ma sens?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> Jeśli więc obliczyć, że dla każdego
utwory dla Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
co byłoby -

419
00:20:25,916 --> 00:20:27,730
najwyraźniej, że nie można przenieść tego.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Prawdopodobieństwo Gaga będzie
coś, 2 na 24 razy 1/2,

422
00:20:36,920 --> 00:20:38,260
ponad 2 na 53.

423
00:20:38,260 --> 00:20:40,640
Nie ma znaczenia, jeśli wiesz, co
liczby te pochodzą.

424
00:20:40,640 --> 00:20:44,750
Ale to tylko numer, który będzie
być więcej niż 0, prawda?

425
00:20:44,750 --> 00:20:48,610
>> A kiedy ja Katy Perry,
prawdopodobieństwo "baby" Katy jest podane

426
00:20:48,610 --> 00:20:49,830
już 0, prawda?

427
00:20:49,830 --> 00:20:52,820
Bo nie ma "dziecko"
w Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Tak więc staje się 0, a Gaga
zwycięstw, co oznacza, że ​​Gaga jest

429
00:20:56,360 --> 00:20:57,310
Prawdopodobnie piosenkarka.

430
00:20:57,310 --> 00:20:58,560
Czy to ma sens?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Więc jeśli chcesz, aby ten bardziej oficjalny,
Mogę właściwie zrobić model

435
00:21:11,750 --> 00:21:12,700
dla wielu słów.

436
00:21:12,700 --> 00:21:14,610
Więc powiedzmy, że mam coś
jak, "kochanie, jestem

437
00:21:14,610 --> 00:21:16,030
w ogniu ", czy coś takiego.

438
00:21:16,030 --> 00:21:17,760
Więc to ma wiele słów.

439
00:21:17,760 --> 00:21:20,880
I w tym przypadku, można zobaczyć
że "dzieci" jest Gaga,

440
00:21:20,880 --> 00:21:21,710
ale to nie jest w Katy.

441
00:21:21,710 --> 00:21:24,940
I "ogień" jest w Katy, ale
to nie jest w Gaga, prawda?

442
00:21:24,940 --> 00:21:27,200
Więc to coraz trudniejsze, prawda?

443
00:21:27,200 --> 00:21:31,440
Ponieważ wydaje się, że prawie
mieć krawat między nimi.

444
00:21:31,440 --> 00:21:36,980
>> Więc co trzeba zrobić, to założyć,
niezależność między słowami.

445
00:21:36,980 --> 00:21:41,210
Więc w zasadzie, co to oznacza to, że
Ja tylko obliczenia, co jest

446
00:21:41,210 --> 00:21:44,330
prawdopodobieństwo zobaczenia "dziecko", co jest
prawdopodobieństwo zobaczenia "ja", a

447
00:21:44,330 --> 00:21:46,670
"Jestem" i "na" i "ogień"
wszystko oddzielnie.

448
00:21:46,670 --> 00:21:48,670
Wtedy ja mnożąc je wszystkie.

449
00:21:48,670 --> 00:21:52,420
I widzę, jakie jest prawdopodobieństwo,
widząc całe zdanie.

450
00:21:52,420 --> 00:21:55,210
Ma sens?

451
00:21:55,210 --> 00:22:00,270
>> Więc w zasadzie, jeśli mam tylko jedno słowo,
co chcę znaleźć jest arg max,

452
00:22:00,270 --> 00:22:05,385
co oznacza, to, co jest, że jest klasa
daje mi największe prawdopodobieństwo?

453
00:22:05,385 --> 00:22:10,010
Więc co jest klasa, która daje
mnie najwyższy prawdopodobieństwo

454
00:22:10,010 --> 00:22:11,940
prawdopodobieństwo klasy danego słowa.

455
00:22:11,940 --> 00:22:17,610
Więc w tym przypadku, Gaga dane "dziecko".
Lub Katy dane "dziecko". Ma sens?

456
00:22:17,610 --> 00:22:21,040
>> I właśnie z Bayesa, że
Równanie, które pokazałem,

457
00:22:21,040 --> 00:22:24,780
tworzymy tę frakcję.

458
00:22:24,780 --> 00:22:28,750
Jedyną rzeczą jest to, że widać, że
Prawdopodobieństwo słowa podane

459
00:22:28,750 --> 00:22:31,370
zmienia się w zależności od klasy
od klasy, prawda?

460
00:22:31,370 --> 00:22:34,260
Liczba "dziecko" s, które mam
w Gaga różni się od Katy.

461
00:22:34,260 --> 00:22:37,640
Prawdopodobieństwa klasy również
zmiany, bo to po prostu numer

462
00:22:37,640 --> 00:22:39,740
pieśni każdy z nich ma.

463
00:22:39,740 --> 00:22:43,980
>> Jednakże prawdopodobieństwo tego słowa
będzie taka sama dla wszystkich

464
00:22:43,980 --> 00:22:44,740
artyści, prawda?

465
00:22:44,740 --> 00:22:47,150
Tak więc prawdopodobieństwo tego słowa jest
tylko to, co jest prawdopodobieństwo

466
00:22:47,150 --> 00:22:49,820
widząc to słowo w
Język angielski?

467
00:22:49,820 --> 00:22:51,420
Więc to jest taki sam dla wszystkich.

468
00:22:51,420 --> 00:22:55,790
Tak, ponieważ jest to stała, możemy po prostu
spadek ten i nie dbam o to.

469
00:22:55,790 --> 00:23:00,230
Tak więc będzie to rzeczywiście
Równanie szukamy.

470
00:23:00,230 --> 00:23:03,360
>> A jeśli mam wiele słów, jestem
nadal będziemy mieć przed

471
00:23:03,360 --> 00:23:04,610
prawdopodobieństwo tutaj.

472
00:23:04,610 --> 00:23:06,980
Jedyną rzeczą jest to, że ja, mnożąc
prawdopodobieństwo

473
00:23:06,980 --> 00:23:08,490
wszystkie inne słowa.

474
00:23:08,490 --> 00:23:10,110
Więc jestem mnożąc je wszystkie.

475
00:23:10,110 --> 00:23:12,610
Ma sens?

476
00:23:12,610 --> 00:23:18,440
Wygląda to dziwnie, ale w zasadzie oznacza,
obliczyć przed klasy, i

477
00:23:18,440 --> 00:23:22,100
następnie pomnożyć przez prawdopodobieństwo każdego
słów znajdujących się w tej klasie.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> I wiesz, że prawdopodobieństwo
Słowo podana klasa będzie

480
00:23:29,150 --> 00:23:34,520
ile razy można zauważyć, że słowo
klasa ta podzielona przez liczbę

481
00:23:34,520 --> 00:23:37,020
słowa, które masz w
Klasa w ogóle.

482
00:23:37,020 --> 00:23:37,990
Ma sens?

483
00:23:37,990 --> 00:23:41,680
To jest po prostu jak "dziecko" było 2 nad
liczba słów, które

484
00:23:41,680 --> 00:23:43,020
Miałem w tekstach.

485
00:23:43,020 --> 00:23:45,130
Tak właśnie częstotliwość.

486
00:23:45,130 --> 00:23:46,260
>> Ale jest jedna rzecz.

487
00:23:46,260 --> 00:23:51,250
Pamiętam, jak byłem pokazując, że
prawdopodobieństwo będących piosenki "Baby" z

488
00:23:51,250 --> 00:23:56,350
z Katy Perry był tylko dlatego, że Katy 0
Perry nie ma "dziecko" w ogóle?

489
00:23:56,350 --> 00:24:04,900
Ale brzmi to trochę trudne do zaledwie
po prostu powiedzieć, że teksty nie mogą być z

490
00:24:04,900 --> 00:24:10,040
Artysta po prostu dlatego, że nie ma
słowo w szczególności w dowolnym czasie.

491
00:24:10,040 --> 00:24:13,330
>> Więc może po prostu powiedzieć, dobrze, jeśli
nie ma tego słowa, mam zamiar

492
00:24:13,330 --> 00:24:15,640
daje mniejsze prawdopodobieństwo,
ale ja po prostu nie będzie

493
00:24:15,640 --> 00:24:17,420
daje 0 od razu.

494
00:24:17,420 --> 00:24:21,040
Ponieważ może to było coś w stylu:
"Ogień, ogień, ogień, ogień", który jest

495
00:24:21,040 --> 00:24:21,990
całkowicie Katy Perry.

496
00:24:21,990 --> 00:24:26,060
A następnie "dziecko" i to tylko po to, aby
0 od razu, bo był jeden

497
00:24:26,060 --> 00:24:27,250
"Dziecko".

498
00:24:27,250 --> 00:24:31,440
>> Więc w zasadzie to, co robimy, jest czymś
nazywa Laplace wygładzanie.

499
00:24:31,440 --> 00:24:36,260
A to po prostu oznacza, że ​​daję
pewne prawdopodobieństwo nawet do słów

500
00:24:36,260 --> 00:24:37,850
że nie istnieją.

501
00:24:37,850 --> 00:24:43,170
Więc co zrobić, jest to, że kiedy jestem
obliczania tego, zawsze dodać 1 do

502
00:24:43,170 --> 00:24:44,180
licznik.

503
00:24:44,180 --> 00:24:48,060
Więc nawet jeśli słowo nie istnieje, w
W tym przypadku, jeżeli jest to 0, nadal jestem

504
00:24:48,060 --> 00:24:51,250
obliczenia to jak 1 na
całkowita liczba słów.

505
00:24:51,250 --> 00:24:55,060
W przeciwnym razie, rozumiem, jak wiele słów
Mam i ja dodać 1.

506
00:24:55,060 --> 00:24:58,300
Więc liczę na obu przypadkach.

507
00:24:58,300 --> 00:25:00,430
Ma sens?

508
00:25:00,430 --> 00:25:03,060
>> Więc teraz zróbmy jakieś kodowanie.

509
00:25:03,060 --> 00:25:06,440
Mam zamiar zrobić to dość szybko,
ale to jest po prostu ważne, aby

510
00:25:06,440 --> 00:25:08,600
Chłopaki zrozumieć pojęcia.

511
00:25:08,600 --> 00:25:13,450
Więc to, co staramy się robić
to jest dokładnie to, wdrożenia

512
00:25:13,450 --> 00:25:14,330
rzecz, że ja po prostu powiedział -

513
00:25:14,330 --> 00:25:19,110
Chcę umieścić słowa z
Lady Gaga i Katy Perry.

514
00:25:19,110 --> 00:25:22,980
Oraz program będzie mógł
powiedzieć, czy te nowe piosenki są od Gagi

515
00:25:22,980 --> 00:25:24,170
czy Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Ma sens?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> Więc mam ten program mam zamiar
zadzwonić classify.py.

519
00:25:30,710 --> 00:25:31,970
Więc to jest Python.

520
00:25:31,970 --> 00:25:34,210
Jest to nowy język programowania.

521
00:25:34,210 --> 00:25:38,020
To jest bardzo podobny w kilku
sposoby na C i PHP.

522
00:25:38,020 --> 00:25:43,180
Jest podobny, ponieważ jeśli chcesz
nauczyć się Pythona po wiedząc C, to

523
00:25:43,180 --> 00:25:46,270
naprawdę nie jest wielkie wyzwanie
tylko dlatego, że Python jest dużo łatwiejsze

524
00:25:46,270 --> 00:25:47,520
nie C, przede wszystkim.

525
00:25:47,520 --> 00:25:49,370
I wiele rzeczy już są
realizowane dla Ciebie.

526
00:25:49,370 --> 00:25:56,820
Tak, jak jak PHP ma funkcje, które
posortować listę, lub dodać coś

527
00:25:56,820 --> 00:25:58,780
do tablicy, lub bla, bla, bla.

528
00:25:58,780 --> 00:26:00,690
Python posiada wszystkie te, jak również.

529
00:26:00,690 --> 00:26:05,960
>> Więc jestem po prostu się szybko wyjaśnić
w jaki sposób możemy zrobić klasyfikacji

530
00:26:05,960 --> 00:26:07,860
problem tutaj.

531
00:26:07,860 --> 00:26:13,230
Powiedzmy, że w tym przypadku, mam
Tekst piosenki z Gaga i Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Sposób, że mam to, że te słowa
pierwsze słowo tekstu jest

533
00:26:21,880 --> 00:26:25,250
nazwa artysty oraz
Reszta to słowa.

534
00:26:25,250 --> 00:26:29,470
Więc powiedzmy, że mam tę listę w
Tekst i słowa piosenki Gagi, która jest pierwsza.

535
00:26:29,470 --> 00:26:31,930
Więc tutaj jestem na dobrej drodze.

536
00:26:31,930 --> 00:26:35,270
A następny jest Katy, i
ma też słowa.

537
00:26:35,270 --> 00:26:38,040
>> Tak to jest, jak się oświadczyć
zmienna w Pythonie.

538
00:26:38,040 --> 00:26:40,200
Nie musisz dać typ danych.

539
00:26:40,200 --> 00:26:43,150
Po prostu napisać "teksty"
Trochę jak w PHP.

540
00:26:43,150 --> 00:26:44,890
Ma sens?

541
00:26:44,890 --> 00:26:47,770
>> Więc jakie są rzeczy, które muszę
obliczyć, aby móc obliczyć

542
00:26:47,770 --> 00:26:49,360
prawdopodobieństwa?

543
00:26:49,360 --> 00:26:55,110
Mam do obliczenia "a priori"
każdego inaczej

544
00:26:55,110 --> 00:26:56,710
Klasy, które mam.

545
00:26:56,710 --> 00:27:06,680
Mam do obliczenia "posteriors,"
lub dość dużo prawdopodobieństwo

546
00:27:06,680 --> 00:27:12,150
każdy z poszczególnych słów
Mogę mieć dla każdego artysty.

547
00:27:12,150 --> 00:27:17,210
Tak więc w ciągu Gaga, na przykład, mam zamiar
mieć listę ile razy widzę

548
00:27:17,210 --> 00:27:19,250
każde z tych słów.

549
00:27:19,250 --> 00:27:20,760
Ma sens?

550
00:27:20,760 --> 00:27:25,370
>> I wreszcie, po prostu będzie musiał
lista nazywa się "Słowa", który jest po prostu będzie

551
00:27:25,370 --> 00:27:29,780
mieć jak wiele słów I
mają dla każdego artysty.

552
00:27:29,780 --> 00:27:33,760
Więc dla Gagi, na przykład, kiedy patrzę
do słów, ja, myślę, że 24

553
00:27:33,760 --> 00:27:34,750
słowa w sumie.

554
00:27:34,750 --> 00:27:38,970
Więc ta lista jest po prostu będzie musiał
Gaga 24, a Katy inny numer.

555
00:27:38,970 --> 00:27:40,130
Ma sens?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> Więc teraz, rzeczywiście, niech
Do kodowania.

558
00:27:42,530 --> 00:27:45,270
Więc w Pythonie, można rzeczywiście
powrót kilka różnych

559
00:27:45,270 --> 00:27:46,630
rzeczy z funkcji.

560
00:27:46,630 --> 00:27:50,810
Więc mam zamiar utworzyć tę funkcję
nazwie "warunkowa", który będzie

561
00:27:50,810 --> 00:27:53,890
, aby powrócić wszystkie z tych rzeczy,
"Kapłani," w "prawdopodobieństwa", a

562
00:27:53,890 --> 00:28:05,690
"słowa". Więc "warunkowe", a to
będzie wzywając do "tekstu".

563
00:28:05,690 --> 00:28:11,510
>> Więc teraz chcę, żebyś naprawdę
Napisać funkcję.

564
00:28:11,510 --> 00:28:17,750
Tak droga, że ​​mogę napisać to
Funkcja jest zdefiniowana w tym właśnie

565
00:28:17,750 --> 00:28:20,620
funkcjonować z "def". Więc zrobiłem "def
warunkowego, "i to przy

566
00:28:20,620 --> 00:28:28,700
"Słowa". A co to będzie zrobić
jest, przede wszystkim, mam priori

567
00:28:28,700 --> 00:28:31,030
że chcę obliczyć.

568
00:28:31,030 --> 00:28:34,330
>> Tak sposób, że można to zrobić, to stworzyć
Słownik w Pythonie, które

569
00:28:34,330 --> 00:28:37,320
jest prawie to samo, co hash
stół, lub jak to jest iteracyjny

570
00:28:37,320 --> 00:28:40,480
Tablica w PHP.

571
00:28:40,480 --> 00:28:44,150
To jest jak Oświadczam słownika.

572
00:28:44,150 --> 00:28:53,580
I w zasadzie oznacza to, że
przeorowie z Gaga 0.5, na przykład w przypadku

573
00:28:53,580 --> 00:28:57,200
50% tekstów są od
Gaga, 50% pochodzi z Katy.

574
00:28:57,200 --> 00:28:58,450
Ma sens?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Więc muszę dowiedzieć się, jak
do obliczania prawdopodobieństw a priori.

577
00:29:03,680 --> 00:29:07,120
>> Kolejne z nich, że muszę to zrobić, również,
są prawdopodobieństwa i słowa.

578
00:29:07,120 --> 00:29:17,100
Więc prawdopodobieństwo Gaga lista
wszystkich prawdopodobieństw, że

579
00:29:17,100 --> 00:29:19,160
mają dla każdego z wyrazów dla Gagi.

580
00:29:19,160 --> 00:29:23,880
Więc jeśli pójdę do prawdopodobieństw Gaga
"Dziecko", na przykład, to da mi

581
00:29:23,880 --> 00:29:28,750
coś jak 2 na 24 w tym przypadku.

582
00:29:28,750 --> 00:29:30,070
Ma sens?

583
00:29:30,070 --> 00:29:36,120
Więc idę do "prawdopodobieństwa", przejdź do
"Gaga" wiadro, że ma listę wszystkich

584
00:29:36,120 --> 00:29:40,550
słowa Gaga, a następnie przejść do "dziecka"
i widzę prawdopodobieństwa.

585
00:29:40,550 --> 00:29:45,940
>> I wreszcie mam to
"Słowa" słownika.

586
00:29:45,940 --> 00:29:53,620
Więc, "prawdopodobieństwa". A następnie
"słowa". Więc jeśli ja "słowa:" "Gaga"

587
00:29:53,620 --> 00:29:58,330
co wydarzy się to, że jest to
da mi 24, mówiąc, że

588
00:29:58,330 --> 00:30:01,990
ma 24 wyrazów ciągu tekstu z Gaga.

589
00:30:01,990 --> 00:30:04,110
Ma sens?

590
00:30:04,110 --> 00:30:07,070
Więc, "słowa" równa Dah-Dah-Dah.

591
00:30:07,070 --> 00:30:07,620
Dobrze

592
00:30:07,620 --> 00:30:12,210
>> Więc, co mam zamiar zrobić, to będę
iteracyjne nad każdym z tekstów, więc

593
00:30:12,210 --> 00:30:14,490
każdego z ciągów
Mam na liście.

594
00:30:14,490 --> 00:30:18,040
I idę do obliczania tych rzeczy
Dla każdego z kandydatów.

595
00:30:18,040 --> 00:30:19,950
Ma sens?

596
00:30:19,950 --> 00:30:21,700
Więc muszę zrobić dla pętli.

597
00:30:21,700 --> 00:30:26,300
>> W Pythonie, więc co mogę zrobić, to "dla linii
w tekstach. "to samo, co

598
00:30:26,300 --> 00:30:28,000
"Dla każdego" oświadczenie w PHP.

599
00:30:28,000 --> 00:30:33,420
Pamiętam, jak gdyby to było PHP mogłem
powiedzieć "dla każdego tekstu, jak

600
00:30:33,420 --> 00:30:35,220
linia. "To ma sens?

601
00:30:35,220 --> 00:30:38,900
Więc biorę każdej z linii, w tym
przypadek, ten ciąg i następne

602
00:30:38,900 --> 00:30:44,540
Ciąg więc dla każdej z linii, co mam
zamiar zrobić, to po pierwsze, mam zamiar

603
00:30:44,540 --> 00:30:49,150
podzielić ten wiersz na liście
wyrazy oddzielone spacjami.

604
00:30:49,150 --> 00:30:53,730
>> Tak Świetną rzeczą jest to, że Python
można po prostu Google jak: "Jak mogę

605
00:30:53,730 --> 00:30:58,220
podzielić ciąg w słowa? "I to jest
powiem ci, jak to zrobić.

606
00:30:58,220 --> 00:31:04,890
I sposób na to, że to tylko "linia
= Line.split () "i to w zasadzie

607
00:31:04,890 --> 00:31:08,640
będzie Ci listę z
każdy z tu słowa.

608
00:31:08,640 --> 00:31:09,620
Ma sens?

609
00:31:09,620 --> 00:31:15,870
Więc teraz, że ja, że ​​chcę wiedzieć
który jest wokalista tej piosenki.

610
00:31:15,870 --> 00:31:20,130
A do tego po prostu trzeba uzyskać
pierwszy element tablicy, prawda?

611
00:31:20,130 --> 00:31:26,390
Więc mogę tylko powiedzieć, że "piosenkarka
= Linia (0) "ma sens?

612
00:31:26,390 --> 00:31:32,010
>> A następnie, co muszę zrobić, to przede
wszystko, mam zamiar zaktualizować ile

613
00:31:32,010 --> 00:31:36,130
słowa mam w "Gaga". więc jestem
będzie obliczyć, ile wyrazów i

614
00:31:36,130 --> 00:31:38,690
ma na tej liście, prawda?

615
00:31:38,690 --> 00:31:41,910
Ponieważ jest to, jak wiele słów mam
w tekstach, a ja po prostu się do

616
00:31:41,910 --> 00:31:44,120
dodać go do "Gaga" tablicy.

617
00:31:44,120 --> 00:31:47,090
Czy to ma sens?

618
00:31:47,090 --> 00:31:49,010
Nie za bardzo skupiają się na składni.

619
00:31:49,010 --> 00:31:50,430
Myśleć o koncepcji.

620
00:31:50,430 --> 00:31:52,400
To jest najważniejsza część.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> Więc co można zrobić, to jest, czy "Gaga" jest
już w tym wykazie, tak ", jeśli piosenkarka w

623
00:32:00,260 --> 00:32:03,190
Słowa ", co oznacza, że ​​już
mają słowa przez Gaga.

624
00:32:03,190 --> 00:32:06,640
Chcę tylko dodać dodatkowe
Słowa do tego.

625
00:32:06,640 --> 00:32:15,810
Więc co mam zrobić, to "słowa (Singer)
+ = Len (linia) - 1 ".

626
00:32:15,810 --> 00:32:18,250
I wtedy mogę po prostu zrobić
długość linii.

627
00:32:18,250 --> 00:32:21,860
Tak jak wiele elementów I
ma w tablicy.

628
00:32:21,860 --> 00:32:27,060
I muszę zrobić minus 1 tylko dlatego,
Pierwszy element tablicy jest tylko

629
00:32:27,060 --> 00:32:29,180
piosenkarz i to nie są słowa.

630
00:32:29,180 --> 00:32:31,420
Ma sens?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "Else", to znaczy, że chcę, aby właściwie
wstawić Gaga na liście.

633
00:32:35,820 --> 00:32:45,990
Więc po prostu zrobić "słowa (piosenkarka)
= Len (linia) - 1, "przepraszam.

634
00:32:45,990 --> 00:32:49,200
Tak więc jedynie różnice pomiędzy tymi dwoma
Linie jest ten, że nie ma

635
00:32:49,200 --> 00:32:51,080
istnieje jeszcze, więc jestem
inicjalizacji.

636
00:32:51,080 --> 00:32:53,820
Ten Jestem rzeczywiście dodanie.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
Więc to było dodanie do słowa.

639
00:32:59,480 --> 00:33:03,040
>> Teraz chcę dodać do priors.

640
00:33:03,040 --> 00:33:05,480
Więc jak mam wyliczyć a priori?

641
00:33:05,480 --> 00:33:11,580
Prawdopodobieństwa a priori można obliczyć
przez ile razy.

642
00:33:11,580 --> 00:33:15,340
Więc ile razy widać, że piosenkarka
wśród wszystkich śpiewaków, że Ty

643
00:33:15,340 --> 00:33:16,380
mieć, prawda?

644
00:33:16,380 --> 00:33:18,810
Więc dla Gaga i Katy Perry,
w tym przypadku, widzę Gaga

645
00:33:18,810 --> 00:33:20,570
raz, Katy Perry raz.

646
00:33:20,570 --> 00:33:23,320
>> Więc w zasadzie prawdopodobieństwa a priori dla Gaga
i byłoby dla Katy Perry

647
00:33:23,320 --> 00:33:24,390
być tylko jeden, prawda?

648
00:33:24,390 --> 00:33:26,500
Po prostu, ile razy
Widzę artystę.

649
00:33:26,500 --> 00:33:28,740
Więc to jest bardzo łatwe do obliczenia.

650
00:33:28,740 --> 00:33:34,100
Mogę tylko coś podobnego, jak np. "jeśli
Piosenkarka w priors, "Idę

651
00:33:34,100 --> 00:33:38,970
dodać 1 do swojej skrzynki priors.

652
00:33:38,970 --> 00:33:51,000
Tak więc, "Kapłani (śpiewa)" + = 1 ", a następnie" inny "
Mam zamiar zrobić "a priori (Singer)

653
00:33:51,000 --> 00:33:55,000
= 1. "To ma sens?

654
00:33:55,000 --> 00:34:00,080
>> Więc jeśli to nie istnieje po prostu umieścić
jako 1, w przeciwnym razie po prostu dodać 1.

655
00:34:00,080 --> 00:34:11,280
OK, więc teraz wszystko, co mam do zrobienia
jest również dodanie każdego ze słów

656
00:34:11,280 --> 00:34:12,290
prawdopodobieństwa.

657
00:34:12,290 --> 00:34:14,889
Więc muszę się liczyć, ile razy
Widzę siebie słów.

658
00:34:14,889 --> 00:34:18,780
Więc po prostu trzeba zrobić kolejny
do pętli w linii.

659
00:34:18,780 --> 00:34:25,190
>> Tak więc pierwszą rzeczą, że mam zamiar zrobić, to
sprawdzić, czy piosenkarka ma już

660
00:34:25,190 --> 00:34:26,969
Prawdopodobieństwa tablicy.

661
00:34:26,969 --> 00:34:31,739
Więc jestem sprawdzenie, czy piosenkarka nie
posiada tablicę prawdopodobieństw, jestem

662
00:34:31,739 --> 00:34:34,480
zamierza zainicjować jeden dla nich.

663
00:34:34,480 --> 00:34:36,400
To nie jest nawet tablica, przepraszam,
jest to słownik.

664
00:34:36,400 --> 00:34:43,080
Więc prawdopodobieństwo piosenkarka zamierza
być otwarty słownik, więc jestem

665
00:34:43,080 --> 00:34:45,830
tylko inicjowanie słownik dla niego.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> A teraz mogę rzeczywiście zrobić dla pętli
do obliczania każdego ze słów "

668
00:34:58,330 --> 00:35:00,604
prawdopodobieństwa.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
Więc co mogę zrobić, to dla pętli.

671
00:35:04,160 --> 00:35:06,590
Więc jestem po prostu się do iteracji
na tablicy.

672
00:35:06,590 --> 00:35:15,320
Tak sposób, że można to zrobić w Pythonie
jest "for i in range". Od 1

673
00:35:15,320 --> 00:35:19,200
bo chcę rozpocząć w drugim
elementem, ponieważ pierwszy z nich jest

674
00:35:19,200 --> 00:35:20,260
Nazwa piosenkarka.

675
00:35:20,260 --> 00:35:24,990
Tak więc od jednego do
długość linii.

676
00:35:24,990 --> 00:35:29,760
I kiedy tak naprawdę nie wahają się go z
jak tu od 1 do LEN

677
00:35:29,760 --> 00:35:30,740
linia minus 1.

678
00:35:30,740 --> 00:35:33,810
Więc to już nie robi to coś z
n minus 1 do tablic, które jest bardzo

679
00:35:33,810 --> 00:35:35,500
wygodne.

680
00:35:35,500 --> 00:35:37,850
Ma sens?

681
00:35:37,850 --> 00:35:42,770
>> Więc dla każdego z nich, co mam zamiar
nie jest, podobnie jak w drugim,

682
00:35:42,770 --> 00:35:50,320
Idę sprawdzić, czy słowo to
położenie w linii jest już

683
00:35:50,320 --> 00:35:51,570
prawdopodobieństwa.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
A potem jak już powiedziałem tutaj, prawdopodobieństwa
słowa, jak w I umieścić

686
00:35:57,260 --> 00:35:58,400
Prawdopodobieństwa "(Singer)".

687
00:35:58,400 --> 00:35:59,390
Więc nazwa wykonawcy.

688
00:35:59,390 --> 00:36:03,450
Więc jeśli to jest już w
"Probabilit (piosenkarka)", oznacza to, że

689
00:36:03,450 --> 00:36:11,960
dodać 1 do niego, więc mam zamiar
zrobić "(Singer) prawdopodobieństwa", oraz

690
00:36:11,960 --> 00:36:14,100
Słowo jest "linii (i)".

691
00:36:14,100 --> 00:36:22,630
Mam zamiar dodać 1 i "innego" Jestem po prostu
zamierza zainicjować go do 1.

692
00:36:22,630 --> 00:36:23,880
"Linia (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Ma sens?

695
00:36:28,420 --> 00:36:30,180
>> Tak więc, obliczono wszystkich tablic.

696
00:36:30,180 --> 00:36:36,580
Tak, teraz wszystko, co musisz zrobić, aby
to jest po prostu "wrócić priori,

697
00:36:36,580 --> 00:36:43,230
prawdopodobieństwa i słowa. "Chodźmy
zobaczyć, czy są jakieś, OK.

698
00:36:43,230 --> 00:36:45,690
Wydaje się, wszystko działa do tej pory.

699
00:36:45,690 --> 00:36:46,900
Tak, to ma sens?

700
00:36:46,900 --> 00:36:47,750
W jakiś sposób?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
Więc teraz mam wszystkie prawdopodobne.

703
00:36:51,980 --> 00:36:55,100
Teraz jedyne co mi pozostało
jest po prostu mieć to coś, że

704
00:36:55,100 --> 00:36:58,650
oblicza się iloczyn wszystkich
prawdopodobieństw kiedy się słowa.

705
00:36:58,650 --> 00:37:06,270
>> Powiedzmy, że chcę teraz dzwonić
Funkcja "klasyfikowanie ()" i

706
00:37:06,270 --> 00:37:08,880
rzecz, że funkcja przyjmuje
jest tylko argumentem.

707
00:37:08,880 --> 00:37:13,170
Powiedzmy, że "Kochanie, jestem w ogniu" i jest
zamiar dowiedzieć się, co jest

708
00:37:13,170 --> 00:37:14,490
Prawdopodobieństwo to jest Gaga?

709
00:37:14,490 --> 00:37:16,405
Jakie jest prawdopodobieństwo,
że Katie?

710
00:37:16,405 --> 00:37:19,690
Brzmi dobrze?

711
00:37:19,690 --> 00:37:25,750
Więc jestem po prostu będzie trzeba tworzyć
Nowa funkcja o nazwie "klasyfikacji ()" i

712
00:37:25,750 --> 00:37:29,180
to zajmie trochę
teksty piosenek, jak również.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
A poza tym ja też teksty
muszą wysyłać priori,

715
00:37:36,160 --> 00:37:37,700
prawdopodobieństwa i słowa.

716
00:37:37,700 --> 00:37:44,000
Więc mam zamiar wysłać teksty, a priori,
prawdopodobieństwa, słowa.

717
00:37:44,000 --> 00:37:51,840
>> Więc to bierze teksty, a priori,
prawdopodobieństwa, słowa.

718
00:37:51,840 --> 00:37:53,530
Więc, co to robi?

719
00:37:53,530 --> 00:37:57,180
To w zasadzie będzie przejść przez wszystkie
możliwe, że kandydaci

720
00:37:57,180 --> 00:37:58,510
mieć jako piosenkarka.

721
00:37:58,510 --> 00:37:59,425
A gdzie są te kandydaci?

722
00:37:59,425 --> 00:38:01,020
Są w priors, prawda?

723
00:38:01,020 --> 00:38:02,710
Tak mam wszystkie te tam.

724
00:38:02,710 --> 00:38:07,870
Więc mam zamiar mieć słownika
wszystkich potencjalnych kandydatów.

725
00:38:07,870 --> 00:38:14,220
A następnie dla każdego kandydata w
prawdopodobieństwa a priori, więc to oznacza, że ​​to będzie

726
00:38:14,220 --> 00:38:17,740
być Gaga, Katie gdybym miał
więcej byłoby więcej.

727
00:38:17,740 --> 00:38:20,410
Mam zamiar rozpocząć obliczenia
to prawdopodobieństwo.

728
00:38:20,410 --> 00:38:28,310
Prawdopodobieństwo, jak widzieliśmy w
PowerPoint jest uprzednie razy

729
00:38:28,310 --> 00:38:30,800
Produkt każdej z
Inne prawdopodobieństwa.

730
00:38:30,800 --> 00:38:32,520
>> Więc można zrobić tutaj sam.

731
00:38:32,520 --> 00:38:36,330
Mogę tylko zrobić prawdopodobieństwo jest
początkowo tylko przed.

732
00:38:36,330 --> 00:38:40,340
Tak priors kandydata.

733
00:38:40,340 --> 00:38:40,870
Prawda?

734
00:38:40,870 --> 00:38:45,360
I teraz mam do iteracyjne nad wszystkie
Słowa, które mam w tekstach być

735
00:38:45,360 --> 00:38:48,820
w stanie dodać prawdopodobieństwa
dla każdego z nich, w porządku?

736
00:38:48,820 --> 00:38:57,900
Tak więc, "na słowo w teksty" co zamierzam
zrobić to, jeśli słowo jest w

737
00:38:57,900 --> 00:39:01,640
"prawdopodobieństw (kandydujących)", który
Oznacza to, że jest to słowo, które

738
00:39:01,640 --> 00:39:03,640
kandydat posiada w swoich tekstach -

739
00:39:03,640 --> 00:39:05,940
na przykład, "dziecko" dla Gaga -

740
00:39:05,940 --> 00:39:11,710
co mam zamiar zrobić, to, że
prawdopodobieństwo zostanie pomnożona

741
00:39:11,710 --> 00:39:22,420
przez 1 plus prawdopodobieństw
Kandydat na to słowo.

742
00:39:22,420 --> 00:39:25,710
I to się nazywa "Słowo".

743
00:39:25,710 --> 00:39:32,440
Ten podzielony przez liczbę słów
że mam do tego kandydata.

744
00:39:32,440 --> 00:39:37,450
Całkowita liczba słów, które mam
dla piosenkarza, że ​​patrzę.

745
00:39:37,450 --> 00:39:40,290
>> "Inaczej". oznacza to, że jest to nowe słowo
tak, że to będzie jak na przykład

746
00:39:40,290 --> 00:39:41,860
"Ogień" do Lady Gagi.

747
00:39:41,860 --> 00:39:45,760
Więc po prostu chcę zrobić 1 na
"Słowo (kandydat)".

748
00:39:45,760 --> 00:39:47,710
Więc nie chcę, aby umieścić ten termin tutaj.

749
00:39:47,710 --> 00:39:50,010
>> Więc to będzie w zasadzie
kopiowanie i wklejanie tego.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Ale mam zamiar usunąć tę część.

752
00:39:56,000 --> 00:39:57,610
Więc to tylko będzie 1 nad tym.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Brzmi dobrze?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
A teraz na koniec, jestem po prostu będzie
wydrukować nazwisko kandydata oraz

757
00:40:09,700 --> 00:40:15,750
prawdopodobieństwo, że masz z
mając S na ich teksty.

758
00:40:15,750 --> 00:40:16,200
Ma sens?

759
00:40:16,200 --> 00:40:18,390
I nawet nie w rzeczywistości
Potrzebujemy tego słownika.

760
00:40:18,390 --> 00:40:19,510
Ma sens?

761
00:40:19,510 --> 00:40:21,810
>> Więc zobaczymy, czy to faktycznie działa.

762
00:40:21,810 --> 00:40:24,880
Więc jeśli to uruchomić, to nie działa.

763
00:40:24,880 --> 00:40:26,130
Odczekaj chwilę.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Słowa (kandydujących)", "słowa (kandydujących)",
to

766
00:40:31,720 --> 00:40:33,750
Nazwa tej tablicy.

767
00:40:33,750 --> 00:40:41,435
OK, więc to mówi, że jest jakiś błąd
dla kandydata w priors.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Pozwól mi po prostu odpocząć trochę.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
Spróbujmy.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> Więc daje to Katy Perry ma
Prawdopodobieństwo to razy 10 do

774
00:40:58,710 --> 00:41:02,200
minus 7, a Gaga ma to
razy 10 do minus 6.

775
00:41:02,200 --> 00:41:05,610
Więc widać, że pokazuje, że Gaga
ma większe prawdopodobieństwo.

776
00:41:05,610 --> 00:41:09,260
Tak "Kochanie, jestem w ogniu" jest
Prawdopodobnie piosenka Gaga.

777
00:41:09,260 --> 00:41:10,580
Ma sens?

778
00:41:10,580 --> 00:41:12,030
Więc to jest to, co zrobiliśmy.

779
00:41:12,030 --> 00:41:16,010
>> Ten kod ma być umieszczone w Internecie,
tak chłopaki mogą to sprawdzić.

780
00:41:16,010 --> 00:41:20,720
Może korzystać z niego na kilka, jeśli chcesz
zrobić projekt lub coś podobnego.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
To było po prostu pokazać
co obliczeniowa

783
00:41:25,930 --> 00:41:27,230
Kod lingwistyka wygląda.

784
00:41:27,230 --> 00:41:33,040
Ale teraz chodźmy do więcej
rzeczy wysoki poziom.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> Więc ja się inne problemy
mówił o -

787
00:41:35,150 --> 00:41:37,550
Problem segmentacji
jest pierwszym z nich.

788
00:41:37,550 --> 00:41:40,820
Więc masz tu Japończyków.

789
00:41:40,820 --> 00:41:43,420
I wtedy zobaczysz, że
nie ma spacji.

790
00:41:43,420 --> 00:41:49,110
Tak to jest w zasadzie oznacza, że ​​jest to
góry na krześle, tak?

791
00:41:49,110 --> 00:41:50,550
Mówisz po japońsku?

792
00:41:50,550 --> 00:41:52,840
To top krzesła, prawda?

793
00:41:52,840 --> 00:41:54,480
>> Student: Nie wiem, co
kanji tam jest.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS FREITAS: To [EGZAMIN japońskich]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
Więc to w zasadzie oznacza przewodniczenie górze.

797
00:42:00,960 --> 00:42:03,620
Więc jeśli miał umieścić spację
byłoby tutaj.

798
00:42:03,620 --> 00:42:05,970
I wtedy masz [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Co oznacza, panie Ueda.

800
00:42:09,040 --> 00:42:13,180
I widzisz, że "Ueda" i masz
miejsca, a następnie "san". Więc widać, że

801
00:42:13,180 --> 00:42:15,470
tu jesteś "Ue" jest jak sama.

802
00:42:15,470 --> 00:42:17,750
I tu ma charakter
obok niego.

803
00:42:17,750 --> 00:42:21,720
>> Więc to nie jest tak, jak w tych językach
znaki oznaczające słowo to więc

804
00:42:21,720 --> 00:42:23,980
wystarczy umieścić dużo przestrzeni.

805
00:42:23,980 --> 00:42:25,500
Postacie dotyczą siebie.

806
00:42:25,500 --> 00:42:28,680
I mogą być wspólnie
jak dwa, trzy, jeden.

807
00:42:28,680 --> 00:42:34,520
Więc trzeba rzeczywiście stworzyć jakiś
o sposób wprowadzenia tych przestrzeni.

808
00:42:34,520 --> 00:42:38,850
>> I to jest to, że gdy masz
Dane z tych języków azjatyckich,

809
00:42:38,850 --> 00:42:40,580
wszystko pochodzi niesegmentowany.

810
00:42:40,580 --> 00:42:45,940
Bo nikt, kto pisze po japońsku
lub chiński pisze ze spacjami.

811
00:42:45,940 --> 00:42:48,200
Każdym razem, gdy piszesz chiński,
Japoński po prostu napisać wszystko

812
00:42:48,200 --> 00:42:48,710
bez spacji.

813
00:42:48,710 --> 00:42:52,060
To nie ma sensu
umieścić spacji.

814
00:42:52,060 --> 00:42:57,960
Więc kiedy się dane z, niektóre
Wschód języków azjatyckich, jeśli chcesz

815
00:42:57,960 --> 00:43:00,760
faktycznie coś z tym zrobić
masz do pierwszego segmentu.

816
00:43:00,760 --> 00:43:05,130
>> Myśleć robi przykład
słowa bez spacji.

817
00:43:05,130 --> 00:43:07,950
Więc jedyne słowa, które trzeba
będzie zdania, prawda?

818
00:43:07,950 --> 00:43:09,470
Oddzielonych kropkami.

819
00:43:09,470 --> 00:43:13,930
Ale potem, będzie tylko zdanie
naprawdę nie pomaga na udzielaniu informacji

820
00:43:13,930 --> 00:43:17,760
kto te teksty są przez.

821
00:43:17,760 --> 00:43:18,120
Prawda?

822
00:43:18,120 --> 00:43:20,010
Należy więc stawia pierwsze miejsca.

823
00:43:20,010 --> 00:43:21,990
Więc w jaki sposób można to zrobić?

824
00:43:21,990 --> 00:43:24,920
>> Tak to jest pomysł na języku
Model, który jest czymś naprawdę

825
00:43:24,920 --> 00:43:26,870
ważne dla obliczeniowych
językoznawstwo.

826
00:43:26,870 --> 00:43:32,790
Więc model jest w zasadzie językiem
Tabela prawdopodobieństw, że pokazy

827
00:43:32,790 --> 00:43:36,260
Przede wszystkim, co jest prawdopodobieństwo
mieć słowo w języku?

828
00:43:36,260 --> 00:43:39,590
Więc widać, jak często słowo.

829
00:43:39,590 --> 00:43:43,130
A następnie również pokazujący zależność
między wyrazami w zdaniu.

830
00:43:43,130 --> 00:43:51,500
>> Tak więc główną ideą jest, jeśli ktoś obcy przyszedł
do ciebie i powiedział zdanie na

831
00:43:51,500 --> 00:43:55,600
ci, jakie jest prawdopodobieństwo, że dla
Przykład: "To jest moja siostra [GTF?"?]

832
00:43:55,600 --> 00:43:57,480
był zdania, że ​​człowiek mówi?

833
00:43:57,480 --> 00:44:00,380
Więc oczywiście niektóre zdania są
częściej niż inne.

834
00:44:00,380 --> 00:44:04,450
Na przykład, "dzień dobry" lub "dobry
noc "lub" Cześć ", jest znacznie bardziej

835
00:44:04,450 --> 00:44:08,260
powszechne niż w większości zdań
że mamy po angielsku.

836
00:44:08,260 --> 00:44:11,060
Więc dlaczego są te zdania
częstsze?

837
00:44:11,060 --> 00:44:14,060
>> Przede wszystkim dlatego, że masz
Słowa, które są częstsze.

838
00:44:14,060 --> 00:44:20,180
Tak więc, na przykład, jeśli powiesz, że pies jest
duży, a pies jest gigantyczny, to

839
00:44:20,180 --> 00:44:23,880
Prawdopodobnie usłyszeć zazwyczaj jest duży pies
częściej, bo "duży" jest bardziej

840
00:44:23,880 --> 00:44:27,260
często w języku angielskim niż "gigantyczny".
Tak więc, jednym z

841
00:44:27,260 --> 00:44:30,100
rzeczy jest częstotliwość słowo.

842
00:44:30,100 --> 00:44:34,490
>> Drugą rzeczą, która jest naprawdę
Istotne jest po prostu

843
00:44:34,490 --> 00:44:35,490
Kolejność słów.

844
00:44:35,490 --> 00:44:39,500
Tak, to jest wspólne, aby powiedzieć "kot jest
wewnątrz pola. ", ale zwykle nie

845
00:44:39,500 --> 00:44:44,250
zobacz w "oknie w środku jest kot." tak
widzisz, że jest jakaś znaczenie

846
00:44:44,250 --> 00:44:46,030
w kolejności słowa.

847
00:44:46,030 --> 00:44:50,160
Nie można po prostu powiedzieć, że te dwa
zdania ma takie samo prawdopodobieństwo

848
00:44:50,160 --> 00:44:53,010
tylko dlatego, że mają te same słowa.

849
00:44:53,010 --> 00:44:55,550
Trzeba rzeczywiście obchodzi
o zamówienie, jak również.

850
00:44:55,550 --> 00:44:57,650
Ma sens?

851
00:44:57,650 --> 00:44:59,490
>> Więc co robimy?

852
00:44:59,490 --> 00:45:01,550
Więc co ja mogę postarać się o ciebie?

853
00:45:01,550 --> 00:45:04,400
Próbuję Ci to, co
zadzwoń modele N-gram.

854
00:45:04,400 --> 00:45:09,095
Więc modele n-gram w zasadzie przyjąć,
że każde słowo

855
00:45:09,095 --> 00:45:10,960
masz w zdaniu.

856
00:45:10,960 --> 00:45:15,020
To prawdopodobieństwo, że mając
słowo nie zależy nie tylko od

857
00:45:15,020 --> 00:45:18,395
Częstość występowania tego słowa w języku,
ale również od słów

858
00:45:18,395 --> 00:45:19,860
otaczają go.

859
00:45:19,860 --> 00:45:25,810
>> Tak na przykład, zazwyczaj gdy widzisz
coś na co jesteś lub

860
00:45:25,810 --> 00:45:28,040
Prawdopodobnie zobaczymy
rzeczownik po nim, prawda?

861
00:45:28,040 --> 00:45:31,750
Bo gdy masz przyimka
zazwyczaj bierze rzeczownika po nim.

862
00:45:31,750 --> 00:45:35,540
Lub jeśli masz czasownik jest przechodni
zwykle będą

863
00:45:35,540 --> 00:45:36,630
mają rzeczownik frazę.

864
00:45:36,630 --> 00:45:38,780
Więc to będzie mieć rzeczownik
gdzieś wokół niego.

865
00:45:38,780 --> 00:45:44,950
>> Tak więc, w zasadzie, co robi jest to, że
uważa prawdopodobieństwo konieczności

866
00:45:44,950 --> 00:45:47,960
Słowa obok siebie, przy
jesteś obliczania

867
00:45:47,960 --> 00:45:49,050
prawdopodobieństwo zdania.

868
00:45:49,050 --> 00:45:50,960
I to właśnie język
model jest w zasadzie.

869
00:45:50,960 --> 00:45:54,620
Tylko, że to, co jest prawdopodobieństwo
mieć specyficzny

870
00:45:54,620 --> 00:45:57,120
zdanie w języku?

871
00:45:57,120 --> 00:45:59,110
Więc dlaczego tak jest, że przydatne, w zasadzie?

872
00:45:59,110 --> 00:46:02,390
A przede wszystkim to, co jest
Model n-gram, a następnie?

873
00:46:02,390 --> 00:46:08,850
>> Więc modelu n-gramów oznacza, że
Każde słowo zależy

874
00:46:08,850 --> 00:46:12,700
następny N minus 1 słowa.

875
00:46:12,700 --> 00:46:18,150
Tak więc, w zasadzie, to znaczy, że jeśli patrzę,
Na przykład, w przypadku TF CS50

876
00:46:18,150 --> 00:46:21,500
Jestem obliczania prawdopodobieństwa
zdanie, będziesz jak "

877
00:46:21,500 --> 00:46:25,280
prawdopodobieństwo posiadania słowo ""
razy prawdopodobieństwo konieczności "

878
00:46:25,280 --> 00:46:31,720
CS50 "razy prawdopodobieństwo konieczności
"TF CS50." Tak więc, w zasadzie, liczę

879
00:46:31,720 --> 00:46:35,720
wszystkie możliwe sposoby rozciągania go.

880
00:46:35,720 --> 00:46:41,870
>> I wtedy zwykle, gdy to robisz,
jak w projekcie, można umieścić N będzie

881
00:46:41,870 --> 00:46:42,600
niska wartość.

882
00:46:42,600 --> 00:46:45,930
Tak, zazwyczaj bigrams lub trygramów.

883
00:46:45,930 --> 00:46:51,090
Tak, że po prostu liczyć dwa słowy,
grupa dwóch lub trzech słów, słów,

884
00:46:51,090 --> 00:46:52,620
tylko na problemy z wydajnością.

885
00:46:52,620 --> 00:46:56,395
A także dlatego, że być może, jeśli masz
coś jak "The CS50 TF". Kiedy

886
00:46:56,395 --> 00:47:00,510
mają "TF", jest to bardzo ważne, że
"CS50" jest obok niego, prawda?

887
00:47:00,510 --> 00:47:04,050
Te dwie rzeczy są zwykle
obok siebie.

888
00:47:04,050 --> 00:47:06,410
>> Jeśli uważasz, że z "FT", to chyba
będzie miał co

889
00:47:06,410 --> 00:47:07,890
Klasa to TF'ing dla.

890
00:47:07,890 --> 00:47:11,330
Również "" jest bardzo ważne
dla CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Ale jeśli masz coś w stylu "The CS50
TF poszliśmy do klasy i dał ich

892
00:47:14,570 --> 00:47:20,060
studentów cukierka. "" Cukierki "i" "
nie mają związku naprawdę, prawda?

893
00:47:20,060 --> 00:47:23,670
Oni są tak odległe od siebie, że
to nie ma znaczenia, co

894
00:47:23,670 --> 00:47:25,050
Słowa trzeba.

895
00:47:25,050 --> 00:47:31,210
>> Więc wykonując bigram lub trygram, to
oznacza po prostu, że jesteś ograniczenie

896
00:47:31,210 --> 00:47:33,430
sobie na kilka słów
które są w pobliżu.

897
00:47:33,430 --> 00:47:35,810
Ma sens?

898
00:47:35,810 --> 00:47:40,630
Więc jeśli chcesz zrobić segmentacji,
w zasadzie to, co chcesz zrobić, to zobaczyć

899
00:47:40,630 --> 00:47:44,850
jakie są wszystkie możliwe sposoby
można segmentu zdanie.

900
00:47:44,850 --> 00:47:49,090
>> Tak, że można zobaczyć to, co jest
prawdopodobieństwo każdego z tych zdań

901
00:47:49,090 --> 00:47:50,880
istniejących w języku?

902
00:47:50,880 --> 00:47:53,410
Więc co możesz zrobić, to jak, dobrze, niech
ja staram się umieścić tu miejsca.

903
00:47:53,410 --> 00:47:55,570
Więc umieścić tam przestrzeń
i zobaczyć, jakie jest

904
00:47:55,570 --> 00:47:57,590
prawdopodobieństwo tego zdania?

905
00:47:57,590 --> 00:48:00,240
Wtedy jesteś jak, OK, może
, że nie było to dobre.

906
00:48:00,240 --> 00:48:03,420
Więc umieścić tam przestrzeń i przestrzeń
tam, i obliczyć

907
00:48:03,420 --> 00:48:06,240
prawdopodobieństwo, teraz, i widać, że
to jest większe prawdopodobieństwo.

908
00:48:06,240 --> 00:48:12,160
>> Więc to jest algorytm o nazwie TANGO
algorytmu segmentacji, który jest

909
00:48:12,160 --> 00:48:14,990
faktycznie coś, co byłoby naprawdę
fajne dla projektu, który

910
00:48:14,990 --> 00:48:20,860
w zasadzie tekst niesegmentowany która trwa
może być japoński czy chiński, a może

911
00:48:20,860 --> 00:48:26,080
Angielski bez spacji i stara się umieścić
odstępy między słowami i to robi

912
00:48:26,080 --> 00:48:29,120
że za pomocą modelu, a język
starając się zobaczyć, co jest najwyższym

913
00:48:29,120 --> 00:48:31,270
prawdopodobieństwem można dostać.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
Więc to jest segmentacja.

916
00:48:33,800 --> 00:48:35,450
>> Teraz składnia.

917
00:48:35,450 --> 00:48:40,940
Tak więc, postać jest używany do
tak wiele rzeczy w tej chwili.

918
00:48:40,940 --> 00:48:44,880
Szukaj więc na wykres, na Siri dla
prawie każdy rodzaj naturalnego

919
00:48:44,880 --> 00:48:46,490
przetwarzania języka masz.

920
00:48:46,490 --> 00:48:49,140
Więc jakie są ważne
rzeczy o składni?

921
00:48:49,140 --> 00:48:52,390
Tak więc, ogólnie mają zdania
co nazywamy składniki.

922
00:48:52,390 --> 00:48:57,080
Które są jakby grup słów
które pełnią funkcję w zdaniu.

923
00:48:57,080 --> 00:49:02,220
I nie mogą być naprawdę
od siebie.

924
00:49:02,220 --> 00:49:07,380
>> Tak więc, jeśli powiem, na przykład, "Laura kocha
Milo. "Wiem, że" Laura "jest

925
00:49:07,380 --> 00:49:10,180
składnik, a następnie "miłości
Milo "jest również inny.

926
00:49:10,180 --> 00:49:16,860
Bo nie można powiedzieć, jak "Lauren Milo
lubi "mają to samo znaczenie.

927
00:49:16,860 --> 00:49:18,020
To nie będzie mieć
to samo znaczenie.

928
00:49:18,020 --> 00:49:22,500
I nie mogę powiedzieć, jak "Milo Lauren
kocha. "Nie wszystko jest takie same

929
00:49:22,500 --> 00:49:25,890
czyli robić.

930
00:49:25,890 --> 00:49:31,940
>> Tak więc dwie ważne rzeczy o bardziej
składnia są rodzaje leksykalne, które jest

931
00:49:31,940 --> 00:49:35,390
zasadzie, że funkcja
ma słów przez siebie.

932
00:49:35,390 --> 00:49:39,180
Więc musisz wiedzieć, że "Laura"
i "Milo" są rzeczownikami.

933
00:49:39,180 --> 00:49:41,040
"Miłość" to czasownik.

934
00:49:41,040 --> 00:49:45,660
I drugie ważne jest to,
że są phrasal typy.

935
00:49:45,660 --> 00:49:48,990
Więc wiesz, że "kocha Milo"
jest rzeczywiście werbalne wyrażenie.

936
00:49:48,990 --> 00:49:52,390
Więc kiedy mówię, "Laura", wiem, że
Laura robi coś.

937
00:49:52,390 --> 00:49:53,620
Co ona robi?

938
00:49:53,620 --> 00:49:54,570
Ona kochać Milo.

939
00:49:54,570 --> 00:49:56,440
Więc to jest cała sprawa.

940
00:49:56,440 --> 00:50:01,640
Ale jego elementy są
rzeczownik i czasownik.

941
00:50:01,640 --> 00:50:04,210
Ale razem, robią zwrot czasownik.

942
00:50:04,210 --> 00:50:08,680
>> Tak więc, co możemy zrobić z rzeczywistości
lingwistyka komputerowa?

943
00:50:08,680 --> 00:50:13,810
Tak więc, jeśli mam coś na przykład
"przyjaciele" Allison. Rozumiem, jeśli tylko

944
00:50:13,810 --> 00:50:17,440
drzewo syntaktyczne nie wiem, że będzie
"Przyjaciele" to wyrażenie to jest rzeczownik

945
00:50:17,440 --> 00:50:21,480
rzeczownik, a następnie "Allison" jest
przyimkowy zdanie, w którym "z" jest

946
00:50:21,480 --> 00:50:24,810
propozycja i "Allison" jest rzeczownikiem.

947
00:50:24,810 --> 00:50:30,910
Co mogę zrobić, to nauczyć komputer
że kiedy mam rzeczownik frazę jeden i

948
00:50:30,910 --> 00:50:33,080
następnie przyimkowy zdanie.

949
00:50:33,080 --> 00:50:39,020
Więc w tym przypadku, "przyjaciele", a następnie "z
Milo: "Wiem, że oznacza to, że

950
00:50:39,020 --> 00:50:43,110
NP2, drugi, posiada NP1.

951
00:50:43,110 --> 00:50:47,680
>> Więc mogę stworzyć jakąś związku,
jakaś funkcja do niego.

952
00:50:47,680 --> 00:50:52,370
Więc gdy widzę tę strukturę, która
Zastępuje dokładnie z "przyjaciółmi

953
00:50:52,370 --> 00:50:56,030
Allison: "Wiem, że Allison
posiada przyjaciół.

954
00:50:56,030 --> 00:50:58,830
Więc to coś przyjaciele
że Allison ma.

955
00:50:58,830 --> 00:50:59,610
Ma sens?

956
00:50:59,610 --> 00:51:01,770
Tak to jest w zasadzie to, co
Wykres Szukaj robi.

957
00:51:01,770 --> 00:51:04,360
To po prostu tworzy reguły
do wielu rzeczy.

958
00:51:04,360 --> 00:51:08,190
So "znajomi", "Allison moi przyjaciele
kto mieszka w Cambridge, "" przyjaciół

959
00:51:08,190 --> 00:51:12,970
którzy udają się do Harvardu. "Tworzy zasady
dla wszystkich tych rzeczy.

960
00:51:12,970 --> 00:51:14,930
>> Teraz tłumaczenie maszynowe.

961
00:51:14,930 --> 00:51:18,850
Tak, jest również tłumaczenie maszynowe
coś statystyczny.

962
00:51:18,850 --> 00:51:21,340
I rzeczywiście, jeśli wziąć udział w
lingwistyka komputerowa, dużo

963
00:51:21,340 --> 00:51:23,580
swoje rzeczy będzie statystyka.

964
00:51:23,580 --> 00:51:26,670
Tak robiłem na przykład z
Wiele prawdopodobieństw, że jestem

965
00:51:26,670 --> 00:51:30,540
obliczenia, a następnie dostać się do tego
bardzo mała liczba, która jest ostateczna

966
00:51:30,540 --> 00:51:33,180
prawdopodobieństwo, i to, co
daje odpowiedź.

967
00:51:33,180 --> 00:51:37,540
Urządzenie korzysta również tłumaczenie
Model statystyczny.

968
00:51:37,540 --> 00:51:44,790
A jeśli chcesz, aby myśleć o maszynie
Tłumaczenie w najprostszy możliwy

969
00:51:44,790 --> 00:51:48,970
sposób, co można myśleć tylko
tłumaczyć słowo po słowie, prawda?

970
00:51:48,970 --> 00:51:52,150
>> Kiedy nauka języka dla
pierwszy raz, to co zwykle

971
00:51:52,150 --> 00:51:52,910
to zrobić, prawda?

972
00:51:52,910 --> 00:51:57,050
Jeśli chcesz przetłumaczyć zdanie
w swoim języku do języka

973
00:51:57,050 --> 00:52:00,060
uczysz się, zazwyczaj pierwsze,
tłumaczyć każdego ze słów

974
00:52:00,060 --> 00:52:03,180
indywidualnie, a następnie spróbuj
umieścić słowa na miejsce.

975
00:52:03,180 --> 00:52:07,100
>> Więc gdybym chciał przetłumaczyć,
[EGZAMIN Portugalski]

976
00:52:07,100 --> 00:52:10,430
co oznacza "biały kot uciekł."
Gdybym chciał przetłumaczyć go z

977
00:52:10,430 --> 00:52:13,650
Portugalski na angielski, co ja
może zrobić to, po pierwsze, po prostu

978
00:52:13,650 --> 00:52:14,800
tłumaczyć słowo po słowie.

979
00:52:14,800 --> 00:52:20,570
Tak "o" jest "," "Gato", "kot"
"Branco", "zielony", a następnie "fugio" jest

980
00:52:20,570 --> 00:52:21,650
"Uciekł".

981
00:52:21,650 --> 00:52:26,130
>> Więc mam wszystkie słowa tutaj,
ale nie są w porządku.

982
00:52:26,130 --> 00:52:29,590
To jest jak "biały kot uciekł"
który jest niegramatyczne.

983
00:52:29,590 --> 00:52:34,490
Tak, to mogę mieć drugi etap, który
będzie znalezienie ideału

984
00:52:34,490 --> 00:52:36,610
pozycji dla każdego słowa.

985
00:52:36,610 --> 00:52:40,240
Tak, wiem, że tak naprawdę chce mieć
"Biały kot" zamiast "kot biały." Tak

986
00:52:40,240 --> 00:52:46,050
co mogę zrobić, to metoda najbardziej naiwny
byłaby wytwarzającego

987
00:52:46,050 --> 00:52:49,720
możliwych permutacji
słowa, z pozycji.

988
00:52:49,720 --> 00:52:53,300
A następnie sprawdzić, który z nich ma
najwyższe prawdopodobieństwo według

989
00:52:53,300 --> 00:52:54,970
do mojego modelu językowego.

990
00:52:54,970 --> 00:52:58,390
A potem, kiedy znajdę ten, który ma
najwyższe prawdopodobieństwo to, co

991
00:52:58,390 --> 00:53:01,910
prawdopodobnie "biały kot uciekł"
to moje tłumaczenie.

992
00:53:01,910 --> 00:53:06,710
>> I to jest prosty sposób wyjaśnić
jak dużo tłumaczenia maszynowego

993
00:53:06,710 --> 00:53:07,910
algorytmy pracy.

994
00:53:07,910 --> 00:53:08,920
Czy to ma sens?

995
00:53:08,920 --> 00:53:12,735
Jest również coś naprawdę ekscytujące
że chłopaki mogą być może poszukiwania

996
00:53:12,735 --> 00:53:13,901
Ostateczny projekt, tak?

997
00:53:13,901 --> 00:53:15,549
>> Student: No, powiedział, że to
naiwny sposób, więc to, co jest

998
00:53:15,549 --> 00:53:17,200
nie naiwny sposób?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS FREITAS: nie naiwny sposób?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
Tak więc pierwszą rzeczą, że jest źle
ta metoda jest to, że po prostu przetłumaczone

1002
00:53:22,860 --> 00:53:24,330
słowa, słowo po słowie.

1003
00:53:24,330 --> 00:53:30,570
Ale czasem trzeba słów
może mieć wiele tłumaczeń.

1004
00:53:30,570 --> 00:53:32,210
Mam zamiar starać się myśleć
czegoś.

1005
00:53:32,210 --> 00:53:37,270
Na przykład, "manga" w Portugalii puszki
albo być "Magiel" lub "rękaw". Tak

1006
00:53:37,270 --> 00:53:40,450
gdy próbujesz przetłumaczyć słowo
słowem, to może być co daje

1007
00:53:40,450 --> 00:53:42,050
coś, co nie ma sensu.

1008
00:53:42,050 --> 00:53:45,770
>> Więc rzeczywiście chcesz spojrzeć na wszystko
ewentualne tłumaczenia

1009
00:53:45,770 --> 00:53:49,840
słowa i zobaczyć, przede wszystkim,
co to jest rozkaz.

1010
00:53:49,840 --> 00:53:52,000
Rozmawialiśmy o permutating
rzeczy?

1011
00:53:52,000 --> 00:53:54,150
Aby zobaczyć wszystkie możliwe zlecenia i
wybrać jedną z najwyższych

1012
00:53:54,150 --> 00:53:54,990
prawdopodobieństwo?

1013
00:53:54,990 --> 00:53:57,860
Można również wybrać wszystkie możliwe
Tłumaczenia dla każdego

1014
00:53:57,860 --> 00:54:00,510
słowo, a następnie zobaczyć -

1015
00:54:00,510 --> 00:54:01,950
w połączeniu z permutacji -

1016
00:54:01,950 --> 00:54:03,710
których jeden ma największe prawdopodobieństwo.

1017
00:54:03,710 --> 00:54:08,590
>> Plus, można również spojrzeć na nie
tylko słowa, ale zwroty.

1018
00:54:08,590 --> 00:54:11,700
tak można analizować relacje między
słowa, a następnie uzyskać

1019
00:54:11,700 --> 00:54:13,210
lepsze tłumaczenie.

1020
00:54:13,210 --> 00:54:16,690
Też coś innego, więc w tym semestrze
Jestem rzeczywiście robi badania w

1021
00:54:16,690 --> 00:54:19,430
Chiński-Angielski tłumaczenie maszynowe,
więc tłumaczenia z

1022
00:54:19,430 --> 00:54:20,940
Chiński na angielski.

1023
00:54:20,940 --> 00:54:26,760
>> I coś robimy, to, oprócz wykorzystania
Model statystyczny, który jest po prostu

1024
00:54:26,760 --> 00:54:30,570
widząc prawdopodobieństwo zobaczenia
niektórych pozycji w zdaniu, jestem

1025
00:54:30,570 --> 00:54:35,360
faktycznie dodając również do mojego trochę składni
Model, mówiąc, oh, jeśli widzę tego rodzaju

1026
00:54:35,360 --> 00:54:39,420
budowy, to jest to, co chcę
zmienić go, gdy w tłumaczeniu.

1027
00:54:39,420 --> 00:54:43,880
Więc można również dodać jakieś
element składni, aby

1028
00:54:43,880 --> 00:54:47,970
tłumaczenie na bardziej efektywne
i bardziej precyzyjne.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> Tak, jak można zacząć, jeśli chcesz
zrobić coś w obliczeniowych

1031
00:54:51,010 --> 00:54:51,980
językoznawstwo?

1032
00:54:51,980 --> 00:54:54,560
>> Po pierwsze, należy wybrać projekt
która obejmuje języki.

1033
00:54:54,560 --> 00:54:56,310
Tak więc, jest tak wiele tam.

1034
00:54:56,310 --> 00:54:58,420
Jest tak wiele rzeczy można zrobić.

1035
00:54:58,420 --> 00:55:00,510
I wtedy można myśleć o modelu
które można użyć.

1036
00:55:00,510 --> 00:55:04,710
Zazwyczaj oznacza to myślenie
Założenia, jak jak, och, kiedy byłem

1037
00:55:04,710 --> 00:55:05,770
jak myślenia tekstów.

1038
00:55:05,770 --> 00:55:09,510
Byłem jak, dobrze, jeśli chcę, aby dowiedzieć
się, kto to napisał, pewnie chcą

1039
00:55:09,510 --> 00:55:15,400
spojrzeć na słowa używane i osoba
zobaczyć, kto używa tego słowa bardzo często.

1040
00:55:15,400 --> 00:55:18,470
Więc starają się założenia i
staram się myśleć o modelach.

1041
00:55:18,470 --> 00:55:21,395
A następnie można również wyszukiwać w Internecie
rodzaj problemu, który masz,

1042
00:55:21,395 --> 00:55:24,260
i to się sugerować
do Ciebie modeli, które może

1043
00:55:24,260 --> 00:55:26,560
modelowane, że coś dobrze.

1044
00:55:26,560 --> 00:55:29,080
>> A także zawsze możesz napisz do mnie.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
I mogę tylko odpowiedzieć na Twoje pytania.

1047
00:55:34,940 --> 00:55:38,600
Możemy nawet może spotkać się tak mogę
dać wskazówki na temat sposobów

1048
00:55:38,600 --> 00:55:41,490
realizacji projektu.

1049
00:55:41,490 --> 00:55:45,610
I mam na myśli, jeśli angażują się
lingwistyka komputerowa, to będzie

1050
00:55:45,610 --> 00:55:46,790
się świetnie.

1051
00:55:46,790 --> 00:55:48,370
Będziesz tam zobaczyć
jest tak wielki potencjał.

1052
00:55:48,370 --> 00:55:52,060
I przemysł chce zatrudnić
jesteś tak źle z tego powodu.

1053
00:55:52,060 --> 00:55:54,720
Więc mam nadzieję, że chłopaki bardzo zadowoleni z tego.

1054
00:55:54,720 --> 00:55:57,030
Jeśli macie jakieś pytania,
możesz poprosić mnie po tym.

1055
00:55:57,030 --> 00:55:58,280
Ale dziękuję.

1056
00:55:58,280 --> 00:56:00,150