1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS FREITAS: Hey.

3
00:00:08,870 --> 00:00:09,980
Willkommen alle.

4
00:00:09,980 --> 00:00:11,216
Mein Name ist Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Ich bin ein Junior an [unverständlich] Studium
Informatik mit Schwerpunkt in

6
00:00:15,220 --> 00:00:16,410
Computerlinguistik.

7
00:00:16,410 --> 00:00:19,310
Also meine Sekundär ist in der Sprache
und Sprachtheorie.

8
00:00:19,310 --> 00:00:21,870
Ich bin wirklich aufgeregt, euch lehren
ein wenig über dem Feld.

9
00:00:21,870 --> 00:00:24,300
Es ist ein sehr spannendes Gebiet, um zu studieren.

10
00:00:24,300 --> 00:00:27,260
Auch mit einer Menge von potentiellen
für die Zukunft.

11
00:00:27,260 --> 00:00:30,160
Also, ich bin wirklich aufgeregt, dass ihr Jungs
erwägen Projekte in

12
00:00:30,160 --> 00:00:31,160
Computerlinguistik.

13
00:00:31,160 --> 00:00:35,460
Und ich werde mehr als glücklich zu beraten
jeder von Ihnen, wenn Sie zu entscheiden,

14
00:00:35,460 --> 00:00:37,090
verfolgen, einer von denen.

15
00:00:37,090 --> 00:00:40,010
>> Also zunächst einmal, was Rechen sind
Sprachwissenschaft?

16
00:00:40,010 --> 00:00:44,630
So ist die Computerlinguistik
Schnittpunkt zwischen Linguistik und

17
00:00:44,630 --> 00:00:46,390
Informatik.

18
00:00:46,390 --> 00:00:47,415
Also, was ist Sprachwissenschaft?

19
00:00:47,415 --> 00:00:48,490
Was ist Informatik?

20
00:00:48,490 --> 00:00:51,580
Nun, aus der Linguistik, was
wir sind die Sprachen.

21
00:00:51,580 --> 00:00:54,960
So Sprachwissenschaft ist eigentlich die Studie
der natürlichen Sprache im Allgemeinen.

22
00:00:54,960 --> 00:00:58,330
So natürlicher Sprache - wir sprechen
Sprache, die wir tatsächlich nutzen

23
00:00:58,330 --> 00:00:59,770
miteinander kommunizieren.

24
00:00:59,770 --> 00:01:02,200
So werden wir nicht genau sprechen
etwa C oder Java.

25
00:01:02,200 --> 00:01:05,900
Wir reden mehr über Englisch und
Chinesisch und andere Sprachen, die wir

26
00:01:05,900 --> 00:01:07,780
verwenden, um miteinander zu kommunizieren.

27
00:01:07,780 --> 00:01:12,470
>> Das schwierige daran ist, dass
jetzt haben wir fast 7.000

28
00:01:12,470 --> 00:01:14,260
Sprachen der Welt.

29
00:01:14,260 --> 00:01:19,520
So gibt es eine hohe Vielfalt
von Sprachen, die wir studieren.

30
00:01:19,520 --> 00:01:22,600
Und dann denkt man, dass es wahrscheinlich
sehr schwer zu tun, beispielsweise,

31
00:01:22,600 --> 00:01:26,960
Übersetzung von einer Sprache in die
andere, wenn man bedenkt, dass Sie

32
00:01:26,960 --> 00:01:28,240
fast 7.000 von ihnen.

33
00:01:28,240 --> 00:01:31,450
Also, wenn Sie denken, tun Übersetzung
von einer Sprache in die andere Sie

34
00:01:31,450 --> 00:01:35,840
haben fast mehr als eine Million
verschiedene Kombinationen, die Sie

35
00:01:35,840 --> 00:01:37,330
haben von Sprache zu Sprache.

36
00:01:37,330 --> 00:01:40,820
Also es ist wirklich schwierig, etwas zu tun
Art beispielsweise Übersetzungssystem für

37
00:01:40,820 --> 00:01:43,540
jede einzelne Sprache.

38
00:01:43,540 --> 00:01:47,120
>> Also, Linguistik behandelt mit Syntax
Semantik, Pragmatik.

39
00:01:47,120 --> 00:01:49,550
Sie Jungs nicht genau brauchen
zu wissen, was sie sind.

40
00:01:49,550 --> 00:01:55,090
Aber die sehr interessante Sache ist, dass
wie ein Muttersprachler, wenn Sie erfahren,

41
00:01:55,090 --> 00:01:59,010
Sprache als Kind, die Sie tatsächlich lernen
Alle diese Dinge - Syntax-Semantik

42
00:01:59,010 --> 00:02:00,500
und Pragmatik -

43
00:02:00,500 --> 00:02:01,430
von sich.

44
00:02:01,430 --> 00:02:04,820
Und niemand hat Sie Syntax für lehren
Sie verstehen, wie Sätze sind

45
00:02:04,820 --> 00:02:05,290
aufgebaut.

46
00:02:05,290 --> 00:02:07,980
Also, es ist wirklich interessant, weil
es ist etwas, das sehr kommt

47
00:02:07,980 --> 00:02:10,389
intuitiv.

48
00:02:10,389 --> 00:02:13,190
>> Und was machen Sie mit der Einnahme von
der Informatik?

49
00:02:13,190 --> 00:02:16,700
Nun, das Wichtigste ist, dass wir
haben in der Informatik ist vor

50
00:02:16,700 --> 00:02:19,340
alle, künstliche Intelligenz
und maschinelles Lernen.

51
00:02:19,340 --> 00:02:22,610
Also, was wir zu tun versuchen
Computerlinguistik ist Teach

52
00:02:22,610 --> 00:02:26,990
Ihr Computer wie etwas zu tun
mit der Sprache.

53
00:02:26,990 --> 00:02:28,630
>> So z. B. im Maschinenbau
Übersetzung.

54
00:02:28,630 --> 00:02:32,490
Ich versuche, meinen Computer zu lehren, wie
zu wissen, wie man von einem Übergang

55
00:02:32,490 --> 00:02:33,310
in die andere Sprache.

56
00:02:33,310 --> 00:02:35,790
Also, im Grunde mag Lehre
ein Computer zwei Sprachen.

57
00:02:35,790 --> 00:02:38,870
Wenn ich die Verarbeitung natürlicher Sprache,
was der Fall ist, zum Beispiel aus

58
00:02:38,870 --> 00:02:41,810
Facebook-Graph-Suche, lernen Sie
Computer, wie zu verstehen

59
00:02:41,810 --> 00:02:42,730
Anfragen auch.

60
00:02:42,730 --> 00:02:48,130
>> Also, wenn Sie sagen, "die Fotos von meinem
Freunde. "Facebook nicht zu behandeln, dass

61
00:02:48,130 --> 00:02:51,130
als Ganzes String, hat
nur ein paar Worte.

62
00:02:51,130 --> 00:02:56,020
Tatsächlich versteht die Beziehung
zwischen "Fotos" und "Meine Freunde" und

63
00:02:56,020 --> 00:02:59,620
versteht, dass "Bilder" sind
Eigentum von "meine Freunde."

64
00:02:59,620 --> 00:03:02,350
>> Also, das ist ein Teil, zum Beispiel,
Verarbeitung natürlicher Sprache.

65
00:03:02,350 --> 00:03:04,790
Es ist zu verstehen, was
ist das Verhältnis zwischen

66
00:03:04,790 --> 00:03:07,520
die Wörter in einem Satz.

67
00:03:07,520 --> 00:03:11,170
Und die große Frage ist, können Sie
lehren, einen Computer, wie man spricht

68
00:03:11,170 --> 00:03:12,650
eine Sprache im Allgemeinen?

69
00:03:12,650 --> 00:03:17,810
Welches ist eine sehr interessante Frage, um
denken, als vielleicht in der Zukunft,

70
00:03:17,810 --> 00:03:19,930
Sie gehen zu können sind
sprechen Sie mit Ihrem Handy.

71
00:03:19,930 --> 00:03:23,290
Ein bisschen wie das, was wir tun, sondern mit Siri
etwas mehr wie, kann man eigentlich

72
00:03:23,290 --> 00:03:25,690
sagen, was Sie wollen, und das Telefon
wird alles zu verstehen.

73
00:03:25,690 --> 00:03:28,350
Und es kann folgen Fragen
und sprechen.

74
00:03:28,350 --> 00:03:30,880
Das ist etwas wirklich spannend,
meiner Meinung nach.

75
00:03:30,880 --> 00:03:33,070
>> Also, etwas über natürliche Sprachen.

76
00:03:33,070 --> 00:03:36,220
Etwas wirklich interessant
natürlichen Sprachen ist, dass, und dies ist

77
00:03:36,220 --> 00:03:38,470
Kredit meinem Linguistikprofessor,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Sie gibt ein Beispiel, und ich denke,
es ist wirklich interessant.

79
00:03:40,830 --> 00:03:47,060
Denn wir lernen die Sprache aus, wenn
wir sind geboren und dann unsere Mutter

80
00:03:47,060 --> 00:03:49,170
Sprache Art wächst auf uns.

81
00:03:49,170 --> 00:03:52,570
>> Und im Grunde haben Sie Sprache lernen
von minimalen Eingangs, oder?

82
00:03:52,570 --> 00:03:56,700
Sie sind gerade erst von Ihrem Eingangs
Eltern von dem, was Ihre Sprache klingt

83
00:03:56,700 --> 00:03:58,770
mögen und Sie lernen es einfach.

84
00:03:58,770 --> 00:04:02,240
Also, es ist interessant, denn wenn man sich
bei diesen Sätzen, zum Beispiel.

85
00:04:02,240 --> 00:04:06,980
Sie sehen, "Maria setzt auf eine Mantel jeden
Mal, wenn sie das Haus verlässt. "

86
00:04:06,980 --> 00:04:10,650
>> In diesem Fall ist es möglich, den
Wort "sie" beziehen sich auf Mary, oder?

87
00:04:10,650 --> 00:04:13,500
Sie können sagen: "Maria setzt auf eine Mantel
jedes Mal, Mary verlässt das

88
00:04:13,500 --> 00:04:14,960
Haus. ", so ist das in Ordnung.

89
00:04:14,960 --> 00:04:19,370
Aber dann, wenn Sie auf dem Satz aussehen
"Sie zieht einen Mantel jedes Mal Mary

90
00:04:19,370 --> 00:04:22,850
verlässt das Haus. "Sie wissen, dass es
unmöglich zu sagen, dass "sie" ist

91
00:04:22,850 --> 00:04:24,260
sich auf Maria.

92
00:04:24,260 --> 00:04:27,070
>> Es gibt keine Möglichkeit zu sagen, dass "Maria bringt
einen Mantel jedes Mal Mary verlässt

93
00:04:27,070 --> 00:04:30,790
das Haus. "So ist es interessant, weil
Dies ist die Art von Intuition

94
00:04:30,790 --> 00:04:32,890
dass jeder Muttersprachler.

95
00:04:32,890 --> 00:04:36,370
Und niemand wurde gelehrt, dass dies
der Weg, der die Syntax funktioniert.

96
00:04:36,370 --> 00:04:41,930
Und das kann man nur über diese "sie"
Mary, die sich auf in diesem ersten Fall

97
00:04:41,930 --> 00:04:44,260
und tatsächlich in dieser anderen
zu, jedoch nicht in diese ein.

98
00:04:44,260 --> 00:04:46,500
Aber jeder Art bekommt
zur gleichen Antwort.

99
00:04:46,500 --> 00:04:48,580
Alle sind sich einig, dass auf.

100
00:04:48,580 --> 00:04:53,280
Also es ist wirklich interessant, wie auch wenn
Sie wissen nicht, alle Regeln

101
00:04:53,280 --> 00:04:55,575
in der Sprache, die Sie verstehen Art von
wie die Sprache funktioniert.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Also das Interessante an natürlichen
Sprache ist, dass Sie nicht zu haben,

104
00:05:01,530 --> 00:05:06,970
wissen, jede Syntax zu wissen, ob ein Satz
grammatisch oder ungrammatisch für

105
00:05:06,970 --> 00:05:08,810
den meisten Fällen.

106
00:05:08,810 --> 00:05:13,220
Das macht Sie denken, dass vielleicht, was
passiert ist, dass durch Ihr Leben, Sie

107
00:05:13,220 --> 00:05:17,410
einfach immer mehr und mehr
Sätze gesagt zu Ihnen.

108
00:05:17,410 --> 00:05:19,800
Und dann halten Auswendiglernen
alle Sätze.

109
00:05:19,800 --> 00:05:24,230
Und dann, wenn jemand sagt,
etwas, diesen Satz hören und

110
00:05:24,230 --> 00:05:27,040
Sie Ihren Wortschatz zu suchen
Sätze und sehen, ob

111
00:05:27,040 --> 00:05:28,270
dieser Satz ist da.

112
00:05:28,270 --> 00:05:29,830
Und wenn es dort
sagen, es ist grammati.

113
00:05:29,830 --> 00:05:31,740
Wenn es nicht Sie sagen, es ist
ungrammatisch.

114
00:05:31,740 --> 00:05:35,150
>> Also, in diesem Fall, würden Sie sagen, oh,
so dass Sie eine riesige Liste von alle haben

115
00:05:35,150 --> 00:05:36,140
möglichen Sätze.

116
00:05:36,140 --> 00:05:38,240
Und dann, wenn Sie einen Satz hören,
Sie wissen, ob es grammati ist oder

117
00:05:38,240 --> 00:05:39,450
nicht darauf basiert.

118
00:05:39,450 --> 00:05:42,360
Die Sache ist, dass, wenn Sie schauen
ein Satz beispielsweise "The

119
00:05:42,360 --> 00:05:47,540
fünfköpfige CS50 TF gekocht Blinde
Krake mit einem DAPA Becher. "Es ist

120
00:05:47,540 --> 00:05:49,630
definitiv nicht ein Satz
dass Sie schon einmal gehört.

121
00:05:49,630 --> 00:05:52,380
Aber zur gleichen Zeit, die Sie wissen, dass es
ziemlich grammatischen, oder?

122
00:05:52,380 --> 00:05:55,570
Es sind keine grammatikalische Fehler
und man kann sagen, dass

123
00:05:55,570 --> 00:05:57,020
es ist ein Satz möglich.

124
00:05:57,020 --> 00:06:01,300
>> So macht es uns denken, dass eigentlich die
Weise, dass wir lernen, die Sprache ist nicht nur

125
00:06:01,300 --> 00:06:07,090
indem er eine riesige Datenbank von möglichen
Wörter oder Sätze, sondern eher

126
00:06:07,090 --> 00:06:11,490
Verständnis der Beziehung zwischen
Wörter in den Sätzen.

127
00:06:11,490 --> 00:06:14,570
Heißt das Sinn?

128
00:06:14,570 --> 00:06:19,370
So, dann ist die Frage, kann
Computer Sprachen lernen?

129
00:06:19,370 --> 00:06:21,490
Können wir lehren Sprache zu Computern?

130
00:06:21,490 --> 00:06:24,230
>> Also, lassen Sie den Unterschied denken
zwischen einem Muttersprachler der Sprache

131
00:06:24,230 --> 00:06:25,460
und einen Computer.

132
00:06:25,460 --> 00:06:27,340
Also, was passiert mit dem Lautsprecher?

133
00:06:27,340 --> 00:06:30,430
Nun lernt die Muttersprache ein
Sprache von der Exposition zu.

134
00:06:30,430 --> 00:06:34,200
Normalerweise ist die frühe Kindheit.

135
00:06:34,200 --> 00:06:38,570
Also, im Grunde, man muss nur ein Baby,
und halten Sie im Gespräch mit ihm, und es

136
00:06:38,570 --> 00:06:40,540
nur lernt, wie man spricht
die Sprache, oder?

137
00:06:40,540 --> 00:06:42,660
Also, sind Sie im Grunde geben
Eingang zu dem Baby.

138
00:06:42,660 --> 00:06:45,200
So, dann können Sie argumentieren, dass ein Computer
kann das gleiche tun, oder?

139
00:06:45,200 --> 00:06:49,510
Sie können nur geben Sprache
als Eingabe in den Computer.

140
00:06:49,510 --> 00:06:53,410
>> Wie zum Beispiel eine Reihe von Dateien
Bücher haben, die in englischer Sprache.

141
00:06:53,410 --> 00:06:56,190
Vielleicht ist das eine Möglichkeit, dass Sie
könnte möglicherweise ein lehren

142
00:06:56,190 --> 00:06:57,850
Computer-Englisch, oder?

143
00:06:57,850 --> 00:07:01,000
Und in der Tat, wenn man darüber nachdenkt,
es dauert vielleicht ein paar

144
00:07:01,000 --> 00:07:02,680
Tage, um ein Buch zu lesen.

145
00:07:02,680 --> 00:07:05,760
Für einen Computer dauert es eine Sekunde, um
Blick auf all die Worte in einem Buch.

146
00:07:05,760 --> 00:07:10,810
So können Sie sich denken, dass kann nur sein, diese
Argument der Eingabe von um dich herum,

147
00:07:10,810 --> 00:07:15,440
das ist nicht genug, zu sagen, dass das ist,
etwas, das nur Menschen tun können.

148
00:07:15,440 --> 00:07:17,680
Sie können Computer denken
können auch Eingang bekommen.

149
00:07:17,680 --> 00:07:21,170
>> Die zweite Sache ist, dass Muttersprachler
haben auch ein Gehirn, das hat

150
00:07:21,170 --> 00:07:23,870
Sprachlern-Fähigkeit.

151
00:07:23,870 --> 00:07:27,020
Aber wenn man darüber nachdenkt,
ein Gehirn ist eine solide Sache.

152
00:07:27,020 --> 00:07:30,450
Wenn Sie geboren werden, ist es bereits eingestellt -

153
00:07:30,450 --> 00:07:31,320
Das ist Ihr Gehirn.

154
00:07:31,320 --> 00:07:34,660
Und wie sind Sie aufgewachsen, bekommst du nur mehr
Eingabe von Sprache und vielleicht Nährstoffe

155
00:07:34,660 --> 00:07:35,960
und andere Sachen.

156
00:07:35,960 --> 00:07:38,170
Aber so ziemlich das Gehirn
ist eine solide Sache.

157
00:07:38,170 --> 00:07:41,290
>> So kann man sagen, gut, vielleicht können Sie
einen Computer bauen, die einen Haufen hat

158
00:07:41,290 --> 00:07:45,890
Funktionen und Methoden, die nur imitieren
Sprachlern-Fähigkeit.

159
00:07:45,890 --> 00:07:49,630
In diesem Sinne könnte man sagen, gut, ich
können einen Computer, der alle hat, haben

160
00:07:49,630 --> 00:07:52,270
Dinge, die ich brauchen, um Sprache zu lernen.

161
00:07:52,270 --> 00:07:56,200
Und die letzte Sache ist, dass eine native
Lautsprecher erfährt von Versuch und Irrtum.

162
00:07:56,200 --> 00:08:01,090
Also im Grunde eine andere wichtige Sache in
Sprachenlernen ist, dass Sie Art

163
00:08:01,090 --> 00:08:05,340
der Dinge, indem sie
Verallgemeinerungen, was Sie hören.

164
00:08:05,340 --> 00:08:10,280
>> So wie Sie aufwachsen Sie erfahren, dass
einige Worte sind mehr wie Substantive,

165
00:08:10,280 --> 00:08:11,820
einige andere, die sind Adjektive.

166
00:08:11,820 --> 00:08:14,250
Und Sie müssen nicht zu einem haben
Kenntnisse der Sprachwissenschaft

167
00:08:14,250 --> 00:08:15,040
um das zu verstehen.

168
00:08:15,040 --> 00:08:18,560
Aber Sie wissen, es gibt einige Wörter
in einem Teil des aufge

169
00:08:18,560 --> 00:08:22,570
Satz und einige andere in anderen
Teile des Satzes.

170
00:08:22,570 --> 00:08:26,110
>> Und dass, wenn Sie etwas, das zu tun
wie ein Satz, der nicht richtig -

171
00:08:26,110 --> 00:08:28,770
vielleicht wegen einer Verallgemeinerung über
zum Beispiel.

172
00:08:28,770 --> 00:08:32,210
Vielleicht, wenn du aufwächst, beachten Sie,
dass der Plural in der Regel

173
00:08:32,210 --> 00:08:35,809
indem ein S an gebildet
das Ende des Wortes.

174
00:08:35,809 --> 00:08:40,042
Und dann können Sie versuchen, den Plural von tun
"Hirsch" als "Hirsche" oder "Zahn", wie

175
00:08:40,042 --> 00:08:44,780
"Tooths." Also Ihre Eltern oder
jemand korrigiert und sagt, nein, die

176
00:08:44,780 --> 00:08:49,020
Plural von "Hirsch" ist "Hirsch", und die
Plural von "Zahn" ist "die Zähne." Und dann

177
00:08:49,020 --> 00:08:50,060
Sie lernen, diese Dinge.

178
00:08:50,060 --> 00:08:51,520
So lernen Sie, aus Versuch und Irrtum.

179
00:08:51,520 --> 00:08:53,100
>> Sie können aber auch das tun,
mit einem Computer.

180
00:08:53,100 --> 00:08:55,310
Sie können so etwas genannt haben
Reinforcement Learning.

181
00:08:55,310 --> 00:08:58,560
Welche ist im Grunde wie eine geben
Computer eine Belohnung, wenn es funktioniert

182
00:08:58,560 --> 00:08:59,410
etwas richtig.

183
00:08:59,410 --> 00:09:04,710
Und die ihm das Gegenteil einer Belohnung
und wenn es etwas falsch macht.

184
00:09:04,710 --> 00:09:07,410
Man kann tatsächlich sehen, dass, wenn Sie gehen
Google Translate und Sie versuchen,

185
00:09:07,410 --> 00:09:10,220
einen Satz zu übersetzen, es
fragt Sie nach Feedback.

186
00:09:10,220 --> 00:09:13,240
Also, wenn Sie sagen, oh, es gibt eine bessere
Übersetzung für diesen Satz.

187
00:09:13,240 --> 00:09:18,140
Sie können es geben und dann, wenn viele
Leute sagen immer, dass es eine bessere

188
00:09:18,140 --> 00:09:21,560
Übersetzung, es ist nur erfährt, dass es
sollte, dass die Übersetzung verwenden, anstatt

189
00:09:21,560 --> 00:09:22,960
das man es geben wurde.

190
00:09:22,960 --> 00:09:28,830
>> Also, es ist eine sehr philosophische Frage
zu sehen, ob Computer sein werden,

191
00:09:28,830 --> 00:09:30,340
in der Lage, in die Zukunft zu sprechen oder nicht.

192
00:09:30,340 --> 00:09:34,440
Aber ich habe große Hoffnungen, dass sie können,
nur auf diesen Argumenten.

193
00:09:34,440 --> 00:09:38,570
Aber es ist nur mehr eine philosophische
Frage.

194
00:09:38,570 --> 00:09:43,460
>> So, während Computer noch nicht sprechen kann,
was sind die Dinge, die wir tun können?

195
00:09:43,460 --> 00:09:47,070
Manche Dinge sind wirklich cool
Datenklassifizierung.

196
00:09:47,070 --> 00:09:53,210
Also, zum Beispiel, euch wissen,
dass E-Mail-Dienste zu tun, zum

197
00:09:53,210 --> 00:09:55,580
beispielsweise Spam-Filter.

198
00:09:55,580 --> 00:09:59,070
Also, wenn Sie Spam erhalten, ist es
versucht, zu einem anderen Feld zu filtern.

199
00:09:59,070 --> 00:10:00,270
Also, wie macht sie das?

200
00:10:00,270 --> 00:10:06,080
Es ist nicht wie der Computer nur weiß,
Welche E-Mail-Adressen werden Spam-Versand.

201
00:10:06,080 --> 00:10:09,130
So ist es mehr auf den Inhalt der Basis
die Nachricht, oder vielleicht der Titel, oder

202
00:10:09,130 --> 00:10:11,310
vielleicht einige Muster, die Sie haben.

203
00:10:11,310 --> 00:10:15,690
>> Also, im Grunde, was man tun kann, ist ein
viele Daten von E-Mails, die Spam sind,

204
00:10:15,690 --> 00:10:19,980
E-Mails, die nicht Spam sind, und lernen, was
Art von Muster, die Sie in der haben

205
00:10:19,980 --> 00:10:21,000
diejenigen, die Spam sind.

206
00:10:21,000 --> 00:10:23,260
Und das ist ein Teil der Rechen
Linguistik.

207
00:10:23,260 --> 00:10:24,720
Es heißt Datenklassifizierung.

208
00:10:24,720 --> 00:10:28,100
Und wir sind eigentlich los, um zu sehen, ein
Beispiel für die in den folgenden Folien.

209
00:10:28,100 --> 00:10:32,910
>> Die zweite Sache ist natürlicher Sprache
Verarbeitung, die Sache ist die, dass die

210
00:10:32,910 --> 00:10:36,580
Graph Suche tut der Vermietung
Sie einen Satz zu schreiben.

211
00:10:36,580 --> 00:10:38,690
Und er vertraut Sie verstehen, was
ist die Bedeutung und gibt

212
00:10:38,690 --> 00:10:39,940
Sie ein besseres Ergebnis.

213
00:10:39,940 --> 00:10:43,880
Eigentlich, wenn man bei Google oder Bing gehen
Sie suchen, und so etwas wie Lady

214
00:10:43,880 --> 00:10:47,060
Gaga in der Höhe, sind Sie eigentlich vor sich geht
5 '1 "statt Informationen erhalten

215
00:10:47,060 --> 00:10:50,170
von ihr, weil es tatsächlich versteht,
was du redest.

216
00:10:50,170 --> 00:10:52,140
Also das ist Teil des natürlichen
Sprachverarbeitung.

217
00:10:52,140 --> 00:10:57,000
>> Oder auch, wenn Sie gerade Siri, erste
Sie einen Algorithmus, der versucht zu haben

218
00:10:57,000 --> 00:11:01,130
übersetzen, was du sagst
in Worten in Text.

219
00:11:01,130 --> 00:11:03,690
Und dann versucht es zu übersetzen
dass in Bedeutung.

220
00:11:03,690 --> 00:11:06,570
Also das ist alles Teil des natürlichen
Sprachverarbeitung.

221
00:11:06,570 --> 00:11:08,320
>> Dann haben Sie die maschinelle Übersetzung -

222
00:11:08,320 --> 00:11:10,300
was ist eigentlich ein
meiner Favoriten -

223
00:11:10,300 --> 00:11:14,060
die nur die Übersetzung von
eine Sprache in eine andere.

224
00:11:14,060 --> 00:11:17,950
So können Sie sich denken, dass, wenn du tust
maschinelle Übersetzung, haben Sie

225
00:11:17,950 --> 00:11:19,750
unendlichen Möglichkeiten der Sätze.

226
00:11:19,750 --> 00:11:22,960
Also gibt es keine Möglichkeit, nur die Speicherung
jede einzelne Übersetzung.

227
00:11:22,960 --> 00:11:27,440
Also, kommen mit interessanten müssen Sie
Algorithmen, um in der Lage zu sein,

228
00:11:27,440 --> 00:11:30,110
übersetzen jede einzelne
Satz in irgendeiner Weise.

229
00:11:30,110 --> 00:11:32,483
>> Ihr habt noch Fragen haben so weit?

230
00:11:32,483 --> 00:11:34,450
Nein?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> Also, was machen wir heute zu sehen?

233
00:11:36,900 --> 00:11:39,300
Zunächst einmal, ich werde zu reden
die Klassifizierung Problem.

234
00:11:39,300 --> 00:11:41,440
Also die, die ich war,
Spruch über Spam.

235
00:11:41,440 --> 00:11:46,820
Was ich tun werde, ist, angesichts Texte
einen Song, können Sie versuchen, herauszufinden,

236
00:11:46,820 --> 00:11:49,810
mit hoher Wahrscheinlichkeit
wer ist der Sänger?

237
00:11:49,810 --> 00:11:53,590
Lassen Sie uns sagen, dass ich Songs von Lady
Gaga und Katy Perry, wenn ich Ihnen ein

238
00:11:53,590 --> 00:11:58,130
neuen Song, können Sie herausfinden, ob
es ist Katy Perry oder Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> Die zweite, ich werde einfach zu reden
über die Segmentierung Problem.

240
00:12:01,490 --> 00:12:05,780
Also ich weiß nicht, ob euch wissen, aber
Chinesisch, Japanisch, anderen ostasiatischen

241
00:12:05,780 --> 00:12:08,090
Sprachen und andere Sprachen
im allgemeinen keine

242
00:12:08,090 --> 00:12:09,830
Leerzeichen zwischen den Wörtern.

243
00:12:09,830 --> 00:12:13,540
Und dann, wenn Sie über die Art und Weise, die denken,
Computer Art versucht,

244
00:12:13,540 --> 00:12:18,600
verstehen, Verarbeitung natürlicher Sprache,
sieht es bei den Worten und

245
00:12:18,600 --> 00:12:21,500
versucht, die Beziehungen zu verstehen
zwischen ihnen, oder?

246
00:12:21,500 --> 00:12:25,440
Aber dann, wenn Sie Chinesisch, und Sie
null Räume, es ist wirklich schwer,

247
00:12:25,440 --> 00:12:28,360
herauszufinden, was ist die Beziehung zwischen
Worten, weil sie nicht irgendwelche

248
00:12:28,360 --> 00:12:29,530
Wörter zuerst.

249
00:12:29,530 --> 00:12:32,600
Sie wollen etwas namens tun haben
Segmentierung, die nur das Einfüllen

250
00:12:32,600 --> 00:12:36,490
Räume zwischen dem, was wir nennen würde
Wörter in diesen Sprachen.

251
00:12:36,490 --> 00:12:37,740
Sinnvoll?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> Und dann sind wir zu gehen
sprechen über Syntax.

254
00:12:41,540 --> 00:12:44,050
Also nur ein wenig über die natürliche
Sprachverarbeitung.

255
00:12:44,050 --> 00:12:45,420
Es wird nur ein Überblick sein.

256
00:12:45,420 --> 00:12:50,700
So heute, im Grunde, was ich tun möchte,
wird geben euch ein wenig ein

257
00:12:50,700 --> 00:12:53,930
Innenseite, was sind die Möglichkeiten
dass Sie tun können, mit Rechen

258
00:12:53,930 --> 00:12:54,960
Linguistik.

259
00:12:54,960 --> 00:13:00,410
Und dann können Sie sehen, was Sie denken
gehört zu den Dingen, cool.

260
00:13:00,410 --> 00:13:02,270
Und vielleicht haben Sie ein Projekt denken kann
kommen und mit mir reden.

261
00:13:02,270 --> 00:13:05,260
Und ich kann Ihnen Ratschläge zu geben
auf, wie es zu implementieren.

262
00:13:05,260 --> 00:13:09,060
>> So Syntax wird ein wenig sein
zu den Grafik Suche und Maschinen

263
00:13:09,060 --> 00:13:09,670
Übersetzung.

264
00:13:09,670 --> 00:13:13,650
Ich werde nur ein Beispiel, wie geben
Sie könnten beispielsweise übersetzen

265
00:13:13,650 --> 00:13:16,020
etwas aus dem Portugiesischen ins Englische.

266
00:13:16,020 --> 00:13:17,830
Klingt gut?

267
00:13:17,830 --> 00:13:19,293
>> Also erstens, die Einstufung Problem.

268
00:13:19,293 --> 00:13:23,590
Ich werde sagen, dass dieser Teil des Seminars
wird die größte Herausforderung sein

269
00:13:23,590 --> 00:13:27,560
ein, nur weil es geht
einige Codierung sein.

270
00:13:27,560 --> 00:13:29,470
Aber es geht um Python sein.

271
00:13:29,470 --> 00:13:34,380
Ich weiß, ihr Jungs nicht wissen, Python, so
Ich werde einfach auf der hohen erklären

272
00:13:34,380 --> 00:13:35,750
Ebene, was ich tue.

273
00:13:35,750 --> 00:13:40,900
Und Sie müssen nicht wirklich interessieren zu
viel über die Syntax, weil das ist

274
00:13:40,900 --> 00:13:42,140
etwas, das man Jungs lernen können.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
Klingt gut.

277
00:13:43,580 --> 00:13:46,020
>> Also, was ist die Klassifizierung Problem?

278
00:13:46,020 --> 00:13:49,140
Sie sind also einige Texte gegeben
ein Lied, und Sie wollen, zu erraten,

279
00:13:49,140 --> 00:13:50,620
wer singt es.

280
00:13:50,620 --> 00:13:54,045
Und dies kann für jede Art sein,
andere Probleme.

281
00:13:54,045 --> 00:13:59,980
So kann es sein, zum Beispiel, haben Sie ein
Präsidentschaftswahlkampf, und Sie haben ein

282
00:13:59,980 --> 00:14:02,610
Rede, und Sie finden möchten
aus, wenn es zum Beispiel

283
00:14:02,610 --> 00:14:04,470
Obama oder Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Oder Sie können eine Reihe von E-Mails haben und
Sie herausfinden, wenn sie wollen

285
00:14:07,700 --> 00:14:08,890
Spam oder nicht.

286
00:14:08,890 --> 00:14:11,440
So ist es nur einige Klassifizierung
Daten basierend auf den Wörtern

287
00:14:11,440 --> 00:14:13,790
dass Sie da.

288
00:14:13,790 --> 00:14:16,295
>> So, das zu tun, müssen Sie
machen einige Annahmen.

289
00:14:16,295 --> 00:14:20,570
So viel über Computerlinguistik
macht Annahmen,

290
00:14:20,570 --> 00:14:24,100
Regel intelligent Annahmen, so dass
Sie können gute Ergebnisse zu erzielen.

291
00:14:24,100 --> 00:14:26,670
Der Versuch, ein Modell für sie zu schaffen.

292
00:14:26,670 --> 00:14:31,290
Und dann probieren Sie es aus und sehen, ob es funktioniert,
wenn es Ihnen gute Präzision.

293
00:14:31,290 --> 00:14:33,940
Und wenn doch, dann sind Sie
versuchen, es zu verbessern.

294
00:14:33,940 --> 00:14:37,640
Wenn es nicht, wie, OK, sind Sie vielleicht
sollte eine andere Annahme zu machen.

295
00:14:37,640 --> 00:14:44,030
>> So ist die Annahme, dass wir zu gehen
machen, ist, dass ein Künstler in der Regel singt

296
00:14:44,030 --> 00:14:49,220
zu einem Thema mehrere Male, und vielleicht
verwendet Worte mehrmals nur

297
00:14:49,220 --> 00:14:50,270
weil sie es gewohnt sind.

298
00:14:50,270 --> 00:14:51,890
Sie können denken Sie nur an Ihren Freund.

299
00:14:51,890 --> 00:14:57,350
Ich bin sicher, Sie haben alle Jungs Freunde
, die ihre Unterschrift Satz sagen,

300
00:14:57,350 --> 00:14:59,260
buchstäblich für jeden einzelnen Satz -

301
00:14:59,260 --> 00:15:02,660
wie ein bestimmtes Wort oder eine bestimmte
Phrase, die sie sagen, für

302
00:15:02,660 --> 00:15:04,020
jeder einzelne Satz.

303
00:15:04,020 --> 00:15:07,920
>> Und was Sie sagen können, ist, dass, wenn Sie sehen,
ein Satz, der eine Signatur hat

304
00:15:07,920 --> 00:15:11,450
Satz, können Sie erraten, dass wahrscheinlich
Ihr Freund ist der

305
00:15:11,450 --> 00:15:13,310
einer sagen, oder?

306
00:15:13,310 --> 00:15:18,410
So können Sie diese Annahme zu machen und dann
das ist, wie Sie ein Modell erstellen.

307
00:15:18,410 --> 00:15:24,440
>> Das Beispiel, das werde ich geben kann, ist auf
Lady Gaga, wie zum Beispiel Menschen

308
00:15:24,440 --> 00:15:27,430
sagen, dass sie nutzt "Baby" für
alle ihre Nummer eins Songs.

309
00:15:27,430 --> 00:15:32,270
Und tatsächlich ist dies ein Video, dass zeigt,
sie sagen, das Wort "Baby" für

310
00:15:32,270 --> 00:15:33,410
verschiedene Lieder.

311
00:15:33,410 --> 00:15:33,860
>> [VIDEO PLAYBACK]

312
00:15:33,860 --> 00:15:34,310
>> - (Gesang) Baby.

313
00:15:34,310 --> 00:15:36,220
Baby.

314
00:15:36,220 --> 00:15:37,086
Baby.

315
00:15:37,086 --> 00:15:37,520
Baby.

316
00:15:37,520 --> 00:15:37,770
Baby.

317
00:15:37,770 --> 00:15:38,822
Baby.

318
00:15:38,822 --> 00:15:39,243
Baby.

319
00:15:39,243 --> 00:15:40,085
Baby.

320
00:15:40,085 --> 00:15:40,510
Baby.

321
00:15:40,510 --> 00:15:40,850
Baby.

322
00:15:40,850 --> 00:15:41,090
>> [END VIDEO PLAYBACK-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS FREITAS: So gibt es, glaube ich,
40 Songs, in denen sie hier, sagt der

324
00:15:44,020 --> 00:15:48,690
Wort "Baby". So können Sie im Grunde denke,
dass, wenn Sie ein Lied, das hat zu sehen

325
00:15:48,690 --> 00:15:52,180
das Wort "Baby", es gibt einige Hoch
Wahrscheinlichkeit, dass es Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Aber lassen Sie uns versuchen, diese zu entwickeln
weiter mehr formal.

327
00:15:56,450 --> 00:16:00,470
>> Das sind also Texte der Songs durch
Lady Gaga und Katy Perry.

328
00:16:00,470 --> 00:16:04,120
So können Sie bei Lady Gaga aussehen, sie sehen, Sie
haben viele Vorkommen von "Baby", eine

329
00:16:04,120 --> 00:16:07,710
Menge von Ereignissen von "Art und Weise." Und dann
Katy Perry hat viele Vorkommen

330
00:16:07,710 --> 00:16:10,360
"Die", eine Menge von Ereignissen von "Feuer".

331
00:16:10,360 --> 00:16:14,560
>> Also im Grunde das, was wir wollen
zu tun ist, können Sie einen Text bekommen.

332
00:16:14,560 --> 00:16:20,480
Lassen Sie uns sagen, dass Sie einen Text für eine bekommen
Lied, das "Baby", nur "Baby". Wenn

333
00:16:20,480 --> 00:16:24,750
Sie nur das Wort "Baby", und dies bekommen
sind alle Daten, die Sie von haben

334
00:16:24,750 --> 00:16:27,880
Lady Gaga und Katy Perry, wer würde
Sie schätzen, ist die Person,

335
00:16:27,880 --> 00:16:29,370
, der das Lied singt?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga oder Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, oder?

338
00:16:33,150 --> 00:16:37,400
Denn sie ist der einzige, der sagt,
"Baby." Das klingt dumm, oder?

339
00:16:37,400 --> 00:16:38,760
OK, das ist wirklich einfach.

340
00:16:38,760 --> 00:16:41,860
Ich schaue mich nur an den beiden Songs und der
Natürlich ist sie die einzige, die hat

341
00:16:41,860 --> 00:16:42,660
"Baby."

342
00:16:42,660 --> 00:16:44,740
>> Aber was, wenn Sie ein paar Worte?

343
00:16:44,740 --> 00:16:50,900
Wenn Sie eine aktuelle Lyrik, etwas zu haben
wie, "Baby, ich habe gerade

344
00:16:50,900 --> 00:16:51,610
ging zu einem [sehen? CFT?]

345
00:16:51,610 --> 00:16:54,020
Vortrag "oder so ähnlich, und
dann haben Sie eigentlich, um herauszufinden, -

346
00:16:54,020 --> 00:16:55,780
bezogen auf alle diese Worte -

347
00:16:55,780 --> 00:16:58,350
, die der Künstler, der wahrscheinlich
sang dieses Lied?

348
00:16:58,350 --> 00:17:01,860
So wollen wir versuchen, zu entwickeln
dies ein wenig weiter.

349
00:17:01,860 --> 00:17:05,630
>> OK, also nur auf den Daten basiert, die wir
erhalten, scheint es, dass Gaga ist wahrscheinlich

350
00:17:05,630 --> 00:17:06,260
die Sängerin.

351
00:17:06,260 --> 00:17:07,904
Aber wie können wir schreiben
diese formal?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
Und es geht um ein wenig
bisschen Statistik.

354
00:17:13,140 --> 00:17:15,880
Also, wenn Sie verloren gehen, nur versuchen,
, um das Konzept zu verstehen.

355
00:17:15,880 --> 00:17:18,700
Es spielt keine Rolle, wenn Sie verstehen,
die Gleichungen sehr gut.

356
00:17:18,700 --> 00:17:22,150
Dies wird sich alles online sein.

357
00:17:22,150 --> 00:17:25,490
>> Also im Grunde, was ich der Berechnung ist die
Wahrscheinlichkeit, dass dieser Song ist durch

358
00:17:25,490 --> 00:17:28,040
Lady Gaga da -

359
00:17:28,040 --> 00:17:30,660
so bedeutet diese Bar gegeben, dass -

360
00:17:30,660 --> 00:17:33,680
Ich sah das Wort "Baby".
Heißt das Sinn?

361
00:17:33,680 --> 00:17:35,540
So versuche ich zu berechnen
diese Wahrscheinlichkeit.

362
00:17:35,540 --> 00:17:38,540
>> So gibt es dieses Theorem genannt
Bayes-Theorem besagt, dass das

363
00:17:38,540 --> 00:17:43,330
Wahrscheinlichkeit eines gegebenen B die
Wahrscheinlichkeit von B gegeben A, mal die

364
00:17:43,330 --> 00:17:47,660
Wahrscheinlichkeit A, über die Wahrscheinlichkeit
von B. Dies ist ein langer Gleichung.

365
00:17:47,660 --> 00:17:51,970
Aber was Sie von verstehen
das ist, dass das ist, was ich will

366
00:17:51,970 --> 00:17:52,830
berechnen, oder?

367
00:17:52,830 --> 00:17:56,570
So ist die Wahrscheinlichkeit, dass dieser Song ist durch
Lady Gaga da sah ich das Wort

368
00:17:56,570 --> 00:17:58,230
"Baby."

369
00:17:58,230 --> 00:18:02,960
>> Und jetzt, was ich bekomme ist die
Wahrscheinlichkeit für das Wort "Baby" gegeben

370
00:18:02,960 --> 00:18:04,390
dass ich Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
Und was ist das im Grunde?

372
00:18:07,220 --> 00:18:10,500
Was das bedeutet, ist, was ist das
Wahrscheinlichkeit des Sehens, das Wort "Baby"

373
00:18:10,500 --> 00:18:12,130
Gaga in Texten?

374
00:18:12,130 --> 00:18:16,240
Wenn ich in einer sehr berechnen, dass
einfach so, es ist nur die Anzahl der

375
00:18:16,240 --> 00:18:23,640
Ich sehe mal "Baby" an der Gesamtzahl
von Wörtern in Texten Gaga, oder?

376
00:18:23,640 --> 00:18:27,600
Was ist die Frequenz, die ich sehe,
dieses Wort in Gaga Arbeit?

377
00:18:27,600 --> 00:18:30,530
Sinnvoll?

378
00:18:30,530 --> 00:18:33,420
>> Der zweite Term ist der
Wahrscheinlichkeit Gaga.

379
00:18:33,420 --> 00:18:34,360
Was bedeutet das?

380
00:18:34,360 --> 00:18:38,550
Das bedeutet im Grunde, was ist das
Wahrscheinlichkeit der Klassifizierung

381
00:18:38,550 --> 00:18:40,690
einige Texte als Gaga?

382
00:18:40,690 --> 00:18:45,320
Und das ist irgendwie komisch, aber
Lassen Sie uns an einem Beispiel zu denken.

383
00:18:45,320 --> 00:18:49,230
Also sagen wir mal, dass die Wahrscheinlichkeit
mit "Baby" in einem Song ist das gleiche

384
00:18:49,230 --> 00:18:51,760
für Gaga und Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Aber Britney Spears hat zweimal
mehr Songs als Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Also, wenn jemand nur zufällig gibt Ihnen
Text von "Baby", das erste, was Sie

387
00:19:00,570 --> 00:19:04,710
betrachten ist, was ist die Wahrscheinlichkeit,
mit "Baby" in einem Gaga-Song "Baby"

388
00:19:04,710 --> 00:19:05,410
Britney in einem Lied?

389
00:19:05,410 --> 00:19:06,460
Und es ist das gleiche.

390
00:19:06,460 --> 00:19:10,040
>> So ist die zweite Sache, die Sie sehen, ist,
Nun, was ist die Wahrscheinlichkeit,

391
00:19:10,040 --> 00:19:13,770
diese Lyrik von selbst ein Gaga Lyrik,
und was die Wahrscheinlichkeit

392
00:19:13,770 --> 00:19:15,380
ein Britney Lyrik?

393
00:19:15,380 --> 00:19:18,950
So, da Britney hat so viele weitere Texte
als Gaga, würden Sie wahrscheinlich

394
00:19:18,950 --> 00:19:21,470
sagen wir, na ja, ist dies wahrscheinlich
a Britney Lyrik.

395
00:19:21,470 --> 00:19:23,340
Also das ist, warum wir dies
nennen Sie hier.

396
00:19:23,340 --> 00:19:24,670
Probability of Gaga.

397
00:19:24,670 --> 00:19:26,950
Das macht Sinn?

398
00:19:26,950 --> 00:19:28,660
Tut es das?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> Und der letzte ist nur die Wahrscheinlichkeit
von "Baby", das nicht

401
00:19:33,500 --> 00:19:34,810
wirklich wichtig, dass viel.

402
00:19:34,810 --> 00:19:39,940
Aber es ist die Wahrscheinlichkeit,
Sehen "baby" in englischer Sprache.

403
00:19:39,940 --> 00:19:42,725
Wir in der Regel nicht darauf, dass
viel über diesen Begriff.

404
00:19:42,725 --> 00:19:44,490
Heißt das Sinn?

405
00:19:44,490 --> 00:19:48,110
Also die Wahrscheinlichkeit ist Gaga
bezeichnet die frühere Wahrscheinlichkeit

406
00:19:48,110 --> 00:19:49,530
der Klasse Gaga.

407
00:19:49,530 --> 00:19:53,840
Denn es bedeutet nur, dass, was ist das
Wahrscheinlichkeit, dass diese Klasse -

408
00:19:53,840 --> 00:19:55,520
welche Gaga ist -

409
00:19:55,520 --> 00:19:59,350
nur im Allgemeinen, nur
ohne Bedingungen.

410
00:19:59,350 --> 00:20:02,560
>> Und dann, wenn ich Wahrscheinlichkeit
Gaga gegeben "Baby", wir nennen es Plus

411
00:20:02,560 --> 00:20:06,160
Tränen eine Wahrscheinlichkeit, denn es ist
die Wahrscheinlichkeit,

412
00:20:06,160 --> 00:20:08,300
Gaga einige Hinweise gegeben.

413
00:20:08,300 --> 00:20:11,050
Also ich gebe dir die Beweise
Ich sah, dass das Wort Baby und

414
00:20:11,050 --> 00:20:12,690
das Lied einen Sinn?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> Also, wenn ich ausgerechnet, dass für jede
der Songs für Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
was das wäre -

419
00:20:25,916 --> 00:20:27,730
scheinbar kann ich mich nicht bewegen diese.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Die Wahrscheinlichkeit Gaga werden
so etwas wie, 2 über 24, mal 1/2,

422
00:20:36,920 --> 00:20:38,260
mehr als 2 über 53.

423
00:20:38,260 --> 00:20:40,640
Es spielt keine Rolle, wenn Sie wissen, was
diese Zahlen herkommen.

424
00:20:40,640 --> 00:20:44,750
Aber es ist nur eine Zahl, die gehen
mehr als 0 sein, oder?

425
00:20:44,750 --> 00:20:48,610
>> Und dann, wenn ich Katy Perry, die
Wahrscheinlichkeit des "Baby" gegeben Katy ist

426
00:20:48,610 --> 00:20:49,830
bereits 0, oder?

427
00:20:49,830 --> 00:20:52,820
Da gibt es kein "Baby"
in Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Also dann 0 wird, und Gaga
Siege, was bedeutet, dass Gaga ist

429
00:20:56,360 --> 00:20:57,310
wahrscheinlich die Sängerin.

430
00:20:57,310 --> 00:20:58,560
Heißt das Sinn?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Also, wenn ich will diese mehr offiziell zu machen,
Ich kann ein Modell tatsächlich tun

435
00:21:11,750 --> 00:21:12,700
nach mehreren Wörtern.

436
00:21:12,700 --> 00:21:14,610
Also sagen wir mal, dass ich etwas
wie, "Baby, ich bin

437
00:21:14,610 --> 00:21:16,030
auf Feuer ", oder so etwas.

438
00:21:16,030 --> 00:21:17,760
So hat es die mehrfachen Wörter.

439
00:21:17,760 --> 00:21:20,880
Und in diesem Fall können Sie sehen,
dass "Baby" ist in Gaga,

440
00:21:20,880 --> 00:21:21,710
aber es ist nicht in Katy.

441
00:21:21,710 --> 00:21:24,940
Und "Feuer" ist in Katy, aber
es ist nicht in Gaga, oder?

442
00:21:24,940 --> 00:21:27,200
Also es wird immer schwieriger, oder?

443
00:21:27,200 --> 00:21:31,440
Denn es scheint, dass Sie fast
eine Verbindung zwischen den beiden.

444
00:21:31,440 --> 00:21:36,980
>> Also, was Sie tun müssen ist, davon ausgehen,
Unabhängigkeit unter den Wörtern.

445
00:21:36,980 --> 00:21:41,210
Also im Grunde, was das bedeutet ist, dass
Ich bin nur die Berechnung, was ist der

446
00:21:41,210 --> 00:21:44,330
Wahrscheinlichkeit des Sehens "Baby", was ist
die Wahrscheinlichkeit des Sehens "ich," und

447
00:21:44,330 --> 00:21:46,670
"Am" und "on" und "Feuer"
alle separat.

448
00:21:46,670 --> 00:21:48,670
Dann bin ich Multiplikation alle von ihnen.

449
00:21:48,670 --> 00:21:52,420
Und ich werde sehen, was ist die Wahrscheinlichkeit,
zu sehen, den ganzen Satz.

450
00:21:52,420 --> 00:21:55,210
Sinnvoll?

451
00:21:55,210 --> 00:22:00,270
>> Also im Grunde, wenn ich nur ein Wort,
was ich finde, ist die arg max,

452
00:22:00,270 --> 00:22:05,385
was bedeutet, was ist die Klasse, ist
die mir die höchste Wahrscheinlichkeit?

453
00:22:05,385 --> 00:22:10,010
Also, was ist die Klasse, was ist
mir die höchste Wahrscheinlichkeit für

454
00:22:10,010 --> 00:22:11,940
Wahrscheinlichkeit der Klasse gegebene Wort.

455
00:22:11,940 --> 00:22:17,610
Also in diesem Fall, Gaga gegeben "Baby."
Oder Katy gegeben "Baby." Sinnvoll?

456
00:22:17,610 --> 00:22:21,040
>> Und gerade von Bayes, dass
Gleichung, die ich zeigte,

457
00:22:21,040 --> 00:22:24,780
schaffen wir diese Fraktion.

458
00:22:24,780 --> 00:22:28,750
Die einzige Sache ist, dass Sie sehen, dass
die Wahrscheinlichkeit des Wortes angesichts der

459
00:22:28,750 --> 00:22:31,370
Klassenänderungen je
von der Klasse, oder?

460
00:22:31,370 --> 00:22:34,260
Die Anzahl der "Baby" s, die ich habe
in Gaga ist von Katy.

461
00:22:34,260 --> 00:22:37,640
Die Wahrscheinlichkeit, dass die Klasse auch
Änderungen, weil es nur die Anzahl

462
00:22:37,640 --> 00:22:39,740
Lieder jeder von ihnen hat.

463
00:22:39,740 --> 00:22:43,980
>> Aber die Wahrscheinlichkeit des Wortes selbst
wird sich für alle gleich sein, die

464
00:22:43,980 --> 00:22:44,740
Künstler, oder?

465
00:22:44,740 --> 00:22:47,150
So dass die Wahrscheinlichkeit des Wortes ist
nur, was ist die Wahrscheinlichkeit,

466
00:22:47,150 --> 00:22:49,820
zu sehen, dass das Wort in
Englisch Sprache?

467
00:22:49,820 --> 00:22:51,420
Also es ist das gleiche für alle.

468
00:22:51,420 --> 00:22:55,790
So, da diese konstant ist, können wir nur
fallen diese und nicht darum kümmern.

469
00:22:55,790 --> 00:23:00,230
So wird dies tatsächlich sein kann das
Gleichung, die wir suchen.

470
00:23:00,230 --> 00:23:03,360
>> Und wenn ich mehrere Worte, ich bin
immer noch die vor haben

471
00:23:03,360 --> 00:23:04,610
Wahrscheinlichkeit hier.

472
00:23:04,610 --> 00:23:06,980
Die einzige Sache ist, dass ich die Multiplikation
die Wahrscheinlichkeit

473
00:23:06,980 --> 00:23:08,490
alle anderen Wörtern.

474
00:23:08,490 --> 00:23:10,110
Also ich bin Multiplikation alle von ihnen.

475
00:23:10,110 --> 00:23:12,610
Sinnvoll?

476
00:23:12,610 --> 00:23:18,440
Es sieht seltsam, aber im Grunde bedeutet,
Berechnung der vor der Klasse, und

477
00:23:18,440 --> 00:23:22,100
dann durch die Wahrscheinlichkeit jeder multiplizieren
der Wörter, die in dieser Klasse.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> Und Sie wissen, dass die Wahrscheinlichkeit, ein
Wort gegeben, eine Klasse sein wird, die

480
00:23:29,150 --> 00:23:34,520
Anzahl der Sie sehen, dass im Wort
die Klasse, dividiert durch die Anzahl der

481
00:23:34,520 --> 00:23:37,020
Wörter, die Sie haben, dass
Klasse im Allgemeinen.

482
00:23:37,020 --> 00:23:37,990
Sinnvoll?

483
00:23:37,990 --> 00:23:41,680
Es ist nur, wie "Baby" war über zwei
die Anzahl von Wörtern,

484
00:23:41,680 --> 00:23:43,020
Ich hatte in den Texten.

485
00:23:43,020 --> 00:23:45,130
Also einfach die Frequenz.

486
00:23:45,130 --> 00:23:46,260
>> Aber es ist eine Sache.

487
00:23:46,260 --> 00:23:51,250
Denken Sie daran, wie ich zeigen, dass die
Wahrscheinlichkeit des "Baby" als Text

488
00:23:51,250 --> 00:23:56,350
von Katy Perry war 0, nur weil Katy
Perry hatte nicht "Baby" überhaupt?

489
00:23:56,350 --> 00:24:04,900
Aber es klingt ein wenig hart, um nur
einfach sagen, dass Texte nicht aus sein

490
00:24:04,900 --> 00:24:10,040
ein Künstler, nur weil sie nicht haben
dieses Wort insbesondere zu jeder Zeit.

491
00:24:10,040 --> 00:24:13,330
>> So konnte man nur sagen, gut, wenn Sie
dieses Wort nicht zu haben, ich werde

492
00:24:13,330 --> 00:24:15,640
geben Sie eine geringere Wahrscheinlichkeit,
aber ich bin einfach nicht zu

493
00:24:15,640 --> 00:24:17,420
geben Sie 0 sofort.

494
00:24:17,420 --> 00:24:21,040
Denn vielleicht war es so etwas wie,
"Feuer, Feuer, Feuer, Feuer", das ist

495
00:24:21,040 --> 00:24:21,990
völlig Katy Perry.

496
00:24:21,990 --> 00:24:26,060
Und dann "Baby", und es geht nur um
0 sofort, denn es gab ein

497
00:24:26,060 --> 00:24:27,250
"Baby."

498
00:24:27,250 --> 00:24:31,440
>> Also im Grunde das, was wir tun, ist etwas,
genannt Laplace Glättung.

499
00:24:31,440 --> 00:24:36,260
Und das bedeutet nur, dass ich gebe
gewisse Wahrscheinlichkeit auch auf die Worte

500
00:24:36,260 --> 00:24:37,850
dass gibt es nicht.

501
00:24:37,850 --> 00:24:43,170
Also, was ich tue, ist, dass, wenn ich
Diese Berechnung, habe ich immer ein hinzufügen

502
00:24:43,170 --> 00:24:44,180
der Zähler.

503
00:24:44,180 --> 00:24:48,060
Also auch wenn das Wort nicht vorhanden ist, in
In diesem Fall, wenn dieser 0 ist, bin ich immer noch

504
00:24:48,060 --> 00:24:51,250
Berechnen dieses als 1 über die
Gesamtzahl der Wörter.

505
00:24:51,250 --> 00:24:55,060
Ansonsten bekomme ich, wie viele Wörter
Ich habe und ich 1 hinzuzufügen.

506
00:24:55,060 --> 00:24:58,300
Also zähle ich für beide Fälle.

507
00:24:58,300 --> 00:25:00,430
Sinnvoll?

508
00:25:00,430 --> 00:25:03,060
>> So, jetzt machen wir einige Codierung.

509
00:25:03,060 --> 00:25:06,440
Ich werde es ziemlich schnell zu tun zu haben,
aber es ist nur wichtig, dass Sie

510
00:25:06,440 --> 00:25:08,600
Jungs verstehen die Konzepte.

511
00:25:08,600 --> 00:25:13,450
Also, was wir zu tun versuchen
genau dies umzusetzen

512
00:25:13,450 --> 00:25:14,330
was ich gerade gesagt habe -

513
00:25:14,330 --> 00:25:19,110
Ich möchte, dass Texte aus setzen
Lady Gaga und Katy Perry.

514
00:25:19,110 --> 00:25:22,980
Und das Programm ist in der Lage zu sein,
sagen, wenn diese neuen Texte sind von Gaga

515
00:25:22,980 --> 00:25:24,170
oder Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Sinnvoll?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> Also ich habe dieses Programm werde ich
zu classify.py anrufen.

519
00:25:30,710 --> 00:25:31,970
Also das ist Python.

520
00:25:31,970 --> 00:25:34,210
Es ist eine neue Programmiersprache.

521
00:25:34,210 --> 00:25:38,020
Es ist in einigen sehr ähnlich
Möglichkeiten, C und PHP.

522
00:25:38,020 --> 00:25:43,180
Es ist ähnlich, weil, wenn Sie wollen
lernen Python nach C zu wissen, es ist

523
00:25:43,180 --> 00:25:46,270
wirklich nicht so viel von einer Herausforderung
Python, nur weil es viel einfacher

524
00:25:46,270 --> 00:25:47,520
als C, zunächst.

525
00:25:47,520 --> 00:25:49,370
Und viele Dinge sind bereits
für Sie implementiert.

526
00:25:49,370 --> 00:25:56,820
So, wie wie PHP hat Funktionen, die
eine Liste zu sortieren, oder etwas anhängen

527
00:25:56,820 --> 00:25:58,780
in ein Array, oder blah, blah, blah.

528
00:25:58,780 --> 00:26:00,690
Python hat alle diese ebenfalls.

529
00:26:00,690 --> 00:26:05,960
>> Also ich werde einfach zu schnell erklären
wie wir die Klassifizierung zu tun

530
00:26:05,960 --> 00:26:07,860
Problem hier.

531
00:26:07,860 --> 00:26:13,230
Also sagen wir mal, dass in diesem Fall habe ich
Texte von Gaga und Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Die Art und Weise, die ich habe ist, dass diese Texte
das erste Wort der Texte ist

533
00:26:21,880 --> 00:26:25,250
der Name des Künstlers, und
der Rest ist der Text.

534
00:26:25,250 --> 00:26:29,470
Also lassen Sie uns sagen, dass ich diese Liste in
welche die erste ist Songtexte von Gaga.

535
00:26:29,470 --> 00:26:31,930
Also bin ich hier auf dem richtigen Weg.

536
00:26:31,930 --> 00:26:35,270
Und der nächste ist Katy, und
es hat auch die Texte.

537
00:26:35,270 --> 00:26:38,040
>> Also das ist, wie Sie erklären
eine Variable in Python.

538
00:26:38,040 --> 00:26:40,200
Sie müssen nicht um den Datentyp zu geben.

539
00:26:40,200 --> 00:26:43,150
Man schreibt einfach "lyrics"
ein bisschen wie in PHP.

540
00:26:43,150 --> 00:26:44,890
Sinnvoll?

541
00:26:44,890 --> 00:26:47,770
>> Also, was sind die Dinge, die ich zu
berechnen zu können, berechnen die

542
00:26:47,770 --> 00:26:49,360
Wahrscheinlichkeiten?

543
00:26:49,360 --> 00:26:55,110
Ich muss die "Priors" berechnen
jedes der verschiedenen

544
00:26:55,110 --> 00:26:56,710
Klassen, die ich habe.

545
00:26:56,710 --> 00:27:06,680
Ich muss die "Seitenzähne" berechnen
oder so ziemlich die Wahrscheinlichkeiten

546
00:27:06,680 --> 00:27:12,150
jede der anderen Begriffen
Ich für jeden Künstler haben kann.

547
00:27:12,150 --> 00:27:17,210
Also innerhalb Gaga, zum Beispiel, werde ich
, um eine Liste, wie oft ich sehen

548
00:27:17,210 --> 00:27:19,250
jedes der Wörter.

549
00:27:19,250 --> 00:27:20,760
Sinnvoll?

550
00:27:20,760 --> 00:27:25,370
>> Und schließlich, ich bin nur zu haben, ein
Liste namens "Worte", die gerade dabei ist,

551
00:27:25,370 --> 00:27:29,780
zu haben, wie viele Wörter, die ich
haben für jeden Künstler.

552
00:27:29,780 --> 00:27:33,760
Also für Gaga, zum Beispiel, wenn ich
die Texte, hatte ich, glaube ich, 24

553
00:27:33,760 --> 00:27:34,750
Wörter insgesamt.

554
00:27:34,750 --> 00:27:38,970
Also diese Liste nur zu haben,
Gaga 24 und Katy andere Nummer.

555
00:27:38,970 --> 00:27:40,130
Sinnvoll?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> So, jetzt, eigentlich, wollen wir
gehen auf die Codierung.

558
00:27:42,530 --> 00:27:45,270
So in Python, kann man eigentlich
geben eine Reihe von verschiedenen

559
00:27:45,270 --> 00:27:46,630
Dinge aus einer Funktion.

560
00:27:46,630 --> 00:27:50,810
Also werde ich, um diese Funktion zu erstellen
genannte "bedingte", die gehen

561
00:27:50,810 --> 00:27:53,890
, all diese Dinge zurück, die
"Priors", die "Wahrscheinlichkeiten", und die

562
00:27:53,890 --> 00:28:05,690
"Worte." So "bedingte", und es ist
werde in den Aufruf werden "lyrics".

563
00:28:05,690 --> 00:28:11,510
>> So, jetzt möchte ich Sie eigentlich
schreiben Sie diese Funktion.

564
00:28:11,510 --> 00:28:17,750
Also die Möglichkeit, dass ich dies schreiben
Funktion Ich habe gerade festgelegt

565
00:28:17,750 --> 00:28:20,620
funktionieren mit "def." Also habe ich "def
bedingt, "und es ist unter

566
00:28:20,620 --> 00:28:28,700
"Lyrics". Und was dieser tun wird
ist, zunächst einmal, ich habe meine priors

567
00:28:28,700 --> 00:28:31,030
Ich möchte, dass zu berechnen.

568
00:28:31,030 --> 00:28:34,330
>> Also die Möglichkeit, dass ich dies tun, ist
ein Wörterbuch in Python, die

569
00:28:34,330 --> 00:28:37,320
ist so ziemlich das gleiche wie ein Hash-
Tisch, oder es ist wie eine iterative

570
00:28:37,320 --> 00:28:40,480
Array in PHP.

571
00:28:40,480 --> 00:28:44,150
Dies ist, wie erkläre ich ein Wörterbuch.

572
00:28:44,150 --> 00:28:53,580
Und im Grunde, was das bedeutet, ist, dass
Priors von Gaga ist 0,5, zum Beispiel, wenn

573
00:28:53,580 --> 00:28:57,200
50% der Texte sind aus
Gaga, Katy sind von 50%.

574
00:28:57,200 --> 00:28:58,450
Sinnvoll?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Also muss ich herausfinden, wie
die Prioren zu berechnen.

577
00:29:03,680 --> 00:29:07,120
>> Die nächsten, die ich zu tun habe, auch,
die Wahrscheinlichkeiten und die Wörter.

578
00:29:07,120 --> 00:29:17,100
Also die Wahrscheinlichkeiten Gaga ist die Liste
aller Wahrscheinlichkeiten, dass ich

579
00:29:17,100 --> 00:29:19,160
haben für jedes der Worte für Gaga.

580
00:29:19,160 --> 00:29:23,880
Also, wenn ich gehen, um Wahrscheinlichkeiten Gaga
"Baby", zum Beispiel, wird es mir geben

581
00:29:23,880 --> 00:29:28,750
so etwas wie 2 über 24 in diesem Fall.

582
00:29:28,750 --> 00:29:30,070
Sinnvoll?

583
00:29:30,070 --> 00:29:36,120
Also gehe ich auf "Wahrscheinlichkeiten", die gehen
"Gaga" Eimer, die eine Liste von allen hat

584
00:29:36,120 --> 00:29:40,550
Gaga die Worte, dann gehe ich zu "Baby"
und ich sehe die Wahrscheinlichkeit.

585
00:29:40,550 --> 00:29:45,940
>> Und schließlich habe ich diese
"Worte" Wörterbuch.

586
00:29:45,940 --> 00:29:53,620
So, hier, "Wahrscheinlichkeiten". Und dann
"Worte." Also, wenn ich will "Worte", "Gaga"

587
00:29:53,620 --> 00:29:58,330
was passieren wird ist, dass es
wird mich 24 geben, sagen, dass ich

588
00:29:58,330 --> 00:30:01,990
haben 24 Wörter in Texten von Gaga.

589
00:30:01,990 --> 00:30:04,110
Das macht Sinn?

590
00:30:04,110 --> 00:30:07,070
So, hier, "Wörter" ist gleich dah-dah-dah.

591
00:30:07,070 --> 00:30:07,620
Ok

592
00:30:07,620 --> 00:30:12,210
>> Also, was ich zu tun ist, ich bin zu gehen
laufen jedem der Texte, so

593
00:30:12,210 --> 00:30:14,490
jede der Saiten,
Ich habe in der Liste.

594
00:30:14,490 --> 00:30:18,040
Und ich werde, um diese Dinge zu berechnen
für jede der Kandidaten.

595
00:30:18,040 --> 00:30:19,950
Das macht Sinn?

596
00:30:19,950 --> 00:30:21,700
Also muss ich eine for-Schleife zu tun.

597
00:30:21,700 --> 00:30:26,300
>> So in Python, was ich tun kann, ist "für die Linie
in Texten. "Die gleiche Sache wie ein

598
00:30:26,300 --> 00:30:28,000
"Für jeden"-Anweisung in PHP.

599
00:30:28,000 --> 00:30:33,420
Denken Sie daran, wie es war, wenn ich konnte, PHP
sagen, "für jedes Lied als

600
00:30:33,420 --> 00:30:35,220
Linie. "Das macht Sinn?

601
00:30:35,220 --> 00:30:38,900
Also ich nehme jede der Linien, in diesem
Fall diese Zeichenfolge und der nächste

602
00:30:38,900 --> 00:30:44,540
String so für jede der Linien, was ich bin
zu tun ist, zuerst, ich werde

603
00:30:44,540 --> 00:30:49,150
Aufgeteilt diese Zeile in eine Liste von
Wörter durch Leerzeichen getrennt.

604
00:30:49,150 --> 00:30:53,730
>> So ist die kühle Sache über Python ist, dass
Sie könnten nur Google wie "Wie kann ich

605
00:30:53,730 --> 00:30:58,220
Zerlegt einen String in Worte? "Und es ist
werde Ihnen sagen, wie Sie es tun.

606
00:30:58,220 --> 00:31:04,890
Und der Weg, es zu tun, es ist nur "line
= Line.split () "und es ist im Grunde

607
00:31:04,890 --> 00:31:08,640
gehen Sie eine Liste mit zu geben
jedes der Wörter hier.

608
00:31:08,640 --> 00:31:09,620
Das macht Sinn?

609
00:31:09,620 --> 00:31:15,870
Also jetzt, dass ich das tat, ich möchte wissen,
wer ist der Sänger von diesem Lied.

610
00:31:15,870 --> 00:31:20,130
Und zu tun, dass ich nur noch das bekommen
erste Element des Arrays, oder?

611
00:31:20,130 --> 00:31:26,390
So kann ich nur sagen, dass ich "-Sängerin
= Zeile (0) "Das macht Sinn?

612
00:31:26,390 --> 00:31:32,010
>> Und dann, was ich tun müssen, ist, zunächst
alle, ich werde zu aktualisieren, wie viele

613
00:31:32,010 --> 00:31:36,130
Worte habe ich unter "Gaga." Ich bin nur so
gehen, um zu berechnen, wie viele Wörter, die ich

614
00:31:36,130 --> 00:31:38,690
haben in dieser Liste, oder?

615
00:31:38,690 --> 00:31:41,910
Denn das ist, wie viele Wörter, die ich haben
in den Texten, und ich werde einfach

616
00:31:41,910 --> 00:31:44,120
es um die "Gaga" Array hinzufügen.

617
00:31:44,120 --> 00:31:47,090
Heißt das Sinn?

618
00:31:47,090 --> 00:31:49,010
Zu viel Konzentrieren Sie sich nicht auf die Syntax.

619
00:31:49,010 --> 00:31:50,430
Denken Sie mehr über die Konzepte.

620
00:31:50,430 --> 00:31:52,400
Das ist der wichtigste Teil.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> Also, was kann ich tun, wenn "Gaga" ist
bereits in dieser Liste, so ", wenn Sänger in

623
00:32:00,260 --> 00:32:03,190
Worte "was bedeutet, dass ich schon
haben Worte von Gaga.

624
00:32:03,190 --> 00:32:06,640
Ich möchte nur die zusätzliche hinzufügen
Worte dafür.

625
00:32:06,640 --> 00:32:15,810
Also, was ich zu tun ist, "Wörter (Sänger)
+ = Len (Linie) - 1 ".

626
00:32:15,810 --> 00:32:18,250
Und dann kann ich nur tun, die
Länge der Leitung.

627
00:32:18,250 --> 00:32:21,860
So, wie viele Elemente, die ich
haben in der Anordnung.

628
00:32:21,860 --> 00:32:27,060
Und ich habe zu tun, nur weil minus 1
das erste Element des Feldes ist nur

629
00:32:27,060 --> 00:32:29,180
Sängerin und die sind nicht Texte.

630
00:32:29,180 --> 00:32:31,420
Das macht Sinn?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "Else", es bedeutet, dass ich eigentlich
einfügen Gaga in der Liste.

633
00:32:35,820 --> 00:32:45,990
Also habe ich nur tun "Wörter (Sänger)
= Len (line) - 1 ", sorry.

634
00:32:45,990 --> 00:32:49,200
So dass der einzige Unterschied zwischen den beiden
Linien ist, dass diese eine, tut es nicht

635
00:32:49,200 --> 00:32:51,080
existieren noch, so bin ich nur
initialisieren.

636
00:32:51,080 --> 00:32:53,820
Dieses, das ich bin eigentlich Zugabe.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
So wurde dies zusätzlich zu Worten.

639
00:32:59,480 --> 00:33:03,040
>> Jetzt möchte ich zu den Prioren hinzufügen.

640
00:33:03,040 --> 00:33:05,480
Wie berechne ich die priors?

641
00:33:05,480 --> 00:33:11,580
Die priors berechnet werden
, um wie viele Male.

642
00:33:11,580 --> 00:33:15,340
Also, wie viele Male Sie, dass Sänger sehen
unter all den Sängern, die Sie

643
00:33:15,340 --> 00:33:16,380
haben, oder?

644
00:33:16,380 --> 00:33:18,810
Also für Gaga und Katy Perry,
in diesem Fall sehe ich Gaga

645
00:33:18,810 --> 00:33:20,570
einmal, Katy Perry einmal.

646
00:33:20,570 --> 00:33:23,320
>> Also im Grunde die Prioren für Gaga
und für Katy Perry würde

647
00:33:23,320 --> 00:33:24,390
nur einer sein, oder?

648
00:33:24,390 --> 00:33:26,500
Sie haben, wie viele Male
Ich sehe den Künstler.

649
00:33:26,500 --> 00:33:28,740
Das ist also sehr einfach zu berechnen.

650
00:33:28,740 --> 00:33:34,100
Ich kann einfach etwas ähnliches wie wie "wenn
Sänger in priors: "Ich werde einfach

651
00:33:34,100 --> 00:33:38,970
1, um ihre priors Feld hinzufügen.

652
00:33:38,970 --> 00:33:51,000
Also "priors (singen)" + = 1 "und dann" else "
Ich werde "priors (Sänger) zu tun

653
00:33:51,000 --> 00:33:55,000
= 1 ist. "Das macht Sinn?

654
00:33:55,000 --> 00:34:00,080
>> Also, wenn es nicht existiert Ich habe nur
wie 1, sonst habe ich nur hinzufügen, ein.

655
00:34:00,080 --> 00:34:11,280
OK, jetzt alles, was ich noch zu tun
ist auch jedes der Worte, um das Add

656
00:34:11,280 --> 00:34:12,290
Wahrscheinlichkeiten.

657
00:34:12,290 --> 00:34:14,889
So habe ich zu zählen, wie viele Male
Ich sehe jedes der Worte.

658
00:34:14,889 --> 00:34:18,780
Also muss ich nur noch anderen zu tun
for-Schleife in der Zeile.

659
00:34:18,780 --> 00:34:25,190
>> Also erste, was ich tun werde, ist
überprüfen, ob die Sängerin hat bereits ein

660
00:34:25,190 --> 00:34:26,969
Wahrscheinlichkeiten Array.

661
00:34:26,969 --> 00:34:31,739
Also werde ich prüfen, ob der Sänger nicht
Wahrscheinlichkeiten haben eine Reihe, ich bin nur

662
00:34:31,739 --> 00:34:34,480
gehen, um für sie zu initialisieren.

663
00:34:34,480 --> 00:34:36,400
Es ist nicht einmal ein Array, sorry,
es ist ein Wörterbuch.

664
00:34:36,400 --> 00:34:43,080
So sind die Wahrscheinlichkeiten der Sänger wird
ein offenes Wörterbuch sein, also bin ich

665
00:34:43,080 --> 00:34:45,830
Initialisierung nur ein Wörterbuch für sie.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> Und jetzt kann ich eigentlich tun, eine for-Schleife
zu jedem der Wörter "berechnen

668
00:34:58,330 --> 00:35:00,604
Wahrscheinlichkeiten.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
Also, was ich tun kann, ist eine for-Schleife.

671
00:35:04,160 --> 00:35:06,590
Also ich werde einfach zu durchlaufen
über die Anordnung.

672
00:35:06,590 --> 00:35:15,320
Also die Möglichkeit, dass ich, dass in Python zu tun
ist "for i in range." Vom 1.

673
00:35:15,320 --> 00:35:19,200
denn ich will in der zweiten beginnen
Element, da die erste ist die

674
00:35:19,200 --> 00:35:20,260
Sänger Namen.

675
00:35:20,260 --> 00:35:24,990
So von einem bis zu der
Länge der Leitung.

676
00:35:24,990 --> 00:35:29,760
Und wenn ich es eigentlich reichen aus gehen
wie hier von 1 bis len der

677
00:35:29,760 --> 00:35:30,740
Zeile minus 1.

678
00:35:30,740 --> 00:35:33,810
So ist es bereits tut das Ding zu tun
n minus 1 für Arrays, die sehr ist

679
00:35:33,810 --> 00:35:35,500
praktisch.

680
00:35:35,500 --> 00:35:37,850
Das macht Sinn?

681
00:35:37,850 --> 00:35:42,770
>> Also für jeden von ihnen, was ich zu
Sie ist, wie in dem anderen,

682
00:35:42,770 --> 00:35:50,320
Ich werde prüfen, ob das Wort in dieser
Position in der Zeile bereits

683
00:35:50,320 --> 00:35:51,570
Wahrscheinlichkeiten.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
Und dann, als ich sagte, hier Wahrscheinlichkeiten
Worten, wie in ich

686
00:35:57,260 --> 00:35:58,400
"Wahrscheinlichkeiten (Sänger)".

687
00:35:58,400 --> 00:35:59,390
So wird der Name des Sängers.

688
00:35:59,390 --> 00:36:03,450
Also, wenn es bereits in
"Probabilit (Sänger)" ist, bedeutet es, dass ich

689
00:36:03,450 --> 00:36:11,960
wollen ein, um es hinzuzufügen, so werde ich
tun "Wahrscheinlichkeiten (Sänger)" und die

690
00:36:11,960 --> 00:36:14,100
Wort heißt "Linie (i)".

691
00:36:14,100 --> 00:36:22,630
Ich werde 1 addieren und "anderes" Ich bin nur
werde es auf 1 zu initialisieren.

692
00:36:22,630 --> 00:36:23,880
"Line (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Das macht Sinn?

695
00:36:28,420 --> 00:36:30,180
>> So ich alle Arrays berechnet.

696
00:36:30,180 --> 00:36:36,580
So, jetzt alles, was ich für die tun
dieser wird nur "zurück priors,

697
00:36:36,580 --> 00:36:43,230
Wahrscheinlichkeiten und Worte. "Lass uns
sehen, wenn es welche gibt, OK.

698
00:36:43,230 --> 00:36:45,690
Es scheint alles so weit funktioniert.

699
00:36:45,690 --> 00:36:46,900
Also, das macht Sinn?

700
00:36:46,900 --> 00:36:47,750
In gewisser Weise?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
So, jetzt habe ich alle Wahrscheinlichkeiten.

703
00:36:51,980 --> 00:36:55,100
So, jetzt das einzige, was ich noch habe
ist, nur um das Ding haben, dass

704
00:36:55,100 --> 00:36:58,650
berechnet das Produkt aller
Wahrscheinlichkeiten, wenn ich die Texte.

705
00:36:58,650 --> 00:37:06,270
>> Also sagen wir mal, dass ich jetzt nennen
Diese Funktion "zu klassifizieren ()" und die

706
00:37:06,270 --> 00:37:08,880
Sache, die Funktion nimmt
ist nur ein Argument.

707
00:37:08,880 --> 00:37:13,170
Nehmen wir an, "Baby, ich bin on fire" und es ist
gehen, um herauszufinden, was die

708
00:37:13,170 --> 00:37:14,490
Wahrscheinlichkeit, dass dies Gaga?

709
00:37:14,490 --> 00:37:16,405
Was ist die Wahrscheinlichkeit
dass dies Katie?

710
00:37:16,405 --> 00:37:19,690
Klingt gut?

711
00:37:19,690 --> 00:37:25,750
Also ich werde einfach zu schaffen haben ein
neue Funktion namens "klassifizieren ()" und

712
00:37:25,750 --> 00:37:29,180
es geht um einige nehmen
Texte auch.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
Und neben den Texten habe ich auch
müssen die Prioren zu senden, die

715
00:37:36,160 --> 00:37:37,700
Wahrscheinlichkeiten und die Wörter.

716
00:37:37,700 --> 00:37:44,000
Also werde ich auf Texte, priors schicken,
Wahrscheinlichkeiten, Wörter.

717
00:37:44,000 --> 00:37:51,840
>> So dies statt Texte, Prioren,
Wahrscheinlichkeiten, Wörter.

718
00:37:51,840 --> 00:37:53,530
Also, was macht sie?

719
00:37:53,530 --> 00:37:57,180
Es ist im Grunde wird sich durch alle gehen
die möglichen Kandidaten, die Sie

720
00:37:57,180 --> 00:37:58,510
haben als Sänger.

721
00:37:58,510 --> 00:37:59,425
Und wo sind die Kandidaten?

722
00:37:59,425 --> 00:38:01,020
Sie sind in den Prioren, oder?

723
00:38:01,020 --> 00:38:02,710
So habe ich alle, die da.

724
00:38:02,710 --> 00:38:07,870
So werde ich ein Wörterbuch haben
aller möglichen Kandidaten.

725
00:38:07,870 --> 00:38:14,220
Und dann für jeden Kandidaten in die
Priors, so bedeutet dies, dass es sich auf

726
00:38:14,220 --> 00:38:17,740
sein Gaga, Katie, wenn ich
mehr wird es sein würde.

727
00:38:17,740 --> 00:38:20,410
Ich werde die Berechnung zu starten
diese Wahrscheinlichkeit.

728
00:38:20,410 --> 00:38:28,310
Die Wahrscheinlichkeit, wie wir in der Säge
Powerpoint ist die vor Zeiten die

729
00:38:28,310 --> 00:38:30,800
Produkt von jedem der
andere Wahrscheinlichkeiten.

730
00:38:30,800 --> 00:38:32,520
>> So kann ich hier das gleiche tun.

731
00:38:32,520 --> 00:38:36,330
Ich kann nur tun, Wahrscheinlichkeit
zunächst nur der Stand der Technik.

732
00:38:36,330 --> 00:38:40,340
So priors des Kandidaten.

733
00:38:40,340 --> 00:38:40,870
Right?

734
00:38:40,870 --> 00:38:45,360
Und jetzt habe ich über all die laufen
Worte, die ich in den Texten zu sein

735
00:38:45,360 --> 00:38:48,820
in der Lage, die Wahrscheinlichkeit hinzufügen
für jeden von ihnen, OK?

736
00:38:48,820 --> 00:38:57,900
Also "für Wort in Text", was ich
zu tun ist, wenn das Wort in

737
00:38:57,900 --> 00:39:01,640
"Wahrscheinlichkeiten (Kandidat)", das
bedeutet, dass es ist ein Wort, dass die

738
00:39:01,640 --> 00:39:03,640
Kandidat hat in ihren Texten -

739
00:39:03,640 --> 00:39:05,940
zum Beispiel "Baby" für Gaga -

740
00:39:05,940 --> 00:39:11,710
, was ich tun werde, ist, dass die
Wahrscheinlichkeit wird sich multiplizieren

741
00:39:11,710 --> 00:39:22,420
von 1 plus die Wahrscheinlichkeiten
der Kandidat für dieses Wort.

742
00:39:22,420 --> 00:39:25,710
Und es heißt "Wort".

743
00:39:25,710 --> 00:39:32,440
Dies geteilt durch die Anzahl der Worte
dass ich für diesen Kandidaten.

744
00:39:32,440 --> 00:39:37,450
Die Gesamtzahl der Worte, die ich
für die Sängerin, die ich freue mich auf.

745
00:39:37,450 --> 00:39:40,290
>> "Else". es bedeutet, dass es ein neues Wort
damit es wie zum Beispiel

746
00:39:40,290 --> 00:39:41,860
"Feuer" für Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Also ich will einfach nur mehr tun ein
"Wort (Kandidat)".

748
00:39:45,760 --> 00:39:47,710
Also ich möchte nicht, diesen Begriff hier setzen.

749
00:39:47,710 --> 00:39:50,010
>> Also, es wird im Grunde sein
Kopieren und Einfügen dieser.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Aber ich werde diesen Teil zu löschen.

752
00:39:56,000 --> 00:39:57,610
So ist es nur geht, um ein über das sein.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Klingt gut?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
Und jetzt am Ende, ich bin gerade dabei,
drucken den Namen des Kandidaten und

757
00:40:09,700 --> 00:40:15,750
die Wahrscheinlichkeit, dass Sie haben
mit dem S auf ihre Texte.

758
00:40:15,750 --> 00:40:16,200
Das macht Sinn?

759
00:40:16,200 --> 00:40:18,390
Und ich eigentlich gar nicht
brauchen dieses Wörterbuch.

760
00:40:18,390 --> 00:40:19,510
Das macht Sinn?

761
00:40:19,510 --> 00:40:21,810
>> Also, lasst uns sehen, ob das tatsächlich funktioniert.

762
00:40:21,810 --> 00:40:24,880
Also, wenn ich dieses, es hat nicht funktioniert.

763
00:40:24,880 --> 00:40:26,130
Warten Sie eine Sekunde.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Words (Kandidat)", "Wörter (Kandidat)",
das ist

766
00:40:31,720 --> 00:40:33,750
der Name des Arrays.

767
00:40:33,750 --> 00:40:41,435
Ok, so heißt es, es gibt einige Fehler
für Bewerber in Priors.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Lassen Sie mich nur ein wenig chillen.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
Lassen Sie uns versuchen.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> So gibt es Katy Perry hat diese
Wahrscheinlichkeit, dieses mal die 10 bis

774
00:40:58,710 --> 00:41:02,200
minus 7 und Gaga hat diese
mal 10 hoch minus 6.

775
00:41:02,200 --> 00:41:05,610
Sie sehen also, es zeigt, dass Gaga
eine höhere Wahrscheinlichkeit.

776
00:41:05,610 --> 00:41:09,260
Also "Baby, ich bin on Fire" ist
wahrscheinlich ein Gaga-Song.

777
00:41:09,260 --> 00:41:10,580
Das macht Sinn?

778
00:41:10,580 --> 00:41:12,030
Also das ist, was wir getan haben.

779
00:41:12,030 --> 00:41:16,010
>> Dieser Code wird online gebucht werden,
so, euch kann es auszuprobieren.

780
00:41:16,010 --> 00:41:20,720
Vielleicht nutzen einige es, wenn Sie wollen
tun, ein Projekt oder etwas ähnliches.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
Dies war nur um zu zeigen,
welche Rechen

783
00:41:25,930 --> 00:41:27,230
Linguistik-Code aussieht.

784
00:41:27,230 --> 00:41:33,040
Aber jetzt auf mehr loslassen
hohe Zeug.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> Also die anderen Probleme, die ich
sprach -

787
00:41:35,150 --> 00:41:37,550
das Segmentierungsproblem
ist der erste von ihnen.

788
00:41:37,550 --> 00:41:40,820
So haben Sie hier Japanisch.

789
00:41:40,820 --> 00:41:43,420
Und dann sehen Sie, dass
es gibt keine Räume.

790
00:41:43,420 --> 00:41:49,110
Also das ist im Grunde bedeutet, dass es
die Spitze der Stuhl, oder?

791
00:41:49,110 --> 00:41:50,550
Sie sprechen Japanisch?

792
00:41:50,550 --> 00:41:52,840
Es ist die Spitze der Stuhl, oder?

793
00:41:52,840 --> 00:41:54,480
>> Student: Ich weiß nicht, was
das Kanji über die es gibt.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS FREITAS: Es ist [Japanisch sprechen]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
So ist es im Grunde bedeutet, Vorsitzende der Spitze.

797
00:42:00,960 --> 00:42:03,620
Also, wenn Sie einen Raum gestellt hatte
es wäre hier zu sein.

798
00:42:03,620 --> 00:42:05,970
Und dann muss man [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Was im Grunde bedeutet, Herr Ueda.

800
00:42:09,040 --> 00:42:13,180
Und Sie sehen, dass "Ueda" und Sie haben ein
Leerzeichen und dann "san." So sehen Sie, dass

801
00:42:13,180 --> 00:42:15,470
hier finden Sie "Ue" ist wie von selbst aus.

802
00:42:15,470 --> 00:42:17,750
Und hier hat es ein Zeichen
daneben.

803
00:42:17,750 --> 00:42:21,720
>> Also ist es nicht in diesen Sprachen wie
Zeichen bedeutet, ein Wort, so dass Sie

804
00:42:21,720 --> 00:42:23,980
einfach eine Menge von Räumen.

805
00:42:23,980 --> 00:42:25,500
Charaktere zueinander stehen.

806
00:42:25,500 --> 00:42:28,680
Und sie zusammen sein können
wie zwei, drei, eins.

807
00:42:28,680 --> 00:42:34,520
So haben Sie eigentlich eine Art erstellen
der Art und Weise der Umsetzung dieser Räume.

808
00:42:34,520 --> 00:42:38,850
>> Und diese Sache ist, dass, wenn Sie
Daten aus diesen asiatischen Sprachen

809
00:42:38,850 --> 00:42:40,580
alles kommt unsegmentierten.

810
00:42:40,580 --> 00:42:45,940
Denn niemand, der Japaner schreibt
oder Chinesisch schreibt mit Leerzeichen.

811
00:42:45,940 --> 00:42:48,200
Immer, wenn du schreibst Chinesisch,
Japanische Sie einfach alles schreiben

812
00:42:48,200 --> 00:42:48,710
ohne Leerzeichen.

813
00:42:48,710 --> 00:42:52,060
Es ist auch nicht sinnvoll
Leerzeichen setzen.

814
00:42:52,060 --> 00:42:57,960
Also dann, wenn Sie Daten aus zu bekommen, einige
Ostasiatische Sprache, wenn Sie wollen

815
00:42:57,960 --> 00:43:00,760
tatsächlich etwas mit dem zu tun
Sie haben erste Segment.

816
00:43:00,760 --> 00:43:05,130
>> Denken Sie an das Beispiel tun
die Texte ohne Leerzeichen ein.

817
00:43:05,130 --> 00:43:07,950
Also die einzigen Texte, die Sie haben
werden Sätze sein, oder?

818
00:43:07,950 --> 00:43:09,470
Durch Punkte voneinander getrennt.

819
00:43:09,470 --> 00:43:13,930
Aber dann nur mit dem Satz wird
auf, die Informationen nicht wirklich helfen

820
00:43:13,930 --> 00:43:17,760
wer diese Texte sind durch.

821
00:43:17,760 --> 00:43:18,120
Right?

822
00:43:18,120 --> 00:43:20,010
So sollten Sie an erster Plätze.

823
00:43:20,010 --> 00:43:21,990
Also, wie können Sie das tun?

824
00:43:21,990 --> 00:43:24,920
>> So kommt dann die Idee einer Sprache
Modell, das wirklich etwas ist

825
00:43:24,920 --> 00:43:26,870
wichtig für Rechen
Linguistik.

826
00:43:26,870 --> 00:43:32,790
So ein Sprachmodell ist im Grunde ein
Tabelle von Wahrscheinlichkeiten, die zeigt,

827
00:43:32,790 --> 00:43:36,260
Zunächst einmal, was ist die Wahrscheinlichkeit,
mit der das Wort in einer Sprache?

828
00:43:36,260 --> 00:43:39,590
So zeigt, wie häufig ein Wort ist.

829
00:43:39,590 --> 00:43:43,130
Und dann auch, die die Beziehung
zwischen den Wörtern in einem Satz.

830
00:43:43,130 --> 00:43:51,500
>> Also die Grundidee ist, wenn ein Fremder kam
Sie und sagte einen Satz, um

831
00:43:51,500 --> 00:43:55,600
Sie, was ist die Wahrscheinlichkeit, dass für
Beispiel: "Das ist meine Schwester [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
war der Satz, dass die Person gesagt?

833
00:43:57,480 --> 00:44:00,380
So offensichtlich sind einige Sätze
häufiger als andere.

834
00:44:00,380 --> 00:44:04,450
Zum Beispiel, "guten Morgen" oder "gut
Nacht ", oder" hey da, "ist viel mehr

835
00:44:04,450 --> 00:44:08,260
häufiger als die meisten Sätze
dass wir eine englische.

836
00:44:08,260 --> 00:44:11,060
Warum sind diese Sätze
häufiger?

837
00:44:11,060 --> 00:44:14,060
>> Zunächst einmal, es ist, weil Sie
Worte, die häufiger sind.

838
00:44:14,060 --> 00:44:20,180
So zum Beispiel, wenn Sie sagen, der Hund ist
groß, und der Hund ist gigantisch, Sie

839
00:44:20,180 --> 00:44:23,880
Regel wohl hören, wie der Hund groß ist
mehr oft, weil "große" ist mehr

840
00:44:23,880 --> 00:44:27,260
in Englisch häufiger als "gigantisch."
So eine der

841
00:44:27,260 --> 00:44:30,100
Dinge ist das Wort Frequenz.

842
00:44:30,100 --> 00:44:34,490
>> Die zweite Sache, die wirklich
wichtig ist nur die

843
00:44:34,490 --> 00:44:35,490
Reihenfolge der Wörter.

844
00:44:35,490 --> 00:44:39,500
So ist es üblich, zu sagen "die Katze ist
in der Box. "aber Sie normalerweise nicht tun

845
00:44:39,500 --> 00:44:44,250
zu sehen in "The Box im Inneren ist die Katze." so
Sie sehen, dass es einige Bedeutung

846
00:44:44,250 --> 00:44:46,030
in der Reihenfolge der Worte.

847
00:44:46,030 --> 00:44:50,160
Man kann nicht einfach sagen, dass die beiden
Sätze haben die gleiche Wahrscheinlichkeit

848
00:44:50,160 --> 00:44:53,010
nur weil sie die gleichen Worte.

849
00:44:53,010 --> 00:44:55,550
Sie haben tatsächlich zu kümmern
etwa um als gut.

850
00:44:55,550 --> 00:44:57,650
Sinnvoll?

851
00:44:57,650 --> 00:44:59,490
>> Also, was tun wir?

852
00:44:59,490 --> 00:45:01,550
Also, was ich versuchen könnte, bekommen Sie?

853
00:45:01,550 --> 00:45:04,400
Ich versuche, Sie, was wir bekommen
rufen Sie die n-Gramm-Modelle.

854
00:45:04,400 --> 00:45:09,095
So n-Gramm-Modelle grundsätzlich davon ausgehen,
dass für jedes Wort,

855
00:45:09,095 --> 00:45:10,960
Sie haben in einem Satz.

856
00:45:10,960 --> 00:45:15,020
Es ist die Wahrscheinlichkeit, dass
Wort es hängt nicht nur von der

857
00:45:15,020 --> 00:45:18,395
Frequenz dieses Wort in der Sprache,
sondern auch auf die Worte, die

858
00:45:18,395 --> 00:45:19,860
sind sie umgibt.

859
00:45:19,860 --> 00:45:25,810
>> So zum Beispiel, in der Regel, wenn Sie sehen
etwas auf oder an Sie

860
00:45:25,810 --> 00:45:28,040
wahrscheinlich ein zu sehen
Nomen nach, oder?

861
00:45:28,040 --> 00:45:31,750
Denn wenn Sie eine Präposition haben
normalerweise dauert es ein Substantiv, nachdem es.

862
00:45:31,750 --> 00:45:35,540
Oder wenn Sie ein Verb, transitiv ist zu haben
Sie sind in der Regel zu gehen

863
00:45:35,540 --> 00:45:36,630
haben eine Nominalphrase.

864
00:45:36,630 --> 00:45:38,780
Also es geht um ein Substantiv haben
irgendwo herum.

865
00:45:38,780 --> 00:45:44,950
>> Also, im Grunde, was es tut, ist, dass es
hält die Wahrscheinlichkeit,

866
00:45:44,950 --> 00:45:47,960
Wörter nebeneinander, wenn
Sie sind der Berechnung der

867
00:45:47,960 --> 00:45:49,050
Wahrscheinlichkeit eines Satzes.

868
00:45:49,050 --> 00:45:50,960
Und das ist, was eine Sprache
Modell grundsätzlich.

869
00:45:50,960 --> 00:45:54,620
Nur zu sagen, was ist die Wahrscheinlichkeit,
der mit einer spezifischen

870
00:45:54,620 --> 00:45:57,120
Satz in einer Sprache?

871
00:45:57,120 --> 00:45:59,110
Also, warum ist das sinnvoll, im Grunde?

872
00:45:59,110 --> 00:46:02,390
Und vor allem was ist
ein n-Gramm-Modell, dann?

873
00:46:02,390 --> 00:46:08,850
>> So dass ein n-Gramm-Modell bedeutet, dass
jedes Wort ist abhängig von der

874
00:46:08,850 --> 00:46:12,700
nächsten N minus 1 Worte.

875
00:46:12,700 --> 00:46:18,150
Also, im Grunde, bedeutet dies, dass, wenn ich sehe,
beispielsweise bei der CS50 TF wenn

876
00:46:18,150 --> 00:46:21,500
Ich Berechnung der Wahrscheinlichkeit
der Satz, werden Sie wie "die

877
00:46:21,500 --> 00:46:25,280
Wahrscheinlichkeit, dass das Wort "the"
mal die Wahrscheinlichkeit, dass "die

878
00:46:25,280 --> 00:46:31,720
CS50 "mal der Wahrscheinlichkeit,
"Der CS50 TF." Also, im Grunde, ich zähle

879
00:46:31,720 --> 00:46:35,720
Alle Möglichkeiten, Stretching es.

880
00:46:35,720 --> 00:46:41,870
>> Und dann in der Regel, wenn Sie tun dies,
wie in einem Projekt, setzen Sie N sein

881
00:46:41,870 --> 00:46:42,600
ein niedriger Wert.

882
00:46:42,600 --> 00:46:45,930
Also, haben in der Regel Bigramme oder Trigramme.

883
00:46:45,930 --> 00:46:51,090
Damit Sie zählen nur zwei Worte ein
Gruppe von zwei Wörtern oder drei Worte,

884
00:46:51,090 --> 00:46:52,620
nur für Leistungsprobleme.

885
00:46:52,620 --> 00:46:56,395
Und auch, weil vielleicht, wenn Sie
so etwas wie "The CS50 TF." Wenn Sie

886
00:46:56,395 --> 00:47:00,510
haben "TF", es ist sehr wichtig, dass
"CS50" ist daneben, oder?

887
00:47:00,510 --> 00:47:04,050
Diese beiden Dinge sind in der Regel
nebeneinander.

888
00:47:04,050 --> 00:47:06,410
>> Wenn Sie denken "TF", es ist wahrscheinlich
gehen zu müssen, was

889
00:47:06,410 --> 00:47:07,890
Klasse ist es für TF'ing.

890
00:47:07,890 --> 00:47:11,330
Auch "die" wirklich wichtig ist
für CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Aber wenn Sie etwas wie "Der CS50 haben
TF ging in die Klasse und gaben ihre

892
00:47:14,570 --> 00:47:20,060
Studenten einige Süßigkeiten. "" Candy "und" die "
haben keine Beziehung wirklich, oder?

893
00:47:20,060 --> 00:47:23,670
Sie sind so weit voneinander entfernt, dass
es ist nicht wirklich wichtig, was

894
00:47:23,670 --> 00:47:25,050
Wörter, die Sie haben.

895
00:47:25,050 --> 00:47:31,210
>> Also, indem Sie eine Bigramm oder ein Trigramm, es
bedeutet nur, dass Sie die Begrenzung sind

896
00:47:31,210 --> 00:47:33,430
Sie sich ein paar Worte
, die rund sind.

897
00:47:33,430 --> 00:47:35,810
Sinnvoll?

898
00:47:35,810 --> 00:47:40,630
Also, wenn Sie, um die Segmentierung tun wollen,
im Grunde, was Sie tun möchten, ist zu sehen

899
00:47:40,630 --> 00:47:44,850
was sind all die Möglichkeiten, die
Sie können Segment den Satz.

900
00:47:44,850 --> 00:47:49,090
>> So, dass Sie sehen, was ist der
Wahrscheinlichkeit jeder dieser Sätze

901
00:47:49,090 --> 00:47:50,880
in der Sprache vorhanden?

902
00:47:50,880 --> 00:47:53,410
Also, was Sie tun, ist wie, na ja, lassen
mich versuchen, einen Raum hier setzen.

903
00:47:53,410 --> 00:47:55,570
So gibt es einen Raum setzen Sie
und Sie sehen, was ist der

904
00:47:55,570 --> 00:47:57,590
Wahrscheinlichkeit dieses Satzes?

905
00:47:57,590 --> 00:48:00,240
Dann wie, OK, vielleicht sind Sie
das war nicht so gut.

906
00:48:00,240 --> 00:48:03,420
Also habe ich einen Raum gibt und ein Raum
dort, und berechnen Sie die

907
00:48:03,420 --> 00:48:06,240
Jetzt Wahrscheinlichkeit, und Sie sehen, dass
es ist eine höhere Wahrscheinlichkeit.

908
00:48:06,240 --> 00:48:12,160
>> Das ist also ein Algorithmus namens TANGO
Segmentierungsalgorithmus, was

909
00:48:12,160 --> 00:48:14,990
eigentlich etwas, das wirklich sein würde
kühl für ein Projekt, das

910
00:48:14,990 --> 00:48:20,860
Grundsätzlich nimmt die unsegmentierten Text
kann Japanisch oder Chinesisch oder vielleicht sein

911
00:48:20,860 --> 00:48:26,080
Englisch ohne Leerzeichen und versucht zu setzen
Leerzeichen zwischen den Wörtern und es tut

912
00:48:26,080 --> 00:48:29,120
dass durch die Verwendung eines Sprachmodells und
versuchen zu sehen, was ist der höchste

913
00:48:29,120 --> 00:48:31,270
Wahrscheinlichkeit, die Sie bekommen können.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
Das ist also Segmentierung.

916
00:48:33,800 --> 00:48:35,450
>> Jetzt Syntax.

917
00:48:35,450 --> 00:48:40,940
So ist Syntax für benutzt
so viele Dinge jetzt.

918
00:48:40,940 --> 00:48:44,880
Also für Grafik suchen, für Siri für
so ziemlich jede Art von Natur

919
00:48:44,880 --> 00:48:46,490
Sprachverarbeitung Sie haben.

920
00:48:46,490 --> 00:48:49,140
Also, was sind die wichtigen
Dinge über Syntax?

921
00:48:49,140 --> 00:48:52,390
Also, Sätze haben im allgemeinen
was wir als Bestandteile.

922
00:48:52,390 --> 00:48:57,080
Welche Art, wie Gruppen von Wörtern
, die eine Funktion im Satz haben.

923
00:48:57,080 --> 00:49:02,220
Und sie kann nicht wirklich sein
voneinander.

924
00:49:02,220 --> 00:49:07,380
>> Also, wenn ich zum Beispiel sagen, "Lauren liebt
Milo. "Ich weiß, dass" Lauren "ist ein

925
00:49:07,380 --> 00:49:10,180
Bestandteil und dann "Liebe
Milo "ist auch ein anderes.

926
00:49:10,180 --> 00:49:16,860
Da kann man nicht wie "Lauren Milo sagen
Mag "die gleiche Bedeutung haben.

927
00:49:16,860 --> 00:49:18,020
Es ist nicht zu haben,
die gleiche Bedeutung.

928
00:49:18,020 --> 00:49:22,500
Oder ich kann nicht wie "Milo Lauren sagen
liebt. "Nicht alles hat die gleiche

929
00:49:22,500 --> 00:49:25,890
was bedeutet, das zu tun.

930
00:49:25,890 --> 00:49:31,940
>> So sind die zwei wichtigsten Dinge über
Syntax sind die lexikalischen Typen, die ist

931
00:49:31,940 --> 00:49:35,390
im Grunde die Funktion, die Sie
haben nach Worten von sich.

932
00:49:35,390 --> 00:49:39,180
So müssen Sie wissen, dass "Lauren"
und "Milo" sind Substantive.

933
00:49:39,180 --> 00:49:41,040
"Love" ist ein Verb.

934
00:49:41,040 --> 00:49:45,660
Und die zweite wichtige Sache ist,
dass sie Phrasentypen.

935
00:49:45,660 --> 00:49:48,990
So wissen Sie, dass "Milo liebt"
ist eigentlich eine Verbalphrase.

936
00:49:48,990 --> 00:49:52,390
Also, wenn ich sage "Lauren:" Ich weiß, dass
Lauren ist etwas zu tun.

937
00:49:52,390 --> 00:49:53,620
Was tut sie?

938
00:49:53,620 --> 00:49:54,570
Sie ist liebevoll Milo.

939
00:49:54,570 --> 00:49:56,440
Es ist also eine ganze Sache.

940
00:49:56,440 --> 00:50:01,640
Aber seine Komponenten
ein Substantiv und ein Verb.

941
00:50:01,640 --> 00:50:04,210
Aber zusammen bilden sie ein Verb Phrase.

942
00:50:04,210 --> 00:50:08,680
>> Also, was können wir tatsächlich tun mit
Computerlinguistik?

943
00:50:08,680 --> 00:50:13,810
Also, wenn ich etwas zum Beispiel
"Freunde von Allison." Ich sehe, wenn ich nur

944
00:50:13,810 --> 00:50:17,440
hat eine syntaktische Baum Ich würde wissen, dass
"Freunde" ist eine Nominalphrase ist es ein

945
00:50:17,440 --> 00:50:21,480
Nomen und dann "von Allison" ist ein
Präpositionalphrase, in dem "von" ist

946
00:50:21,480 --> 00:50:24,810
ein Satz, und "Allison" ist ein Substantiv.

947
00:50:24,810 --> 00:50:30,910
Was ich tun konnte, ist mein Computer lehren
, dass, wenn ich eine Nominalphrase ein und

948
00:50:30,910 --> 00:50:33,080
dann eine Präpositionalphrase.

949
00:50:33,080 --> 00:50:39,020
Also in diesem Fall, "Freunde" und dann "von
Milo: "Ich weiß, dass dies bedeutet, dass

950
00:50:39,020 --> 00:50:43,110
NP2, die zweite, besitzt NP1.

951
00:50:43,110 --> 00:50:47,680
>> So kann ich eine Art von Beziehung zu erstellen,
eine Art von Funktion dafür.

952
00:50:47,680 --> 00:50:52,370
Also, wenn ich diese Struktur, die
stimmt genau mit "Freunde von

953
00:50:52,370 --> 00:50:56,030
Allison: "Ich weiß, dass Allison
besitzt die Freunde.

954
00:50:56,030 --> 00:50:58,830
So etwas sind die Freunde
dass Allison hat.

955
00:50:58,830 --> 00:50:59,610
Das macht Sinn?

956
00:50:59,610 --> 00:51:01,770
Also das ist im Grunde, was
Graph Suche tut.

957
00:51:01,770 --> 00:51:04,360
Es schafft nur Regeln
für eine Menge Dinge.

958
00:51:04,360 --> 00:51:08,190
So "Freunde von Allison", "meine Freunde
, die in Cambridge zu leben "," meine Freunde

959
00:51:08,190 --> 00:51:12,970
, die nach Harvard zu gehen. "Es schafft Regeln
für all diese Dinge.

960
00:51:12,970 --> 00:51:14,930
>> Jetzt maschinelle Übersetzung.

961
00:51:14,930 --> 00:51:18,850
So ist auch die maschinelle Übersetzung
etwas statistisch.

962
00:51:18,850 --> 00:51:21,340
Und eigentlich, wenn Sie in engagieren
Computerlinguistik, viel

963
00:51:21,340 --> 00:51:23,580
Ihr Material wird zu Statistiken sein.

964
00:51:23,580 --> 00:51:26,670
So wie ich das Beispiel macht mit
eine Menge von Wahrscheinlichkeiten, dass ich

965
00:51:26,670 --> 00:51:30,540
Berechnung, und dann müssen Sie diese bekommen
sehr kleine Zahl, die die letzte ist

966
00:51:30,540 --> 00:51:33,180
Wahrscheinlichkeit, und das ist, was
gibt Ihnen die Antwort.

967
00:51:33,180 --> 00:51:37,540
Maschinelle Übersetzung verwendet auch
ein statistisches Modell.

968
00:51:37,540 --> 00:51:44,790
Und wenn Sie möchten, dass der Maschinen
Übersetzung auf einfachste

969
00:51:44,790 --> 00:51:48,970
Übrigens, was Sie denken können, ist nur
Wort für Wort zu übersetzen, oder?

970
00:51:48,970 --> 00:51:52,150
>> Wenn Sie eine Sprache lernen, für die
ersten Mal, das ist, was in der Regel

971
00:51:52,150 --> 00:51:52,910
Sie tun, oder?

972
00:51:52,910 --> 00:51:57,050
Wenn Sie möchten, Sie einen Satz übersetzen
in Ihrer Sprache auf die Sprache

973
00:51:57,050 --> 00:52:00,060
Sie lernen, in der Regel zuerst, Sie
Übersetzen jedes der Wörter

974
00:52:00,060 --> 00:52:03,180
einzeln, und dann versuchen,
, die Worte in Platz gesetzt.

975
00:52:03,180 --> 00:52:07,100
>> Also, wenn ich wollte, dies zu übersetzen,
[Portugiesisch Sprechen]

976
00:52:07,100 --> 00:52:10,430
das bedeutet "die weiße Katze lief weg."
Wenn ich wollte, um sie von zu übersetzen

977
00:52:10,430 --> 00:52:13,650
Portugiesisch auf Englisch, was ich
tun können, ist, zunächst, ich habe gerade

978
00:52:13,650 --> 00:52:14,800
Wort für Wort zu übersetzen.

979
00:52:14,800 --> 00:52:20,570
So "o" ist "die", "gato", "Katze",
"Branco", "weiß", und dann "fugio" ist

980
00:52:20,570 --> 00:52:21,650
"Lief weg."

981
00:52:21,650 --> 00:52:26,130
>> So dann habe ich alle Worte hier,
aber sie sind nicht in Ordnung.

982
00:52:26,130 --> 00:52:29,590
Es ist wie "die Katze weiß lief weg"
die ungrammatisch ist.

983
00:52:29,590 --> 00:52:34,490
So, dann kann ich einen zweiten Schritt haben die
sein wird die Suche nach dem idealen

984
00:52:34,490 --> 00:52:36,610
Position für jedes der Wörter.

985
00:52:36,610 --> 00:52:40,240
So weiß ich, dass ich eigentlich haben wollen,
"Weiße Katze" statt "Katze weiß." So

986
00:52:40,240 --> 00:52:46,050
was ich tun kann, ist, die naive Methode
wäre, erstellen alle

987
00:52:46,050 --> 00:52:49,720
möglichen Permutationen
Worten von Positionen.

988
00:52:49,720 --> 00:52:53,300
Und dann sehen, die man hat das
höchste Wahrscheinlichkeit nach

989
00:52:53,300 --> 00:52:54,970
meine Sprachmodell.

990
00:52:54,970 --> 00:52:58,390
Und dann, wenn ich die eine, die hat zu finden
die höchste Wahrscheinlichkeit ist, das ist

991
00:52:58,390 --> 00:53:01,910
wahrscheinlich "die weiße Katze lief weg",
das ist meine Übersetzung.

992
00:53:01,910 --> 00:53:06,710
>> Und dies ist ein einfacher Weg zu erklären,
wie viel der maschinellen Übersetzung

993
00:53:06,710 --> 00:53:07,910
Algorithmen arbeiten.

994
00:53:07,910 --> 00:53:08,920
Heißt das Sinn?

995
00:53:08,920 --> 00:53:12,735
Das ist auch etwas, wirklich spannend
dass Sie Jungs können vielleicht für eine Erkundung

996
00:53:12,735 --> 00:53:13,901
Abschlussprojekt, ja?

997
00:53:13,901 --> 00:53:15,549
>> STUDENT: Nun, Sie haben gesagt, es war
die naive Art und Weise, so was ist

998
00:53:15,549 --> 00:53:17,200
die nicht-naive Art und Weise?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS FREITAS: Die nicht-naive Art und Weise?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
Also das erste, was ist schlecht
diese Methode ist, dass ich gerade übersetzt

1002
00:53:22,860 --> 00:53:24,330
Wörter, Wort für Wort.

1003
00:53:24,330 --> 00:53:30,570
Aber manchmal Worte, die
können mehrere Übersetzungen zu haben.

1004
00:53:30,570 --> 00:53:32,210
Ich werde versuchen zu denken
von etwas.

1005
00:53:32,210 --> 00:53:37,270
Zum Beispiel, "manga" in Portugiesisch Dose
entweder "Schutzhülle" sein. "mangle" oder So

1006
00:53:37,270 --> 00:53:40,450
wenn Sie versuchen, Wort zu übersetzen sind
durch Wort, könnte es werden, so dass Sie

1007
00:53:40,450 --> 00:53:42,050
etwas, das keinen Sinn macht.

1008
00:53:42,050 --> 00:53:45,770
>> Tatsächlich wollen, können Sie dies für Sie überhaupt aussehen
die möglichen Übersetzungen der

1009
00:53:45,770 --> 00:53:49,840
Worte und sehen, vor allem,
was ist die Reihenfolge.

1010
00:53:49,840 --> 00:53:52,000
Wir haben über Permutation sprechen
die Dinge?

1011
00:53:52,000 --> 00:53:54,150
Um alle möglichen Aufträge sehen und
wählen, die mit der höchsten

1012
00:53:54,150 --> 00:53:54,990
Wahrscheinlichkeit?

1013
00:53:54,990 --> 00:53:57,860
Sie können auch alle möglichen wählen
Übersetzungen für jede

1014
00:53:57,860 --> 00:54:00,510
Wort und dann sehen -

1015
00:54:00,510 --> 00:54:01,950
kombiniert mit den Permutationen -

1016
00:54:01,950 --> 00:54:03,710
die man die höchste Wahrscheinlichkeit hat.

1017
00:54:03,710 --> 00:54:08,590
>> Plus, können Sie auch nicht so aus,
nur Worte, sondern Phrasen.

1018
00:54:08,590 --> 00:54:11,700
so können Sie die Beziehungen zwischen analysieren
die Worte, und erhalten dann eine

1019
00:54:11,700 --> 00:54:13,210
bessere Übersetzung.

1020
00:54:13,210 --> 00:54:16,690
Auch etwas anderes, so dass in diesem Semester
Ich bin eigentlich forscht in

1021
00:54:16,690 --> 00:54:19,430
Chinesisch-Englisch maschinelle Übersetzung,
so die Übersetzung von

1022
00:54:19,430 --> 00:54:20,940
Chinesischen ins Englische.

1023
00:54:20,940 --> 00:54:26,760
>> Und etwas, was wir tun, ist, neben der Verwendung
ein statistisches Modell, das nur

1024
00:54:26,760 --> 00:54:30,570
zu sehen, die Wahrscheinlichkeiten des Sehens
einige Position in einem Satz, ich bin

1025
00:54:30,570 --> 00:54:35,360
eigentlich auch das Hinzufügen einiger Syntax, um meine
Modell und sagte, oh, wenn ich diese Art

1026
00:54:35,360 --> 00:54:39,420
von Bau-, dies ist, was ich will
um es zu übersetzen, wenn ich ändern.

1027
00:54:39,420 --> 00:54:43,880
So kann man auch eine Art hinzufügen
Element der Syntax, um die

1028
00:54:43,880 --> 00:54:47,970
Übersetzung effizienter
und präziser.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> Also, wie können Sie beginnen, wenn Sie wollen
, etwas zu tun, in der computergestützten

1031
00:54:51,010 --> 00:54:51,980
Sprachwissenschaft?

1032
00:54:51,980 --> 00:54:54,560
>> Zuerst wählen Sie ein Projekt
das beinhaltet Sprachen.

1033
00:54:54,560 --> 00:54:56,310
Also, es gibt so viele da draußen.

1034
00:54:56,310 --> 00:54:58,420
Es gibt so viele Dinge, die Sie tun können.

1035
00:54:58,420 --> 00:55:00,510
Und dann eines Modells denken kann
die Sie verwenden können.

1036
00:55:00,510 --> 00:55:04,710
In der Regel bedeutet, dass Denken
Annahmen, als wie, oh, wenn ich

1037
00:55:04,710 --> 00:55:05,770
wie das Denken von den Texten.

1038
00:55:05,770 --> 00:55:09,510
Ich war wie, nun ja, wenn ich heraus
aus ein, die dies schrieb, möchte ich wahrscheinlich

1039
00:55:09,510 --> 00:55:15,400
, bei den Wörtern die Person verwendet und
sehen, wer dieses Wort sehr oft verwendet.

1040
00:55:15,400 --> 00:55:18,470
So versuchen, Annahmen und
versuchen, von Modellen zu denken.

1041
00:55:18,470 --> 00:55:21,395
Und dann können Sie auch online nach
die Art von Problem, das Sie haben,

1042
00:55:21,395 --> 00:55:24,260
und es wird vorschlagen
auf Modelle, die vielleicht für

1043
00:55:24,260 --> 00:55:26,560
gut modelliert, dass die Sache.

1044
00:55:26,560 --> 00:55:29,080
>> Und auch Sie können immer mailen Sie mir.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
Und ich kann einfach beantworten Ihre Fragen.

1047
00:55:34,940 --> 00:55:38,600
Wir können vielleicht sogar bis zu erfüllen, so kann ich
geben Anregungen über die Möglichkeiten von

1048
00:55:38,600 --> 00:55:41,490
der Umsetzung Ihres Projektes.

1049
00:55:41,490 --> 00:55:45,610
Und ich meine, wenn Sie einbezogen zu werden
Computerlinguistik, es geht

1050
00:55:45,610 --> 00:55:46,790
groß zu sein.

1051
00:55:46,790 --> 00:55:48,370
Du wirst es sehen
ist so viel Potenzial.

1052
00:55:48,370 --> 00:55:52,060
Und die Industrie will mieten
Sie so schlecht deswegen.

1053
00:55:52,060 --> 00:55:54,720
Also ich hoffe, euch gefallen diese.

1054
00:55:54,720 --> 00:55:57,030
Wenn ihr irgendwelche Fragen haben,
Sie können mich nach diesem fragen.

1055
00:55:57,030 --> 00:55:58,280
Aber danke.

1056
00:55:58,280 --> 00:56:00,150