1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Hey. 3 00:00:08,870 --> 00:00:09,980 Willkommen alle. 4 00:00:09,980 --> 00:00:11,216 Mein Name ist Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Ich bin ein Junior an [unverständlich] Studium Informatik mit Schwerpunkt in 6 00:00:15,220 --> 00:00:16,410 Computerlinguistik. 7 00:00:16,410 --> 00:00:19,310 Also meine Sekundär ist in der Sprache und Sprachtheorie. 8 00:00:19,310 --> 00:00:21,870 Ich bin wirklich aufgeregt, euch lehren ein wenig über dem Feld. 9 00:00:21,870 --> 00:00:24,300 Es ist ein sehr spannendes Gebiet, um zu studieren. 10 00:00:24,300 --> 00:00:27,260 Auch mit einer Menge von potentiellen für die Zukunft. 11 00:00:27,260 --> 00:00:30,160 Also, ich bin wirklich aufgeregt, dass ihr Jungs erwägen Projekte in 12 00:00:30,160 --> 00:00:31,160 Computerlinguistik. 13 00:00:31,160 --> 00:00:35,460 Und ich werde mehr als glücklich zu beraten jeder von Ihnen, wenn Sie zu entscheiden, 14 00:00:35,460 --> 00:00:37,090 verfolgen, einer von denen. 15 00:00:37,090 --> 00:00:40,010 >> Also zunächst einmal, was Rechen sind Sprachwissenschaft? 16 00:00:40,010 --> 00:00:44,630 So ist die Computerlinguistik Schnittpunkt zwischen Linguistik und 17 00:00:44,630 --> 00:00:46,390 Informatik. 18 00:00:46,390 --> 00:00:47,415 Also, was ist Sprachwissenschaft? 19 00:00:47,415 --> 00:00:48,490 Was ist Informatik? 20 00:00:48,490 --> 00:00:51,580 Nun, aus der Linguistik, was wir sind die Sprachen. 21 00:00:51,580 --> 00:00:54,960 So Sprachwissenschaft ist eigentlich die Studie der natürlichen Sprache im Allgemeinen. 22 00:00:54,960 --> 00:00:58,330 So natürlicher Sprache - wir sprechen Sprache, die wir tatsächlich nutzen 23 00:00:58,330 --> 00:00:59,770 miteinander kommunizieren. 24 00:00:59,770 --> 00:01:02,200 So werden wir nicht genau sprechen etwa C oder Java. 25 00:01:02,200 --> 00:01:05,900 Wir reden mehr über Englisch und Chinesisch und andere Sprachen, die wir 26 00:01:05,900 --> 00:01:07,780 verwenden, um miteinander zu kommunizieren. 27 00:01:07,780 --> 00:01:12,470 >> Das schwierige daran ist, dass jetzt haben wir fast 7.000 28 00:01:12,470 --> 00:01:14,260 Sprachen der Welt. 29 00:01:14,260 --> 00:01:19,520 So gibt es eine hohe Vielfalt von Sprachen, die wir studieren. 30 00:01:19,520 --> 00:01:22,600 Und dann denkt man, dass es wahrscheinlich sehr schwer zu tun, beispielsweise, 31 00:01:22,600 --> 00:01:26,960 Übersetzung von einer Sprache in die andere, wenn man bedenkt, dass Sie 32 00:01:26,960 --> 00:01:28,240 fast 7.000 von ihnen. 33 00:01:28,240 --> 00:01:31,450 Also, wenn Sie denken, tun Übersetzung von einer Sprache in die andere Sie 34 00:01:31,450 --> 00:01:35,840 haben fast mehr als eine Million verschiedene Kombinationen, die Sie 35 00:01:35,840 --> 00:01:37,330 haben von Sprache zu Sprache. 36 00:01:37,330 --> 00:01:40,820 Also es ist wirklich schwierig, etwas zu tun Art beispielsweise Übersetzungssystem für 37 00:01:40,820 --> 00:01:43,540 jede einzelne Sprache. 38 00:01:43,540 --> 00:01:47,120 >> Also, Linguistik behandelt mit Syntax Semantik, Pragmatik. 39 00:01:47,120 --> 00:01:49,550 Sie Jungs nicht genau brauchen zu wissen, was sie sind. 40 00:01:49,550 --> 00:01:55,090 Aber die sehr interessante Sache ist, dass wie ein Muttersprachler, wenn Sie erfahren, 41 00:01:55,090 --> 00:01:59,010 Sprache als Kind, die Sie tatsächlich lernen Alle diese Dinge - Syntax-Semantik 42 00:01:59,010 --> 00:02:00,500 und Pragmatik - 43 00:02:00,500 --> 00:02:01,430 von sich. 44 00:02:01,430 --> 00:02:04,820 Und niemand hat Sie Syntax für lehren Sie verstehen, wie Sätze sind 45 00:02:04,820 --> 00:02:05,290 aufgebaut. 46 00:02:05,290 --> 00:02:07,980 Also, es ist wirklich interessant, weil es ist etwas, das sehr kommt 47 00:02:07,980 --> 00:02:10,389 intuitiv. 48 00:02:10,389 --> 00:02:13,190 >> Und was machen Sie mit der Einnahme von der Informatik? 49 00:02:13,190 --> 00:02:16,700 Nun, das Wichtigste ist, dass wir haben in der Informatik ist vor 50 00:02:16,700 --> 00:02:19,340 alle, künstliche Intelligenz und maschinelles Lernen. 51 00:02:19,340 --> 00:02:22,610 Also, was wir zu tun versuchen Computerlinguistik ist Teach 52 00:02:22,610 --> 00:02:26,990 Ihr Computer wie etwas zu tun mit der Sprache. 53 00:02:26,990 --> 00:02:28,630 >> So z. B. im Maschinenbau Übersetzung. 54 00:02:28,630 --> 00:02:32,490 Ich versuche, meinen Computer zu lehren, wie zu wissen, wie man von einem Übergang 55 00:02:32,490 --> 00:02:33,310 in die andere Sprache. 56 00:02:33,310 --> 00:02:35,790 Also, im Grunde mag Lehre ein Computer zwei Sprachen. 57 00:02:35,790 --> 00:02:38,870 Wenn ich die Verarbeitung natürlicher Sprache, was der Fall ist, zum Beispiel aus 58 00:02:38,870 --> 00:02:41,810 Facebook-Graph-Suche, lernen Sie Computer, wie zu verstehen 59 00:02:41,810 --> 00:02:42,730 Anfragen auch. 60 00:02:42,730 --> 00:02:48,130 >> Also, wenn Sie sagen, "die Fotos von meinem Freunde. "Facebook nicht zu behandeln, dass 61 00:02:48,130 --> 00:02:51,130 als Ganzes String, hat nur ein paar Worte. 62 00:02:51,130 --> 00:02:56,020 Tatsächlich versteht die Beziehung zwischen "Fotos" und "Meine Freunde" und 63 00:02:56,020 --> 00:02:59,620 versteht, dass "Bilder" sind Eigentum von "meine Freunde." 64 00:02:59,620 --> 00:03:02,350 >> Also, das ist ein Teil, zum Beispiel, Verarbeitung natürlicher Sprache. 65 00:03:02,350 --> 00:03:04,790 Es ist zu verstehen, was ist das Verhältnis zwischen 66 00:03:04,790 --> 00:03:07,520 die Wörter in einem Satz. 67 00:03:07,520 --> 00:03:11,170 Und die große Frage ist, können Sie lehren, einen Computer, wie man spricht 68 00:03:11,170 --> 00:03:12,650 eine Sprache im Allgemeinen? 69 00:03:12,650 --> 00:03:17,810 Welches ist eine sehr interessante Frage, um denken, als vielleicht in der Zukunft, 70 00:03:17,810 --> 00:03:19,930 Sie gehen zu können sind sprechen Sie mit Ihrem Handy. 71 00:03:19,930 --> 00:03:23,290 Ein bisschen wie das, was wir tun, sondern mit Siri etwas mehr wie, kann man eigentlich 72 00:03:23,290 --> 00:03:25,690 sagen, was Sie wollen, und das Telefon wird alles zu verstehen. 73 00:03:25,690 --> 00:03:28,350 Und es kann folgen Fragen und sprechen. 74 00:03:28,350 --> 00:03:30,880 Das ist etwas wirklich spannend, meiner Meinung nach. 75 00:03:30,880 --> 00:03:33,070 >> Also, etwas über natürliche Sprachen. 76 00:03:33,070 --> 00:03:36,220 Etwas wirklich interessant natürlichen Sprachen ist, dass, und dies ist 77 00:03:36,220 --> 00:03:38,470 Kredit meinem Linguistikprofessor, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Sie gibt ein Beispiel, und ich denke, es ist wirklich interessant. 79 00:03:40,830 --> 00:03:47,060 Denn wir lernen die Sprache aus, wenn wir sind geboren und dann unsere Mutter 80 00:03:47,060 --> 00:03:49,170 Sprache Art wächst auf uns. 81 00:03:49,170 --> 00:03:52,570 >> Und im Grunde haben Sie Sprache lernen von minimalen Eingangs, oder? 82 00:03:52,570 --> 00:03:56,700 Sie sind gerade erst von Ihrem Eingangs Eltern von dem, was Ihre Sprache klingt 83 00:03:56,700 --> 00:03:58,770 mögen und Sie lernen es einfach. 84 00:03:58,770 --> 00:04:02,240 Also, es ist interessant, denn wenn man sich bei diesen Sätzen, zum Beispiel. 85 00:04:02,240 --> 00:04:06,980 Sie sehen, "Maria setzt auf eine Mantel jeden Mal, wenn sie das Haus verlässt. " 86 00:04:06,980 --> 00:04:10,650 >> In diesem Fall ist es möglich, den Wort "sie" beziehen sich auf Mary, oder? 87 00:04:10,650 --> 00:04:13,500 Sie können sagen: "Maria setzt auf eine Mantel jedes Mal, Mary verlässt das 88 00:04:13,500 --> 00:04:14,960 Haus. ", so ist das in Ordnung. 89 00:04:14,960 --> 00:04:19,370 Aber dann, wenn Sie auf dem Satz aussehen "Sie zieht einen Mantel jedes Mal Mary 90 00:04:19,370 --> 00:04:22,850 verlässt das Haus. "Sie wissen, dass es unmöglich zu sagen, dass "sie" ist 91 00:04:22,850 --> 00:04:24,260 sich auf Maria. 92 00:04:24,260 --> 00:04:27,070 >> Es gibt keine Möglichkeit zu sagen, dass "Maria bringt einen Mantel jedes Mal Mary verlässt 93 00:04:27,070 --> 00:04:30,790 das Haus. "So ist es interessant, weil Dies ist die Art von Intuition 94 00:04:30,790 --> 00:04:32,890 dass jeder Muttersprachler. 95 00:04:32,890 --> 00:04:36,370 Und niemand wurde gelehrt, dass dies der Weg, der die Syntax funktioniert. 96 00:04:36,370 --> 00:04:41,930 Und das kann man nur über diese "sie" Mary, die sich auf in diesem ersten Fall 97 00:04:41,930 --> 00:04:44,260 und tatsächlich in dieser anderen zu, jedoch nicht in diese ein. 98 00:04:44,260 --> 00:04:46,500 Aber jeder Art bekommt zur gleichen Antwort. 99 00:04:46,500 --> 00:04:48,580 Alle sind sich einig, dass auf. 100 00:04:48,580 --> 00:04:53,280 Also es ist wirklich interessant, wie auch wenn Sie wissen nicht, alle Regeln 101 00:04:53,280 --> 00:04:55,575 in der Sprache, die Sie verstehen Art von wie die Sprache funktioniert. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Also das Interessante an natürlichen Sprache ist, dass Sie nicht zu haben, 104 00:05:01,530 --> 00:05:06,970 wissen, jede Syntax zu wissen, ob ein Satz grammatisch oder ungrammatisch für 105 00:05:06,970 --> 00:05:08,810 den meisten Fällen. 106 00:05:08,810 --> 00:05:13,220 Das macht Sie denken, dass vielleicht, was passiert ist, dass durch Ihr Leben, Sie 107 00:05:13,220 --> 00:05:17,410 einfach immer mehr und mehr Sätze gesagt zu Ihnen. 108 00:05:17,410 --> 00:05:19,800 Und dann halten Auswendiglernen alle Sätze. 109 00:05:19,800 --> 00:05:24,230 Und dann, wenn jemand sagt, etwas, diesen Satz hören und 110 00:05:24,230 --> 00:05:27,040 Sie Ihren Wortschatz zu suchen Sätze und sehen, ob 111 00:05:27,040 --> 00:05:28,270 dieser Satz ist da. 112 00:05:28,270 --> 00:05:29,830 Und wenn es dort sagen, es ist grammati. 113 00:05:29,830 --> 00:05:31,740 Wenn es nicht Sie sagen, es ist ungrammatisch. 114 00:05:31,740 --> 00:05:35,150 >> Also, in diesem Fall, würden Sie sagen, oh, so dass Sie eine riesige Liste von alle haben 115 00:05:35,150 --> 00:05:36,140 möglichen Sätze. 116 00:05:36,140 --> 00:05:38,240 Und dann, wenn Sie einen Satz hören, Sie wissen, ob es grammati ist oder 117 00:05:38,240 --> 00:05:39,450 nicht darauf basiert. 118 00:05:39,450 --> 00:05:42,360 Die Sache ist, dass, wenn Sie schauen ein Satz beispielsweise "The 119 00:05:42,360 --> 00:05:47,540 fünfköpfige CS50 TF gekocht Blinde Krake mit einem DAPA Becher. "Es ist 120 00:05:47,540 --> 00:05:49,630 definitiv nicht ein Satz dass Sie schon einmal gehört. 121 00:05:49,630 --> 00:05:52,380 Aber zur gleichen Zeit, die Sie wissen, dass es ziemlich grammatischen, oder? 122 00:05:52,380 --> 00:05:55,570 Es sind keine grammatikalische Fehler und man kann sagen, dass 123 00:05:55,570 --> 00:05:57,020 es ist ein Satz möglich. 124 00:05:57,020 --> 00:06:01,300 >> So macht es uns denken, dass eigentlich die Weise, dass wir lernen, die Sprache ist nicht nur 125 00:06:01,300 --> 00:06:07,090 indem er eine riesige Datenbank von möglichen Wörter oder Sätze, sondern eher 126 00:06:07,090 --> 00:06:11,490 Verständnis der Beziehung zwischen Wörter in den Sätzen. 127 00:06:11,490 --> 00:06:14,570 Heißt das Sinn? 128 00:06:14,570 --> 00:06:19,370 So, dann ist die Frage, kann Computer Sprachen lernen? 129 00:06:19,370 --> 00:06:21,490 Können wir lehren Sprache zu Computern? 130 00:06:21,490 --> 00:06:24,230 >> Also, lassen Sie den Unterschied denken zwischen einem Muttersprachler der Sprache 131 00:06:24,230 --> 00:06:25,460 und einen Computer. 132 00:06:25,460 --> 00:06:27,340 Also, was passiert mit dem Lautsprecher? 133 00:06:27,340 --> 00:06:30,430 Nun lernt die Muttersprache ein Sprache von der Exposition zu. 134 00:06:30,430 --> 00:06:34,200 Normalerweise ist die frühe Kindheit. 135 00:06:34,200 --> 00:06:38,570 Also, im Grunde, man muss nur ein Baby, und halten Sie im Gespräch mit ihm, und es 136 00:06:38,570 --> 00:06:40,540 nur lernt, wie man spricht die Sprache, oder? 137 00:06:40,540 --> 00:06:42,660 Also, sind Sie im Grunde geben Eingang zu dem Baby. 138 00:06:42,660 --> 00:06:45,200 So, dann können Sie argumentieren, dass ein Computer kann das gleiche tun, oder? 139 00:06:45,200 --> 00:06:49,510 Sie können nur geben Sprache als Eingabe in den Computer. 140 00:06:49,510 --> 00:06:53,410 >> Wie zum Beispiel eine Reihe von Dateien Bücher haben, die in englischer Sprache. 141 00:06:53,410 --> 00:06:56,190 Vielleicht ist das eine Möglichkeit, dass Sie könnte möglicherweise ein lehren 142 00:06:56,190 --> 00:06:57,850 Computer-Englisch, oder? 143 00:06:57,850 --> 00:07:01,000 Und in der Tat, wenn man darüber nachdenkt, es dauert vielleicht ein paar 144 00:07:01,000 --> 00:07:02,680 Tage, um ein Buch zu lesen. 145 00:07:02,680 --> 00:07:05,760 Für einen Computer dauert es eine Sekunde, um Blick auf all die Worte in einem Buch. 146 00:07:05,760 --> 00:07:10,810 So können Sie sich denken, dass kann nur sein, diese Argument der Eingabe von um dich herum, 147 00:07:10,810 --> 00:07:15,440 das ist nicht genug, zu sagen, dass das ist, etwas, das nur Menschen tun können. 148 00:07:15,440 --> 00:07:17,680 Sie können Computer denken können auch Eingang bekommen. 149 00:07:17,680 --> 00:07:21,170 >> Die zweite Sache ist, dass Muttersprachler haben auch ein Gehirn, das hat 150 00:07:21,170 --> 00:07:23,870 Sprachlern-Fähigkeit. 151 00:07:23,870 --> 00:07:27,020 Aber wenn man darüber nachdenkt, ein Gehirn ist eine solide Sache. 152 00:07:27,020 --> 00:07:30,450 Wenn Sie geboren werden, ist es bereits eingestellt - 153 00:07:30,450 --> 00:07:31,320 Das ist Ihr Gehirn. 154 00:07:31,320 --> 00:07:34,660 Und wie sind Sie aufgewachsen, bekommst du nur mehr Eingabe von Sprache und vielleicht Nährstoffe 155 00:07:34,660 --> 00:07:35,960 und andere Sachen. 156 00:07:35,960 --> 00:07:38,170 Aber so ziemlich das Gehirn ist eine solide Sache. 157 00:07:38,170 --> 00:07:41,290 >> So kann man sagen, gut, vielleicht können Sie einen Computer bauen, die einen Haufen hat 158 00:07:41,290 --> 00:07:45,890 Funktionen und Methoden, die nur imitieren Sprachlern-Fähigkeit. 159 00:07:45,890 --> 00:07:49,630 In diesem Sinne könnte man sagen, gut, ich können einen Computer, der alle hat, haben 160 00:07:49,630 --> 00:07:52,270 Dinge, die ich brauchen, um Sprache zu lernen. 161 00:07:52,270 --> 00:07:56,200 Und die letzte Sache ist, dass eine native Lautsprecher erfährt von Versuch und Irrtum. 162 00:07:56,200 --> 00:08:01,090 Also im Grunde eine andere wichtige Sache in Sprachenlernen ist, dass Sie Art 163 00:08:01,090 --> 00:08:05,340 der Dinge, indem sie Verallgemeinerungen, was Sie hören. 164 00:08:05,340 --> 00:08:10,280 >> So wie Sie aufwachsen Sie erfahren, dass einige Worte sind mehr wie Substantive, 165 00:08:10,280 --> 00:08:11,820 einige andere, die sind Adjektive. 166 00:08:11,820 --> 00:08:14,250 Und Sie müssen nicht zu einem haben Kenntnisse der Sprachwissenschaft 167 00:08:14,250 --> 00:08:15,040 um das zu verstehen. 168 00:08:15,040 --> 00:08:18,560 Aber Sie wissen, es gibt einige Wörter in einem Teil des aufge 169 00:08:18,560 --> 00:08:22,570 Satz und einige andere in anderen Teile des Satzes. 170 00:08:22,570 --> 00:08:26,110 >> Und dass, wenn Sie etwas, das zu tun wie ein Satz, der nicht richtig - 171 00:08:26,110 --> 00:08:28,770 vielleicht wegen einer Verallgemeinerung über zum Beispiel. 172 00:08:28,770 --> 00:08:32,210 Vielleicht, wenn du aufwächst, beachten Sie, dass der Plural in der Regel 173 00:08:32,210 --> 00:08:35,809 indem ein S an gebildet das Ende des Wortes. 174 00:08:35,809 --> 00:08:40,042 Und dann können Sie versuchen, den Plural von tun "Hirsch" als "Hirsche" oder "Zahn", wie 175 00:08:40,042 --> 00:08:44,780 "Tooths." Also Ihre Eltern oder jemand korrigiert und sagt, nein, die 176 00:08:44,780 --> 00:08:49,020 Plural von "Hirsch" ist "Hirsch", und die Plural von "Zahn" ist "die Zähne." Und dann 177 00:08:49,020 --> 00:08:50,060 Sie lernen, diese Dinge. 178 00:08:50,060 --> 00:08:51,520 So lernen Sie, aus Versuch und Irrtum. 179 00:08:51,520 --> 00:08:53,100 >> Sie können aber auch das tun, mit einem Computer. 180 00:08:53,100 --> 00:08:55,310 Sie können so etwas genannt haben Reinforcement Learning. 181 00:08:55,310 --> 00:08:58,560 Welche ist im Grunde wie eine geben Computer eine Belohnung, wenn es funktioniert 182 00:08:58,560 --> 00:08:59,410 etwas richtig. 183 00:08:59,410 --> 00:09:04,710 Und die ihm das Gegenteil einer Belohnung und wenn es etwas falsch macht. 184 00:09:04,710 --> 00:09:07,410 Man kann tatsächlich sehen, dass, wenn Sie gehen Google Translate und Sie versuchen, 185 00:09:07,410 --> 00:09:10,220 einen Satz zu übersetzen, es fragt Sie nach Feedback. 186 00:09:10,220 --> 00:09:13,240 Also, wenn Sie sagen, oh, es gibt eine bessere Übersetzung für diesen Satz. 187 00:09:13,240 --> 00:09:18,140 Sie können es geben und dann, wenn viele Leute sagen immer, dass es eine bessere 188 00:09:18,140 --> 00:09:21,560 Übersetzung, es ist nur erfährt, dass es sollte, dass die Übersetzung verwenden, anstatt 189 00:09:21,560 --> 00:09:22,960 das man es geben wurde. 190 00:09:22,960 --> 00:09:28,830 >> Also, es ist eine sehr philosophische Frage zu sehen, ob Computer sein werden, 191 00:09:28,830 --> 00:09:30,340 in der Lage, in die Zukunft zu sprechen oder nicht. 192 00:09:30,340 --> 00:09:34,440 Aber ich habe große Hoffnungen, dass sie können, nur auf diesen Argumenten. 193 00:09:34,440 --> 00:09:38,570 Aber es ist nur mehr eine philosophische Frage. 194 00:09:38,570 --> 00:09:43,460 >> So, während Computer noch nicht sprechen kann, was sind die Dinge, die wir tun können? 195 00:09:43,460 --> 00:09:47,070 Manche Dinge sind wirklich cool Datenklassifizierung. 196 00:09:47,070 --> 00:09:53,210 Also, zum Beispiel, euch wissen, dass E-Mail-Dienste zu tun, zum 197 00:09:53,210 --> 00:09:55,580 beispielsweise Spam-Filter. 198 00:09:55,580 --> 00:09:59,070 Also, wenn Sie Spam erhalten, ist es versucht, zu einem anderen Feld zu filtern. 199 00:09:59,070 --> 00:10:00,270 Also, wie macht sie das? 200 00:10:00,270 --> 00:10:06,080 Es ist nicht wie der Computer nur weiß, Welche E-Mail-Adressen werden Spam-Versand. 201 00:10:06,080 --> 00:10:09,130 So ist es mehr auf den Inhalt der Basis die Nachricht, oder vielleicht der Titel, oder 202 00:10:09,130 --> 00:10:11,310 vielleicht einige Muster, die Sie haben. 203 00:10:11,310 --> 00:10:15,690 >> Also, im Grunde, was man tun kann, ist ein viele Daten von E-Mails, die Spam sind, 204 00:10:15,690 --> 00:10:19,980 E-Mails, die nicht Spam sind, und lernen, was Art von Muster, die Sie in der haben 205 00:10:19,980 --> 00:10:21,000 diejenigen, die Spam sind. 206 00:10:21,000 --> 00:10:23,260 Und das ist ein Teil der Rechen Linguistik. 207 00:10:23,260 --> 00:10:24,720 Es heißt Datenklassifizierung. 208 00:10:24,720 --> 00:10:28,100 Und wir sind eigentlich los, um zu sehen, ein Beispiel für die in den folgenden Folien. 209 00:10:28,100 --> 00:10:32,910 >> Die zweite Sache ist natürlicher Sprache Verarbeitung, die Sache ist die, dass die 210 00:10:32,910 --> 00:10:36,580 Graph Suche tut der Vermietung Sie einen Satz zu schreiben. 211 00:10:36,580 --> 00:10:38,690 Und er vertraut Sie verstehen, was ist die Bedeutung und gibt 212 00:10:38,690 --> 00:10:39,940 Sie ein besseres Ergebnis. 213 00:10:39,940 --> 00:10:43,880 Eigentlich, wenn man bei Google oder Bing gehen Sie suchen, und so etwas wie Lady 214 00:10:43,880 --> 00:10:47,060 Gaga in der Höhe, sind Sie eigentlich vor sich geht 5 '1 "statt Informationen erhalten 215 00:10:47,060 --> 00:10:50,170 von ihr, weil es tatsächlich versteht, was du redest. 216 00:10:50,170 --> 00:10:52,140 Also das ist Teil des natürlichen Sprachverarbeitung. 217 00:10:52,140 --> 00:10:57,000 >> Oder auch, wenn Sie gerade Siri, erste Sie einen Algorithmus, der versucht zu haben 218 00:10:57,000 --> 00:11:01,130 übersetzen, was du sagst in Worten in Text. 219 00:11:01,130 --> 00:11:03,690 Und dann versucht es zu übersetzen dass in Bedeutung. 220 00:11:03,690 --> 00:11:06,570 Also das ist alles Teil des natürlichen Sprachverarbeitung. 221 00:11:06,570 --> 00:11:08,320 >> Dann haben Sie die maschinelle Übersetzung - 222 00:11:08,320 --> 00:11:10,300 was ist eigentlich ein meiner Favoriten - 223 00:11:10,300 --> 00:11:14,060 die nur die Übersetzung von eine Sprache in eine andere. 224 00:11:14,060 --> 00:11:17,950 So können Sie sich denken, dass, wenn du tust maschinelle Übersetzung, haben Sie 225 00:11:17,950 --> 00:11:19,750 unendlichen Möglichkeiten der Sätze. 226 00:11:19,750 --> 00:11:22,960 Also gibt es keine Möglichkeit, nur die Speicherung jede einzelne Übersetzung. 227 00:11:22,960 --> 00:11:27,440 Also, kommen mit interessanten müssen Sie Algorithmen, um in der Lage zu sein, 228 00:11:27,440 --> 00:11:30,110 übersetzen jede einzelne Satz in irgendeiner Weise. 229 00:11:30,110 --> 00:11:32,483 >> Ihr habt noch Fragen haben so weit? 230 00:11:32,483 --> 00:11:34,450 Nein? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Also, was machen wir heute zu sehen? 233 00:11:36,900 --> 00:11:39,300 Zunächst einmal, ich werde zu reden die Klassifizierung Problem. 234 00:11:39,300 --> 00:11:41,440 Also die, die ich war, Spruch über Spam. 235 00:11:41,440 --> 00:11:46,820 Was ich tun werde, ist, angesichts Texte einen Song, können Sie versuchen, herauszufinden, 236 00:11:46,820 --> 00:11:49,810 mit hoher Wahrscheinlichkeit wer ist der Sänger? 237 00:11:49,810 --> 00:11:53,590 Lassen Sie uns sagen, dass ich Songs von Lady Gaga und Katy Perry, wenn ich Ihnen ein 238 00:11:53,590 --> 00:11:58,130 neuen Song, können Sie herausfinden, ob es ist Katy Perry oder Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Die zweite, ich werde einfach zu reden über die Segmentierung Problem. 240 00:12:01,490 --> 00:12:05,780 Also ich weiß nicht, ob euch wissen, aber Chinesisch, Japanisch, anderen ostasiatischen 241 00:12:05,780 --> 00:12:08,090 Sprachen und andere Sprachen im allgemeinen keine 242 00:12:08,090 --> 00:12:09,830 Leerzeichen zwischen den Wörtern. 243 00:12:09,830 --> 00:12:13,540 Und dann, wenn Sie über die Art und Weise, die denken, Computer Art versucht, 244 00:12:13,540 --> 00:12:18,600 verstehen, Verarbeitung natürlicher Sprache, sieht es bei den Worten und 245 00:12:18,600 --> 00:12:21,500 versucht, die Beziehungen zu verstehen zwischen ihnen, oder? 246 00:12:21,500 --> 00:12:25,440 Aber dann, wenn Sie Chinesisch, und Sie null Räume, es ist wirklich schwer, 247 00:12:25,440 --> 00:12:28,360 herauszufinden, was ist die Beziehung zwischen Worten, weil sie nicht irgendwelche 248 00:12:28,360 --> 00:12:29,530 Wörter zuerst. 249 00:12:29,530 --> 00:12:32,600 Sie wollen etwas namens tun haben Segmentierung, die nur das Einfüllen 250 00:12:32,600 --> 00:12:36,490 Räume zwischen dem, was wir nennen würde Wörter in diesen Sprachen. 251 00:12:36,490 --> 00:12:37,740 Sinnvoll? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Und dann sind wir zu gehen sprechen über Syntax. 254 00:12:41,540 --> 00:12:44,050 Also nur ein wenig über die natürliche Sprachverarbeitung. 255 00:12:44,050 --> 00:12:45,420 Es wird nur ein Überblick sein. 256 00:12:45,420 --> 00:12:50,700 So heute, im Grunde, was ich tun möchte, wird geben euch ein wenig ein 257 00:12:50,700 --> 00:12:53,930 Innenseite, was sind die Möglichkeiten dass Sie tun können, mit Rechen 258 00:12:53,930 --> 00:12:54,960 Linguistik. 259 00:12:54,960 --> 00:13:00,410 Und dann können Sie sehen, was Sie denken gehört zu den Dingen, cool. 260 00:13:00,410 --> 00:13:02,270 Und vielleicht haben Sie ein Projekt denken kann kommen und mit mir reden. 261 00:13:02,270 --> 00:13:05,260 Und ich kann Ihnen Ratschläge zu geben auf, wie es zu implementieren. 262 00:13:05,260 --> 00:13:09,060 >> So Syntax wird ein wenig sein zu den Grafik Suche und Maschinen 263 00:13:09,060 --> 00:13:09,670 Übersetzung. 264 00:13:09,670 --> 00:13:13,650 Ich werde nur ein Beispiel, wie geben Sie könnten beispielsweise übersetzen 265 00:13:13,650 --> 00:13:16,020 etwas aus dem Portugiesischen ins Englische. 266 00:13:16,020 --> 00:13:17,830 Klingt gut? 267 00:13:17,830 --> 00:13:19,293 >> Also erstens, die Einstufung Problem. 268 00:13:19,293 --> 00:13:23,590 Ich werde sagen, dass dieser Teil des Seminars wird die größte Herausforderung sein 269 00:13:23,590 --> 00:13:27,560 ein, nur weil es geht einige Codierung sein. 270 00:13:27,560 --> 00:13:29,470 Aber es geht um Python sein. 271 00:13:29,470 --> 00:13:34,380 Ich weiß, ihr Jungs nicht wissen, Python, so Ich werde einfach auf der hohen erklären 272 00:13:34,380 --> 00:13:35,750 Ebene, was ich tue. 273 00:13:35,750 --> 00:13:40,900 Und Sie müssen nicht wirklich interessieren zu viel über die Syntax, weil das ist 274 00:13:40,900 --> 00:13:42,140 etwas, das man Jungs lernen können. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Klingt gut. 277 00:13:43,580 --> 00:13:46,020 >> Also, was ist die Klassifizierung Problem? 278 00:13:46,020 --> 00:13:49,140 Sie sind also einige Texte gegeben ein Lied, und Sie wollen, zu erraten, 279 00:13:49,140 --> 00:13:50,620 wer singt es. 280 00:13:50,620 --> 00:13:54,045 Und dies kann für jede Art sein, andere Probleme. 281 00:13:54,045 --> 00:13:59,980 So kann es sein, zum Beispiel, haben Sie ein Präsidentschaftswahlkampf, und Sie haben ein 282 00:13:59,980 --> 00:14:02,610 Rede, und Sie finden möchten aus, wenn es zum Beispiel 283 00:14:02,610 --> 00:14:04,470 Obama oder Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Oder Sie können eine Reihe von E-Mails haben und Sie herausfinden, wenn sie wollen 285 00:14:07,700 --> 00:14:08,890 Spam oder nicht. 286 00:14:08,890 --> 00:14:11,440 So ist es nur einige Klassifizierung Daten basierend auf den Wörtern 287 00:14:11,440 --> 00:14:13,790 dass Sie da. 288 00:14:13,790 --> 00:14:16,295 >> So, das zu tun, müssen Sie machen einige Annahmen. 289 00:14:16,295 --> 00:14:20,570 So viel über Computerlinguistik macht Annahmen, 290 00:14:20,570 --> 00:14:24,100 Regel intelligent Annahmen, so dass Sie können gute Ergebnisse zu erzielen. 291 00:14:24,100 --> 00:14:26,670 Der Versuch, ein Modell für sie zu schaffen. 292 00:14:26,670 --> 00:14:31,290 Und dann probieren Sie es aus und sehen, ob es funktioniert, wenn es Ihnen gute Präzision. 293 00:14:31,290 --> 00:14:33,940 Und wenn doch, dann sind Sie versuchen, es zu verbessern. 294 00:14:33,940 --> 00:14:37,640 Wenn es nicht, wie, OK, sind Sie vielleicht sollte eine andere Annahme zu machen. 295 00:14:37,640 --> 00:14:44,030 >> So ist die Annahme, dass wir zu gehen machen, ist, dass ein Künstler in der Regel singt 296 00:14:44,030 --> 00:14:49,220 zu einem Thema mehrere Male, und vielleicht verwendet Worte mehrmals nur 297 00:14:49,220 --> 00:14:50,270 weil sie es gewohnt sind. 298 00:14:50,270 --> 00:14:51,890 Sie können denken Sie nur an Ihren Freund. 299 00:14:51,890 --> 00:14:57,350 Ich bin sicher, Sie haben alle Jungs Freunde , die ihre Unterschrift Satz sagen, 300 00:14:57,350 --> 00:14:59,260 buchstäblich für jeden einzelnen Satz - 301 00:14:59,260 --> 00:15:02,660 wie ein bestimmtes Wort oder eine bestimmte Phrase, die sie sagen, für 302 00:15:02,660 --> 00:15:04,020 jeder einzelne Satz. 303 00:15:04,020 --> 00:15:07,920 >> Und was Sie sagen können, ist, dass, wenn Sie sehen, ein Satz, der eine Signatur hat 304 00:15:07,920 --> 00:15:11,450 Satz, können Sie erraten, dass wahrscheinlich Ihr Freund ist der 305 00:15:11,450 --> 00:15:13,310 einer sagen, oder? 306 00:15:13,310 --> 00:15:18,410 So können Sie diese Annahme zu machen und dann das ist, wie Sie ein Modell erstellen. 307 00:15:18,410 --> 00:15:24,440 >> Das Beispiel, das werde ich geben kann, ist auf Lady Gaga, wie zum Beispiel Menschen 308 00:15:24,440 --> 00:15:27,430 sagen, dass sie nutzt "Baby" für alle ihre Nummer eins Songs. 309 00:15:27,430 --> 00:15:32,270 Und tatsächlich ist dies ein Video, dass zeigt, sie sagen, das Wort "Baby" für 310 00:15:32,270 --> 00:15:33,410 verschiedene Lieder. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO PLAYBACK] 312 00:15:33,860 --> 00:15:34,310 >> - (Gesang) Baby. 313 00:15:34,310 --> 00:15:36,220 Baby. 314 00:15:36,220 --> 00:15:37,086 Baby. 315 00:15:37,086 --> 00:15:37,520 Baby. 316 00:15:37,520 --> 00:15:37,770 Baby. 317 00:15:37,770 --> 00:15:38,822 Baby. 318 00:15:38,822 --> 00:15:39,243 Baby. 319 00:15:39,243 --> 00:15:40,085 Baby. 320 00:15:40,085 --> 00:15:40,510 Baby. 321 00:15:40,510 --> 00:15:40,850 Baby. 322 00:15:40,850 --> 00:15:41,090 >> [END VIDEO PLAYBACK- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: So gibt es, glaube ich, 40 Songs, in denen sie hier, sagt der 324 00:15:44,020 --> 00:15:48,690 Wort "Baby". So können Sie im Grunde denke, dass, wenn Sie ein Lied, das hat zu sehen 325 00:15:48,690 --> 00:15:52,180 das Wort "Baby", es gibt einige Hoch Wahrscheinlichkeit, dass es Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Aber lassen Sie uns versuchen, diese zu entwickeln weiter mehr formal. 327 00:15:56,450 --> 00:16:00,470 >> Das sind also Texte der Songs durch Lady Gaga und Katy Perry. 328 00:16:00,470 --> 00:16:04,120 So können Sie bei Lady Gaga aussehen, sie sehen, Sie haben viele Vorkommen von "Baby", eine 329 00:16:04,120 --> 00:16:07,710 Menge von Ereignissen von "Art und Weise." Und dann Katy Perry hat viele Vorkommen 330 00:16:07,710 --> 00:16:10,360 "Die", eine Menge von Ereignissen von "Feuer". 331 00:16:10,360 --> 00:16:14,560 >> Also im Grunde das, was wir wollen zu tun ist, können Sie einen Text bekommen. 332 00:16:14,560 --> 00:16:20,480 Lassen Sie uns sagen, dass Sie einen Text für eine bekommen Lied, das "Baby", nur "Baby". Wenn 333 00:16:20,480 --> 00:16:24,750 Sie nur das Wort "Baby", und dies bekommen sind alle Daten, die Sie von haben 334 00:16:24,750 --> 00:16:27,880 Lady Gaga und Katy Perry, wer würde Sie schätzen, ist die Person, 335 00:16:27,880 --> 00:16:29,370 , der das Lied singt? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga oder Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, oder? 338 00:16:33,150 --> 00:16:37,400 Denn sie ist der einzige, der sagt, "Baby." Das klingt dumm, oder? 339 00:16:37,400 --> 00:16:38,760 OK, das ist wirklich einfach. 340 00:16:38,760 --> 00:16:41,860 Ich schaue mich nur an den beiden Songs und der Natürlich ist sie die einzige, die hat 341 00:16:41,860 --> 00:16:42,660 "Baby." 342 00:16:42,660 --> 00:16:44,740 >> Aber was, wenn Sie ein paar Worte? 343 00:16:44,740 --> 00:16:50,900 Wenn Sie eine aktuelle Lyrik, etwas zu haben wie, "Baby, ich habe gerade 344 00:16:50,900 --> 00:16:51,610 ging zu einem [sehen? CFT?] 345 00:16:51,610 --> 00:16:54,020 Vortrag "oder so ähnlich, und dann haben Sie eigentlich, um herauszufinden, - 346 00:16:54,020 --> 00:16:55,780 bezogen auf alle diese Worte - 347 00:16:55,780 --> 00:16:58,350 , die der Künstler, der wahrscheinlich sang dieses Lied? 348 00:16:58,350 --> 00:17:01,860 So wollen wir versuchen, zu entwickeln dies ein wenig weiter. 349 00:17:01,860 --> 00:17:05,630 >> OK, also nur auf den Daten basiert, die wir erhalten, scheint es, dass Gaga ist wahrscheinlich 350 00:17:05,630 --> 00:17:06,260 die Sängerin. 351 00:17:06,260 --> 00:17:07,904 Aber wie können wir schreiben diese formal? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Und es geht um ein wenig bisschen Statistik. 354 00:17:13,140 --> 00:17:15,880 Also, wenn Sie verloren gehen, nur versuchen, , um das Konzept zu verstehen. 355 00:17:15,880 --> 00:17:18,700 Es spielt keine Rolle, wenn Sie verstehen, die Gleichungen sehr gut. 356 00:17:18,700 --> 00:17:22,150 Dies wird sich alles online sein. 357 00:17:22,150 --> 00:17:25,490 >> Also im Grunde, was ich der Berechnung ist die Wahrscheinlichkeit, dass dieser Song ist durch 358 00:17:25,490 --> 00:17:28,040 Lady Gaga da - 359 00:17:28,040 --> 00:17:30,660 so bedeutet diese Bar gegeben, dass - 360 00:17:30,660 --> 00:17:33,680 Ich sah das Wort "Baby". Heißt das Sinn? 361 00:17:33,680 --> 00:17:35,540 So versuche ich zu berechnen diese Wahrscheinlichkeit. 362 00:17:35,540 --> 00:17:38,540 >> So gibt es dieses Theorem genannt Bayes-Theorem besagt, dass das 363 00:17:38,540 --> 00:17:43,330 Wahrscheinlichkeit eines gegebenen B die Wahrscheinlichkeit von B gegeben A, mal die 364 00:17:43,330 --> 00:17:47,660 Wahrscheinlichkeit A, über die Wahrscheinlichkeit von B. Dies ist ein langer Gleichung. 365 00:17:47,660 --> 00:17:51,970 Aber was Sie von verstehen das ist, dass das ist, was ich will 366 00:17:51,970 --> 00:17:52,830 berechnen, oder? 367 00:17:52,830 --> 00:17:56,570 So ist die Wahrscheinlichkeit, dass dieser Song ist durch Lady Gaga da sah ich das Wort 368 00:17:56,570 --> 00:17:58,230 "Baby." 369 00:17:58,230 --> 00:18:02,960 >> Und jetzt, was ich bekomme ist die Wahrscheinlichkeit für das Wort "Baby" gegeben 370 00:18:02,960 --> 00:18:04,390 dass ich Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Und was ist das im Grunde? 372 00:18:07,220 --> 00:18:10,500 Was das bedeutet, ist, was ist das Wahrscheinlichkeit des Sehens, das Wort "Baby" 373 00:18:10,500 --> 00:18:12,130 Gaga in Texten? 374 00:18:12,130 --> 00:18:16,240 Wenn ich in einer sehr berechnen, dass einfach so, es ist nur die Anzahl der 375 00:18:16,240 --> 00:18:23,640 Ich sehe mal "Baby" an der Gesamtzahl von Wörtern in Texten Gaga, oder? 376 00:18:23,640 --> 00:18:27,600 Was ist die Frequenz, die ich sehe, dieses Wort in Gaga Arbeit? 377 00:18:27,600 --> 00:18:30,530 Sinnvoll? 378 00:18:30,530 --> 00:18:33,420 >> Der zweite Term ist der Wahrscheinlichkeit Gaga. 379 00:18:33,420 --> 00:18:34,360 Was bedeutet das? 380 00:18:34,360 --> 00:18:38,550 Das bedeutet im Grunde, was ist das Wahrscheinlichkeit der Klassifizierung 381 00:18:38,550 --> 00:18:40,690 einige Texte als Gaga? 382 00:18:40,690 --> 00:18:45,320 Und das ist irgendwie komisch, aber Lassen Sie uns an einem Beispiel zu denken. 383 00:18:45,320 --> 00:18:49,230 Also sagen wir mal, dass die Wahrscheinlichkeit mit "Baby" in einem Song ist das gleiche 384 00:18:49,230 --> 00:18:51,760 für Gaga und Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Aber Britney Spears hat zweimal mehr Songs als Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Also, wenn jemand nur zufällig gibt Ihnen Text von "Baby", das erste, was Sie 387 00:19:00,570 --> 00:19:04,710 betrachten ist, was ist die Wahrscheinlichkeit, mit "Baby" in einem Gaga-Song "Baby" 388 00:19:04,710 --> 00:19:05,410 Britney in einem Lied? 389 00:19:05,410 --> 00:19:06,460 Und es ist das gleiche. 390 00:19:06,460 --> 00:19:10,040 >> So ist die zweite Sache, die Sie sehen, ist, Nun, was ist die Wahrscheinlichkeit, 391 00:19:10,040 --> 00:19:13,770 diese Lyrik von selbst ein Gaga Lyrik, und was die Wahrscheinlichkeit 392 00:19:13,770 --> 00:19:15,380 ein Britney Lyrik? 393 00:19:15,380 --> 00:19:18,950 So, da Britney hat so viele weitere Texte als Gaga, würden Sie wahrscheinlich 394 00:19:18,950 --> 00:19:21,470 sagen wir, na ja, ist dies wahrscheinlich a Britney Lyrik. 395 00:19:21,470 --> 00:19:23,340 Also das ist, warum wir dies nennen Sie hier. 396 00:19:23,340 --> 00:19:24,670 Probability of Gaga. 397 00:19:24,670 --> 00:19:26,950 Das macht Sinn? 398 00:19:26,950 --> 00:19:28,660 Tut es das? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Und der letzte ist nur die Wahrscheinlichkeit von "Baby", das nicht 401 00:19:33,500 --> 00:19:34,810 wirklich wichtig, dass viel. 402 00:19:34,810 --> 00:19:39,940 Aber es ist die Wahrscheinlichkeit, Sehen "baby" in englischer Sprache. 403 00:19:39,940 --> 00:19:42,725 Wir in der Regel nicht darauf, dass viel über diesen Begriff. 404 00:19:42,725 --> 00:19:44,490 Heißt das Sinn? 405 00:19:44,490 --> 00:19:48,110 Also die Wahrscheinlichkeit ist Gaga bezeichnet die frühere Wahrscheinlichkeit 406 00:19:48,110 --> 00:19:49,530 der Klasse Gaga. 407 00:19:49,530 --> 00:19:53,840 Denn es bedeutet nur, dass, was ist das Wahrscheinlichkeit, dass diese Klasse - 408 00:19:53,840 --> 00:19:55,520 welche Gaga ist - 409 00:19:55,520 --> 00:19:59,350 nur im Allgemeinen, nur ohne Bedingungen. 410 00:19:59,350 --> 00:20:02,560 >> Und dann, wenn ich Wahrscheinlichkeit Gaga gegeben "Baby", wir nennen es Plus 411 00:20:02,560 --> 00:20:06,160 Tränen eine Wahrscheinlichkeit, denn es ist die Wahrscheinlichkeit, 412 00:20:06,160 --> 00:20:08,300 Gaga einige Hinweise gegeben. 413 00:20:08,300 --> 00:20:11,050 Also ich gebe dir die Beweise Ich sah, dass das Wort Baby und 414 00:20:11,050 --> 00:20:12,690 das Lied einen Sinn? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Also, wenn ich ausgerechnet, dass für jede der Songs für Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 was das wäre - 419 00:20:25,916 --> 00:20:27,730 scheinbar kann ich mich nicht bewegen diese. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Die Wahrscheinlichkeit Gaga werden so etwas wie, 2 über 24, mal 1/2, 422 00:20:36,920 --> 00:20:38,260 mehr als 2 über 53. 423 00:20:38,260 --> 00:20:40,640 Es spielt keine Rolle, wenn Sie wissen, was diese Zahlen herkommen. 424 00:20:40,640 --> 00:20:44,750 Aber es ist nur eine Zahl, die gehen mehr als 0 sein, oder? 425 00:20:44,750 --> 00:20:48,610 >> Und dann, wenn ich Katy Perry, die Wahrscheinlichkeit des "Baby" gegeben Katy ist 426 00:20:48,610 --> 00:20:49,830 bereits 0, oder? 427 00:20:49,830 --> 00:20:52,820 Da gibt es kein "Baby" in Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Also dann 0 wird, und Gaga Siege, was bedeutet, dass Gaga ist 429 00:20:56,360 --> 00:20:57,310 wahrscheinlich die Sängerin. 430 00:20:57,310 --> 00:20:58,560 Heißt das Sinn? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Also, wenn ich will diese mehr offiziell zu machen, Ich kann ein Modell tatsächlich tun 435 00:21:11,750 --> 00:21:12,700 nach mehreren Wörtern. 436 00:21:12,700 --> 00:21:14,610 Also sagen wir mal, dass ich etwas wie, "Baby, ich bin 437 00:21:14,610 --> 00:21:16,030 auf Feuer ", oder so etwas. 438 00:21:16,030 --> 00:21:17,760 So hat es die mehrfachen Wörter. 439 00:21:17,760 --> 00:21:20,880 Und in diesem Fall können Sie sehen, dass "Baby" ist in Gaga, 440 00:21:20,880 --> 00:21:21,710 aber es ist nicht in Katy. 441 00:21:21,710 --> 00:21:24,940 Und "Feuer" ist in Katy, aber es ist nicht in Gaga, oder? 442 00:21:24,940 --> 00:21:27,200 Also es wird immer schwieriger, oder? 443 00:21:27,200 --> 00:21:31,440 Denn es scheint, dass Sie fast eine Verbindung zwischen den beiden. 444 00:21:31,440 --> 00:21:36,980 >> Also, was Sie tun müssen ist, davon ausgehen, Unabhängigkeit unter den Wörtern. 445 00:21:36,980 --> 00:21:41,210 Also im Grunde, was das bedeutet ist, dass Ich bin nur die Berechnung, was ist der 446 00:21:41,210 --> 00:21:44,330 Wahrscheinlichkeit des Sehens "Baby", was ist die Wahrscheinlichkeit des Sehens "ich," und 447 00:21:44,330 --> 00:21:46,670 "Am" und "on" und "Feuer" alle separat. 448 00:21:46,670 --> 00:21:48,670 Dann bin ich Multiplikation alle von ihnen. 449 00:21:48,670 --> 00:21:52,420 Und ich werde sehen, was ist die Wahrscheinlichkeit, zu sehen, den ganzen Satz. 450 00:21:52,420 --> 00:21:55,210 Sinnvoll? 451 00:21:55,210 --> 00:22:00,270 >> Also im Grunde, wenn ich nur ein Wort, was ich finde, ist die arg max, 452 00:22:00,270 --> 00:22:05,385 was bedeutet, was ist die Klasse, ist die mir die höchste Wahrscheinlichkeit? 453 00:22:05,385 --> 00:22:10,010 Also, was ist die Klasse, was ist mir die höchste Wahrscheinlichkeit für 454 00:22:10,010 --> 00:22:11,940 Wahrscheinlichkeit der Klasse gegebene Wort. 455 00:22:11,940 --> 00:22:17,610 Also in diesem Fall, Gaga gegeben "Baby." Oder Katy gegeben "Baby." Sinnvoll? 456 00:22:17,610 --> 00:22:21,040 >> Und gerade von Bayes, dass Gleichung, die ich zeigte, 457 00:22:21,040 --> 00:22:24,780 schaffen wir diese Fraktion. 458 00:22:24,780 --> 00:22:28,750 Die einzige Sache ist, dass Sie sehen, dass die Wahrscheinlichkeit des Wortes angesichts der 459 00:22:28,750 --> 00:22:31,370 Klassenänderungen je von der Klasse, oder? 460 00:22:31,370 --> 00:22:34,260 Die Anzahl der "Baby" s, die ich habe in Gaga ist von Katy. 461 00:22:34,260 --> 00:22:37,640 Die Wahrscheinlichkeit, dass die Klasse auch Änderungen, weil es nur die Anzahl 462 00:22:37,640 --> 00:22:39,740 Lieder jeder von ihnen hat. 463 00:22:39,740 --> 00:22:43,980 >> Aber die Wahrscheinlichkeit des Wortes selbst wird sich für alle gleich sein, die 464 00:22:43,980 --> 00:22:44,740 Künstler, oder? 465 00:22:44,740 --> 00:22:47,150 So dass die Wahrscheinlichkeit des Wortes ist nur, was ist die Wahrscheinlichkeit, 466 00:22:47,150 --> 00:22:49,820 zu sehen, dass das Wort in Englisch Sprache? 467 00:22:49,820 --> 00:22:51,420 Also es ist das gleiche für alle. 468 00:22:51,420 --> 00:22:55,790 So, da diese konstant ist, können wir nur fallen diese und nicht darum kümmern. 469 00:22:55,790 --> 00:23:00,230 So wird dies tatsächlich sein kann das Gleichung, die wir suchen. 470 00:23:00,230 --> 00:23:03,360 >> Und wenn ich mehrere Worte, ich bin immer noch die vor haben 471 00:23:03,360 --> 00:23:04,610 Wahrscheinlichkeit hier. 472 00:23:04,610 --> 00:23:06,980 Die einzige Sache ist, dass ich die Multiplikation die Wahrscheinlichkeit 473 00:23:06,980 --> 00:23:08,490 alle anderen Wörtern. 474 00:23:08,490 --> 00:23:10,110 Also ich bin Multiplikation alle von ihnen. 475 00:23:10,110 --> 00:23:12,610 Sinnvoll? 476 00:23:12,610 --> 00:23:18,440 Es sieht seltsam, aber im Grunde bedeutet, Berechnung der vor der Klasse, und 477 00:23:18,440 --> 00:23:22,100 dann durch die Wahrscheinlichkeit jeder multiplizieren der Wörter, die in dieser Klasse. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Und Sie wissen, dass die Wahrscheinlichkeit, ein Wort gegeben, eine Klasse sein wird, die 480 00:23:29,150 --> 00:23:34,520 Anzahl der Sie sehen, dass im Wort die Klasse, dividiert durch die Anzahl der 481 00:23:34,520 --> 00:23:37,020 Wörter, die Sie haben, dass Klasse im Allgemeinen. 482 00:23:37,020 --> 00:23:37,990 Sinnvoll? 483 00:23:37,990 --> 00:23:41,680 Es ist nur, wie "Baby" war über zwei die Anzahl von Wörtern, 484 00:23:41,680 --> 00:23:43,020 Ich hatte in den Texten. 485 00:23:43,020 --> 00:23:45,130 Also einfach die Frequenz. 486 00:23:45,130 --> 00:23:46,260 >> Aber es ist eine Sache. 487 00:23:46,260 --> 00:23:51,250 Denken Sie daran, wie ich zeigen, dass die Wahrscheinlichkeit des "Baby" als Text 488 00:23:51,250 --> 00:23:56,350 von Katy Perry war 0, nur weil Katy Perry hatte nicht "Baby" überhaupt? 489 00:23:56,350 --> 00:24:04,900 Aber es klingt ein wenig hart, um nur einfach sagen, dass Texte nicht aus sein 490 00:24:04,900 --> 00:24:10,040 ein Künstler, nur weil sie nicht haben dieses Wort insbesondere zu jeder Zeit. 491 00:24:10,040 --> 00:24:13,330 >> So konnte man nur sagen, gut, wenn Sie dieses Wort nicht zu haben, ich werde 492 00:24:13,330 --> 00:24:15,640 geben Sie eine geringere Wahrscheinlichkeit, aber ich bin einfach nicht zu 493 00:24:15,640 --> 00:24:17,420 geben Sie 0 sofort. 494 00:24:17,420 --> 00:24:21,040 Denn vielleicht war es so etwas wie, "Feuer, Feuer, Feuer, Feuer", das ist 495 00:24:21,040 --> 00:24:21,990 völlig Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Und dann "Baby", und es geht nur um 0 sofort, denn es gab ein 497 00:24:26,060 --> 00:24:27,250 "Baby." 498 00:24:27,250 --> 00:24:31,440 >> Also im Grunde das, was wir tun, ist etwas, genannt Laplace Glättung. 499 00:24:31,440 --> 00:24:36,260 Und das bedeutet nur, dass ich gebe gewisse Wahrscheinlichkeit auch auf die Worte 500 00:24:36,260 --> 00:24:37,850 dass gibt es nicht. 501 00:24:37,850 --> 00:24:43,170 Also, was ich tue, ist, dass, wenn ich Diese Berechnung, habe ich immer ein hinzufügen 502 00:24:43,170 --> 00:24:44,180 der Zähler. 503 00:24:44,180 --> 00:24:48,060 Also auch wenn das Wort nicht vorhanden ist, in In diesem Fall, wenn dieser 0 ist, bin ich immer noch 504 00:24:48,060 --> 00:24:51,250 Berechnen dieses als 1 über die Gesamtzahl der Wörter. 505 00:24:51,250 --> 00:24:55,060 Ansonsten bekomme ich, wie viele Wörter Ich habe und ich 1 hinzuzufügen. 506 00:24:55,060 --> 00:24:58,300 Also zähle ich für beide Fälle. 507 00:24:58,300 --> 00:25:00,430 Sinnvoll? 508 00:25:00,430 --> 00:25:03,060 >> So, jetzt machen wir einige Codierung. 509 00:25:03,060 --> 00:25:06,440 Ich werde es ziemlich schnell zu tun zu haben, aber es ist nur wichtig, dass Sie 510 00:25:06,440 --> 00:25:08,600 Jungs verstehen die Konzepte. 511 00:25:08,600 --> 00:25:13,450 Also, was wir zu tun versuchen genau dies umzusetzen 512 00:25:13,450 --> 00:25:14,330 was ich gerade gesagt habe - 513 00:25:14,330 --> 00:25:19,110 Ich möchte, dass Texte aus setzen Lady Gaga und Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Und das Programm ist in der Lage zu sein, sagen, wenn diese neuen Texte sind von Gaga 515 00:25:22,980 --> 00:25:24,170 oder Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Sinnvoll? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Also ich habe dieses Programm werde ich zu classify.py anrufen. 519 00:25:30,710 --> 00:25:31,970 Also das ist Python. 520 00:25:31,970 --> 00:25:34,210 Es ist eine neue Programmiersprache. 521 00:25:34,210 --> 00:25:38,020 Es ist in einigen sehr ähnlich Möglichkeiten, C und PHP. 522 00:25:38,020 --> 00:25:43,180 Es ist ähnlich, weil, wenn Sie wollen lernen Python nach C zu wissen, es ist 523 00:25:43,180 --> 00:25:46,270 wirklich nicht so viel von einer Herausforderung Python, nur weil es viel einfacher 524 00:25:46,270 --> 00:25:47,520 als C, zunächst. 525 00:25:47,520 --> 00:25:49,370 Und viele Dinge sind bereits für Sie implementiert. 526 00:25:49,370 --> 00:25:56,820 So, wie wie PHP hat Funktionen, die eine Liste zu sortieren, oder etwas anhängen 527 00:25:56,820 --> 00:25:58,780 in ein Array, oder blah, blah, blah. 528 00:25:58,780 --> 00:26:00,690 Python hat alle diese ebenfalls. 529 00:26:00,690 --> 00:26:05,960 >> Also ich werde einfach zu schnell erklären wie wir die Klassifizierung zu tun 530 00:26:05,960 --> 00:26:07,860 Problem hier. 531 00:26:07,860 --> 00:26:13,230 Also sagen wir mal, dass in diesem Fall habe ich Texte von Gaga und Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Die Art und Weise, die ich habe ist, dass diese Texte das erste Wort der Texte ist 533 00:26:21,880 --> 00:26:25,250 der Name des Künstlers, und der Rest ist der Text. 534 00:26:25,250 --> 00:26:29,470 Also lassen Sie uns sagen, dass ich diese Liste in welche die erste ist Songtexte von Gaga. 535 00:26:29,470 --> 00:26:31,930 Also bin ich hier auf dem richtigen Weg. 536 00:26:31,930 --> 00:26:35,270 Und der nächste ist Katy, und es hat auch die Texte. 537 00:26:35,270 --> 00:26:38,040 >> Also das ist, wie Sie erklären eine Variable in Python. 538 00:26:38,040 --> 00:26:40,200 Sie müssen nicht um den Datentyp zu geben. 539 00:26:40,200 --> 00:26:43,150 Man schreibt einfach "lyrics" ein bisschen wie in PHP. 540 00:26:43,150 --> 00:26:44,890 Sinnvoll? 541 00:26:44,890 --> 00:26:47,770 >> Also, was sind die Dinge, die ich zu berechnen zu können, berechnen die 542 00:26:47,770 --> 00:26:49,360 Wahrscheinlichkeiten? 543 00:26:49,360 --> 00:26:55,110 Ich muss die "Priors" berechnen jedes der verschiedenen 544 00:26:55,110 --> 00:26:56,710 Klassen, die ich habe. 545 00:26:56,710 --> 00:27:06,680 Ich muss die "Seitenzähne" berechnen oder so ziemlich die Wahrscheinlichkeiten 546 00:27:06,680 --> 00:27:12,150 jede der anderen Begriffen Ich für jeden Künstler haben kann. 547 00:27:12,150 --> 00:27:17,210 Also innerhalb Gaga, zum Beispiel, werde ich , um eine Liste, wie oft ich sehen 548 00:27:17,210 --> 00:27:19,250 jedes der Wörter. 549 00:27:19,250 --> 00:27:20,760 Sinnvoll? 550 00:27:20,760 --> 00:27:25,370 >> Und schließlich, ich bin nur zu haben, ein Liste namens "Worte", die gerade dabei ist, 551 00:27:25,370 --> 00:27:29,780 zu haben, wie viele Wörter, die ich haben für jeden Künstler. 552 00:27:29,780 --> 00:27:33,760 Also für Gaga, zum Beispiel, wenn ich die Texte, hatte ich, glaube ich, 24 553 00:27:33,760 --> 00:27:34,750 Wörter insgesamt. 554 00:27:34,750 --> 00:27:38,970 Also diese Liste nur zu haben, Gaga 24 und Katy andere Nummer. 555 00:27:38,970 --> 00:27:40,130 Sinnvoll? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> So, jetzt, eigentlich, wollen wir gehen auf die Codierung. 558 00:27:42,530 --> 00:27:45,270 So in Python, kann man eigentlich geben eine Reihe von verschiedenen 559 00:27:45,270 --> 00:27:46,630 Dinge aus einer Funktion. 560 00:27:46,630 --> 00:27:50,810 Also werde ich, um diese Funktion zu erstellen genannte "bedingte", die gehen 561 00:27:50,810 --> 00:27:53,890 , all diese Dinge zurück, die "Priors", die "Wahrscheinlichkeiten", und die 562 00:27:53,890 --> 00:28:05,690 "Worte." So "bedingte", und es ist werde in den Aufruf werden "lyrics". 563 00:28:05,690 --> 00:28:11,510 >> So, jetzt möchte ich Sie eigentlich schreiben Sie diese Funktion. 564 00:28:11,510 --> 00:28:17,750 Also die Möglichkeit, dass ich dies schreiben Funktion Ich habe gerade festgelegt 565 00:28:17,750 --> 00:28:20,620 funktionieren mit "def." Also habe ich "def bedingt, "und es ist unter 566 00:28:20,620 --> 00:28:28,700 "Lyrics". Und was dieser tun wird ist, zunächst einmal, ich habe meine priors 567 00:28:28,700 --> 00:28:31,030 Ich möchte, dass zu berechnen. 568 00:28:31,030 --> 00:28:34,330 >> Also die Möglichkeit, dass ich dies tun, ist ein Wörterbuch in Python, die 569 00:28:34,330 --> 00:28:37,320 ist so ziemlich das gleiche wie ein Hash- Tisch, oder es ist wie eine iterative 570 00:28:37,320 --> 00:28:40,480 Array in PHP. 571 00:28:40,480 --> 00:28:44,150 Dies ist, wie erkläre ich ein Wörterbuch. 572 00:28:44,150 --> 00:28:53,580 Und im Grunde, was das bedeutet, ist, dass Priors von Gaga ist 0,5, zum Beispiel, wenn 573 00:28:53,580 --> 00:28:57,200 50% der Texte sind aus Gaga, Katy sind von 50%. 574 00:28:57,200 --> 00:28:58,450 Sinnvoll? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Also muss ich herausfinden, wie die Prioren zu berechnen. 577 00:29:03,680 --> 00:29:07,120 >> Die nächsten, die ich zu tun habe, auch, die Wahrscheinlichkeiten und die Wörter. 578 00:29:07,120 --> 00:29:17,100 Also die Wahrscheinlichkeiten Gaga ist die Liste aller Wahrscheinlichkeiten, dass ich 579 00:29:17,100 --> 00:29:19,160 haben für jedes der Worte für Gaga. 580 00:29:19,160 --> 00:29:23,880 Also, wenn ich gehen, um Wahrscheinlichkeiten Gaga "Baby", zum Beispiel, wird es mir geben 581 00:29:23,880 --> 00:29:28,750 so etwas wie 2 über 24 in diesem Fall. 582 00:29:28,750 --> 00:29:30,070 Sinnvoll? 583 00:29:30,070 --> 00:29:36,120 Also gehe ich auf "Wahrscheinlichkeiten", die gehen "Gaga" Eimer, die eine Liste von allen hat 584 00:29:36,120 --> 00:29:40,550 Gaga die Worte, dann gehe ich zu "Baby" und ich sehe die Wahrscheinlichkeit. 585 00:29:40,550 --> 00:29:45,940 >> Und schließlich habe ich diese "Worte" Wörterbuch. 586 00:29:45,940 --> 00:29:53,620 So, hier, "Wahrscheinlichkeiten". Und dann "Worte." Also, wenn ich will "Worte", "Gaga" 587 00:29:53,620 --> 00:29:58,330 was passieren wird ist, dass es wird mich 24 geben, sagen, dass ich 588 00:29:58,330 --> 00:30:01,990 haben 24 Wörter in Texten von Gaga. 589 00:30:01,990 --> 00:30:04,110 Das macht Sinn? 590 00:30:04,110 --> 00:30:07,070 So, hier, "Wörter" ist gleich dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 Ok 592 00:30:07,620 --> 00:30:12,210 >> Also, was ich zu tun ist, ich bin zu gehen laufen jedem der Texte, so 593 00:30:12,210 --> 00:30:14,490 jede der Saiten, Ich habe in der Liste. 594 00:30:14,490 --> 00:30:18,040 Und ich werde, um diese Dinge zu berechnen für jede der Kandidaten. 595 00:30:18,040 --> 00:30:19,950 Das macht Sinn? 596 00:30:19,950 --> 00:30:21,700 Also muss ich eine for-Schleife zu tun. 597 00:30:21,700 --> 00:30:26,300 >> So in Python, was ich tun kann, ist "für die Linie in Texten. "Die gleiche Sache wie ein 598 00:30:26,300 --> 00:30:28,000 "Für jeden"-Anweisung in PHP. 599 00:30:28,000 --> 00:30:33,420 Denken Sie daran, wie es war, wenn ich konnte, PHP sagen, "für jedes Lied als 600 00:30:33,420 --> 00:30:35,220 Linie. "Das macht Sinn? 601 00:30:35,220 --> 00:30:38,900 Also ich nehme jede der Linien, in diesem Fall diese Zeichenfolge und der nächste 602 00:30:38,900 --> 00:30:44,540 String so für jede der Linien, was ich bin zu tun ist, zuerst, ich werde 603 00:30:44,540 --> 00:30:49,150 Aufgeteilt diese Zeile in eine Liste von Wörter durch Leerzeichen getrennt. 604 00:30:49,150 --> 00:30:53,730 >> So ist die kühle Sache über Python ist, dass Sie könnten nur Google wie "Wie kann ich 605 00:30:53,730 --> 00:30:58,220 Zerlegt einen String in Worte? "Und es ist werde Ihnen sagen, wie Sie es tun. 606 00:30:58,220 --> 00:31:04,890 Und der Weg, es zu tun, es ist nur "line = Line.split () "und es ist im Grunde 607 00:31:04,890 --> 00:31:08,640 gehen Sie eine Liste mit zu geben jedes der Wörter hier. 608 00:31:08,640 --> 00:31:09,620 Das macht Sinn? 609 00:31:09,620 --> 00:31:15,870 Also jetzt, dass ich das tat, ich möchte wissen, wer ist der Sänger von diesem Lied. 610 00:31:15,870 --> 00:31:20,130 Und zu tun, dass ich nur noch das bekommen erste Element des Arrays, oder? 611 00:31:20,130 --> 00:31:26,390 So kann ich nur sagen, dass ich "-Sängerin = Zeile (0) "Das macht Sinn? 612 00:31:26,390 --> 00:31:32,010 >> Und dann, was ich tun müssen, ist, zunächst alle, ich werde zu aktualisieren, wie viele 613 00:31:32,010 --> 00:31:36,130 Worte habe ich unter "Gaga." Ich bin nur so gehen, um zu berechnen, wie viele Wörter, die ich 614 00:31:36,130 --> 00:31:38,690 haben in dieser Liste, oder? 615 00:31:38,690 --> 00:31:41,910 Denn das ist, wie viele Wörter, die ich haben in den Texten, und ich werde einfach 616 00:31:41,910 --> 00:31:44,120 es um die "Gaga" Array hinzufügen. 617 00:31:44,120 --> 00:31:47,090 Heißt das Sinn? 618 00:31:47,090 --> 00:31:49,010 Zu viel Konzentrieren Sie sich nicht auf die Syntax. 619 00:31:49,010 --> 00:31:50,430 Denken Sie mehr über die Konzepte. 620 00:31:50,430 --> 00:31:52,400 Das ist der wichtigste Teil. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Also, was kann ich tun, wenn "Gaga" ist bereits in dieser Liste, so ", wenn Sänger in 623 00:32:00,260 --> 00:32:03,190 Worte "was bedeutet, dass ich schon haben Worte von Gaga. 624 00:32:03,190 --> 00:32:06,640 Ich möchte nur die zusätzliche hinzufügen Worte dafür. 625 00:32:06,640 --> 00:32:15,810 Also, was ich zu tun ist, "Wörter (Sänger) + = Len (Linie) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Und dann kann ich nur tun, die Länge der Leitung. 627 00:32:18,250 --> 00:32:21,860 So, wie viele Elemente, die ich haben in der Anordnung. 628 00:32:21,860 --> 00:32:27,060 Und ich habe zu tun, nur weil minus 1 das erste Element des Feldes ist nur 629 00:32:27,060 --> 00:32:29,180 Sängerin und die sind nicht Texte. 630 00:32:29,180 --> 00:32:31,420 Das macht Sinn? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Else", es bedeutet, dass ich eigentlich einfügen Gaga in der Liste. 633 00:32:35,820 --> 00:32:45,990 Also habe ich nur tun "Wörter (Sänger) = Len (line) - 1 ", sorry. 634 00:32:45,990 --> 00:32:49,200 So dass der einzige Unterschied zwischen den beiden Linien ist, dass diese eine, tut es nicht 635 00:32:49,200 --> 00:32:51,080 existieren noch, so bin ich nur initialisieren. 636 00:32:51,080 --> 00:32:53,820 Dieses, das ich bin eigentlich Zugabe. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 So wurde dies zusätzlich zu Worten. 639 00:32:59,480 --> 00:33:03,040 >> Jetzt möchte ich zu den Prioren hinzufügen. 640 00:33:03,040 --> 00:33:05,480 Wie berechne ich die priors? 641 00:33:05,480 --> 00:33:11,580 Die priors berechnet werden , um wie viele Male. 642 00:33:11,580 --> 00:33:15,340 Also, wie viele Male Sie, dass Sänger sehen unter all den Sängern, die Sie 643 00:33:15,340 --> 00:33:16,380 haben, oder? 644 00:33:16,380 --> 00:33:18,810 Also für Gaga und Katy Perry, in diesem Fall sehe ich Gaga 645 00:33:18,810 --> 00:33:20,570 einmal, Katy Perry einmal. 646 00:33:20,570 --> 00:33:23,320 >> Also im Grunde die Prioren für Gaga und für Katy Perry würde 647 00:33:23,320 --> 00:33:24,390 nur einer sein, oder? 648 00:33:24,390 --> 00:33:26,500 Sie haben, wie viele Male Ich sehe den Künstler. 649 00:33:26,500 --> 00:33:28,740 Das ist also sehr einfach zu berechnen. 650 00:33:28,740 --> 00:33:34,100 Ich kann einfach etwas ähnliches wie wie "wenn Sänger in priors: "Ich werde einfach 651 00:33:34,100 --> 00:33:38,970 1, um ihre priors Feld hinzufügen. 652 00:33:38,970 --> 00:33:51,000 Also "priors (singen)" + = 1 "und dann" else " Ich werde "priors (Sänger) zu tun 653 00:33:51,000 --> 00:33:55,000 = 1 ist. "Das macht Sinn? 654 00:33:55,000 --> 00:34:00,080 >> Also, wenn es nicht existiert Ich habe nur wie 1, sonst habe ich nur hinzufügen, ein. 655 00:34:00,080 --> 00:34:11,280 OK, jetzt alles, was ich noch zu tun ist auch jedes der Worte, um das Add 656 00:34:11,280 --> 00:34:12,290 Wahrscheinlichkeiten. 657 00:34:12,290 --> 00:34:14,889 So habe ich zu zählen, wie viele Male Ich sehe jedes der Worte. 658 00:34:14,889 --> 00:34:18,780 Also muss ich nur noch anderen zu tun for-Schleife in der Zeile. 659 00:34:18,780 --> 00:34:25,190 >> Also erste, was ich tun werde, ist überprüfen, ob die Sängerin hat bereits ein 660 00:34:25,190 --> 00:34:26,969 Wahrscheinlichkeiten Array. 661 00:34:26,969 --> 00:34:31,739 Also werde ich prüfen, ob der Sänger nicht Wahrscheinlichkeiten haben eine Reihe, ich bin nur 662 00:34:31,739 --> 00:34:34,480 gehen, um für sie zu initialisieren. 663 00:34:34,480 --> 00:34:36,400 Es ist nicht einmal ein Array, sorry, es ist ein Wörterbuch. 664 00:34:36,400 --> 00:34:43,080 So sind die Wahrscheinlichkeiten der Sänger wird ein offenes Wörterbuch sein, also bin ich 665 00:34:43,080 --> 00:34:45,830 Initialisierung nur ein Wörterbuch für sie. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Und jetzt kann ich eigentlich tun, eine for-Schleife zu jedem der Wörter "berechnen 668 00:34:58,330 --> 00:35:00,604 Wahrscheinlichkeiten. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Also, was ich tun kann, ist eine for-Schleife. 671 00:35:04,160 --> 00:35:06,590 Also ich werde einfach zu durchlaufen über die Anordnung. 672 00:35:06,590 --> 00:35:15,320 Also die Möglichkeit, dass ich, dass in Python zu tun ist "for i in range." Vom 1. 673 00:35:15,320 --> 00:35:19,200 denn ich will in der zweiten beginnen Element, da die erste ist die 674 00:35:19,200 --> 00:35:20,260 Sänger Namen. 675 00:35:20,260 --> 00:35:24,990 So von einem bis zu der Länge der Leitung. 676 00:35:24,990 --> 00:35:29,760 Und wenn ich es eigentlich reichen aus gehen wie hier von 1 bis len der 677 00:35:29,760 --> 00:35:30,740 Zeile minus 1. 678 00:35:30,740 --> 00:35:33,810 So ist es bereits tut das Ding zu tun n minus 1 für Arrays, die sehr ist 679 00:35:33,810 --> 00:35:35,500 praktisch. 680 00:35:35,500 --> 00:35:37,850 Das macht Sinn? 681 00:35:37,850 --> 00:35:42,770 >> Also für jeden von ihnen, was ich zu Sie ist, wie in dem anderen, 682 00:35:42,770 --> 00:35:50,320 Ich werde prüfen, ob das Wort in dieser Position in der Zeile bereits 683 00:35:50,320 --> 00:35:51,570 Wahrscheinlichkeiten. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Und dann, als ich sagte, hier Wahrscheinlichkeiten Worten, wie in ich 686 00:35:57,260 --> 00:35:58,400 "Wahrscheinlichkeiten (Sänger)". 687 00:35:58,400 --> 00:35:59,390 So wird der Name des Sängers. 688 00:35:59,390 --> 00:36:03,450 Also, wenn es bereits in "Probabilit (Sänger)" ist, bedeutet es, dass ich 689 00:36:03,450 --> 00:36:11,960 wollen ein, um es hinzuzufügen, so werde ich tun "Wahrscheinlichkeiten (Sänger)" und die 690 00:36:11,960 --> 00:36:14,100 Wort heißt "Linie (i)". 691 00:36:14,100 --> 00:36:22,630 Ich werde 1 addieren und "anderes" Ich bin nur werde es auf 1 zu initialisieren. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Das macht Sinn? 695 00:36:28,420 --> 00:36:30,180 >> So ich alle Arrays berechnet. 696 00:36:30,180 --> 00:36:36,580 So, jetzt alles, was ich für die tun dieser wird nur "zurück priors, 697 00:36:36,580 --> 00:36:43,230 Wahrscheinlichkeiten und Worte. "Lass uns sehen, wenn es welche gibt, OK. 698 00:36:43,230 --> 00:36:45,690 Es scheint alles so weit funktioniert. 699 00:36:45,690 --> 00:36:46,900 Also, das macht Sinn? 700 00:36:46,900 --> 00:36:47,750 In gewisser Weise? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 So, jetzt habe ich alle Wahrscheinlichkeiten. 703 00:36:51,980 --> 00:36:55,100 So, jetzt das einzige, was ich noch habe ist, nur um das Ding haben, dass 704 00:36:55,100 --> 00:36:58,650 berechnet das Produkt aller Wahrscheinlichkeiten, wenn ich die Texte. 705 00:36:58,650 --> 00:37:06,270 >> Also sagen wir mal, dass ich jetzt nennen Diese Funktion "zu klassifizieren ()" und die 706 00:37:06,270 --> 00:37:08,880 Sache, die Funktion nimmt ist nur ein Argument. 707 00:37:08,880 --> 00:37:13,170 Nehmen wir an, "Baby, ich bin on fire" und es ist gehen, um herauszufinden, was die 708 00:37:13,170 --> 00:37:14,490 Wahrscheinlichkeit, dass dies Gaga? 709 00:37:14,490 --> 00:37:16,405 Was ist die Wahrscheinlichkeit dass dies Katie? 710 00:37:16,405 --> 00:37:19,690 Klingt gut? 711 00:37:19,690 --> 00:37:25,750 Also ich werde einfach zu schaffen haben ein neue Funktion namens "klassifizieren ()" und 712 00:37:25,750 --> 00:37:29,180 es geht um einige nehmen Texte auch. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Und neben den Texten habe ich auch müssen die Prioren zu senden, die 715 00:37:36,160 --> 00:37:37,700 Wahrscheinlichkeiten und die Wörter. 716 00:37:37,700 --> 00:37:44,000 Also werde ich auf Texte, priors schicken, Wahrscheinlichkeiten, Wörter. 717 00:37:44,000 --> 00:37:51,840 >> So dies statt Texte, Prioren, Wahrscheinlichkeiten, Wörter. 718 00:37:51,840 --> 00:37:53,530 Also, was macht sie? 719 00:37:53,530 --> 00:37:57,180 Es ist im Grunde wird sich durch alle gehen die möglichen Kandidaten, die Sie 720 00:37:57,180 --> 00:37:58,510 haben als Sänger. 721 00:37:58,510 --> 00:37:59,425 Und wo sind die Kandidaten? 722 00:37:59,425 --> 00:38:01,020 Sie sind in den Prioren, oder? 723 00:38:01,020 --> 00:38:02,710 So habe ich alle, die da. 724 00:38:02,710 --> 00:38:07,870 So werde ich ein Wörterbuch haben aller möglichen Kandidaten. 725 00:38:07,870 --> 00:38:14,220 Und dann für jeden Kandidaten in die Priors, so bedeutet dies, dass es sich auf 726 00:38:14,220 --> 00:38:17,740 sein Gaga, Katie, wenn ich mehr wird es sein würde. 727 00:38:17,740 --> 00:38:20,410 Ich werde die Berechnung zu starten diese Wahrscheinlichkeit. 728 00:38:20,410 --> 00:38:28,310 Die Wahrscheinlichkeit, wie wir in der Säge Powerpoint ist die vor Zeiten die 729 00:38:28,310 --> 00:38:30,800 Produkt von jedem der andere Wahrscheinlichkeiten. 730 00:38:30,800 --> 00:38:32,520 >> So kann ich hier das gleiche tun. 731 00:38:32,520 --> 00:38:36,330 Ich kann nur tun, Wahrscheinlichkeit zunächst nur der Stand der Technik. 732 00:38:36,330 --> 00:38:40,340 So priors des Kandidaten. 733 00:38:40,340 --> 00:38:40,870 Right? 734 00:38:40,870 --> 00:38:45,360 Und jetzt habe ich über all die laufen Worte, die ich in den Texten zu sein 735 00:38:45,360 --> 00:38:48,820 in der Lage, die Wahrscheinlichkeit hinzufügen für jeden von ihnen, OK? 736 00:38:48,820 --> 00:38:57,900 Also "für Wort in Text", was ich zu tun ist, wenn das Wort in 737 00:38:57,900 --> 00:39:01,640 "Wahrscheinlichkeiten (Kandidat)", das bedeutet, dass es ist ein Wort, dass die 738 00:39:01,640 --> 00:39:03,640 Kandidat hat in ihren Texten - 739 00:39:03,640 --> 00:39:05,940 zum Beispiel "Baby" für Gaga - 740 00:39:05,940 --> 00:39:11,710 , was ich tun werde, ist, dass die Wahrscheinlichkeit wird sich multiplizieren 741 00:39:11,710 --> 00:39:22,420 von 1 plus die Wahrscheinlichkeiten der Kandidat für dieses Wort. 742 00:39:22,420 --> 00:39:25,710 Und es heißt "Wort". 743 00:39:25,710 --> 00:39:32,440 Dies geteilt durch die Anzahl der Worte dass ich für diesen Kandidaten. 744 00:39:32,440 --> 00:39:37,450 Die Gesamtzahl der Worte, die ich für die Sängerin, die ich freue mich auf. 745 00:39:37,450 --> 00:39:40,290 >> "Else". es bedeutet, dass es ein neues Wort damit es wie zum Beispiel 746 00:39:40,290 --> 00:39:41,860 "Feuer" für Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Also ich will einfach nur mehr tun ein "Wort (Kandidat)". 748 00:39:45,760 --> 00:39:47,710 Also ich möchte nicht, diesen Begriff hier setzen. 749 00:39:47,710 --> 00:39:50,010 >> Also, es wird im Grunde sein Kopieren und Einfügen dieser. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Aber ich werde diesen Teil zu löschen. 752 00:39:56,000 --> 00:39:57,610 So ist es nur geht, um ein über das sein. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Klingt gut? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Und jetzt am Ende, ich bin gerade dabei, drucken den Namen des Kandidaten und 757 00:40:09,700 --> 00:40:15,750 die Wahrscheinlichkeit, dass Sie haben mit dem S auf ihre Texte. 758 00:40:15,750 --> 00:40:16,200 Das macht Sinn? 759 00:40:16,200 --> 00:40:18,390 Und ich eigentlich gar nicht brauchen dieses Wörterbuch. 760 00:40:18,390 --> 00:40:19,510 Das macht Sinn? 761 00:40:19,510 --> 00:40:21,810 >> Also, lasst uns sehen, ob das tatsächlich funktioniert. 762 00:40:21,810 --> 00:40:24,880 Also, wenn ich dieses, es hat nicht funktioniert. 763 00:40:24,880 --> 00:40:26,130 Warten Sie eine Sekunde. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Words (Kandidat)", "Wörter (Kandidat)", das ist 766 00:40:31,720 --> 00:40:33,750 der Name des Arrays. 767 00:40:33,750 --> 00:40:41,435 Ok, so heißt es, es gibt einige Fehler für Bewerber in Priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Lassen Sie mich nur ein wenig chillen. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Lassen Sie uns versuchen. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> So gibt es Katy Perry hat diese Wahrscheinlichkeit, dieses mal die 10 bis 774 00:40:58,710 --> 00:41:02,200 minus 7 und Gaga hat diese mal 10 hoch minus 6. 775 00:41:02,200 --> 00:41:05,610 Sie sehen also, es zeigt, dass Gaga eine höhere Wahrscheinlichkeit. 776 00:41:05,610 --> 00:41:09,260 Also "Baby, ich bin on Fire" ist wahrscheinlich ein Gaga-Song. 777 00:41:09,260 --> 00:41:10,580 Das macht Sinn? 778 00:41:10,580 --> 00:41:12,030 Also das ist, was wir getan haben. 779 00:41:12,030 --> 00:41:16,010 >> Dieser Code wird online gebucht werden, so, euch kann es auszuprobieren. 780 00:41:16,010 --> 00:41:20,720 Vielleicht nutzen einige es, wenn Sie wollen tun, ein Projekt oder etwas ähnliches. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Dies war nur um zu zeigen, welche Rechen 783 00:41:25,930 --> 00:41:27,230 Linguistik-Code aussieht. 784 00:41:27,230 --> 00:41:33,040 Aber jetzt auf mehr loslassen hohe Zeug. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Also die anderen Probleme, die ich sprach - 787 00:41:35,150 --> 00:41:37,550 das Segmentierungsproblem ist der erste von ihnen. 788 00:41:37,550 --> 00:41:40,820 So haben Sie hier Japanisch. 789 00:41:40,820 --> 00:41:43,420 Und dann sehen Sie, dass es gibt keine Räume. 790 00:41:43,420 --> 00:41:49,110 Also das ist im Grunde bedeutet, dass es die Spitze der Stuhl, oder? 791 00:41:49,110 --> 00:41:50,550 Sie sprechen Japanisch? 792 00:41:50,550 --> 00:41:52,840 Es ist die Spitze der Stuhl, oder? 793 00:41:52,840 --> 00:41:54,480 >> Student: Ich weiß nicht, was das Kanji über die es gibt. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: Es ist [Japanisch sprechen] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 So ist es im Grunde bedeutet, Vorsitzende der Spitze. 797 00:42:00,960 --> 00:42:03,620 Also, wenn Sie einen Raum gestellt hatte es wäre hier zu sein. 798 00:42:03,620 --> 00:42:05,970 Und dann muss man [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Was im Grunde bedeutet, Herr Ueda. 800 00:42:09,040 --> 00:42:13,180 Und Sie sehen, dass "Ueda" und Sie haben ein Leerzeichen und dann "san." So sehen Sie, dass 801 00:42:13,180 --> 00:42:15,470 hier finden Sie "Ue" ist wie von selbst aus. 802 00:42:15,470 --> 00:42:17,750 Und hier hat es ein Zeichen daneben. 803 00:42:17,750 --> 00:42:21,720 >> Also ist es nicht in diesen Sprachen wie Zeichen bedeutet, ein Wort, so dass Sie 804 00:42:21,720 --> 00:42:23,980 einfach eine Menge von Räumen. 805 00:42:23,980 --> 00:42:25,500 Charaktere zueinander stehen. 806 00:42:25,500 --> 00:42:28,680 Und sie zusammen sein können wie zwei, drei, eins. 807 00:42:28,680 --> 00:42:34,520 So haben Sie eigentlich eine Art erstellen der Art und Weise der Umsetzung dieser Räume. 808 00:42:34,520 --> 00:42:38,850 >> Und diese Sache ist, dass, wenn Sie Daten aus diesen asiatischen Sprachen 809 00:42:38,850 --> 00:42:40,580 alles kommt unsegmentierten. 810 00:42:40,580 --> 00:42:45,940 Denn niemand, der Japaner schreibt oder Chinesisch schreibt mit Leerzeichen. 811 00:42:45,940 --> 00:42:48,200 Immer, wenn du schreibst Chinesisch, Japanische Sie einfach alles schreiben 812 00:42:48,200 --> 00:42:48,710 ohne Leerzeichen. 813 00:42:48,710 --> 00:42:52,060 Es ist auch nicht sinnvoll Leerzeichen setzen. 814 00:42:52,060 --> 00:42:57,960 Also dann, wenn Sie Daten aus zu bekommen, einige Ostasiatische Sprache, wenn Sie wollen 815 00:42:57,960 --> 00:43:00,760 tatsächlich etwas mit dem zu tun Sie haben erste Segment. 816 00:43:00,760 --> 00:43:05,130 >> Denken Sie an das Beispiel tun die Texte ohne Leerzeichen ein. 817 00:43:05,130 --> 00:43:07,950 Also die einzigen Texte, die Sie haben werden Sätze sein, oder? 818 00:43:07,950 --> 00:43:09,470 Durch Punkte voneinander getrennt. 819 00:43:09,470 --> 00:43:13,930 Aber dann nur mit dem Satz wird auf, die Informationen nicht wirklich helfen 820 00:43:13,930 --> 00:43:17,760 wer diese Texte sind durch. 821 00:43:17,760 --> 00:43:18,120 Right? 822 00:43:18,120 --> 00:43:20,010 So sollten Sie an erster Plätze. 823 00:43:20,010 --> 00:43:21,990 Also, wie können Sie das tun? 824 00:43:21,990 --> 00:43:24,920 >> So kommt dann die Idee einer Sprache Modell, das wirklich etwas ist 825 00:43:24,920 --> 00:43:26,870 wichtig für Rechen Linguistik. 826 00:43:26,870 --> 00:43:32,790 So ein Sprachmodell ist im Grunde ein Tabelle von Wahrscheinlichkeiten, die zeigt, 827 00:43:32,790 --> 00:43:36,260 Zunächst einmal, was ist die Wahrscheinlichkeit, mit der das Wort in einer Sprache? 828 00:43:36,260 --> 00:43:39,590 So zeigt, wie häufig ein Wort ist. 829 00:43:39,590 --> 00:43:43,130 Und dann auch, die die Beziehung zwischen den Wörtern in einem Satz. 830 00:43:43,130 --> 00:43:51,500 >> Also die Grundidee ist, wenn ein Fremder kam Sie und sagte einen Satz, um 831 00:43:51,500 --> 00:43:55,600 Sie, was ist die Wahrscheinlichkeit, dass für Beispiel: "Das ist meine Schwester [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 war der Satz, dass die Person gesagt? 833 00:43:57,480 --> 00:44:00,380 So offensichtlich sind einige Sätze häufiger als andere. 834 00:44:00,380 --> 00:44:04,450 Zum Beispiel, "guten Morgen" oder "gut Nacht ", oder" hey da, "ist viel mehr 835 00:44:04,450 --> 00:44:08,260 häufiger als die meisten Sätze dass wir eine englische. 836 00:44:08,260 --> 00:44:11,060 Warum sind diese Sätze häufiger? 837 00:44:11,060 --> 00:44:14,060 >> Zunächst einmal, es ist, weil Sie Worte, die häufiger sind. 838 00:44:14,060 --> 00:44:20,180 So zum Beispiel, wenn Sie sagen, der Hund ist groß, und der Hund ist gigantisch, Sie 839 00:44:20,180 --> 00:44:23,880 Regel wohl hören, wie der Hund groß ist mehr oft, weil "große" ist mehr 840 00:44:23,880 --> 00:44:27,260 in Englisch häufiger als "gigantisch." So eine der 841 00:44:27,260 --> 00:44:30,100 Dinge ist das Wort Frequenz. 842 00:44:30,100 --> 00:44:34,490 >> Die zweite Sache, die wirklich wichtig ist nur die 843 00:44:34,490 --> 00:44:35,490 Reihenfolge der Wörter. 844 00:44:35,490 --> 00:44:39,500 So ist es üblich, zu sagen "die Katze ist in der Box. "aber Sie normalerweise nicht tun 845 00:44:39,500 --> 00:44:44,250 zu sehen in "The Box im Inneren ist die Katze." so Sie sehen, dass es einige Bedeutung 846 00:44:44,250 --> 00:44:46,030 in der Reihenfolge der Worte. 847 00:44:46,030 --> 00:44:50,160 Man kann nicht einfach sagen, dass die beiden Sätze haben die gleiche Wahrscheinlichkeit 848 00:44:50,160 --> 00:44:53,010 nur weil sie die gleichen Worte. 849 00:44:53,010 --> 00:44:55,550 Sie haben tatsächlich zu kümmern etwa um als gut. 850 00:44:55,550 --> 00:44:57,650 Sinnvoll? 851 00:44:57,650 --> 00:44:59,490 >> Also, was tun wir? 852 00:44:59,490 --> 00:45:01,550 Also, was ich versuchen könnte, bekommen Sie? 853 00:45:01,550 --> 00:45:04,400 Ich versuche, Sie, was wir bekommen rufen Sie die n-Gramm-Modelle. 854 00:45:04,400 --> 00:45:09,095 So n-Gramm-Modelle grundsätzlich davon ausgehen, dass für jedes Wort, 855 00:45:09,095 --> 00:45:10,960 Sie haben in einem Satz. 856 00:45:10,960 --> 00:45:15,020 Es ist die Wahrscheinlichkeit, dass Wort es hängt nicht nur von der 857 00:45:15,020 --> 00:45:18,395 Frequenz dieses Wort in der Sprache, sondern auch auf die Worte, die 858 00:45:18,395 --> 00:45:19,860 sind sie umgibt. 859 00:45:19,860 --> 00:45:25,810 >> So zum Beispiel, in der Regel, wenn Sie sehen etwas auf oder an Sie 860 00:45:25,810 --> 00:45:28,040 wahrscheinlich ein zu sehen Nomen nach, oder? 861 00:45:28,040 --> 00:45:31,750 Denn wenn Sie eine Präposition haben normalerweise dauert es ein Substantiv, nachdem es. 862 00:45:31,750 --> 00:45:35,540 Oder wenn Sie ein Verb, transitiv ist zu haben Sie sind in der Regel zu gehen 863 00:45:35,540 --> 00:45:36,630 haben eine Nominalphrase. 864 00:45:36,630 --> 00:45:38,780 Also es geht um ein Substantiv haben irgendwo herum. 865 00:45:38,780 --> 00:45:44,950 >> Also, im Grunde, was es tut, ist, dass es hält die Wahrscheinlichkeit, 866 00:45:44,950 --> 00:45:47,960 Wörter nebeneinander, wenn Sie sind der Berechnung der 867 00:45:47,960 --> 00:45:49,050 Wahrscheinlichkeit eines Satzes. 868 00:45:49,050 --> 00:45:50,960 Und das ist, was eine Sprache Modell grundsätzlich. 869 00:45:50,960 --> 00:45:54,620 Nur zu sagen, was ist die Wahrscheinlichkeit, der mit einer spezifischen 870 00:45:54,620 --> 00:45:57,120 Satz in einer Sprache? 871 00:45:57,120 --> 00:45:59,110 Also, warum ist das sinnvoll, im Grunde? 872 00:45:59,110 --> 00:46:02,390 Und vor allem was ist ein n-Gramm-Modell, dann? 873 00:46:02,390 --> 00:46:08,850 >> So dass ein n-Gramm-Modell bedeutet, dass jedes Wort ist abhängig von der 874 00:46:08,850 --> 00:46:12,700 nächsten N minus 1 Worte. 875 00:46:12,700 --> 00:46:18,150 Also, im Grunde, bedeutet dies, dass, wenn ich sehe, beispielsweise bei der CS50 TF wenn 876 00:46:18,150 --> 00:46:21,500 Ich Berechnung der Wahrscheinlichkeit der Satz, werden Sie wie "die 877 00:46:21,500 --> 00:46:25,280 Wahrscheinlichkeit, dass das Wort "the" mal die Wahrscheinlichkeit, dass "die 878 00:46:25,280 --> 00:46:31,720 CS50 "mal der Wahrscheinlichkeit, "Der CS50 TF." Also, im Grunde, ich zähle 879 00:46:31,720 --> 00:46:35,720 Alle Möglichkeiten, Stretching es. 880 00:46:35,720 --> 00:46:41,870 >> Und dann in der Regel, wenn Sie tun dies, wie in einem Projekt, setzen Sie N sein 881 00:46:41,870 --> 00:46:42,600 ein niedriger Wert. 882 00:46:42,600 --> 00:46:45,930 Also, haben in der Regel Bigramme oder Trigramme. 883 00:46:45,930 --> 00:46:51,090 Damit Sie zählen nur zwei Worte ein Gruppe von zwei Wörtern oder drei Worte, 884 00:46:51,090 --> 00:46:52,620 nur für Leistungsprobleme. 885 00:46:52,620 --> 00:46:56,395 Und auch, weil vielleicht, wenn Sie so etwas wie "The CS50 TF." Wenn Sie 886 00:46:56,395 --> 00:47:00,510 haben "TF", es ist sehr wichtig, dass "CS50" ist daneben, oder? 887 00:47:00,510 --> 00:47:04,050 Diese beiden Dinge sind in der Regel nebeneinander. 888 00:47:04,050 --> 00:47:06,410 >> Wenn Sie denken "TF", es ist wahrscheinlich gehen zu müssen, was 889 00:47:06,410 --> 00:47:07,890 Klasse ist es für TF'ing. 890 00:47:07,890 --> 00:47:11,330 Auch "die" wirklich wichtig ist für CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Aber wenn Sie etwas wie "Der CS50 haben TF ging in die Klasse und gaben ihre 892 00:47:14,570 --> 00:47:20,060 Studenten einige Süßigkeiten. "" Candy "und" die " haben keine Beziehung wirklich, oder? 893 00:47:20,060 --> 00:47:23,670 Sie sind so weit voneinander entfernt, dass es ist nicht wirklich wichtig, was 894 00:47:23,670 --> 00:47:25,050 Wörter, die Sie haben. 895 00:47:25,050 --> 00:47:31,210 >> Also, indem Sie eine Bigramm oder ein Trigramm, es bedeutet nur, dass Sie die Begrenzung sind 896 00:47:31,210 --> 00:47:33,430 Sie sich ein paar Worte , die rund sind. 897 00:47:33,430 --> 00:47:35,810 Sinnvoll? 898 00:47:35,810 --> 00:47:40,630 Also, wenn Sie, um die Segmentierung tun wollen, im Grunde, was Sie tun möchten, ist zu sehen 899 00:47:40,630 --> 00:47:44,850 was sind all die Möglichkeiten, die Sie können Segment den Satz. 900 00:47:44,850 --> 00:47:49,090 >> So, dass Sie sehen, was ist der Wahrscheinlichkeit jeder dieser Sätze 901 00:47:49,090 --> 00:47:50,880 in der Sprache vorhanden? 902 00:47:50,880 --> 00:47:53,410 Also, was Sie tun, ist wie, na ja, lassen mich versuchen, einen Raum hier setzen. 903 00:47:53,410 --> 00:47:55,570 So gibt es einen Raum setzen Sie und Sie sehen, was ist der 904 00:47:55,570 --> 00:47:57,590 Wahrscheinlichkeit dieses Satzes? 905 00:47:57,590 --> 00:48:00,240 Dann wie, OK, vielleicht sind Sie das war nicht so gut. 906 00:48:00,240 --> 00:48:03,420 Also habe ich einen Raum gibt und ein Raum dort, und berechnen Sie die 907 00:48:03,420 --> 00:48:06,240 Jetzt Wahrscheinlichkeit, und Sie sehen, dass es ist eine höhere Wahrscheinlichkeit. 908 00:48:06,240 --> 00:48:12,160 >> Das ist also ein Algorithmus namens TANGO Segmentierungsalgorithmus, was 909 00:48:12,160 --> 00:48:14,990 eigentlich etwas, das wirklich sein würde kühl für ein Projekt, das 910 00:48:14,990 --> 00:48:20,860 Grundsätzlich nimmt die unsegmentierten Text kann Japanisch oder Chinesisch oder vielleicht sein 911 00:48:20,860 --> 00:48:26,080 Englisch ohne Leerzeichen und versucht zu setzen Leerzeichen zwischen den Wörtern und es tut 912 00:48:26,080 --> 00:48:29,120 dass durch die Verwendung eines Sprachmodells und versuchen zu sehen, was ist der höchste 913 00:48:29,120 --> 00:48:31,270 Wahrscheinlichkeit, die Sie bekommen können. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Das ist also Segmentierung. 916 00:48:33,800 --> 00:48:35,450 >> Jetzt Syntax. 917 00:48:35,450 --> 00:48:40,940 So ist Syntax für benutzt so viele Dinge jetzt. 918 00:48:40,940 --> 00:48:44,880 Also für Grafik suchen, für Siri für so ziemlich jede Art von Natur 919 00:48:44,880 --> 00:48:46,490 Sprachverarbeitung Sie haben. 920 00:48:46,490 --> 00:48:49,140 Also, was sind die wichtigen Dinge über Syntax? 921 00:48:49,140 --> 00:48:52,390 Also, Sätze haben im allgemeinen was wir als Bestandteile. 922 00:48:52,390 --> 00:48:57,080 Welche Art, wie Gruppen von Wörtern , die eine Funktion im Satz haben. 923 00:48:57,080 --> 00:49:02,220 Und sie kann nicht wirklich sein voneinander. 924 00:49:02,220 --> 00:49:07,380 >> Also, wenn ich zum Beispiel sagen, "Lauren liebt Milo. "Ich weiß, dass" Lauren "ist ein 925 00:49:07,380 --> 00:49:10,180 Bestandteil und dann "Liebe Milo "ist auch ein anderes. 926 00:49:10,180 --> 00:49:16,860 Da kann man nicht wie "Lauren Milo sagen Mag "die gleiche Bedeutung haben. 927 00:49:16,860 --> 00:49:18,020 Es ist nicht zu haben, die gleiche Bedeutung. 928 00:49:18,020 --> 00:49:22,500 Oder ich kann nicht wie "Milo Lauren sagen liebt. "Nicht alles hat die gleiche 929 00:49:22,500 --> 00:49:25,890 was bedeutet, das zu tun. 930 00:49:25,890 --> 00:49:31,940 >> So sind die zwei wichtigsten Dinge über Syntax sind die lexikalischen Typen, die ist 931 00:49:31,940 --> 00:49:35,390 im Grunde die Funktion, die Sie haben nach Worten von sich. 932 00:49:35,390 --> 00:49:39,180 So müssen Sie wissen, dass "Lauren" und "Milo" sind Substantive. 933 00:49:39,180 --> 00:49:41,040 "Love" ist ein Verb. 934 00:49:41,040 --> 00:49:45,660 Und die zweite wichtige Sache ist, dass sie Phrasentypen. 935 00:49:45,660 --> 00:49:48,990 So wissen Sie, dass "Milo liebt" ist eigentlich eine Verbalphrase. 936 00:49:48,990 --> 00:49:52,390 Also, wenn ich sage "Lauren:" Ich weiß, dass Lauren ist etwas zu tun. 937 00:49:52,390 --> 00:49:53,620 Was tut sie? 938 00:49:53,620 --> 00:49:54,570 Sie ist liebevoll Milo. 939 00:49:54,570 --> 00:49:56,440 Es ist also eine ganze Sache. 940 00:49:56,440 --> 00:50:01,640 Aber seine Komponenten ein Substantiv und ein Verb. 941 00:50:01,640 --> 00:50:04,210 Aber zusammen bilden sie ein Verb Phrase. 942 00:50:04,210 --> 00:50:08,680 >> Also, was können wir tatsächlich tun mit Computerlinguistik? 943 00:50:08,680 --> 00:50:13,810 Also, wenn ich etwas zum Beispiel "Freunde von Allison." Ich sehe, wenn ich nur 944 00:50:13,810 --> 00:50:17,440 hat eine syntaktische Baum Ich würde wissen, dass "Freunde" ist eine Nominalphrase ist es ein 945 00:50:17,440 --> 00:50:21,480 Nomen und dann "von Allison" ist ein Präpositionalphrase, in dem "von" ist 946 00:50:21,480 --> 00:50:24,810 ein Satz, und "Allison" ist ein Substantiv. 947 00:50:24,810 --> 00:50:30,910 Was ich tun konnte, ist mein Computer lehren , dass, wenn ich eine Nominalphrase ein und 948 00:50:30,910 --> 00:50:33,080 dann eine Präpositionalphrase. 949 00:50:33,080 --> 00:50:39,020 Also in diesem Fall, "Freunde" und dann "von Milo: "Ich weiß, dass dies bedeutet, dass 950 00:50:39,020 --> 00:50:43,110 NP2, die zweite, besitzt NP1. 951 00:50:43,110 --> 00:50:47,680 >> So kann ich eine Art von Beziehung zu erstellen, eine Art von Funktion dafür. 952 00:50:47,680 --> 00:50:52,370 Also, wenn ich diese Struktur, die stimmt genau mit "Freunde von 953 00:50:52,370 --> 00:50:56,030 Allison: "Ich weiß, dass Allison besitzt die Freunde. 954 00:50:56,030 --> 00:50:58,830 So etwas sind die Freunde dass Allison hat. 955 00:50:58,830 --> 00:50:59,610 Das macht Sinn? 956 00:50:59,610 --> 00:51:01,770 Also das ist im Grunde, was Graph Suche tut. 957 00:51:01,770 --> 00:51:04,360 Es schafft nur Regeln für eine Menge Dinge. 958 00:51:04,360 --> 00:51:08,190 So "Freunde von Allison", "meine Freunde , die in Cambridge zu leben "," meine Freunde 959 00:51:08,190 --> 00:51:12,970 , die nach Harvard zu gehen. "Es schafft Regeln für all diese Dinge. 960 00:51:12,970 --> 00:51:14,930 >> Jetzt maschinelle Übersetzung. 961 00:51:14,930 --> 00:51:18,850 So ist auch die maschinelle Übersetzung etwas statistisch. 962 00:51:18,850 --> 00:51:21,340 Und eigentlich, wenn Sie in engagieren Computerlinguistik, viel 963 00:51:21,340 --> 00:51:23,580 Ihr Material wird zu Statistiken sein. 964 00:51:23,580 --> 00:51:26,670 So wie ich das Beispiel macht mit eine Menge von Wahrscheinlichkeiten, dass ich 965 00:51:26,670 --> 00:51:30,540 Berechnung, und dann müssen Sie diese bekommen sehr kleine Zahl, die die letzte ist 966 00:51:30,540 --> 00:51:33,180 Wahrscheinlichkeit, und das ist, was gibt Ihnen die Antwort. 967 00:51:33,180 --> 00:51:37,540 Maschinelle Übersetzung verwendet auch ein statistisches Modell. 968 00:51:37,540 --> 00:51:44,790 Und wenn Sie möchten, dass der Maschinen Übersetzung auf einfachste 969 00:51:44,790 --> 00:51:48,970 Übrigens, was Sie denken können, ist nur Wort für Wort zu übersetzen, oder? 970 00:51:48,970 --> 00:51:52,150 >> Wenn Sie eine Sprache lernen, für die ersten Mal, das ist, was in der Regel 971 00:51:52,150 --> 00:51:52,910 Sie tun, oder? 972 00:51:52,910 --> 00:51:57,050 Wenn Sie möchten, Sie einen Satz übersetzen in Ihrer Sprache auf die Sprache 973 00:51:57,050 --> 00:52:00,060 Sie lernen, in der Regel zuerst, Sie Übersetzen jedes der Wörter 974 00:52:00,060 --> 00:52:03,180 einzeln, und dann versuchen, , die Worte in Platz gesetzt. 975 00:52:03,180 --> 00:52:07,100 >> Also, wenn ich wollte, dies zu übersetzen, [Portugiesisch Sprechen] 976 00:52:07,100 --> 00:52:10,430 das bedeutet "die weiße Katze lief weg." Wenn ich wollte, um sie von zu übersetzen 977 00:52:10,430 --> 00:52:13,650 Portugiesisch auf Englisch, was ich tun können, ist, zunächst, ich habe gerade 978 00:52:13,650 --> 00:52:14,800 Wort für Wort zu übersetzen. 979 00:52:14,800 --> 00:52:20,570 So "o" ist "die", "gato", "Katze", "Branco", "weiß", und dann "fugio" ist 980 00:52:20,570 --> 00:52:21,650 "Lief weg." 981 00:52:21,650 --> 00:52:26,130 >> So dann habe ich alle Worte hier, aber sie sind nicht in Ordnung. 982 00:52:26,130 --> 00:52:29,590 Es ist wie "die Katze weiß lief weg" die ungrammatisch ist. 983 00:52:29,590 --> 00:52:34,490 So, dann kann ich einen zweiten Schritt haben die sein wird die Suche nach dem idealen 984 00:52:34,490 --> 00:52:36,610 Position für jedes der Wörter. 985 00:52:36,610 --> 00:52:40,240 So weiß ich, dass ich eigentlich haben wollen, "Weiße Katze" statt "Katze weiß." So 986 00:52:40,240 --> 00:52:46,050 was ich tun kann, ist, die naive Methode wäre, erstellen alle 987 00:52:46,050 --> 00:52:49,720 möglichen Permutationen Worten von Positionen. 988 00:52:49,720 --> 00:52:53,300 Und dann sehen, die man hat das höchste Wahrscheinlichkeit nach 989 00:52:53,300 --> 00:52:54,970 meine Sprachmodell. 990 00:52:54,970 --> 00:52:58,390 Und dann, wenn ich die eine, die hat zu finden die höchste Wahrscheinlichkeit ist, das ist 991 00:52:58,390 --> 00:53:01,910 wahrscheinlich "die weiße Katze lief weg", das ist meine Übersetzung. 992 00:53:01,910 --> 00:53:06,710 >> Und dies ist ein einfacher Weg zu erklären, wie viel der maschinellen Übersetzung 993 00:53:06,710 --> 00:53:07,910 Algorithmen arbeiten. 994 00:53:07,910 --> 00:53:08,920 Heißt das Sinn? 995 00:53:08,920 --> 00:53:12,735 Das ist auch etwas, wirklich spannend dass Sie Jungs können vielleicht für eine Erkundung 996 00:53:12,735 --> 00:53:13,901 Abschlussprojekt, ja? 997 00:53:13,901 --> 00:53:15,549 >> STUDENT: Nun, Sie haben gesagt, es war die naive Art und Weise, so was ist 998 00:53:15,549 --> 00:53:17,200 die nicht-naive Art und Weise? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: Die nicht-naive Art und Weise? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Also das erste, was ist schlecht diese Methode ist, dass ich gerade übersetzt 1002 00:53:22,860 --> 00:53:24,330 Wörter, Wort für Wort. 1003 00:53:24,330 --> 00:53:30,570 Aber manchmal Worte, die können mehrere Übersetzungen zu haben. 1004 00:53:30,570 --> 00:53:32,210 Ich werde versuchen zu denken von etwas. 1005 00:53:32,210 --> 00:53:37,270 Zum Beispiel, "manga" in Portugiesisch Dose entweder "Schutzhülle" sein. "mangle" oder So 1006 00:53:37,270 --> 00:53:40,450 wenn Sie versuchen, Wort zu übersetzen sind durch Wort, könnte es werden, so dass Sie 1007 00:53:40,450 --> 00:53:42,050 etwas, das keinen Sinn macht. 1008 00:53:42,050 --> 00:53:45,770 >> Tatsächlich wollen, können Sie dies für Sie überhaupt aussehen die möglichen Übersetzungen der 1009 00:53:45,770 --> 00:53:49,840 Worte und sehen, vor allem, was ist die Reihenfolge. 1010 00:53:49,840 --> 00:53:52,000 Wir haben über Permutation sprechen die Dinge? 1011 00:53:52,000 --> 00:53:54,150 Um alle möglichen Aufträge sehen und wählen, die mit der höchsten 1012 00:53:54,150 --> 00:53:54,990 Wahrscheinlichkeit? 1013 00:53:54,990 --> 00:53:57,860 Sie können auch alle möglichen wählen Übersetzungen für jede 1014 00:53:57,860 --> 00:54:00,510 Wort und dann sehen - 1015 00:54:00,510 --> 00:54:01,950 kombiniert mit den Permutationen - 1016 00:54:01,950 --> 00:54:03,710 die man die höchste Wahrscheinlichkeit hat. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, können Sie auch nicht so aus, nur Worte, sondern Phrasen. 1018 00:54:08,590 --> 00:54:11,700 so können Sie die Beziehungen zwischen analysieren die Worte, und erhalten dann eine 1019 00:54:11,700 --> 00:54:13,210 bessere Übersetzung. 1020 00:54:13,210 --> 00:54:16,690 Auch etwas anderes, so dass in diesem Semester Ich bin eigentlich forscht in 1021 00:54:16,690 --> 00:54:19,430 Chinesisch-Englisch maschinelle Übersetzung, so die Übersetzung von 1022 00:54:19,430 --> 00:54:20,940 Chinesischen ins Englische. 1023 00:54:20,940 --> 00:54:26,760 >> Und etwas, was wir tun, ist, neben der Verwendung ein statistisches Modell, das nur 1024 00:54:26,760 --> 00:54:30,570 zu sehen, die Wahrscheinlichkeiten des Sehens einige Position in einem Satz, ich bin 1025 00:54:30,570 --> 00:54:35,360 eigentlich auch das Hinzufügen einiger Syntax, um meine Modell und sagte, oh, wenn ich diese Art 1026 00:54:35,360 --> 00:54:39,420 von Bau-, dies ist, was ich will um es zu übersetzen, wenn ich ändern. 1027 00:54:39,420 --> 00:54:43,880 So kann man auch eine Art hinzufügen Element der Syntax, um die 1028 00:54:43,880 --> 00:54:47,970 Übersetzung effizienter und präziser. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Also, wie können Sie beginnen, wenn Sie wollen , etwas zu tun, in der computergestützten 1031 00:54:51,010 --> 00:54:51,980 Sprachwissenschaft? 1032 00:54:51,980 --> 00:54:54,560 >> Zuerst wählen Sie ein Projekt das beinhaltet Sprachen. 1033 00:54:54,560 --> 00:54:56,310 Also, es gibt so viele da draußen. 1034 00:54:56,310 --> 00:54:58,420 Es gibt so viele Dinge, die Sie tun können. 1035 00:54:58,420 --> 00:55:00,510 Und dann eines Modells denken kann die Sie verwenden können. 1036 00:55:00,510 --> 00:55:04,710 In der Regel bedeutet, dass Denken Annahmen, als wie, oh, wenn ich 1037 00:55:04,710 --> 00:55:05,770 wie das Denken von den Texten. 1038 00:55:05,770 --> 00:55:09,510 Ich war wie, nun ja, wenn ich heraus aus ein, die dies schrieb, möchte ich wahrscheinlich 1039 00:55:09,510 --> 00:55:15,400 , bei den Wörtern die Person verwendet und sehen, wer dieses Wort sehr oft verwendet. 1040 00:55:15,400 --> 00:55:18,470 So versuchen, Annahmen und versuchen, von Modellen zu denken. 1041 00:55:18,470 --> 00:55:21,395 Und dann können Sie auch online nach die Art von Problem, das Sie haben, 1042 00:55:21,395 --> 00:55:24,260 und es wird vorschlagen auf Modelle, die vielleicht für 1043 00:55:24,260 --> 00:55:26,560 gut modelliert, dass die Sache. 1044 00:55:26,560 --> 00:55:29,080 >> Und auch Sie können immer mailen Sie mir. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Und ich kann einfach beantworten Ihre Fragen. 1047 00:55:34,940 --> 00:55:38,600 Wir können vielleicht sogar bis zu erfüllen, so kann ich geben Anregungen über die Möglichkeiten von 1048 00:55:38,600 --> 00:55:41,490 der Umsetzung Ihres Projektes. 1049 00:55:41,490 --> 00:55:45,610 Und ich meine, wenn Sie einbezogen zu werden Computerlinguistik, es geht 1050 00:55:45,610 --> 00:55:46,790 groß zu sein. 1051 00:55:46,790 --> 00:55:48,370 Du wirst es sehen ist so viel Potenzial. 1052 00:55:48,370 --> 00:55:52,060 Und die Industrie will mieten Sie so schlecht deswegen. 1053 00:55:52,060 --> 00:55:54,720 Also ich hoffe, euch gefallen diese. 1054 00:55:54,720 --> 00:55:57,030 Wenn ihr irgendwelche Fragen haben, Sie können mich nach diesem fragen. 1055 00:55:57,030 --> 00:55:58,280 Aber danke. 1056 00:55:58,280 --> 00:56:00,150