LUCAS FREITAS: Hey. Willkommen alle. Mein Name ist Lucas Freitas. Ich bin ein Junior an [unverständlich] Studium Informatik mit Schwerpunkt in Computerlinguistik. Also meine Sekundär ist in der Sprache und Sprachtheorie. Ich bin wirklich aufgeregt, euch lehren ein wenig über dem Feld. Es ist ein sehr spannendes Gebiet, um zu studieren. Auch mit einer Menge von potentiellen für die Zukunft. Also, ich bin wirklich aufgeregt, dass ihr Jungs erwägen Projekte in Computerlinguistik. Und ich werde mehr als glücklich zu beraten jeder von Ihnen, wenn Sie zu entscheiden, verfolgen, einer von denen. 

Also zunächst einmal, was Rechen sind Sprachwissenschaft? So ist die Computerlinguistik Schnittpunkt zwischen Linguistik und Informatik. Also, was ist Sprachwissenschaft? Was ist Informatik? Nun, aus der Linguistik, was wir sind die Sprachen. So Sprachwissenschaft ist eigentlich die Studie der natürlichen Sprache im Allgemeinen. So natürlicher Sprache - wir sprechen Sprache, die wir tatsächlich nutzen miteinander kommunizieren. So werden wir nicht genau sprechen etwa C oder Java. Wir reden mehr über Englisch und Chinesisch und andere Sprachen, die wir verwenden, um miteinander zu kommunizieren. 

Das schwierige daran ist, dass jetzt haben wir fast 7.000 Sprachen der Welt. So gibt es eine hohe Vielfalt von Sprachen, die wir studieren. Und dann denkt man, dass es wahrscheinlich sehr schwer zu tun, beispielsweise, Übersetzung von einer Sprache in die andere, wenn man bedenkt, dass Sie fast 7.000 von ihnen. Also, wenn Sie denken, tun Übersetzung von einer Sprache in die andere Sie haben fast mehr als eine Million verschiedene Kombinationen, die Sie haben von Sprache zu Sprache. Also es ist wirklich schwierig, etwas zu tun Art beispielsweise Übersetzungssystem für jede einzelne Sprache. 

Also, Linguistik behandelt mit Syntax Semantik, Pragmatik. Sie Jungs nicht genau brauchen zu wissen, was sie sind. Aber die sehr interessante Sache ist, dass wie ein Muttersprachler, wenn Sie erfahren, Sprache als Kind, die Sie tatsächlich lernen Alle diese Dinge - Syntax-Semantik und Pragmatik - von sich. Und niemand hat Sie Syntax für lehren Sie verstehen, wie Sätze sind aufgebaut. Also, es ist wirklich interessant, weil es ist etwas, das sehr kommt intuitiv. 

Und was machen Sie mit der Einnahme von der Informatik? Nun, das Wichtigste ist, dass wir haben in der Informatik ist vor alle, künstliche Intelligenz und maschinelles Lernen. Also, was wir zu tun versuchen Computerlinguistik ist Teach Ihr Computer wie etwas zu tun mit der Sprache. 

So z. B. im Maschinenbau Übersetzung. Ich versuche, meinen Computer zu lehren, wie zu wissen, wie man von einem Übergang in die andere Sprache. Also, im Grunde mag Lehre ein Computer zwei Sprachen. Wenn ich die Verarbeitung natürlicher Sprache, was der Fall ist, zum Beispiel aus Facebook-Graph-Suche, lernen Sie Computer, wie zu verstehen Anfragen auch. 

Also, wenn Sie sagen, "die Fotos von meinem Freunde. "Facebook nicht zu behandeln, dass als Ganzes String, hat nur ein paar Worte. Tatsächlich versteht die Beziehung zwischen "Fotos" und "Meine Freunde" und versteht, dass "Bilder" sind Eigentum von "meine Freunde." 

Also, das ist ein Teil, zum Beispiel, Verarbeitung natürlicher Sprache. Es ist zu verstehen, was ist das Verhältnis zwischen die Wörter in einem Satz. Und die große Frage ist, können Sie lehren, einen Computer, wie man spricht eine Sprache im Allgemeinen? Welches ist eine sehr interessante Frage, um denken, als vielleicht in der Zukunft, Sie gehen zu können sind sprechen Sie mit Ihrem Handy. Ein bisschen wie das, was wir tun, sondern mit Siri etwas mehr wie, kann man eigentlich sagen, was Sie wollen, und das Telefon wird alles zu verstehen. Und es kann folgen Fragen und sprechen. Das ist etwas wirklich spannend, meiner Meinung nach. 

Also, etwas über natürliche Sprachen. Etwas wirklich interessant natürlichen Sprachen ist, dass, und dies ist Kredit meinem Linguistikprofessor, Maria Polinsky. Sie gibt ein Beispiel, und ich denke, es ist wirklich interessant. Denn wir lernen die Sprache aus, wenn wir sind geboren und dann unsere Mutter Sprache Art wächst auf uns. 

Und im Grunde haben Sie Sprache lernen von minimalen Eingangs, oder? Sie sind gerade erst von Ihrem Eingangs Eltern von dem, was Ihre Sprache klingt mögen und Sie lernen es einfach. Also, es ist interessant, denn wenn man sich bei diesen Sätzen, zum Beispiel. Sie sehen, "Maria setzt auf eine Mantel jeden Mal, wenn sie das Haus verlässt. " 

In diesem Fall ist es möglich, den Wort "sie" beziehen sich auf Mary, oder? Sie können sagen: "Maria setzt auf eine Mantel jedes Mal, Mary verlässt das Haus. ", so ist das in Ordnung. Aber dann, wenn Sie auf dem Satz aussehen "Sie zieht einen Mantel jedes Mal Mary verlässt das Haus. "Sie wissen, dass es unmöglich zu sagen, dass "sie" ist sich auf Maria. 

Es gibt keine Möglichkeit zu sagen, dass "Maria bringt einen Mantel jedes Mal Mary verlässt das Haus. "So ist es interessant, weil Dies ist die Art von Intuition dass jeder Muttersprachler. Und niemand wurde gelehrt, dass dies der Weg, der die Syntax funktioniert. Und das kann man nur über diese "sie" Mary, die sich auf in diesem ersten Fall und tatsächlich in dieser anderen zu, jedoch nicht in diese ein. Aber jeder Art bekommt zur gleichen Antwort. Alle sind sich einig, dass auf. Also es ist wirklich interessant, wie auch wenn Sie wissen nicht, alle Regeln in der Sprache, die Sie verstehen Art von wie die Sprache funktioniert. 

Also das Interessante an natürlichen Sprache ist, dass Sie nicht zu haben, wissen, jede Syntax zu wissen, ob ein Satz grammatisch oder ungrammatisch für den meisten Fällen. Das macht Sie denken, dass vielleicht, was passiert ist, dass durch Ihr Leben, Sie einfach immer mehr und mehr Sätze gesagt zu Ihnen. Und dann halten Auswendiglernen alle Sätze. Und dann, wenn jemand sagt, etwas, diesen Satz hören und Sie Ihren Wortschatz zu suchen Sätze und sehen, ob dieser Satz ist da. Und wenn es dort sagen, es ist grammati. Wenn es nicht Sie sagen, es ist ungrammatisch. 

Also, in diesem Fall, würden Sie sagen, oh, so dass Sie eine riesige Liste von alle haben möglichen Sätze. Und dann, wenn Sie einen Satz hören, Sie wissen, ob es grammati ist oder nicht darauf basiert. Die Sache ist, dass, wenn Sie schauen ein Satz beispielsweise "The fünfköpfige CS50 TF gekocht Blinde Krake mit einem DAPA Becher. "Es ist definitiv nicht ein Satz dass Sie schon einmal gehört. Aber zur gleichen Zeit, die Sie wissen, dass es ziemlich grammatischen, oder? Es sind keine grammatikalische Fehler und man kann sagen, dass es ist ein Satz möglich. 

So macht es uns denken, dass eigentlich die Weise, dass wir lernen, die Sprache ist nicht nur indem er eine riesige Datenbank von möglichen Wörter oder Sätze, sondern eher Verständnis der Beziehung zwischen Wörter in den Sätzen. Heißt das Sinn? So, dann ist die Frage, kann Computer Sprachen lernen? Können wir lehren Sprache zu Computern? 

Also, lassen Sie den Unterschied denken zwischen einem Muttersprachler der Sprache und einen Computer. Also, was passiert mit dem Lautsprecher? Nun lernt die Muttersprache ein Sprache von der Exposition zu. Normalerweise ist die frühe Kindheit. Also, im Grunde, man muss nur ein Baby, und halten Sie im Gespräch mit ihm, und es nur lernt, wie man spricht die Sprache, oder? Also, sind Sie im Grunde geben Eingang zu dem Baby. So, dann können Sie argumentieren, dass ein Computer kann das gleiche tun, oder? Sie können nur geben Sprache als Eingabe in den Computer. 

Wie zum Beispiel eine Reihe von Dateien Bücher haben, die in englischer Sprache. Vielleicht ist das eine Möglichkeit, dass Sie könnte möglicherweise ein lehren Computer-Englisch, oder? Und in der Tat, wenn man darüber nachdenkt, es dauert vielleicht ein paar Tage, um ein Buch zu lesen. Für einen Computer dauert es eine Sekunde, um Blick auf all die Worte in einem Buch. So können Sie sich denken, dass kann nur sein, diese Argument der Eingabe von um dich herum, das ist nicht genug, zu sagen, dass das ist, etwas, das nur Menschen tun können. Sie können Computer denken können auch Eingang bekommen. 

Die zweite Sache ist, dass Muttersprachler haben auch ein Gehirn, das hat Sprachlern-Fähigkeit. Aber wenn man darüber nachdenkt, ein Gehirn ist eine solide Sache. Wenn Sie geboren werden, ist es bereits eingestellt - Das ist Ihr Gehirn. Und wie sind Sie aufgewachsen, bekommst du nur mehr Eingabe von Sprache und vielleicht Nährstoffe und andere Sachen. Aber so ziemlich das Gehirn ist eine solide Sache. 

So kann man sagen, gut, vielleicht können Sie einen Computer bauen, die einen Haufen hat Funktionen und Methoden, die nur imitieren Sprachlern-Fähigkeit. In diesem Sinne könnte man sagen, gut, ich können einen Computer, der alle hat, haben Dinge, die ich brauchen, um Sprache zu lernen. Und die letzte Sache ist, dass eine native Lautsprecher erfährt von Versuch und Irrtum. Also im Grunde eine andere wichtige Sache in Sprachenlernen ist, dass Sie Art der Dinge, indem sie Verallgemeinerungen, was Sie hören. 

So wie Sie aufwachsen Sie erfahren, dass einige Worte sind mehr wie Substantive, einige andere, die sind Adjektive. Und Sie müssen nicht zu einem haben Kenntnisse der Sprachwissenschaft um das zu verstehen. Aber Sie wissen, es gibt einige Wörter in einem Teil des aufge Satz und einige andere in anderen Teile des Satzes. 

Und dass, wenn Sie etwas, das zu tun wie ein Satz, der nicht richtig - vielleicht wegen einer Verallgemeinerung über zum Beispiel. Vielleicht, wenn du aufwächst, beachten Sie, dass der Plural in der Regel indem ein S an gebildet das Ende des Wortes. Und dann können Sie versuchen, den Plural von tun "Hirsch" als "Hirsche" oder "Zahn", wie "Tooths." Also Ihre Eltern oder jemand korrigiert und sagt, nein, die Plural von "Hirsch" ist "Hirsch", und die Plural von "Zahn" ist "die Zähne." Und dann Sie lernen, diese Dinge. So lernen Sie, aus Versuch und Irrtum. 

Sie können aber auch das tun, mit einem Computer. Sie können so etwas genannt haben Reinforcement Learning. Welche ist im Grunde wie eine geben Computer eine Belohnung, wenn es funktioniert etwas richtig. Und die ihm das Gegenteil einer Belohnung und wenn es etwas falsch macht. Man kann tatsächlich sehen, dass, wenn Sie gehen Google Translate und Sie versuchen, einen Satz zu übersetzen, es fragt Sie nach Feedback. Also, wenn Sie sagen, oh, es gibt eine bessere Übersetzung für diesen Satz. Sie können es geben und dann, wenn viele Leute sagen immer, dass es eine bessere Übersetzung, es ist nur erfährt, dass es sollte, dass die Übersetzung verwenden, anstatt das man es geben wurde. 

Also, es ist eine sehr philosophische Frage zu sehen, ob Computer sein werden, in der Lage, in die Zukunft zu sprechen oder nicht. Aber ich habe große Hoffnungen, dass sie können, nur auf diesen Argumenten. Aber es ist nur mehr eine philosophische Frage. 

So, während Computer noch nicht sprechen kann, was sind die Dinge, die wir tun können? Manche Dinge sind wirklich cool Datenklassifizierung. Also, zum Beispiel, euch wissen, dass E-Mail-Dienste zu tun, zum beispielsweise Spam-Filter. Also, wenn Sie Spam erhalten, ist es versucht, zu einem anderen Feld zu filtern. Also, wie macht sie das? Es ist nicht wie der Computer nur weiß, Welche E-Mail-Adressen werden Spam-Versand. So ist es mehr auf den Inhalt der Basis die Nachricht, oder vielleicht der Titel, oder vielleicht einige Muster, die Sie haben. 

Also, im Grunde, was man tun kann, ist ein viele Daten von E-Mails, die Spam sind, E-Mails, die nicht Spam sind, und lernen, was Art von Muster, die Sie in der haben diejenigen, die Spam sind. Und das ist ein Teil der Rechen Linguistik. Es heißt Datenklassifizierung. Und wir sind eigentlich los, um zu sehen, ein Beispiel für die in den folgenden Folien. 

Die zweite Sache ist natürlicher Sprache Verarbeitung, die Sache ist die, dass die Graph Suche tut der Vermietung Sie einen Satz zu schreiben. Und er vertraut Sie verstehen, was ist die Bedeutung und gibt Sie ein besseres Ergebnis. Eigentlich, wenn man bei Google oder Bing gehen Sie suchen, und so etwas wie Lady Gaga in der Höhe, sind Sie eigentlich vor sich geht 5 '1 "statt Informationen erhalten von ihr, weil es tatsächlich versteht, was du redest. Also das ist Teil des natürlichen Sprachverarbeitung. 

Oder auch, wenn Sie gerade Siri, erste Sie einen Algorithmus, der versucht zu haben übersetzen, was du sagst in Worten in Text. Und dann versucht es zu übersetzen dass in Bedeutung. Also das ist alles Teil des natürlichen Sprachverarbeitung. 

Dann haben Sie die maschinelle Übersetzung - was ist eigentlich ein meiner Favoriten - die nur die Übersetzung von eine Sprache in eine andere. So können Sie sich denken, dass, wenn du tust maschinelle Übersetzung, haben Sie unendlichen Möglichkeiten der Sätze. Also gibt es keine Möglichkeit, nur die Speicherung jede einzelne Übersetzung. Also, kommen mit interessanten müssen Sie Algorithmen, um in der Lage zu sein, übersetzen jede einzelne Satz in irgendeiner Weise. 

Ihr habt noch Fragen haben so weit? Nein? OK. 

Also, was machen wir heute zu sehen? Zunächst einmal, ich werde zu reden die Klassifizierung Problem. Also die, die ich war, Spruch über Spam. Was ich tun werde, ist, angesichts Texte einen Song, können Sie versuchen, herauszufinden, mit hoher Wahrscheinlichkeit wer ist der Sänger? Lassen Sie uns sagen, dass ich Songs von Lady Gaga und Katy Perry, wenn ich Ihnen ein neuen Song, können Sie herausfinden, ob es ist Katy Perry oder Lady Gaga? 

Die zweite, ich werde einfach zu reden über die Segmentierung Problem. Also ich weiß nicht, ob euch wissen, aber Chinesisch, Japanisch, anderen ostasiatischen Sprachen und andere Sprachen im allgemeinen keine Leerzeichen zwischen den Wörtern. Und dann, wenn Sie über die Art und Weise, die denken, Computer Art versucht, verstehen, Verarbeitung natürlicher Sprache, sieht es bei den Worten und versucht, die Beziehungen zu verstehen zwischen ihnen, oder? Aber dann, wenn Sie Chinesisch, und Sie null Räume, es ist wirklich schwer, herauszufinden, was ist die Beziehung zwischen Worten, weil sie nicht irgendwelche Wörter zuerst. Sie wollen etwas namens tun haben Segmentierung, die nur das Einfüllen Räume zwischen dem, was wir nennen würde Wörter in diesen Sprachen. Sinnvoll? 

Und dann sind wir zu gehen sprechen über Syntax. Also nur ein wenig über die natürliche Sprachverarbeitung. Es wird nur ein Überblick sein. So heute, im Grunde, was ich tun möchte, wird geben euch ein wenig ein Innenseite, was sind die Möglichkeiten dass Sie tun können, mit Rechen Linguistik. Und dann können Sie sehen, was Sie denken gehört zu den Dingen, cool. Und vielleicht haben Sie ein Projekt denken kann kommen und mit mir reden. Und ich kann Ihnen Ratschläge zu geben auf, wie es zu implementieren. 

So Syntax wird ein wenig sein zu den Grafik Suche und Maschinen Übersetzung. Ich werde nur ein Beispiel, wie geben Sie könnten beispielsweise übersetzen etwas aus dem Portugiesischen ins Englische. Klingt gut? 

Also erstens, die Einstufung Problem. Ich werde sagen, dass dieser Teil des Seminars wird die größte Herausforderung sein ein, nur weil es geht einige Codierung sein. Aber es geht um Python sein. Ich weiß, ihr Jungs nicht wissen, Python, so Ich werde einfach auf der hohen erklären Ebene, was ich tue. Und Sie müssen nicht wirklich interessieren zu viel über die Syntax, weil das ist etwas, das man Jungs lernen können. OK? Klingt gut. 

Also, was ist die Klassifizierung Problem? Sie sind also einige Texte gegeben ein Lied, und Sie wollen, zu erraten, wer singt es. Und dies kann für jede Art sein, andere Probleme. So kann es sein, zum Beispiel, haben Sie ein Präsidentschaftswahlkampf, und Sie haben ein Rede, und Sie finden möchten aus, wenn es zum Beispiel Obama oder Mitt Romney. Oder Sie können eine Reihe von E-Mails haben und Sie herausfinden, wenn sie wollen Spam oder nicht. So ist es nur einige Klassifizierung Daten basierend auf den Wörtern dass Sie da. 

So, das zu tun, müssen Sie machen einige Annahmen. So viel über Computerlinguistik macht Annahmen, Regel intelligent Annahmen, so dass Sie können gute Ergebnisse zu erzielen. Der Versuch, ein Modell für sie zu schaffen. Und dann probieren Sie es aus und sehen, ob es funktioniert, wenn es Ihnen gute Präzision. Und wenn doch, dann sind Sie versuchen, es zu verbessern. Wenn es nicht, wie, OK, sind Sie vielleicht sollte eine andere Annahme zu machen. 

So ist die Annahme, dass wir zu gehen machen, ist, dass ein Künstler in der Regel singt zu einem Thema mehrere Male, und vielleicht verwendet Worte mehrmals nur weil sie es gewohnt sind. Sie können denken Sie nur an Ihren Freund. Ich bin sicher, Sie haben alle Jungs Freunde , die ihre Unterschrift Satz sagen, buchstäblich für jeden einzelnen Satz - wie ein bestimmtes Wort oder eine bestimmte Phrase, die sie sagen, für jeder einzelne Satz. 

Und was Sie sagen können, ist, dass, wenn Sie sehen, ein Satz, der eine Signatur hat Satz, können Sie erraten, dass wahrscheinlich Ihr Freund ist der einer sagen, oder? So können Sie diese Annahme zu machen und dann das ist, wie Sie ein Modell erstellen. 

Das Beispiel, das werde ich geben kann, ist auf Lady Gaga, wie zum Beispiel Menschen sagen, dass sie nutzt "Baby" für alle ihre Nummer eins Songs. Und tatsächlich ist dies ein Video, dass zeigt, sie sagen, das Wort "Baby" für verschiedene Lieder. 

[VIDEO PLAYBACK] 

- (Gesang) Baby. Baby. Baby. Baby. Baby. Baby. Baby. Baby. Baby. Baby. 

[END VIDEO PLAYBACK- 

LUCAS FREITAS: So gibt es, glaube ich, 40 Songs, in denen sie hier, sagt der Wort "Baby". So können Sie im Grunde denke, dass, wenn Sie ein Lied, das hat zu sehen das Wort "Baby", es gibt einige Hoch Wahrscheinlichkeit, dass es Lady Gaga. Aber lassen Sie uns versuchen, diese zu entwickeln weiter mehr formal. 

Das sind also Texte der Songs durch Lady Gaga und Katy Perry. So können Sie bei Lady Gaga aussehen, sie sehen, Sie haben viele Vorkommen von "Baby", eine Menge von Ereignissen von "Art und Weise." Und dann Katy Perry hat viele Vorkommen "Die", eine Menge von Ereignissen von "Feuer". 

Also im Grunde das, was wir wollen zu tun ist, können Sie einen Text bekommen. Lassen Sie uns sagen, dass Sie einen Text für eine bekommen Lied, das "Baby", nur "Baby". Wenn Sie nur das Wort "Baby", und dies bekommen sind alle Daten, die Sie von haben Lady Gaga und Katy Perry, wer würde Sie schätzen, ist die Person, , der das Lied singt? Lady Gaga oder Katy Perry? Lady Gaga, oder? Denn sie ist der einzige, der sagt, "Baby." Das klingt dumm, oder? OK, das ist wirklich einfach. Ich schaue mich nur an den beiden Songs und der Natürlich ist sie die einzige, die hat "Baby." 

Aber was, wenn Sie ein paar Worte? Wenn Sie eine aktuelle Lyrik, etwas zu haben wie, "Baby, ich habe gerade ging zu einem [sehen? CFT?] Vortrag "oder so ähnlich, und dann haben Sie eigentlich, um herauszufinden, - bezogen auf alle diese Worte - , die der Künstler, der wahrscheinlich sang dieses Lied? So wollen wir versuchen, zu entwickeln dies ein wenig weiter. 

OK, also nur auf den Daten basiert, die wir erhalten, scheint es, dass Gaga ist wahrscheinlich die Sängerin. Aber wie können wir schreiben diese formal? Und es geht um ein wenig bisschen Statistik. Also, wenn Sie verloren gehen, nur versuchen, , um das Konzept zu verstehen. Es spielt keine Rolle, wenn Sie verstehen, die Gleichungen sehr gut. Dies wird sich alles online sein. 

Also im Grunde, was ich der Berechnung ist die Wahrscheinlichkeit, dass dieser Song ist durch Lady Gaga da - so bedeutet diese Bar gegeben, dass - Ich sah das Wort "Baby". Heißt das Sinn? So versuche ich zu berechnen diese Wahrscheinlichkeit. 

So gibt es dieses Theorem genannt Bayes-Theorem besagt, dass das Wahrscheinlichkeit eines gegebenen B die Wahrscheinlichkeit von B gegeben A, mal die Wahrscheinlichkeit A, über die Wahrscheinlichkeit von B. Dies ist ein langer Gleichung. Aber was Sie von verstehen das ist, dass das ist, was ich will berechnen, oder? So ist die Wahrscheinlichkeit, dass dieser Song ist durch Lady Gaga da sah ich das Wort "Baby." 

Und jetzt, was ich bekomme ist die Wahrscheinlichkeit für das Wort "Baby" gegeben dass ich Lady Gaga. Und was ist das im Grunde? Was das bedeutet, ist, was ist das Wahrscheinlichkeit des Sehens, das Wort "Baby" Gaga in Texten? Wenn ich in einer sehr berechnen, dass einfach so, es ist nur die Anzahl der Ich sehe mal "Baby" an der Gesamtzahl von Wörtern in Texten Gaga, oder? Was ist die Frequenz, die ich sehe, dieses Wort in Gaga Arbeit? Sinnvoll? 

Der zweite Term ist der Wahrscheinlichkeit Gaga. Was bedeutet das? Das bedeutet im Grunde, was ist das Wahrscheinlichkeit der Klassifizierung einige Texte als Gaga? Und das ist irgendwie komisch, aber Lassen Sie uns an einem Beispiel zu denken. Also sagen wir mal, dass die Wahrscheinlichkeit mit "Baby" in einem Song ist das gleiche für Gaga und Britney Spears. Aber Britney Spears hat zweimal mehr Songs als Lady Gaga. Also, wenn jemand nur zufällig gibt Ihnen Text von "Baby", das erste, was Sie betrachten ist, was ist die Wahrscheinlichkeit, mit "Baby" in einem Gaga-Song "Baby" Britney in einem Lied? Und es ist das gleiche. 

So ist die zweite Sache, die Sie sehen, ist, Nun, was ist die Wahrscheinlichkeit, diese Lyrik von selbst ein Gaga Lyrik, und was die Wahrscheinlichkeit ein Britney Lyrik? So, da Britney hat so viele weitere Texte als Gaga, würden Sie wahrscheinlich sagen wir, na ja, ist dies wahrscheinlich a Britney Lyrik. Also das ist, warum wir dies nennen Sie hier. Probability of Gaga. Das macht Sinn? Tut es das? OK. 

Und der letzte ist nur die Wahrscheinlichkeit von "Baby", das nicht wirklich wichtig, dass viel. Aber es ist die Wahrscheinlichkeit, Sehen "baby" in englischer Sprache. Wir in der Regel nicht darauf, dass viel über diesen Begriff. Heißt das Sinn? Also die Wahrscheinlichkeit ist Gaga bezeichnet die frühere Wahrscheinlichkeit der Klasse Gaga. Denn es bedeutet nur, dass, was ist das Wahrscheinlichkeit, dass diese Klasse - welche Gaga ist - nur im Allgemeinen, nur ohne Bedingungen. 

Und dann, wenn ich Wahrscheinlichkeit Gaga gegeben "Baby", wir nennen es Plus Tränen eine Wahrscheinlichkeit, denn es ist die Wahrscheinlichkeit, Gaga einige Hinweise gegeben. Also ich gebe dir die Beweise Ich sah, dass das Wort Baby und das Lied einen Sinn? OK. 

Also, wenn ich ausgerechnet, dass für jede der Songs für Lady Gaga, was das wäre - scheinbar kann ich mich nicht bewegen diese. Die Wahrscheinlichkeit Gaga werden so etwas wie, 2 über 24, mal 1/2, mehr als 2 über 53. Es spielt keine Rolle, wenn Sie wissen, was diese Zahlen herkommen. Aber es ist nur eine Zahl, die gehen mehr als 0 sein, oder? 

Und dann, wenn ich Katy Perry, die Wahrscheinlichkeit des "Baby" gegeben Katy ist bereits 0, oder? Da gibt es kein "Baby" in Katy Perry. Also dann 0 wird, und Gaga Siege, was bedeutet, dass Gaga ist wahrscheinlich die Sängerin. Heißt das Sinn? OK. 

Also, wenn ich will diese mehr offiziell zu machen, Ich kann ein Modell tatsächlich tun nach mehreren Wörtern. Also sagen wir mal, dass ich etwas wie, "Baby, ich bin auf Feuer ", oder so etwas. So hat es die mehrfachen Wörter. Und in diesem Fall können Sie sehen, dass "Baby" ist in Gaga, aber es ist nicht in Katy. Und "Feuer" ist in Katy, aber es ist nicht in Gaga, oder? Also es wird immer schwieriger, oder? Denn es scheint, dass Sie fast eine Verbindung zwischen den beiden. 

Also, was Sie tun müssen ist, davon ausgehen, Unabhängigkeit unter den Wörtern. Also im Grunde, was das bedeutet ist, dass Ich bin nur die Berechnung, was ist der Wahrscheinlichkeit des Sehens "Baby", was ist die Wahrscheinlichkeit des Sehens "ich," und "Am" und "on" und "Feuer" alle separat. Dann bin ich Multiplikation alle von ihnen. Und ich werde sehen, was ist die Wahrscheinlichkeit, zu sehen, den ganzen Satz. Sinnvoll? 

Also im Grunde, wenn ich nur ein Wort, was ich finde, ist die arg max, was bedeutet, was ist die Klasse, ist die mir die höchste Wahrscheinlichkeit? Also, was ist die Klasse, was ist mir die höchste Wahrscheinlichkeit für Wahrscheinlichkeit der Klasse gegebene Wort. Also in diesem Fall, Gaga gegeben "Baby." Oder Katy gegeben "Baby." Sinnvoll? 

Und gerade von Bayes, dass Gleichung, die ich zeigte, schaffen wir diese Fraktion. Die einzige Sache ist, dass Sie sehen, dass die Wahrscheinlichkeit des Wortes angesichts der Klassenänderungen je von der Klasse, oder? Die Anzahl der "Baby" s, die ich habe in Gaga ist von Katy. Die Wahrscheinlichkeit, dass die Klasse auch Änderungen, weil es nur die Anzahl Lieder jeder von ihnen hat. 

Aber die Wahrscheinlichkeit des Wortes selbst wird sich für alle gleich sein, die Künstler, oder? So dass die Wahrscheinlichkeit des Wortes ist nur, was ist die Wahrscheinlichkeit, zu sehen, dass das Wort in Englisch Sprache? Also es ist das gleiche für alle. So, da diese konstant ist, können wir nur fallen diese und nicht darum kümmern. So wird dies tatsächlich sein kann das Gleichung, die wir suchen. 

Und wenn ich mehrere Worte, ich bin immer noch die vor haben Wahrscheinlichkeit hier. Die einzige Sache ist, dass ich die Multiplikation die Wahrscheinlichkeit alle anderen Wörtern. Also ich bin Multiplikation alle von ihnen. Sinnvoll? Es sieht seltsam, aber im Grunde bedeutet, Berechnung der vor der Klasse, und dann durch die Wahrscheinlichkeit jeder multiplizieren der Wörter, die in dieser Klasse. 

Und Sie wissen, dass die Wahrscheinlichkeit, ein Wort gegeben, eine Klasse sein wird, die Anzahl der Sie sehen, dass im Wort die Klasse, dividiert durch die Anzahl der Wörter, die Sie haben, dass Klasse im Allgemeinen. Sinnvoll? Es ist nur, wie "Baby" war über zwei die Anzahl von Wörtern, Ich hatte in den Texten. Also einfach die Frequenz. 

Aber es ist eine Sache. Denken Sie daran, wie ich zeigen, dass die Wahrscheinlichkeit des "Baby" als Text von Katy Perry war 0, nur weil Katy Perry hatte nicht "Baby" überhaupt? Aber es klingt ein wenig hart, um nur einfach sagen, dass Texte nicht aus sein ein Künstler, nur weil sie nicht haben dieses Wort insbesondere zu jeder Zeit. 

So konnte man nur sagen, gut, wenn Sie dieses Wort nicht zu haben, ich werde geben Sie eine geringere Wahrscheinlichkeit, aber ich bin einfach nicht zu geben Sie 0 sofort. Denn vielleicht war es so etwas wie, "Feuer, Feuer, Feuer, Feuer", das ist völlig Katy Perry. Und dann "Baby", und es geht nur um 0 sofort, denn es gab ein "Baby." 

Also im Grunde das, was wir tun, ist etwas, genannt Laplace Glättung. Und das bedeutet nur, dass ich gebe gewisse Wahrscheinlichkeit auch auf die Worte dass gibt es nicht. Also, was ich tue, ist, dass, wenn ich Diese Berechnung, habe ich immer ein hinzufügen der Zähler. Also auch wenn das Wort nicht vorhanden ist, in In diesem Fall, wenn dieser 0 ist, bin ich immer noch Berechnen dieses als 1 über die Gesamtzahl der Wörter. Ansonsten bekomme ich, wie viele Wörter Ich habe und ich 1 hinzuzufügen. Also zähle ich für beide Fälle. Sinnvoll? 

So, jetzt machen wir einige Codierung. Ich werde es ziemlich schnell zu tun zu haben, aber es ist nur wichtig, dass Sie Jungs verstehen die Konzepte. Also, was wir zu tun versuchen genau dies umzusetzen was ich gerade gesagt habe - Ich möchte, dass Texte aus setzen Lady Gaga und Katy Perry. Und das Programm ist in der Lage zu sein, sagen, wenn diese neuen Texte sind von Gaga oder Katy Perry. Sinnvoll? OK. 

Also ich habe dieses Programm werde ich zu classify.py anrufen. Also das ist Python. Es ist eine neue Programmiersprache. Es ist in einigen sehr ähnlich Möglichkeiten, C und PHP. Es ist ähnlich, weil, wenn Sie wollen lernen Python nach C zu wissen, es ist wirklich nicht so viel von einer Herausforderung Python, nur weil es viel einfacher als C, zunächst. Und viele Dinge sind bereits für Sie implementiert. So, wie wie PHP hat Funktionen, die eine Liste zu sortieren, oder etwas anhängen in ein Array, oder blah, blah, blah. Python hat alle diese ebenfalls. 

Also ich werde einfach zu schnell erklären wie wir die Klassifizierung zu tun Problem hier. Also sagen wir mal, dass in diesem Fall habe ich Texte von Gaga und Katy Perry. Die Art und Weise, die ich habe ist, dass diese Texte das erste Wort der Texte ist der Name des Künstlers, und der Rest ist der Text. Also lassen Sie uns sagen, dass ich diese Liste in welche die erste ist Songtexte von Gaga. Also bin ich hier auf dem richtigen Weg. Und der nächste ist Katy, und es hat auch die Texte. 

Also das ist, wie Sie erklären eine Variable in Python. Sie müssen nicht um den Datentyp zu geben. Man schreibt einfach "lyrics" ein bisschen wie in PHP. Sinnvoll? 

Also, was sind die Dinge, die ich zu berechnen zu können, berechnen die Wahrscheinlichkeiten? Ich muss die "Priors" berechnen jedes der verschiedenen Klassen, die ich habe. Ich muss die "Seitenzähne" berechnen oder so ziemlich die Wahrscheinlichkeiten jede der anderen Begriffen Ich für jeden Künstler haben kann. Also innerhalb Gaga, zum Beispiel, werde ich , um eine Liste, wie oft ich sehen jedes der Wörter. Sinnvoll? 

Und schließlich, ich bin nur zu haben, ein Liste namens "Worte", die gerade dabei ist, zu haben, wie viele Wörter, die ich haben für jeden Künstler. Also für Gaga, zum Beispiel, wenn ich die Texte, hatte ich, glaube ich, 24 Wörter insgesamt. Also diese Liste nur zu haben, Gaga 24 und Katy andere Nummer. Sinnvoll? OK. 

So, jetzt, eigentlich, wollen wir gehen auf die Codierung. So in Python, kann man eigentlich geben eine Reihe von verschiedenen Dinge aus einer Funktion. Also werde ich, um diese Funktion zu erstellen genannte "bedingte", die gehen , all diese Dinge zurück, die "Priors", die "Wahrscheinlichkeiten", und die "Worte." So "bedingte", und es ist werde in den Aufruf werden "lyrics". 

So, jetzt möchte ich Sie eigentlich schreiben Sie diese Funktion. Also die Möglichkeit, dass ich dies schreiben Funktion Ich habe gerade festgelegt funktionieren mit "def." Also habe ich "def bedingt, "und es ist unter "Lyrics". Und was dieser tun wird ist, zunächst einmal, ich habe meine priors Ich möchte, dass zu berechnen. 

Also die Möglichkeit, dass ich dies tun, ist ein Wörterbuch in Python, die ist so ziemlich das gleiche wie ein Hash- Tisch, oder es ist wie eine iterative Array in PHP. Dies ist, wie erkläre ich ein Wörterbuch. Und im Grunde, was das bedeutet, ist, dass Priors von Gaga ist 0,5, zum Beispiel, wenn 50% der Texte sind aus Gaga, Katy sind von 50%. Sinnvoll? Also muss ich herausfinden, wie die Prioren zu berechnen. 

Die nächsten, die ich zu tun habe, auch, die Wahrscheinlichkeiten und die Wörter. Also die Wahrscheinlichkeiten Gaga ist die Liste aller Wahrscheinlichkeiten, dass ich haben für jedes der Worte für Gaga. Also, wenn ich gehen, um Wahrscheinlichkeiten Gaga "Baby", zum Beispiel, wird es mir geben so etwas wie 2 über 24 in diesem Fall. Sinnvoll? Also gehe ich auf "Wahrscheinlichkeiten", die gehen "Gaga" Eimer, die eine Liste von allen hat Gaga die Worte, dann gehe ich zu "Baby" und ich sehe die Wahrscheinlichkeit. 

Und schließlich habe ich diese "Worte" Wörterbuch. So, hier, "Wahrscheinlichkeiten". Und dann "Worte." Also, wenn ich will "Worte", "Gaga" was passieren wird ist, dass es wird mich 24 geben, sagen, dass ich haben 24 Wörter in Texten von Gaga. Das macht Sinn? So, hier, "Wörter" ist gleich dah-dah-dah. Ok 

Also, was ich zu tun ist, ich bin zu gehen laufen jedem der Texte, so jede der Saiten, Ich habe in der Liste. Und ich werde, um diese Dinge zu berechnen für jede der Kandidaten. Das macht Sinn? Also muss ich eine for-Schleife zu tun. 

So in Python, was ich tun kann, ist "für die Linie in Texten. "Die gleiche Sache wie ein "Für jeden"-Anweisung in PHP. Denken Sie daran, wie es war, wenn ich konnte, PHP sagen, "für jedes Lied als Linie. "Das macht Sinn? Also ich nehme jede der Linien, in diesem Fall diese Zeichenfolge und der nächste String so für jede der Linien, was ich bin zu tun ist, zuerst, ich werde Aufgeteilt diese Zeile in eine Liste von Wörter durch Leerzeichen getrennt. 

So ist die kühle Sache über Python ist, dass Sie könnten nur Google wie "Wie kann ich Zerlegt einen String in Worte? "Und es ist werde Ihnen sagen, wie Sie es tun. Und der Weg, es zu tun, es ist nur "line = Line.split () "und es ist im Grunde gehen Sie eine Liste mit zu geben jedes der Wörter hier. Das macht Sinn? Also jetzt, dass ich das tat, ich möchte wissen, wer ist der Sänger von diesem Lied. Und zu tun, dass ich nur noch das bekommen erste Element des Arrays, oder? So kann ich nur sagen, dass ich "-Sängerin = Zeile (0) "Das macht Sinn? 

Und dann, was ich tun müssen, ist, zunächst alle, ich werde zu aktualisieren, wie viele Worte habe ich unter "Gaga." Ich bin nur so gehen, um zu berechnen, wie viele Wörter, die ich haben in dieser Liste, oder? Denn das ist, wie viele Wörter, die ich haben in den Texten, und ich werde einfach es um die "Gaga" Array hinzufügen. Heißt das Sinn? Zu viel Konzentrieren Sie sich nicht auf die Syntax. Denken Sie mehr über die Konzepte. Das ist der wichtigste Teil. OK. 

Also, was kann ich tun, wenn "Gaga" ist bereits in dieser Liste, so ", wenn Sänger in Worte "was bedeutet, dass ich schon haben Worte von Gaga. Ich möchte nur die zusätzliche hinzufügen Worte dafür. Also, was ich zu tun ist, "Wörter (Sänger) + = Len (Linie) - 1 ". Und dann kann ich nur tun, die Länge der Leitung. So, wie viele Elemente, die ich haben in der Anordnung. Und ich habe zu tun, nur weil minus 1 das erste Element des Feldes ist nur Sängerin und die sind nicht Texte. Das macht Sinn? OK. 

"Else", es bedeutet, dass ich eigentlich einfügen Gaga in der Liste. Also habe ich nur tun "Wörter (Sänger) = Len (line) - 1 ", sorry. So dass der einzige Unterschied zwischen den beiden Linien ist, dass diese eine, tut es nicht existieren noch, so bin ich nur initialisieren. Dieses, das ich bin eigentlich Zugabe. OK. So wurde dies zusätzlich zu Worten. 

Jetzt möchte ich zu den Prioren hinzufügen. Wie berechne ich die priors? Die priors berechnet werden , um wie viele Male. Also, wie viele Male Sie, dass Sänger sehen unter all den Sängern, die Sie haben, oder? Also für Gaga und Katy Perry, in diesem Fall sehe ich Gaga einmal, Katy Perry einmal. 

Also im Grunde die Prioren für Gaga und für Katy Perry würde nur einer sein, oder? Sie haben, wie viele Male Ich sehe den Künstler. Das ist also sehr einfach zu berechnen. Ich kann einfach etwas ähnliches wie wie "wenn Sänger in priors: "Ich werde einfach 1, um ihre priors Feld hinzufügen. Also "priors (singen)" + = 1 "und dann" else " Ich werde "priors (Sänger) zu tun = 1 ist. "Das macht Sinn? 

Also, wenn es nicht existiert Ich habe nur wie 1, sonst habe ich nur hinzufügen, ein. OK, jetzt alles, was ich noch zu tun ist auch jedes der Worte, um das Add Wahrscheinlichkeiten. So habe ich zu zählen, wie viele Male Ich sehe jedes der Worte. Also muss ich nur noch anderen zu tun for-Schleife in der Zeile. 

Also erste, was ich tun werde, ist überprüfen, ob die Sängerin hat bereits ein Wahrscheinlichkeiten Array. Also werde ich prüfen, ob der Sänger nicht Wahrscheinlichkeiten haben eine Reihe, ich bin nur gehen, um für sie zu initialisieren. Es ist nicht einmal ein Array, sorry, es ist ein Wörterbuch. So sind die Wahrscheinlichkeiten der Sänger wird ein offenes Wörterbuch sein, also bin ich Initialisierung nur ein Wörterbuch für sie. OK? 

Und jetzt kann ich eigentlich tun, eine for-Schleife zu jedem der Wörter "berechnen Wahrscheinlichkeiten. OK. Also, was ich tun kann, ist eine for-Schleife. Also ich werde einfach zu durchlaufen über die Anordnung. Also die Möglichkeit, dass ich, dass in Python zu tun ist "for i in range." Vom 1. denn ich will in der zweiten beginnen Element, da die erste ist die Sänger Namen. So von einem bis zu der Länge der Leitung. Und wenn ich es eigentlich reichen aus gehen wie hier von 1 bis len der Zeile minus 1. So ist es bereits tut das Ding zu tun n minus 1 für Arrays, die sehr ist praktisch. Das macht Sinn? 

Also für jeden von ihnen, was ich zu Sie ist, wie in dem anderen, Ich werde prüfen, ob das Wort in dieser Position in der Zeile bereits Wahrscheinlichkeiten. Und dann, als ich sagte, hier Wahrscheinlichkeiten Worten, wie in ich "Wahrscheinlichkeiten (Sänger)". So wird der Name des Sängers. Also, wenn es bereits in "Probabilit (Sänger)" ist, bedeutet es, dass ich wollen ein, um es hinzuzufügen, so werde ich tun "Wahrscheinlichkeiten (Sänger)" und die Wort heißt "Linie (i)". Ich werde 1 addieren und "anderes" Ich bin nur werde es auf 1 zu initialisieren. "Line (i)". Das macht Sinn? 

So ich alle Arrays berechnet. So, jetzt alles, was ich für die tun dieser wird nur "zurück priors, Wahrscheinlichkeiten und Worte. "Lass uns sehen, wenn es welche gibt, OK. Es scheint alles so weit funktioniert. Also, das macht Sinn? In gewisser Weise? OK. So, jetzt habe ich alle Wahrscheinlichkeiten. So, jetzt das einzige, was ich noch habe ist, nur um das Ding haben, dass berechnet das Produkt aller Wahrscheinlichkeiten, wenn ich die Texte. 

Also sagen wir mal, dass ich jetzt nennen Diese Funktion "zu klassifizieren ()" und die Sache, die Funktion nimmt ist nur ein Argument. Nehmen wir an, "Baby, ich bin on fire" und es ist gehen, um herauszufinden, was die Wahrscheinlichkeit, dass dies Gaga? Was ist die Wahrscheinlichkeit dass dies Katie? Klingt gut? Also ich werde einfach zu schaffen haben ein neue Funktion namens "klassifizieren ()" und es geht um einige nehmen Texte auch. Und neben den Texten habe ich auch müssen die Prioren zu senden, die Wahrscheinlichkeiten und die Wörter. Also werde ich auf Texte, priors schicken, Wahrscheinlichkeiten, Wörter. 

So dies statt Texte, Prioren, Wahrscheinlichkeiten, Wörter. Also, was macht sie? Es ist im Grunde wird sich durch alle gehen die möglichen Kandidaten, die Sie haben als Sänger. Und wo sind die Kandidaten? Sie sind in den Prioren, oder? So habe ich alle, die da. So werde ich ein Wörterbuch haben aller möglichen Kandidaten. Und dann für jeden Kandidaten in die Priors, so bedeutet dies, dass es sich auf sein Gaga, Katie, wenn ich mehr wird es sein würde. Ich werde die Berechnung zu starten diese Wahrscheinlichkeit. Die Wahrscheinlichkeit, wie wir in der Säge Powerpoint ist die vor Zeiten die Produkt von jedem der andere Wahrscheinlichkeiten. 

So kann ich hier das gleiche tun. Ich kann nur tun, Wahrscheinlichkeit zunächst nur der Stand der Technik. So priors des Kandidaten. Right? Und jetzt habe ich über all die laufen Worte, die ich in den Texten zu sein in der Lage, die Wahrscheinlichkeit hinzufügen für jeden von ihnen, OK? Also "für Wort in Text", was ich zu tun ist, wenn das Wort in "Wahrscheinlichkeiten (Kandidat)", das bedeutet, dass es ist ein Wort, dass die Kandidat hat in ihren Texten - zum Beispiel "Baby" für Gaga - , was ich tun werde, ist, dass die Wahrscheinlichkeit wird sich multiplizieren von 1 plus die Wahrscheinlichkeiten der Kandidat für dieses Wort. Und es heißt "Wort". Dies geteilt durch die Anzahl der Worte dass ich für diesen Kandidaten. Die Gesamtzahl der Worte, die ich für die Sängerin, die ich freue mich auf. 

"Else". es bedeutet, dass es ein neues Wort damit es wie zum Beispiel "Feuer" für Lady Gaga. Also ich will einfach nur mehr tun ein "Wort (Kandidat)". Also ich möchte nicht, diesen Begriff hier setzen. 

Also, es wird im Grunde sein Kopieren und Einfügen dieser. Aber ich werde diesen Teil zu löschen. So ist es nur geht, um ein über das sein. Klingt gut? Und jetzt am Ende, ich bin gerade dabei, drucken den Namen des Kandidaten und die Wahrscheinlichkeit, dass Sie haben mit dem S auf ihre Texte. Das macht Sinn? Und ich eigentlich gar nicht brauchen dieses Wörterbuch. Das macht Sinn? 

Also, lasst uns sehen, ob das tatsächlich funktioniert. Also, wenn ich dieses, es hat nicht funktioniert. Warten Sie eine Sekunde. "Words (Kandidat)", "Wörter (Kandidat)", das ist der Name des Arrays. Ok, so heißt es, es gibt einige Fehler für Bewerber in Priors. Lassen Sie mich nur ein wenig chillen. OK. Lassen Sie uns versuchen. OK. 

So gibt es Katy Perry hat diese Wahrscheinlichkeit, dieses mal die 10 bis minus 7 und Gaga hat diese mal 10 hoch minus 6. Sie sehen also, es zeigt, dass Gaga eine höhere Wahrscheinlichkeit. Also "Baby, ich bin on Fire" ist wahrscheinlich ein Gaga-Song. Das macht Sinn? Also das ist, was wir getan haben. 

Dieser Code wird online gebucht werden, so, euch kann es auszuprobieren. Vielleicht nutzen einige es, wenn Sie wollen tun, ein Projekt oder etwas ähnliches. OK. Dies war nur um zu zeigen, welche Rechen Linguistik-Code aussieht. Aber jetzt auf mehr loslassen hohe Zeug. OK. 

Also die anderen Probleme, die ich sprach - das Segmentierungsproblem ist der erste von ihnen. So haben Sie hier Japanisch. Und dann sehen Sie, dass es gibt keine Räume. Also das ist im Grunde bedeutet, dass es die Spitze der Stuhl, oder? Sie sprechen Japanisch? Es ist die Spitze der Stuhl, oder? 

Student: Ich weiß nicht, was das Kanji über die es gibt. 

LUCAS FREITAS: Es ist [Japanisch sprechen] OK. So ist es im Grunde bedeutet, Vorsitzende der Spitze. Also, wenn Sie einen Raum gestellt hatte es wäre hier zu sein. Und dann muss man [? Ueda-san. ?] Was im Grunde bedeutet, Herr Ueda. Und Sie sehen, dass "Ueda" und Sie haben ein Leerzeichen und dann "san." So sehen Sie, dass hier finden Sie "Ue" ist wie von selbst aus. Und hier hat es ein Zeichen daneben. 

Also ist es nicht in diesen Sprachen wie Zeichen bedeutet, ein Wort, so dass Sie einfach eine Menge von Räumen. Charaktere zueinander stehen. Und sie zusammen sein können wie zwei, drei, eins. So haben Sie eigentlich eine Art erstellen der Art und Weise der Umsetzung dieser Räume. 

Und diese Sache ist, dass, wenn Sie Daten aus diesen asiatischen Sprachen alles kommt unsegmentierten. Denn niemand, der Japaner schreibt oder Chinesisch schreibt mit Leerzeichen. Immer, wenn du schreibst Chinesisch, Japanische Sie einfach alles schreiben ohne Leerzeichen. Es ist auch nicht sinnvoll Leerzeichen setzen. Also dann, wenn Sie Daten aus zu bekommen, einige Ostasiatische Sprache, wenn Sie wollen tatsächlich etwas mit dem zu tun Sie haben erste Segment. 

Denken Sie an das Beispiel tun die Texte ohne Leerzeichen ein. Also die einzigen Texte, die Sie haben werden Sätze sein, oder? Durch Punkte voneinander getrennt. Aber dann nur mit dem Satz wird auf, die Informationen nicht wirklich helfen wer diese Texte sind durch. Right? So sollten Sie an erster Plätze. Also, wie können Sie das tun? 

So kommt dann die Idee einer Sprache Modell, das wirklich etwas ist wichtig für Rechen Linguistik. So ein Sprachmodell ist im Grunde ein Tabelle von Wahrscheinlichkeiten, die zeigt, Zunächst einmal, was ist die Wahrscheinlichkeit, mit der das Wort in einer Sprache? So zeigt, wie häufig ein Wort ist. Und dann auch, die die Beziehung zwischen den Wörtern in einem Satz. 

Also die Grundidee ist, wenn ein Fremder kam Sie und sagte einen Satz, um Sie, was ist die Wahrscheinlichkeit, dass für Beispiel: "Das ist meine Schwester [? GTF"?] war der Satz, dass die Person gesagt? So offensichtlich sind einige Sätze häufiger als andere. Zum Beispiel, "guten Morgen" oder "gut Nacht ", oder" hey da, "ist viel mehr häufiger als die meisten Sätze dass wir eine englische. Warum sind diese Sätze häufiger? 

Zunächst einmal, es ist, weil Sie Worte, die häufiger sind. So zum Beispiel, wenn Sie sagen, der Hund ist groß, und der Hund ist gigantisch, Sie Regel wohl hören, wie der Hund groß ist mehr oft, weil "große" ist mehr in Englisch häufiger als "gigantisch." So eine der Dinge ist das Wort Frequenz. 

Die zweite Sache, die wirklich wichtig ist nur die Reihenfolge der Wörter. So ist es üblich, zu sagen "die Katze ist in der Box. "aber Sie normalerweise nicht tun zu sehen in "The Box im Inneren ist die Katze." so Sie sehen, dass es einige Bedeutung in der Reihenfolge der Worte. Man kann nicht einfach sagen, dass die beiden Sätze haben die gleiche Wahrscheinlichkeit nur weil sie die gleichen Worte. Sie haben tatsächlich zu kümmern etwa um als gut. Sinnvoll? 

Also, was tun wir? Also, was ich versuchen könnte, bekommen Sie? Ich versuche, Sie, was wir bekommen rufen Sie die n-Gramm-Modelle. So n-Gramm-Modelle grundsätzlich davon ausgehen, dass für jedes Wort, Sie haben in einem Satz. Es ist die Wahrscheinlichkeit, dass Wort es hängt nicht nur von der Frequenz dieses Wort in der Sprache, sondern auch auf die Worte, die sind sie umgibt. 

So zum Beispiel, in der Regel, wenn Sie sehen etwas auf oder an Sie wahrscheinlich ein zu sehen Nomen nach, oder? Denn wenn Sie eine Präposition haben normalerweise dauert es ein Substantiv, nachdem es. Oder wenn Sie ein Verb, transitiv ist zu haben Sie sind in der Regel zu gehen haben eine Nominalphrase. Also es geht um ein Substantiv haben irgendwo herum. 

Also, im Grunde, was es tut, ist, dass es hält die Wahrscheinlichkeit, Wörter nebeneinander, wenn Sie sind der Berechnung der Wahrscheinlichkeit eines Satzes. Und das ist, was eine Sprache Modell grundsätzlich. Nur zu sagen, was ist die Wahrscheinlichkeit, der mit einer spezifischen Satz in einer Sprache? Also, warum ist das sinnvoll, im Grunde? Und vor allem was ist ein n-Gramm-Modell, dann? 

So dass ein n-Gramm-Modell bedeutet, dass jedes Wort ist abhängig von der nächsten N minus 1 Worte. Also, im Grunde, bedeutet dies, dass, wenn ich sehe, beispielsweise bei der CS50 TF wenn Ich Berechnung der Wahrscheinlichkeit der Satz, werden Sie wie "die Wahrscheinlichkeit, dass das Wort "the" mal die Wahrscheinlichkeit, dass "die CS50 "mal der Wahrscheinlichkeit, "Der CS50 TF." Also, im Grunde, ich zähle Alle Möglichkeiten, Stretching es. 

Und dann in der Regel, wenn Sie tun dies, wie in einem Projekt, setzen Sie N sein ein niedriger Wert. Also, haben in der Regel Bigramme oder Trigramme. Damit Sie zählen nur zwei Worte ein Gruppe von zwei Wörtern oder drei Worte, nur für Leistungsprobleme. Und auch, weil vielleicht, wenn Sie so etwas wie "The CS50 TF." Wenn Sie haben "TF", es ist sehr wichtig, dass "CS50" ist daneben, oder? Diese beiden Dinge sind in der Regel nebeneinander. 

Wenn Sie denken "TF", es ist wahrscheinlich gehen zu müssen, was Klasse ist es für TF'ing. Auch "die" wirklich wichtig ist für CS50 TF. Aber wenn Sie etwas wie "Der CS50 haben TF ging in die Klasse und gaben ihre Studenten einige Süßigkeiten. "" Candy "und" die " haben keine Beziehung wirklich, oder? Sie sind so weit voneinander entfernt, dass es ist nicht wirklich wichtig, was Wörter, die Sie haben. 

Also, indem Sie eine Bigramm oder ein Trigramm, es bedeutet nur, dass Sie die Begrenzung sind Sie sich ein paar Worte , die rund sind. Sinnvoll? Also, wenn Sie, um die Segmentierung tun wollen, im Grunde, was Sie tun möchten, ist zu sehen was sind all die Möglichkeiten, die Sie können Segment den Satz. 

So, dass Sie sehen, was ist der Wahrscheinlichkeit jeder dieser Sätze in der Sprache vorhanden? Also, was Sie tun, ist wie, na ja, lassen mich versuchen, einen Raum hier setzen. So gibt es einen Raum setzen Sie und Sie sehen, was ist der Wahrscheinlichkeit dieses Satzes? Dann wie, OK, vielleicht sind Sie das war nicht so gut. Also habe ich einen Raum gibt und ein Raum dort, und berechnen Sie die Jetzt Wahrscheinlichkeit, und Sie sehen, dass es ist eine höhere Wahrscheinlichkeit. 

Das ist also ein Algorithmus namens TANGO Segmentierungsalgorithmus, was eigentlich etwas, das wirklich sein würde kühl für ein Projekt, das Grundsätzlich nimmt die unsegmentierten Text kann Japanisch oder Chinesisch oder vielleicht sein Englisch ohne Leerzeichen und versucht zu setzen Leerzeichen zwischen den Wörtern und es tut dass durch die Verwendung eines Sprachmodells und versuchen zu sehen, was ist der höchste Wahrscheinlichkeit, die Sie bekommen können. OK. Das ist also Segmentierung. 

Jetzt Syntax. So ist Syntax für benutzt so viele Dinge jetzt. Also für Grafik suchen, für Siri für so ziemlich jede Art von Natur Sprachverarbeitung Sie haben. Also, was sind die wichtigen Dinge über Syntax? Also, Sätze haben im allgemeinen was wir als Bestandteile. Welche Art, wie Gruppen von Wörtern , die eine Funktion im Satz haben. Und sie kann nicht wirklich sein voneinander. 

Also, wenn ich zum Beispiel sagen, "Lauren liebt Milo. "Ich weiß, dass" Lauren "ist ein Bestandteil und dann "Liebe Milo "ist auch ein anderes. Da kann man nicht wie "Lauren Milo sagen Mag "die gleiche Bedeutung haben. Es ist nicht zu haben, die gleiche Bedeutung. Oder ich kann nicht wie "Milo Lauren sagen liebt. "Nicht alles hat die gleiche was bedeutet, das zu tun. 

So sind die zwei wichtigsten Dinge über Syntax sind die lexikalischen Typen, die ist im Grunde die Funktion, die Sie haben nach Worten von sich. So müssen Sie wissen, dass "Lauren" und "Milo" sind Substantive. "Love" ist ein Verb. Und die zweite wichtige Sache ist, dass sie Phrasentypen. So wissen Sie, dass "Milo liebt" ist eigentlich eine Verbalphrase. Also, wenn ich sage "Lauren:" Ich weiß, dass Lauren ist etwas zu tun. Was tut sie? Sie ist liebevoll Milo. Es ist also eine ganze Sache. Aber seine Komponenten ein Substantiv und ein Verb. Aber zusammen bilden sie ein Verb Phrase. 

Also, was können wir tatsächlich tun mit Computerlinguistik? Also, wenn ich etwas zum Beispiel "Freunde von Allison." Ich sehe, wenn ich nur hat eine syntaktische Baum Ich würde wissen, dass "Freunde" ist eine Nominalphrase ist es ein Nomen und dann "von Allison" ist ein Präpositionalphrase, in dem "von" ist ein Satz, und "Allison" ist ein Substantiv. Was ich tun konnte, ist mein Computer lehren , dass, wenn ich eine Nominalphrase ein und dann eine Präpositionalphrase. Also in diesem Fall, "Freunde" und dann "von Milo: "Ich weiß, dass dies bedeutet, dass NP2, die zweite, besitzt NP1. 

So kann ich eine Art von Beziehung zu erstellen, eine Art von Funktion dafür. Also, wenn ich diese Struktur, die stimmt genau mit "Freunde von Allison: "Ich weiß, dass Allison besitzt die Freunde. So etwas sind die Freunde dass Allison hat. Das macht Sinn? Also das ist im Grunde, was Graph Suche tut. Es schafft nur Regeln für eine Menge Dinge. So "Freunde von Allison", "meine Freunde , die in Cambridge zu leben "," meine Freunde , die nach Harvard zu gehen. "Es schafft Regeln für all diese Dinge. 

Jetzt maschinelle Übersetzung. So ist auch die maschinelle Übersetzung etwas statistisch. Und eigentlich, wenn Sie in engagieren Computerlinguistik, viel Ihr Material wird zu Statistiken sein. So wie ich das Beispiel macht mit eine Menge von Wahrscheinlichkeiten, dass ich Berechnung, und dann müssen Sie diese bekommen sehr kleine Zahl, die die letzte ist Wahrscheinlichkeit, und das ist, was gibt Ihnen die Antwort. Maschinelle Übersetzung verwendet auch ein statistisches Modell. Und wenn Sie möchten, dass der Maschinen Übersetzung auf einfachste Übrigens, was Sie denken können, ist nur Wort für Wort zu übersetzen, oder? 

Wenn Sie eine Sprache lernen, für die ersten Mal, das ist, was in der Regel Sie tun, oder? Wenn Sie möchten, Sie einen Satz übersetzen in Ihrer Sprache auf die Sprache Sie lernen, in der Regel zuerst, Sie Übersetzen jedes der Wörter einzeln, und dann versuchen, , die Worte in Platz gesetzt. 

Also, wenn ich wollte, dies zu übersetzen, [Portugiesisch Sprechen] das bedeutet "die weiße Katze lief weg." Wenn ich wollte, um sie von zu übersetzen Portugiesisch auf Englisch, was ich tun können, ist, zunächst, ich habe gerade Wort für Wort zu übersetzen. So "o" ist "die", "gato", "Katze", "Branco", "weiß", und dann "fugio" ist "Lief weg." 

So dann habe ich alle Worte hier, aber sie sind nicht in Ordnung. Es ist wie "die Katze weiß lief weg" die ungrammatisch ist. So, dann kann ich einen zweiten Schritt haben die sein wird die Suche nach dem idealen Position für jedes der Wörter. So weiß ich, dass ich eigentlich haben wollen, "Weiße Katze" statt "Katze weiß." So was ich tun kann, ist, die naive Methode wäre, erstellen alle möglichen Permutationen Worten von Positionen. Und dann sehen, die man hat das höchste Wahrscheinlichkeit nach meine Sprachmodell. Und dann, wenn ich die eine, die hat zu finden die höchste Wahrscheinlichkeit ist, das ist wahrscheinlich "die weiße Katze lief weg", das ist meine Übersetzung. 

Und dies ist ein einfacher Weg zu erklären, wie viel der maschinellen Übersetzung Algorithmen arbeiten. Heißt das Sinn? Das ist auch etwas, wirklich spannend dass Sie Jungs können vielleicht für eine Erkundung Abschlussprojekt, ja? 

STUDENT: Nun, Sie haben gesagt, es war die naive Art und Weise, so was ist die nicht-naive Art und Weise? 

LUCAS FREITAS: Die nicht-naive Art und Weise? OK. Also das erste, was ist schlecht diese Methode ist, dass ich gerade übersetzt Wörter, Wort für Wort. Aber manchmal Worte, die können mehrere Übersetzungen zu haben. Ich werde versuchen zu denken von etwas. Zum Beispiel, "manga" in Portugiesisch Dose entweder "Schutzhülle" sein. "mangle" oder So wenn Sie versuchen, Wort zu übersetzen sind durch Wort, könnte es werden, so dass Sie etwas, das keinen Sinn macht. 

Tatsächlich wollen, können Sie dies für Sie überhaupt aussehen die möglichen Übersetzungen der Worte und sehen, vor allem, was ist die Reihenfolge. Wir haben über Permutation sprechen die Dinge? Um alle möglichen Aufträge sehen und wählen, die mit der höchsten Wahrscheinlichkeit? Sie können auch alle möglichen wählen Übersetzungen für jede Wort und dann sehen - kombiniert mit den Permutationen - die man die höchste Wahrscheinlichkeit hat. 

Plus, können Sie auch nicht so aus, nur Worte, sondern Phrasen. so können Sie die Beziehungen zwischen analysieren die Worte, und erhalten dann eine bessere Übersetzung. Auch etwas anderes, so dass in diesem Semester Ich bin eigentlich forscht in Chinesisch-Englisch maschinelle Übersetzung, so die Übersetzung von Chinesischen ins Englische. 

Und etwas, was wir tun, ist, neben der Verwendung ein statistisches Modell, das nur zu sehen, die Wahrscheinlichkeiten des Sehens einige Position in einem Satz, ich bin eigentlich auch das Hinzufügen einiger Syntax, um meine Modell und sagte, oh, wenn ich diese Art von Bau-, dies ist, was ich will um es zu übersetzen, wenn ich ändern. So kann man auch eine Art hinzufügen Element der Syntax, um die Übersetzung effizienter und präziser. OK. 

Also, wie können Sie beginnen, wenn Sie wollen , etwas zu tun, in der computergestützten Sprachwissenschaft? 

Zuerst wählen Sie ein Projekt das beinhaltet Sprachen. Also, es gibt so viele da draußen. Es gibt so viele Dinge, die Sie tun können. Und dann eines Modells denken kann die Sie verwenden können. In der Regel bedeutet, dass Denken Annahmen, als wie, oh, wenn ich wie das Denken von den Texten. Ich war wie, nun ja, wenn ich heraus aus ein, die dies schrieb, möchte ich wahrscheinlich , bei den Wörtern die Person verwendet und sehen, wer dieses Wort sehr oft verwendet. So versuchen, Annahmen und versuchen, von Modellen zu denken. Und dann können Sie auch online nach die Art von Problem, das Sie haben, und es wird vorschlagen auf Modelle, die vielleicht für gut modelliert, dass die Sache. 

Und auch Sie können immer mailen Sie mir. me@lfreitas.com. Und ich kann einfach beantworten Ihre Fragen. Wir können vielleicht sogar bis zu erfüllen, so kann ich geben Anregungen über die Möglichkeiten von der Umsetzung Ihres Projektes. Und ich meine, wenn Sie einbezogen zu werden Computerlinguistik, es geht groß zu sein. Du wirst es sehen ist so viel Potenzial. Und die Industrie will mieten Sie so schlecht deswegen. Also ich hoffe, euch gefallen diese. Wenn ihr irgendwelche Fragen haben, Sie können mich nach diesem fragen. Aber danke.