[Musikwiedergabe] 

DAVID MALAN: Dies ist CS50. Dies ist das Ende der 10. Woche. Und Junge, haben wir ein gute Klasse fÃ¼r Sie heute. Wir sind so aufgeregt, um zwei einladen unsere Freunde aus Yale bis zu uns heute und an der Kreuzung der aussehen kÃ¼nstliche Intelligenz, Robotik, Verarbeitung natÃ¼rlicher Sprache und vieles mehr. 

Und in der Tat, Ã¼ber die letzten Wochen, haben wir sicherlich verbrachten viel Zeit, vor allem in den frÃ¼heren psets, Schwerpunkt auf ziemlich Low-Level-Details. Und es ist sehr einfach, aus den Augen verlieren der Wald vor lauter BÃ¤umen und erhalten Sie bis zu Schleifen und Bedingungen aufgehÃ¤ngt und Zeiger, sicher, und dergleichen. Aber die RealitÃ¤t ist euch nun die Zutaten mit denen Sie wirklich lÃ¶sen einige interessante Probleme, unter sie diejenigen, die unsere Freunde an der Yale arbeiten nur schÃ¼chtern von Cambridge. 

So gestatten Sie mir zunÃ¤chst, um unserem Kopf vorstellen Lehrassistent an der Yale, Andy. 

[BEIFALL] 

ANDY: ZunÃ¤chst einmal, nur danken, Ihnen dafÃ¼r, dass Sie ein paar Yalies Pop auf bis zu Cambridge heute. Wir schÃ¤tzen es wirklich. Zweitens, unsere Freunde zurÃ¼ck home-- Jason, Dank fÃ¼r den Aufenthalt und Lauf Vortrag. Hoffe, es ist alles gut in New Haven. 

Also ja, ich bin super aufgeregt einzufÃ¼hren Scaz heute. Scaz lÃ¤uft die Robotik-Labor. Er ist Professor fÃ¼r, wie, fÃ¼nf verschiedenen Abteilungen in Yale. In seinem Labor hat er viele, viele Roboter, die er mag, mit zu spielen. Er hat, wie die coolsten Job der Welt. Und er bekommt, um Art von Chaos herum mit, dass den ganzen Tag lang und einige Arbeit, wie gut. 

Und so haben wir eigentlich eine gebracht von ihnen sich mit uns heute. So ohne weiteres ist Scaz werde weitermachen und fÃ¼hren uns um seinen Roboter Freund. 

[BEIFALL] BRIAN Scassellati: Danke, David. Danke, Andy. Es ist so schÃ¶n zu sein hier mit jeder heute. Ich mÃ¶chte zunÃ¤chst ganz klar, dass sein Die CS50 Personal hier in Cambridge hat unglaublich gastfreundlich zu uns gewesen. Wir sind so dankbar fÃ¼r alles, was sie getan haben, um uns zu unterstÃ¼tzen. Und so mÃ¶chten wir zu kÃ¶nnen um die GÃ¼te zurÃ¼ckzugeben. 

Also heute, bekommen wir zu verkÃ¼nden, dass wir gehen, ein neues zu haben, one-of-a-kind-CS50 Ereignis geschieht in New Haven nÃ¤chste Woche. Und dies ist der CS50 Forschung Expo. So werden wir einladen everyone-- CS50 Studenten, Mitarbeiter aus beiden Harvard und Yale-- zu komm herab und besuchen Sie mit uns am Freitag. Wir werden eine groÃe Auswahl von Ã¼ber haben 30 verschiedene Menschen prÃ¤sentieren und exhibiting-- upperclassmen zeigen einige ihrer Forschungsprodukte. Wir werden einige Start-ups haben, auch, auf der Suche fÃ¼r ein wenig von neuen Tech-Talent, Startups aus sowohl Harvard und Yale. Und wir werden einige SchÃ¼lergruppen haben Suche nach einigen neuen Mitglieds. 

Es wird eine sehr aufregende Zeit sein. Hoffentlich diejenigen von euch, sind herab fÃ¼r die Harvard-Yale-Spiel in der Lage zu stoppen durch ein kleines bisschen zu frÃ¼h, direkt im Zentrum von Campus, Sterling Memorial Library. Wir werden eine Reihe von haben Exponate, die vom autonomen Bereich Segelboote, um MÃ¶glichkeiten der Verwendung von Software- In den mittelalterlichen Handschriften zu erhalten. 

Wir werden Anzeiger hoc-Vernetzung und die Menschen Lernsoftware Codierung in Kapstadt. Wir werden Computer haben MusikvorfÃ¼hrungen. Und wir haben natÃ¼rlich mehr Roboter. So dass wir hoffen, dass Sie besuchen Sie uns fÃ¼r diese Veranstaltung. Es sollte eine Menge sein, SpaÃ, ein bisschen von Lebensmitteln, und eine Menge interessanter Dinge zu reden. 

Also heute werden wir zu sprechen Ã¼ber die Verarbeitung natÃ¼rlicher Sprache. Und das ist der Versuch fÃ¼r uns um ein neues Verfahren zur VerknÃ¼pfung bauen mit unseren GerÃ¤ten, weil fÃ¼r den letzten Wochen, Sie, wie es ist, dass konzentriert haben kÃ¶nnen Sie Code schreiben, schreiben Software das ist eine Art des Seins in der Lage, ein Mitsprache Maschine, das ist, was ich will, was Sie tun. 

Aber wir sollten nicht zu erwarten, dass alles, was das ist, gibt, wird verwendet, von jeder in der Welt wird tÃ¼chtig zu sein in dieser Art von Unterricht. So unterscheiden wir zwischen Computer Sprachen und Natur languages-- das heiÃt, Dinge, die Nutzung der Mensch mit anderen Menschen kommunizieren. Und wir versuchen, Schnittstellen, verwenden zu bauen diese natÃ¼rlichen Kommunikationsmechanismen. 

Jetzt, nur jede zweite Thema wÃ¼nschen dass wir mit in CS50 begonnen, werden wir mit dem einfachsten starten Bit Verarbeitung natÃ¼rlicher Sprache dass wir uns vorstellen kÃ¶nnen. Wir werden mit dem Start historischen Teil der natÃ¼rlichen Sprache. Und dann werden wir aufbauen mehr neueren Systemen und SpaÃ haben Demos auf dem Weg. 

So werden wir mit dem, was war, zu starten wahrscheinlich das erste natÃ¼rliche Sprache Verarbeitungssystem. Dies war ein Software-System in schriftlicher 1966 von Joseph Weizenbaum namens ELIZA. Und ELIZA wurde entwickelt replizieren die Art der Interaktion Sie mit einer hÃ¤tte Rogers Psychotherapeut. Nun werden die Rogerians hatten sie eine Idee, die Psychotherapie beteiligt in der Lage, wieder zu spiegeln zu einem Patienten und mit ihnen sprechen, im Grunde nur um ihnen eine kleines bisschen des Therapeuten. Das heiÃt, alles, was dass der Therapeut sagte, sollte nur ein Spiegelbild sein was der Patient erzÃ¤hlte sie. 

Also lassen Sie uns versuchen, diese Demo. Haben wir einen Freiwilligen, der sein wÃ¼rde bereit sind, ihre tiefsten teilen, dunkelsten, und / oder gefÃ¤lschten Geheimnisse mit ELIZA? Sicher, warum gehst du nicht zu kommen. Fantastisch. Und dein Name? 

MILES: Miles. 

BRIAN Scassellati: Miles. Freut mich, Miles. Wenn Sie auf, dass zu halten. Und wir sind zu gehen verwenden Sie eine Version von ELIZA dass wir repliziert haben innerhalb des CS50 IDE. Und wir werden an der Quelle zu suchen Code, um diese in eine kleine Weile. Aber fÃ¼r jetzt, nur wir sind werde es durch Eingabe von eliza aufzurufen. 

Und Eliza wird Ihnen Antworten zu geben, die gehen, um in allen HauptstÃ¤dten ist. Und werde Ihnen ein paar Fragen stellen. Und wir werden reagieren, und geben Sie in Reaktion auf ELIZA. So ELIZA hat gesagt: "Hallo, ich bin ELIZA. Was ist dein Problem?" Was wÃ¼rdest du gerne sagen ELIZA heute? 

MILES: Ich kann nur einschlafen wenn ich HÃ¤schenpantoffeln auf. 

BRIAN Scassellati: Alles klar. Gut. 

[LACHEN] 

"Ich kann nur einschlafen mit HÃ¤schenpantoffeln auf. " ELIZA und sagt: "Sag mal, hast du keine psychische Probleme? Vielleicht ist das ein guter Indikator. " 

OK. Also, was wollen Sie darauf reagieren? 

MILES: Ja. 

BRIAN Scassellati: Ja. Mann vieler Worte. Das macht mir viel SpaÃ. Eliza sagt: "Sie scheinen sehr positiv." 

MILES: Nein, ich bin in der Tat, ein Elektron. 

BRIAN Scassellati: "No. In der Tat, ich bin ein Elektron. " "Hast du zu mir kommen weil Sie eine Elektronen sind? " Jetzt kÃ¶nnen wir einige zu sehen die things-- Ich werde , Sie nur fÃ¼r eine Sekunde Pause, Miles. Ãberall Gehen Sie nicht. Wir sind noch nicht mit dir geschehen. ELIZA ist, in gewisser Weise, Reaktion auf bestimmte Dinge, , dass er sagt, aber ohne eine wirkliche VerstÃ¤ndnis. Und es ist auch wieder einige parroting der Teile seiner Strafe. 

Also sagten wir: "Nein, In der Tat, ich bin ein Elektron. " Eliza reagierte zurÃ¼ck, "Bist du gekommen, fÃ¼r mich, denn du bist ein Elektron? " Gut. Geben wir es noch Antwort hier. Geben Sie ihm ein gutes, Miles. 

MILES: Good one? 

Ja, bitte hilf mir. BRIAN Scassellati: "Ja. Bitte helfen Sie mir. "" Bist du sicher? " MILES: Nein BRIAN Scassellati: Nein "Was bedeutet das fÃ¼r Sie vor?" 

MILES: Ich kann nicht ein Elektron ist. 

BRIAN Scassellati: "Ich kann nicht ein Elektron zu sein. " "Wollen Sie damit sagen nicht nur negativ zu sein?" 

Gut. So Miles, ich danke Ihnen so sehr. 

MILES: Ich danke Ihnen. 

BRIAN Scassellati: Vielen Dank. [BEIFALL] 

So dass diese ELIZA Programms in vielerlei Hinsicht, wird nur die Reaktion auf den StÃ¼cken dass wir ohne tiefe Bereitstellung zu verstehen, was hier passiert. Dies ist eine Art von System genannt Pattern-Matching, wo wir sind fÃ¼r bestimmte suchen Bits der Text, den wir dann gehen, um von zu nehmen, was als Eingabe bereitgestellt, umwandeln, was mÃ¶glicherweise in irgendeiner Weise, und dann geben wir es zurÃ¼ck an den Benutzer. 

Hat jemand von euch denken, dass ELIZA ist eigentlich DurchfÃ¼hrung gÃ¼ltig Psychoanalyse hier? Eine Person, vielleicht. 

ZIELGRUPPE: [unverstÃ¤ndlich]. BRIAN Scassellati: Und wie HeiÃt das, fÃ¼hlen Sie sich? Ja, in der Tat, es tut. Und wir werden sehen, die tatsÃ¤chlich die Quellcode fÃ¼r sie in nur einem Augenblick. Und so wirst du sein wirst Lage, genau dies zu tun. 

Nun, das ist eine Form von ELIZA, was wir heute ein Chat-Bot nennen wÃ¼rde. Es geht nur Ã¼ber die Text, den Sie bieten bist, bietet das NÃ¶tigste Menge VerstÃ¤ndnis oder Verarbeitung, und dann plappert sie zurÃ¼ck zu Ihnen. Werfen wir also einen Blick, konzeptionell und darÃ¼ber zu sprechen, was es ist, dass ELIZA tatsÃ¤chlich tut. 

ELIZA nimmt ein sentence-- Lassen Sie uns sagen: "Ich will mein Chef zu beeindrucken." Und Eliza suchen durch diesen Satz und versuchen zu finden und entsprechen bestimmte Muster. So, zum Beispiel, eines der Muster dass ELIZA ist auf der Suche sind die Worte "Ich will." Und jedes Mal, es war etwas sieht, das hat "Ich will" in ihm, es formuliert eine Antwort. Und diese Antwort ist ein fester String. In diesem Fall ist es, "warum willst du?" Und ich einen kleinen Stern auf das Ende, denn das ist nur der Anfang unserer Antwort. Und der Stern zeigt an, dass wir werden den Rest von utterance-- des Benutzers "Zu meinen Chef zu beeindrucken" - und wir werden, dass anhÃ¤ngen auf das Ende dieser Zeichenfolge. 

So, jetzt, anstatt zu sagen, "warum Sie zu meinem Chef zu beeindrucken wollen " es ist ein bisschen von zusÃ¤tzlichen Verarbeitung, die wir tun. Das heiÃt, wir werden zu mÃ¼ssen konvertieren einige der Pronomina hier von "mein Chef" bis "Ihrem Chef." Und es kÃ¶nnte ein paar andere sein Ãnderungen, die wir brauchen, um zu machen. Also nicht nur Aufkleben direkt auf das Ende, was wir tun wird wir erledigen den Rest des nehmen utterance-- Benutzers in weiÃen hier-- und wir werden es ein StÃ¼ck zu nehmen eine Zeit, und wandeln jede Saite Token, jedes Wort, in den Satz. 

Also werden wir das Wort "bis". Nehmen Es gibt keine Umrechnungs dass wir das tun. "Beeindrucken." Es gibt keine Umrechnungs wir brauchen, um es zu tun. "Mein" konvertiert, um "Ihre". Und "Chef" wir lassen Sie einfach als "Chef". Und dann schlieÃlich alles dass endet mit einem Punkt, wir werden es in eine Frage zu konvertieren. 

Diese sehr einfache Mustererkennung ist eigentlich recht erfolgreich. Und wenn diese eingefÃ¼hrt wurde in 1966-- Joseph Weizenbaum programmiert diese auf einem Computer. Nun, Computer zu diesem Zeitpunkt waren nicht Desktop-Modelle. Sie wurden gemeinsam genutzten Ressourcen. Und seine SchÃ¼ler wÃ¼rden gehen und sich mit ELIZA. SchlieÃlich hatte er den den Zugriff auf sie weil seine SchÃ¼ler waren nicht immer alle Arbeit getan. Sie wurden gerade im Chat mit ELIZA. Und, in der Tat, hatte er Feuer seine Assistentin, die verbrachte ihre ganze Zeit im GesprÃ¤ch mit ELIZA Ã¼ber ihre tiefen und beunruhigenden Problemen. 

Jeder, der diese Systeme verwendet werden, begann, sie zu vermenschlichen. Sie fingen an, von ihnen als zu denken wobei belebten und echten Menschen. Sie fingen an, einige erkennen, die Dinge, die sie sagten wurden wieder zu ihnen kommen. Und sie wurden herausfinden, Dinge Ã¼ber sich selbst. Und in der Tat auch die Experten, selbst die Psychotherapeuten, begann sich Sorgen zu machen, dass in der Tat, vielleicht ELIZA wÃ¤re zu ersetzen. Und selbst der Computer Wissenschaftler befÃ¼rchten, dass wir so nah an der LÃ¶sung der natÃ¼rlichen Sprache. 

Nun, das war nicht annÃ¤hernd so wahr. Aber das ist, wie beeindruckend diese Systeme scheinen. Lassen Sie uns also beginnen zu schauen unterhalb und versuchen um ein wenig von einer Frage zu erhalten von denen dieser Code tatsÃ¤chlich passiert. Also werden wir diesen Code machen verfÃ¼gbar danach. Und das ist eine sehr einfachen und direkten Port- des ursprÃ¼nglichen ELIZA Umsetzung. 

So einige dieser stilistischen Dinge, die Sie hier sehen, nicht stilistisch, was wir mÃ¶chten Sie tun oder was wir unterrichtet, was Sie tun. Aber wir haben versucht, sie zu halten das gleiche fÃ¼r die vielen HÃ¤fen daÃ dies so, daÃ sie zu hat den Geschmack des ursprÃ¼nglichen. So werden wir schlieÃen eine Reihe von Dingen, und dann werden wir eine haben, Satz von SchlÃ¼sselwÃ¶rtern, die Dinge dass ELIZA erkennen und darauf zu reagieren direkt. Also, wenn Sie WÃ¶rter wie haben "Sie" oder "Ich weiÃ nicht" oder "nein" oder "Ja" oder "Traum" oder "Hallo", dann ELIZA wird selektiv an denjenigen zu reagieren. Wir haben auch ein bestimmte Anzahl von Dingen dass wir uns wie zu tauschen Umwandlung von "mein" zu "Ihrem". 

Und dann werden wir eine Reihe von Reaktionen haben , dass fÃ¼r jedes dieser Stichworte, wir werden durch Drehen diese unterschiedlichen Reaktionen. Also, wenn ich sage, "Ja" drei Mal in Folge, I vielleicht bekommen drei verschiedene Antworten von ELIZA. Unser Code ist also tatsÃ¤chlich bemerkenswert einfach. Wenn ich nach unten scrollen Vergangenheit alle diese Antworten, die wir in programmiert haben und wir uns an die unsere, wir werden initialisiert ein paar verschiedene Variablen und tun, ein wenig von der Hauswirtschaft am Anfang. Aber dann gibt es absolut ein Satz der Code, den Sie verstehen kÃ¶nnen. Ein groÃer while-Schleife, die sagt, ich bin werde dies immer und immer zu wiederholen. Ich werde in einer Zeile zu lesen, und ich werde zu speichern, die in einer Eingabezeichenfolge. Ich werde zu Ã¼berprÃ¼fen und sehen, ob es die spezielle SchlÃ¼sselwort "Auf Wiedersehen", die bedeutet, das Programm zu beenden. Und dann werde ich Ã¼berprÃ¼fen und sehen, ob jemand gerade sich zu wiederholen Ã¼ber und Ã¼ber. Und ich werde sie an zu schreien, wenn sie es tun. Ich werde sagen, "Sie sich nicht wiederholen." 

Solange keiner von denen geschehen, werden wir dann durch und Schleife durch Scannen, auf den Leitungen 308-313 hier und Ã¼berprÃ¼fen und sehen, sind irgendwelche von denen SchlÃ¼sselwort SÃ¤tze in der Eingabe enthalten dass ich gerade gegeben? Wenn es eine Ãbereinstimmung fÃ¼r sie, gut dann werde ich diesen Ort erinnern. Ich werde dieses SchlÃ¼sselwort zu erinnern. Und ich werde in der Lage, eine Antwort zu bauen. 

Wenn ich nicht finden ein, auch dann, das Letzte, was in meinem Keyword-Array meine Standardantworten zu sein, wenn sonst nichts passt. Ich werde Fragen wie: "Warum hast du hierher zu kommen? "oder" Wie kann ich Ihnen helfen? " dass sind nur teilweise entsprechende egal, was die Eingabe ist. 

Wir werden dann aufzubauen ELIZA Antwort. Wir werden in der Lage, zu nehmen daÃ Basisantwort, so wie wir das gemacht haben, dass "mein Chef" Beispiel. Wenn das alles ist, dass es ist-- wenn es nur einen Zeichenfolge, die ich soll respond-- Ich kann senden Sie ihn wieder heraus. Wenn sie einen Stern in hat das Ende vom Lied, dann werde ich verarbeiten jedes einzelne Zeichen in der Rest der Antwort des Benutzers und fÃ¼gen Sie den in, Auslagern Wort fÃ¼r Wort, wie es sein muss. 

All dies absolut etwas, das Sie bauen kÃ¶nnen. Und in der Tat die Art und Weise, in der wir mÃ¼ssen verarbeitet Befehlszeilenargumente, die Art, wie Sie Ã¼ber HTTP-Anfragen bearbeitet befolgen Sie die gleichen Arten von Regeln. Sie sind Mustererkennung. 

Also musste ELIZA eine relativ wichtige Auswirkungen auf die natÃ¼rliche Sprache denn es machte es scheinen, wie es war sehr erreichbares Ziel, wie irgendwie wÃ¼rden wir in der Lage, dieses Problem unmittelbar zu lÃ¶sen. Nun, das ist nicht zu sagen, dass ELIZA tut alles, was wir tun wollen. Sicher nicht. Aber wir sollten in der Lage sein, , etwas mehr zu tun. 

Unser erster Schritt zu gehen Ã¼ber ELIZA wird in der Lage sein, zu betrachten nicht Text eingegeben in die Tastatur, sondern rede, tatsÃ¤chliche Sprach aufgezeichnet in ein Mikrofon. So, wie wir diese verschiedenen StÃ¼cken, wir sind zu haben, um eine Reihe von Modellen zu bauen. Wir werden in der Lage sein, von der Low-Level-akustische gehen information-- TonhÃ¶he, Amplitude, frequency-- und konvertieren, dass in einige Einheiten, die wir sind in der Lage, leichter zu manipulieren und schlieÃlich manipulieren zu WÃ¶rtern und SÃ¤tzen. 

So sind die meisten Spracherkennungs Systeme, die es gibt heute folgen eine statistische Modell, in dem wir bauen drei separate Darstellungen dessen, was dass Audiosignal tatsÃ¤chlich enthÃ¤lt. Wir beginnen mit einem Lautmodell dass etwa nur die Basis spricht Sounds, die ich produziere. Bin ich etwas, das ist die Herstellung a B wie in Junge oder ein D wie in Hund? Wie erkenne ich die beiden unterschiedlichen Telefonen als getrennt und verschieden? 

Hinzu kommt, dass, werden wir dann bauen ein Wort Aussprachemodell, etwas, das miteinander verbindet diese einzelnen Telefone und kombiniert sie zu einem Wort. Und danach werden wir die Worte zu nehmen und wir werden sie mit einer Sprache zu montieren Modell in ein vollstÃ¤ndiger Satz. 

Nun, wir werden zu jedem sprechen von diesen unabhÃ¤ngig und getrennt. Aber diese drei Modelle sind alle nur gehen, um Statistiken zu sein. Und das bedeutet, wenn wir mit ihnen arbeiten, werden wir in der Lage zu arbeiten sie alle gleichzeitig. Gut. Lassen Sie uns mit unserem phonetischen Modells starten. So phonetische Modelle stÃ¼tzen sich auf eine Rechentechnik genannte Hidden-Markov-Modellen. Sind graphische Modelle, in denen I haben und erkennen, ein Zustand der Welt wie gekennzeichnet durch eine Reihe von Funktionen. Und dieser Zustand beschreibt ein Teil einer Aktion, die ich in Eingriff. 

Also, wenn ich darum, denken der Klang "ma" wie die Mutter, es gibt verschiedene Komponenten in diesem Ton. Es gibt einen Teil, wo ich ziehen in Atem. Und dann Geldbeutel Ich meine Lippen. Und ich rolle meinen Lippen ein wenig zurÃ¼ck Bit auf, dass "ma" Ton. Und dann gibt es eine Freigabe. Meine Lippen kommen auseinander. Luft ausgestoÃen. "Ma". 

Diese drei verschiedenen Teilen wÃ¤re von den Staaten in diesem graph-- vertreten der Beginn, die Mitte und das Ende. Und ich mÃ¶chte, dass ÃbergÃ¤nge mir erlaubt, von einem Zustand zu reisen auf die nÃ¤chste mit einer gewissen Wahrscheinlichkeit. So, zum Beispiel, dass M klingen mag eine sehr haben, sehr kurze Aufnahme am beginning-- "mm" - und dann einen lÃ¤ngeren, Vibrations Phase, wo ich hielt meine die Lippen zusammen und fast humming-- "mmmm" - und dann eine sehr kurze plosive wo ich zu vertreiben breath-- "ma". 

Die Hidden-Markov-Modell entworfen, um die Tatsache zu erfassen dass der Weg, den ich machen dass eine solide "ma" geht in etwas anders deren Zeitpunkt ist die Frequenz, und seine Funktionen als die Art, wie Sie es machen oder die Art und Weise, dass ich vielleicht machen es, wenn ich im GesprÃ¤ch Ã¼ber die verschiedenen Verwendungen des Briefes. "Mutter" und "Darf ich" werden klingt etwas anders. 

So, um eine zu erkennen insbesondere Ton, wÃ¼rden wir Markov-Modelle zu bauen, diese Hidden-Markov- Modelle, von jedem mÃ¶glichen Telefon, dass ich Vielleicht mÃ¶chten Sie zu erkennen, jeden mÃ¶glichen Ton, und dann bei der Suche akustischen Daten, die ich habe und festzustellen, statistisch eine davon ist die wahrscheinlichste um diesen Sound produziert haben. OK. Mit diesem Modell haben wir dann starten, um auf es zu bauen. Wir nehmen ein Aussprachemodell. Nun, manchmal Aussprache Modelle sind einfach und leicht denn es gibt nur einen MÃ¶glichkeit, etwas auszusprechen. Andere Zeiten, sie sind ein wenig komplizierter. Hier ist eine AussprachefÃ¼hrer fÃ¼r die rote Sache, die ist eine Frucht, die Sie Ketchup aus zu machen. Die Leute wissen nicht, dass es eine Frucht ist. Recht? 

Nun gibt es viele verschiedene MÃ¶glichkeiten, dass die Menschen dieses Wort auszusprechen. Einige werden sagen, "toe-May-Zehe." Einige werden sagen, "toe-mah-toe." Und wir kÃ¶nnen das mit erfassen eine dieser graphischen Modellen wo wiederum vertreten wir ÃbergÃ¤nge als mit einer bestimmten Wahrscheinlichkeit und zugehÃ¶rige Wahrscheinlichkeit mit ihnen. 

Also in diesem Fall, wenn ich folge der obere Weg durch dieses gesamte Grafik, Ich wÃ¼rde auf den Brief ab werden ganz links, die "ta" Sound. Ich wÃ¼rde die obere HÃ¤lfte zu nehmen, die "Oh", und dann ein "ma" und dann wird ein "a", und dann wird ein "TA", und ein "Oh." "Toe-May-Zehe." Wenn ich nahm den unteren Pfad durch Dazu werde ich bekommen "ta-mah-toe." Und wenn ich ging hinunter und dann up, ich bekommen wÃ¼rde "ta-May-Zehe." 

Diese Modelle erfassen diese Unterschiede, weil, wenn wir eins von diesen bereitstellen Erkennungssysteme, es wird mit arbeiten mÃ¼ssen viele verschiedene Arten von Menschen, viele verschiedene Akzente und sogar verschiedenen Verwendungen von den gleichen Worten. SchlieÃlich oben auf, dass, wir etwas aufbauen das sieht wirklich kompliziert, nannte das Sprachmodell, aber in der Tat ist die einfachste drei, da diese zu betreiben was sind n-Gramm-Modelle genannt. Und in diesem Fall, ich zeige Ihnen eine zweiteilige n-Gramm-Modell, ein Bigramm. Wir werden physikalische den Gedanken zu machen dass manchmal sind bestimmte Worte eher ein Follow- gegebene Wort als andere. Wenn ich sagte nur "Wettervorhersage" das nÃ¤chste Wort kÃ¶nnte "heute" wahrscheinlich oder "das Wetter sein kÃ¶nnte Vorhersage morgen. " Aber es ist unwahrscheinlich, dass "sein, die Wettervorhersage Artischocke. " 

Was fÃ¼r ein Sprachmodell tut, ist, es erfasst denen statistisch durch ZÃ¤hlen, von einigen sehr groÃen Korpus alle Instanzen in dem ein Wort anderen folgt. Also, wenn ich eine groÃe corpus-- nehmen wie jedes Wall Street Journal das hat seit 1930 produziert worden, Das ist einer der Standard corpuses-- und ich Ã¼ber alle sehen dass der Text, und ich zÃ¤hle up wie oft nach "Vorhersagen", sehe ich "heute" und wie oft muss ich sehen "Vorhersagen", gefolgt von "Artischocke" die erste wird zu viel eher. Es wird angezeigt weitaus hÃ¤ufiger. Und so wird es eine hÃ¶here haben Wahrscheinlichkeit zugeordnet. 

Wenn ich will, um herauszufinden, die Wahrscheinlichkeit eines gesamte ÃuÃerung, dann, ich brechen sie auf. So dass die Wahrscheinlichkeit des HÃ¶rens der Satz "die Ratte aÃ KÃ¤se" ist die Wahrscheinlichkeit der Wort ", die" GrÃ¼ndung eines Satzes, und dann wird die Wahrscheinlichkeit, dass das Wort "Ratte" folgt das Wort "das" und die Wahrscheinlichkeit, dass das Wort "gegessen" folgt "Ratte" und die Wahrscheinlichkeit, dass "KÃ¤se" folgt "gegessen." 

Das klingt wie eine Menge Statistiken, eine Menge von Wahrscheinlichkeiten. Und das ist alles, was es ist. Aber das Erstaunliche ist, wenn Sie dies tun mit einer ausreichend groÃen Probe von Daten, es funktioniert. Und es funktioniert unglaublich gut. Wir alle wissen, diese Technologien. Die meisten Betriebssysteme verfÃ¼gen Ã¼ber Spracherkennung an dieser Stelle. Wir verwenden Siri und Cortana und Echo. Und diese Dinge sind, auf der Grundlage Diese Art der dreischichtigen model-- eine phonetische Modell am Boden, ein Aussprache-Modell in der Mitte, und eine Sprachmodell auf ihnen. 

Nun, ein wenig mehr zu tun, mÃ¼ssen sie als dass, um Fragen zu beantworten. Aber die Anerkennung dessen, was du bist Spruch hÃ¤ngt genau darauf. Werfen wir also ein Beispiel hier. So habe ich mein Handy sitzen hier unter der Dokumentenkamera. Und wir werden ersucht Siri ein paar Fragen. Gut? 

Lassen Sie uns also aufwachen mein Handy hier. Siri, was ist das Wetter wie in New Haven heute? 

SIRI: Hier ist das Wetter fÃ¼r New Haven, Connecticut heute. 

BRIAN Scassellati: OK. Also zuerst Sie sah, dass Siri erkannt jede der einzelnen WÃ¶rter und dann erzeugt eine Antwort. Wir werden, wie diese Antwort sprechen kommt in ein wenig. Aber jetzt, da wir wissen, dass dies nur auf der Basis auf den rohen Statistiken und dies Pattern-Matching Art von Ansatz, wir kÃ¶nnen einige Spiele mit Siri zu spielen. 

So kann ich noch einmal zu versuchen. Siri, was ist das Wetter Nilpferd New Haven, heute? 

SIRI: OK. Hier ist das Wetter fÃ¼r New Haven, Connecticut fÃ¼r heute. BRIAN Scassellati: Siris nicht, dass eingeschÃ¼chtert weil es die pattern-- gefunden "wetter", "heute", "New Haven". Das ist, was es reagiert zu, genau wie ELIZA. Gut. Geben wir es noch einmal lÃ¤cherlicher Beispiel. Siri, Wetter Artischocke GÃ¼rteltier Nilpferd New Haven? 

SIRI: Lassen Sie mich auf, dass zu prÃ¼fen. Hier ist, was ich im Netz gefunden fÃ¼r was sind Artischocken GÃ¼rteltier Nilpferd New Haven. 

BRIAN Scassellati: OK. Also, wenn ich weit genug weg von diesem Modell, Ich bin in der Lage, weil es nicht zu verwechseln das Muster, das es mehr Ã¼bereinstimmt. Und das statistische Motor, der sagt, was ist die Wahrscheinlichkeit, dass Sie haben die Worte Nilpferd und Artischocken zusammen und GÃ¼rteltier? Das muss etwas Neues sein. 

Also diese Technologien nutzen wir jeden Tag. Wenn wir sie einen Schritt machen wollen Weiterhin kann, obwohl, wenn wir tatsÃ¤chlich wollen in der Lage, Ã¼ber das, was sie sprechen ist, dass diese Systeme reagieren auf, Wir mÃ¼ssen reden, wieder Ã¼ber eine grund Reihe von Fragen. Und das ist ein Thema in der Kommunikation dass wir als Frage-Antwort. Das heiÃt, dass wir in der Lage zu-- ja sein? ZIELGRUPPE: [unverstÃ¤ndlich]. BRIAN Scassellati: Bekommen wir in latente semantische Verarbeitung? Also ja. Es gibt eine Menge Dinge, die sind geschieht unter der OberflÃ¤che mit Siri und in einigen der Beispiele Ich werde Ihnen zeigen, nÃ¤chste wo gibt es ein ganzes StÃ¼ck in Bezug auf die Struktur von dem, was Sie sagen, das ist wichtig. Und in der Tat, das ist ein groÃes VorlÃ¤ufer fÃ¼r die nÃ¤chste Folie fÃ¼r mich. 

So in der gleichen Weise, dass unsere Spracherkennungs aufgebaut wurde aus mehreren Schichten, wenn wir wollen verstehen, was es ist, dass ist eigentlich Davon abgesehen, sind wir wieder in Gang zu stÃ¼tzen sich auf eine mehrschichtige Analyse der Text, der erkannt hat. Also, wenn Siri ist eigentlich in der Lage, sagen wir, schauen Ich fand diese Worte. Nun, was soll ich tun mit ihnen? Die erste Komponente ist oft gehen Sie durch und versuchen zu analysieren, die Struktur des Satzes. Und in dem, was wir gesehen haben, in der Grundschule, die oft, als eine Art Diagramm- SÃ¤tze, wir gehen dass bestimmte, zu erkennen, Worte haben bestimmte Rollen. Dies sind Substantive. Dies sind Pronomen. Dies sind Verben. Und wir erkennen, dass fÃ¼r ein bestimmtes Grammatik, in diesem Fall der englischen Grammatik gibt es gÃ¼ltig MÃ¶glichkeiten, in denen ich sie kombinieren und andere Wege, die nicht gÃ¼ltig sind. 

Dass die Anerkennung, dass Struktur, kÃ¶nnte ausreichen, um zu helfen, uns zu sein ein bisschen. Aber es ist nicht genug FÃ¼r uns in der Lage zu geben, zu sein einen Sinn zu dem, was hier gesagt wird. Um dies zu erreichen, mÃ¼ssen wir vertrauen eine gewisse Menge von semantischen Verarbeitung. Das heiÃt, wir werden schauen zu mÃ¼ssen bei unter, was jedes dieser WÃ¶rter tatsÃ¤chlich ausÃ¼bt als eine Bedeutung hat. Und auf die einfachste Weise, dies zu tun, wir werden mit jedem Wort zu assoziieren da wir wissen, eine bestimmte Funktion, eine gewisse Transformation, dass es kÃ¶nnen passieren. 

In diesem Fall kÃ¶nnte man die kenn Wort "John" als ein Eigenname, sie birgt es eine IdentitÃ¤t. Und wir kÃ¶nnten beschriften "Mary", wie dieselbe Weise. WÃ¤hrend ein Verb wie "Liebe", dass stellt eine besondere Beziehung dass wir in der Lage, zu vertreten. Nun, das bedeutet nicht, dass wir verstehen, was Liebe ist, sondern nur, dass wir verstehen, es in der Art eines Symbolsystems. Das heiÃt, wir Etikett Sie und manipulieren. 

Mit jedem dieser Typen von AnsÃ¤tzen jede Art von semantische Verarbeitung Hier wird sich ein wenig erforderlich wenig Wissen und viel Arbeit von unserer Seite. Wir sind nicht mehr in das Reich wo einfach nur Statistiken gehen, um genug fÃ¼r uns sein. Nun, um zu gehen, von diesem Punkt zu sein in der Lage, Ã¼ber das Innere sprechen was hier wirklich passiert, zu der MÃ¶glichkeit, diese zu manipulieren strukturieren und zu verstehen, eine Frage und dann in der Lage zu gehen und suchen, dass eine weitere benÃ¶tigt komplexe kognitive Modell. 

Die Art, in der diese Systeme integriert sind ist in den meisten FÃ¤llen sehr, sehr arbeits intensiv. Sie beinhalten Menschen verbringen viel Zeit Strukturierung der MÃ¶glichkeiten die diese Art von SÃ¤tzen kann in einigen Logik vertreten sein. Es wird noch ein wenig komplexer, though. 

Selbst wenn wir behandelt haben mit Semantik, werden wir immer noch auf der Suche Pragmatik, was gesagt wird. Das heiÃt, wie kann ich beziehen sich die Worte dass ich etwas physisch heraus dort in der Welt oder zumin dest einige Informationsquelle dass ich zu manipulieren? 

Manchmal fÃ¼hren diese zu wunderbare Bits der Mehrdeutigkeit. "Red-Hot Stern, um Astronomen heiraten." OK. Jetzt lesen wir, dass die lustige Art von headline dass wir am spÃ¤ten Abend TV zu sehen weil wir nicht interpretieren "Stern" seiner HimmelskÃ¶rper Bedeutung haben. Wir wissen, daÃ es die weitere Mittel Gemein Schauspieler oder Schauspielerin mit hohen Mengen an Sichtbarkeit. 

"Squad hilft Hundebiss Opfer." Ist es, dass der Kader ist eigentlich da drauÃen helfen, einen Hund in gehen um und beiÃt die Opfer? Oder ist es, dass es eine Person, die war von einem Hund, der etwas Hilfe brauchte gebissen? Nur vom Blick auf die Syntax, und die Semantik der SÃ¤tze, kÃ¶nnen wir nicht feststellen, dass. 

"Hubschrauber angetrieben durch menschliche Fliegen." Gibt es in der Tat tatsÃ¤chlich Kleinigkeiten herumfliegen, sind Menschen mit FlÃ¼geln Versorgung Hubschrauber fÃ¼r das Wohl der Menschheit? Oder gibt es eine mechanische Vorrichtung dass schÃ¶pft ihre Kraft von einer Person? 

Wenn wir auf Frage Antwort-Systemen, das sind die Schichten, wir brauchen, zu beschÃ¤ftigen. Nun, die beste und Sortier der vorherrschenden dieser Systeme Heute sind in der Lage zu tun, Dinge, auf einem Niveau, sind weit darÃ¼ber hinaus, was wir hatten vor 10 Jahren. Hier ist eines der besten Systeme das ist, gibt heute. Und dies ist ein System von IBM namens Watson. Dies ist von unseren Freunden bei IBM. Dies ist Katherine Banken, Jia Chen, und Priscilla Moraes geben uns eine Demonstration der Watson gestern in IBM Yorktown. [VIDEO-WIEDERGABE] -Wie geht es dir? 

-Mir geht es gut. Ich bin immer glÃ¼cklich, wenn ich denken, vor allem, wenn ich kann cool in dieser ServerrÃ¤ume bleiben. -Wer Ist Ihre Lieblings-Schauspielerin? 

-Mein Lieblingsschauspielerin Angelina Jolie als Lara Croft in Tomb Raider, weil ihr ursprÃ¼nglicher Form war als virtueller Charakter wie ich. 

-Wie Kann Watson Patienten helfen? 

-Ist Der Plan fÃ¼r die Patienten, Zugang zu Watson direkt? Zugang zu Watson Beratungs Anwendungen werden von Anwendungsfall variieren. Aber derzeit wird Watson nur liefern mÃ¶gliche Diagnose und Behandlung Optionen zum Arzt. Gegebenenfalls Patienten kann Informationen liefern Watson, vielleicht durch eine Portal Web-Interface, einer Tablette, oder sogar ein Handy. Zum Beispiel kann ein Patient sein aufgefordert, ihre Symptome zu beschreiben in natÃ¼rlicher Sprache direkt in eine Watson-LÃ¶sung, ermÃ¶glicht es dem Arzt, den Schwerpunkt auf die Diagnose und nicht die Datenerfassung. 

-Wer Abraham Lincoln ermordet? 

-John Wilkes Booth. 

-In Welchem ââJahr die Arizona Diamondbacks gewinnen die World Series? 

-2001. 

[END PLAYBACK] 

BRIAN Scassellati: So Diese Arten von Systemen mÃ¼ssen auf zunÃ¤chst verlassen Erkennen der Sprache; zweite, Umwandlung in einen sinnvollen internen Darstellung; und dann, dritten in der Lage zu gehen und finden die Informationsquelle, ermÃ¶glicht es ihnen, diese Frage zu beantworten. Diese KomplexitÃ¤t beinhaltet die gleichen Arten von program Dinge dass Sie gewesen sein tut in Problem-Sets. 

Wir sind in der Lage, HTTP-Anforderungen in parsen die gleiche Art von Low-Level-Muster Matching, die ELIZA tun kÃ¶nnen. Wir sind in der Lage, diejenigen zu konvertieren in eine interne Darstellung, und dann nutzen sie, um einige abfragen externen Datenbank, gegebenenfalls unter Verwendung von SQL. Alle Systeme, werden heute gebaut um diese Art von natÃ¼rlichen zu tun Sprachkommunikation werden ausgebaut diese gleichen Prinzipien. 

Nun, auch ein System wie Watson ist nicht komplex genug, zu beantworten willkÃ¼rlich Fragen zu jedem Thema. Und in der Tat, mÃ¼ssen sie sein in einer bestimmten DomÃ¤ne strukturiert. So kÃ¶nnen Sie online gehen und finden Sie Versionen von Watson, die gut arbeiten in der medizinischen Informatik. Oder es gibt einen Online- dass nur befasst sich mit, wie gute Empfehlungen zu machen was Bier mit dem Essen gehen. Und innerhalb dieser DomÃ¤nen, kann Fragen beantworten, finden Sie die Informationen, die er braucht. 

Aber man kann nicht zu mischen und Spiel ihnen. Das System, das geschult ist mit der Datenbank von Essen und Bier funktioniert nicht gut, wenn Sie plÃ¶tzlich legen Sie sie in der medizinischen Informatik Datenbank. Also selbst unsere besten Systeme heute verlassen sich auf einem Niveau von Verarbeitungs in dem wir Hand-Codierung und Aufbau der Infrastruktur, um dieses System zum Laufen zu bringen. 

Nun, das letzte Thema, das ich will in der Lage sein, um heute zu bekommen ist etwa nonverbale Kommunikation. Eine groÃe Masse von Informationen, wir miteinander kommunizieren, nicht etwa durch die gekommen einzelne WÃ¶rter, die wir die Anwendung. Es geht um Dinge wie NÃ¤he, Blick, Ihre Stimme, Ihre Einbiegung. Und dass eine Kommunikation auch etwas, das viele verschiedene Schnittstellen Pflege viel Ã¼ber. Es ist nicht das, was Siri kÃ¼mmert. Ich kann Siri etwas in einer Stimme fragen oder in einem anderen Tonfall, und Siris zu gehen geben Sie mir die gleiche Antwort. Aber das ist nicht das, was wir zu bauen fÃ¼r viele andere Arten von Schnittstellen. 

Ich mÃ¶chte Ihnen vorstellen nun auf einen der Roboter. Dies wurde von meinem langjÃ¤hrigen gebaut Freund und Kollege Cynthia Breazeal und ihre Firma Jibo. Und dies robot-- wir gehen um ein paar Freiwillige haben kommen, um mit diesem zu interagieren. So kann ich zwei Menschen, die bereit um mit dem Roboter fÃ¼r mich zu spielen? Warum gehst du nicht zu kommen, und warum gehst du nicht auf kommen. Wenn Sie mÃ¶chten mich hier verbinden sich, bitte. 

Und wenn ich Sie kommen direkt hier. Vielen Dank. Hallo. 

ALFREDO: Nice to meet you. Alfredo. 

BRIAN Scassellati: Alfredo. 

RACHEL: Rachel. BRIAN Scassellati: Rachel. SchÃ¶n, dass Sie beide zu erfÃ¼llen. Alfredo, ich werde mÃ¼ssen Sie zuerst gehen. Kommen Sie hier. Ich werde einzufÃ¼hren Sie-- ob ich das aussteigen ohne an die microphone-- zu einem kleinen Roboter namens Jibo. OK? 

Nun Jibo wird interaktiv angelegt. Und obwohl es kann Ihnen Rede zu halten, viel von der Wechselwirkung mit dem Roboter ist nonverbal. Alfredo, werde ich Sie bitten, sagen, etwas nettes und kostenlose an den Roboter, bitte. ALFREDO: Ich glaube, Sie sehen niedlich. 

[Surren] BRIAN Scassellati: OK. Seine Antwort ist nicht verbal. Und doch ist es ihr habt sowohl ein klares Bekenntnis dass er gehÃ¶rt hatte, was Sie gesagt haben und auch irgendwie verstehen, dass. OK? Schritt zurÃ¼ck mit rechts hier fÃ¼r eine Sekunde. Danke. 

Rachel, wenn Sie mÃ¶chten. Nun, ich werde geben, Sie das viel schwieriger Job. Wenn Sie gleich hier stehen wÃ¼rde, Sichern nur ein bisschen so kÃ¶nnen wir Sie mit der Kamera bekommen und suchen Sie auf diese Weise. Ich werde Sie bitten, etwas zu sagen wirklich bedeuten und bÃ¶se an den Roboter. 

Rachel: Was Sie gerade schien, zu tun, war vÃ¶llig absurd. 

[Brummton] 

Das war noch absurder. Was ist los mit dir? Aw, fÃ¼hlen sich nicht schlecht. Ich gebe Ihnen eine Umarmung. BRIAN Scassellati: Alles klar. Vielen Dank, Rachel. Alfredo, Rachel, Danke Jungs sehr viel. 

[BEIFALL] 

So dass diese Art der Interaktion hat bei viele MÃ¶glichkeiten, einige der gleichen Regeln und einige der gleichen Struktur, wie das, was wir vielleicht in der sprachlichen Interaktion haben. Es ist sowohl kommunikativ und dient einem wichtigen Zweck. Und die Wechselwirkung, vielerlei Hinsicht ist entworfen um eine bestimmte Wirkung auf die haben Person, die Interaktion mit oder HÃ¶ren an den Roboter. 

Nun, ich bin das GlÃ¼ck, um Jibo hier heute haben. Sam Spaulding ist hier helfen uns mit dem Roboter. Und ich werde Sam fragen zu geben uns eine schÃ¶ne Demo von Jibo Tanz dass wir hier am Ende sehen. Also zÃ¶gern Sie nicht, Jibo. 

SAM: OK, Jibo. Zeigen Sie uns Ihre Tanzschritte. 

[Musikwiedergabe] BRIAN Scassellati: Okay, alle. Dank unseren Freunden bei Jibo. 

[BEIFALL] 

Und dank unserer Freunde bei IBM fÃ¼r die UnterstÃ¼tzung aus heute. Kommunikation ist etwas, dass du gehst um zu sehen, kommen mehr und mehr als wir bauen komplexere Schnittstellen. NÃ¤chste Woche werden wir im GesprÃ¤ch darÃ¼ber, wie Sie eine Schnittstelle mit Computer-Gegner in den Spielen. Aber wenn Sie Fragen haben, Ich werde in der Umgebung zu BÃ¼rozeiten heute Abend. Ich bin glÃ¼cklich, mit Ihnen Ã¼ber AI sprechen Themen oder mehr ins Detail zu erhalten. Habe ein schÃ¶nes Wochenende. 

[BEIFALL] [Musikwiedergabe]