[MUSIC SPILLE] 

DAVID MALAN: Dette er CS50. Dette er slutten av uke 10. Og gutt, har vi en god klasse for deg i dag. Vi er sÃ¥ glade for Ã¥ invitere to av vÃ¥re venner fra Yale opp til oss i dag og Ã¥ se i skjÃ¦ringspunktet mellom kunstig intelligens, robotikk, naturlig sprÃ¥k prosessering, og mer. 

Og ja, over siste ukene, har vi sikkert tilbrakt mye tid, spesielt i de tidligere psets, fokus pÃ¥ pene lavnivÃ¥ detaljer. Og det er veldig lett Ã¥ miste av syne av skogen for bare trÃ¦r og bli hengt opp pÃ¥ slÃ¸yfer og betingelser og pekere, absolutt, og lignende. Men realiteten er dere nÃ¥ har ingredienser som du kan virkelig lÃ¸se noen interessante problemer, blant dem de som vÃ¥re venner pÃ¥ Yale jobbe med bare sjenert av Cambridge. 

SÃ¥ la meg fÃ¸rst Ã¥ presentere vÃ¥rt hode lÃ¦rerassistent fra Yale, Andy. 

[BIFALL] 

ANDY: FÃ¸rst av alt, bare takke for at du tillater et par Yalies til pop pÃ¥ ned til Cambridge i dag. Vi setter stor pris pÃ¥ det. Dernest til vÃ¥re venner tilbake home-- Jason, takk for bor og kjÃ¸rer foredrag. HÃ¥per alt er bra i New Haven. 

SÃ¥ ja, jeg er veldig spent Ã¥ innfÃ¸re Scaz dag. Scaz kjÃ¸rer robotikk lab. Han er professor i, som, five ulike avdelinger ved Yale. I laboratoriet hans, har han mange, mange roboter som han liker Ã¥ leke med. Han har, i likhet med den kuleste jobben i verden. Og han kommer til slags rot rundt med det hele dagen lang og gjÃ¸re noe arbeid, sÃ¥ vel. 

Og sÃ¥ vi faktisk tok en Av dem ned med oss ââi dag. SÃ¥ uten videre, er Scaz kommer til Ã¥ gÃ¥ videre og introdusere oss til hans robot venn. 

[BIFALL] BRIAN SCASSELLATI: Takk, David. Takk, Andy. Det er sÃ¥ herlig Ã¥ vÃ¦re her med alle i dag. Jeg vil fÃ¸rst vÃ¦re helt klart at den CS50 ansatte her i Cambridge har vÃ¦rt utrolig gjestfrie til oss. Vi er sÃ¥ takknemlig for alt de har gjort for Ã¥ stÃ¸tte oss. Og sÃ¥ vi vil gjerne vÃ¦re i stand Ã¥ returnere godhet. 

SÃ¥ i dag, fÃ¥r vi kunn at vi kommer til Ã¥ ha en ny, one-of-a-kind CS50 event skjer i New Haven neste uke. Og dette er CS50 Forskning Expo. SÃ¥ vi kommer til Ã¥ invitere everyone-- CS50 studenter, ansatte fra bÃ¥de Harvard og Yale-- til komme ned og besÃ¸ke oss pÃ¥ fredag. Vi vil ha et bredt utvalg pÃ¥ over 30 forskjellige personer presentere og exhibiting-- upperclassmen viser av noen av sine forsknings produkter. Vi vil ha noen oppstarter, selv, pÃ¥ jakt for en liten bit av ny tech talent, startups fra bÃ¥de Harvard og Yale. Og vi vil ha noen studentgrupper pÃ¥ jakt etter noen nye medlemskap. 

Det kommer til Ã¥ bli en veldig spennende tid. ForhÃ¥pentligvis de av dere som er kommer ned for Harvard-Yale spill vil vÃ¦re i stand til Ã¥ stoppe av litt tidlig, midt i sentrum av campus, Sterling Memorial Library. Vi kommer til Ã¥ ha et sett av utstillinger som spenner fra selvstendig seilbÃ¥ter til mÃ¥ter Ã¥ bruke programvare Ã¥ bevare middelalder manuskripter. 

Vi kommer til Ã¥ ha annonsen hoc nettverk og mennesker pedagogisk programvare koding i Cape Town. Vi vil ha datamaskin musikk demonstrasjoner. Og vi vil selvfÃ¸lgelig ha flere roboter. SÃ¥ vi hÃ¥per du vil bli med oss ââfor denne hendelsen. Det bÃ¸r vÃ¦re en masse moro, litt mat, og mye interessant ting Ã¥ snakke om. 

SÃ¥ i dag skal vi snakke om naturlig sprÃ¥k prosessering. Og dette er et forsÃ¸k for oss Ã¥ bygge en ny mÃ¥te for samvirking med vÃ¥re enheter fordi for de siste ukene, du har vÃ¦rt fokusert pÃ¥ hvordan det er at du kan skrive kode, skrive programvare som er en mÃ¥te Ã¥ vÃ¦re i stand til Ã¥ si til en maskin, dette er hva jeg vil du skal gjÃ¸re. 

Men vi bÃ¸r ikke trenger Ã¥ forvente at alt som er der ute som brukes av alle i hele verden kommer til Ã¥ bli dyktigere i denne typen undervisning. SÃ¥ vi skille mellom datamaskin sprÃ¥k og naturlig languages-- det vil si ting som mennesker bruk Ã¥ kommunisere med andre mennesker. Og vi prÃ¸ver Ã¥ bygge grensesnitt som bruker disse naturlige kommunikasjon mekanismer. 

NÃ¥, akkurat som alle andre tema at vi har begynt med i CS50, vi kommer til Ã¥ starte med det enkleste bit av naturlig sprÃ¥k prosessering at vi kan forestille deg. Vi kommer til Ã¥ starte med historiske delen av naturlig sprÃ¥k. Og sÃ¥ skal vi bygge opp til flere og nyere systemer og har noen morsomme demoer underveis. 

SÃ¥ vi kommer til Ã¥ starte med hva som var sannsynligvis den fÃ¸rste naturlige sprÃ¥k systemet for behandling. Dette var en software skrevet i 1966 av Joseph Weizenbaum kalt ELIZA. Og ELIZA ble utviklet for Ã¥ replikere den type interaksjon du ville ha med en Rogerian psykoterapeut. NÃ¥, Rogerians, hadde de en idÃ© om at psykoterapi involverte Ã¥ kunne speile tilbake til en pasient og snakke med dem, i utgangspunktet, ved bare Ã¥ gi dem en bitte liten bit av terapeuten. Det er, alt at terapeuten sa skulle vÃ¦re bare en refleksjon av hva pasienten var Ã¥ fortelle dem. 

SÃ¥ la oss prÃ¸ve og demo dette. Har vi en frivillig som vil vÃ¦re villig til Ã¥ dele sine dypeste, mÃ¸rkeste, og / eller falske hemmeligheter med ELIZA? Jada, hvorfor ikke du kommer videre opp. Fantastisk. Og navnet ditt? 

MILES: Miles. 

BRIAN SCASSELLATI: Miles. Hyggelig Ã¥ mÃ¸te deg, Miles. Hvis du vil holde pÃ¥ det. Og vi kommer til Ã¥ bruke en versjon av ELIZA at vi har kopiert innenfor CS50 IDE. Og vi skal se pÃ¥ kilden koden til dette i en liten stund. Men for akkurat nÃ¥, er vi bare kommer til Ã¥ pÃ¥berope det ved Ã¥ skrive eliza. 

Og ELIZA kommer til Ã¥ gi deg svar som kommer til Ã¥ vÃ¦re i alle hovedsteder. Og kommer til Ã¥ stille deg noen spÃ¸rsmÃ¥l. Og vi vil svare og skriv i svar til ELIZA. SÃ¥ ELIZA har sagt: "Hei, jeg er ELIZA. Hva er ditt problem?" Hva Ã¸nsker du Ã¥ fortelle ELIZA om i dag? 

MILES: Jeg kan bare sovne hvis jeg har kanintÃ¸fler pÃ¥. 

BRIAN SCASSELLATI: All right. Greit. 

[LATTER] 

"Jeg kan bare sovne med kanintÃ¸fler pÃ¥. " Og ELIZA sier: "Si, gjÃ¸r du har noen psykiske problemer? Kanskje dette er en god indikator. " 

OK. SÃ¥ hva vil du svare? 

MILES: Ja. 

BRIAN SCASSELLATI: Ja. Mann av mange ord. Jeg liker det. Eliza sier: "Du virker ganske positive." 

MILES: Nei, jeg er faktisk et elektron. 

BRIAN SCASSELLATI: "Nei. Faktisk, jeg er et elektron. " "Visste du kommer til meg fordi du er et elektron? " NÃ¥ kan vi se noen av den things-- Jeg kommer Ã¥ ta en pause for bare et sekund, Miles. Ikke gÃ¥ hvor som helst. Vi er ikke ferdig med deg ennÃ¥. ELIZA er, pÃ¥ noen mÃ¥ter, reagerer pÃ¥ visse ting som han sier, men uten noen reell forstÃ¥else. Og det er ogsÃ¥ parroting tilbake noen av de delene av dommen. 

SÃ¥ vi sa, "Nei Faktisk, jeg er et elektron. " Eliza svarte tilbake: "Visste du kommer til meg fordi du er et elektron? " Greit. La oss gi den en mer respons her. Gi det en god en, Miles. 

MILES: Good one? 

Ja, kan du hjelpe meg. BRIAN SCASSELLATI: "Ja. Kan du hjelpe meg. Â»Â« Er du sikker? " MILES: No. BRIAN SCASSELLATI: No. "Hva betyr det foreslÃ¥ for deg?" 

MILES: Jeg kan ikke vÃ¦re et elektron. 

BRIAN SCASSELLATI: "Jeg kan ikke vÃ¦re en elektron Â». "Sier du nei bare for Ã¥ vÃ¦re negativ?" 

Greit. SÃ¥ Miles, takk sÃ¥ mye. 

MILES: Takk. 

BRIAN SCASSELLATI: Tusen takk. [BIFALL] 

SÃ¥ dette ELIZA program, pÃ¥ mange mÃ¥ter, svarer bare bitene at vi gir uten dyp forstÃ¥else av hva som skjer her. Dette er et slags system kalt mÃ¸nstergjenkjenning, der vi leter etter visse tekstbiter som vi er sÃ¥ kommer til Ã¥ ta ut av hva ble gitt som input, konvertere den, potensielt, pÃ¥ noen mÃ¥te, og deretter gi den tilbake til brukeren. 

Har noen av dere tror at ELIZA er faktisk utfÃ¸re gyldig psykoanalyse her? En person, kanskje. 

PUBLIKUM: [uhÃ¸rlig]. BRIAN SCASSELLATI: Og hvordan GjÃ¸r det du fÃ¸ler? Ja, faktisk, det gjÃ¸r det. Og vi kommer til Ã¥ se, faktisk, den kildekoden for det i bare et Ã¸yeblikk. Og sÃ¥ kommer du til Ã¥ vÃ¦re i stand til Ã¥ gjÃ¸re akkurat dette. 

NÃ¥ er ELIZA en form for hva vi vil kalle i dag en prat bot. Det gÃ¥r bare gjennom tekst som du gir, gir et minimum belÃ¸p forstÃ¥else eller behandling, og deretter papegÃ¸yer den tilbake til deg. SÃ¥ la oss ta en titt, konseptuelt, og snakke om hva det er at ELIZA faktisk gjÃ¸r. 

ELIZA tar en sentence-- la oss si: "Jeg Ã¸nsker Ã¥ imponere sjefen min." Og ELIZA er ute gjennom den setningen og prÃ¸ver Ã¥ finne og matche visse mÃ¸nstre. SÃ¥, for eksempel, en av mÃ¸nstrene som ELIZA er pÃ¥ jakt etter er ordene "Jeg vil." Og helst det ser noe som har "jeg vil" i den, det formulerer et svar. Og at responsen er en fast streng. I dette tilfellet er det "hvorfor vil du?" Og jeg legger en liten stjerne pÃ¥ slutten fordi det er bare I begynnelsen av vÃ¥r respons. Og stjernen indikerer at vi kommer til Ã¥ ta resten av brukerens utterance-- "for Ã¥ imponere sjefen min" - og vi kommer til Ã¥ legge det pÃ¥ enden av denne strengen. 

SÃ¥ nÃ¥, i stedet for Ã¥ si: "hvorfor Ã¸nsker du Ã¥ imponere sjefen min, " det er en liten bit av ekstra behandling som vi skal gjÃ¸re. Det vil si, vi mÃ¥ konvertere noen av pronomen her fra "sjefen min" til "sjefen". Og det kan vÃ¦re noen andre endringer som vi trenger Ã¥ gjÃ¸re. SÃ¥ i stedet for bare Ã¥ stikke det direkte pÃ¥ slutten, hva vi skal gjÃ¸re blir vi tar resten av brukerens utterance-- i hvitt her-- og vi vil ta det ett stykke pÃ¥ en gang, og konvertere hver streng token, hvert ord, i setningen. 

SÃ¥ vi tar ordet "til." Det er ingen konvertering at vi trenger Ã¥ gjÃ¸re det. "Imponere." Det er ingen konvertering vi trenger Ã¥ gjÃ¸re det. "Min" vil konvertere til "din". Og "sjef" vi skal bare la som "sjef". Og sÃ¥ til slutt, noe som ender med en periode, vi vil konvertere den til et spÃ¸rsmÃ¥l. 

Denne svÃ¦rt enkel mÃ¸nstergjenkjenning er faktisk ganske vellykket. Og da dette ble innfÃ¸rt i 1966-- Joseph Weizenbaum programmert dette pÃ¥ en datamaskin. NÃ¥, datamaskiner pÃ¥ den tiden var ikke stasjonÃ¦re modeller. De ble delt ressurser. Og hans elever ville gÃ¥ og prate med ELIZA. Til slutt mÃ¥tte han begrense tilgangen til det fordi hans elever var ikke Ã¥ fÃ¥ arbeidet gjort. De ble bare chatter med ELIZA. Og, faktisk, mÃ¥tte han fyre hans assistent, som brukte all sin tid pÃ¥ Ã¥ snakke ELIZA om hennes dype og bekymringsfulle problemer. 

Alle som brukte disse systemene begynte Ã¥ anthropomorphize dem. De begynte Ã¥ tenke pÃ¥ dem som Ã¥ vÃ¦re levende og virkelige mennesker. De begynte Ã¥ gjenkjenne noen av de tingene som de sa skulle komme tilbake til dem. Og de var Ã¥ finne ut ting om seg selv. Og, faktisk, selv ekspertene, selv de psykoterapeuter, begynte Ã¥ bekymre seg for at, faktisk, kanskje ELIZA ville vÃ¦re Ã¥ erstatte dem. Og selv datamaskinen forskere bekymret for at vi var sÃ¥ nÃ¦r lÃ¸se naturlig sprÃ¥k. 

NÃ¥, det var ikke noe sted i nÃ¦rheten av sant. Men det er hvordan imponerende disse systemene kan virke. SÃ¥ la oss begynne Ã¥ lete under og prÃ¸v Ã¥ fÃ¥ en liten bit av et spÃ¸rsmÃ¥l hvor denne koden faktisk skjer. SÃ¥ vi vil gjÃ¸re denne koden tilgjengelig etterpÃ¥. Og dette er en veldig enkel og direkte port av den opprinnelige ELIZA gjennomfÃ¸ringen. 

SÃ¥ noen av disse stilistiske ting som du ser her er ikke stilistisk hva Vi Ã¸nsker at du skal gjÃ¸re eller hva vi har vÃ¦rt lÃ¦rer deg Ã¥ gjÃ¸re. Men vi har prÃ¸vd Ã¥ holde dem samme pÃ¥ tvers av mange porter at dette har hatt sÃ¥ at det har smaken av den opprinnelige. SÃ¥ vi kommer til Ã¥ omfatte en haug av ting, og sÃ¥ fÃ¥r vi ha en sett av nÃ¸kkelord, ting som ELIZA vil gjenkjenne og svare pÃ¥ direkte. SÃ¥ hvis du har ord som "kan du" eller "Jeg vet ikke" eller "nei" eller "ja" eller "drÃ¸m" eller "hallo", deretter ELIZA vil reagere selektivt til dem. Vi vil ogsÃ¥ ha en visst antall ting at vi vil bytte, som konvertere "min" til "din". 

Og sÃ¥ vil vi ha et sett av svar at for hver av disse sÃ¸keordene, vi vil rotere gjennom disse ulike reaksjoner. SÃ¥ hvis jeg sier "ja" tre ganger pÃ¥ rad, jeg kan fÃ¥ tre forskjellige svar fra ELIZA. Koden vÃ¥r, da, er faktisk utrolig enkelt. Hvis jeg ruller nedover forbi alle disse svarene som vi har programmert i og vi komme ned til vÃ¥r viktigste, vi kommer til Ã¥ initial et par forskjellige variabler og gjÃ¸re litt av rengjÃ¸ring i begynnelsen. Men sÃ¥ er det absolutt et sett kode som du kan forstÃ¥. En stor mens loop som sier jeg er kommer til Ã¥ gjenta dette om og om igjen. Jeg skal lese i en linje, og jeg skal lagre det i en inngang streng. Jeg skal sjekke og se om det er den spesiell sÃ¸keord "bye", som betyr avslutte programmet. Og sÃ¥ skal jeg sjekke og se om noen er bare Ã¥ gjenta seg selv igjen og igjen. Og jeg skal kjefte pÃ¥ dem hvis de gjÃ¸r. Jeg vil si "ikke gjenta deg selv." 

SÃ¥ lenge ingen av disse skje, vil vi deretter skanne gjennom og slÃ¸yfe gjennom, pÃ¥ linjene 308 til 313 her, og sjekke og se er noen av de som sÃ¸keord setninger som finnes i inngangs at jeg ble bare gitt? Hvis det er en match for dem, vel Da skal jeg huske det stedet. Jeg kommer til Ã¥ huske dette sÃ¸keordet. Og jeg skal vÃ¦re i stand til Ã¥ bygge et svar. 

Hvis jeg ikke finner en, vel da, det siste i sÃ¸keordet mitt utvalg vil vÃ¦re min standard svar, nÃ¥r ingenting annet kamper. Jeg vil stille spÃ¸rsmÃ¥l som Â«Hvorfor gjorde du kommer hit? "eller" Hvordan kan jeg hjelpe deg? " som er bare delvis riktig uansett hva input er. 

Vi vil deretter bygge opp ELIZA respons. Vi vil vÃ¦re i stand til Ã¥ ta at basen respons, akkurat som vi gjorde i det "sjefen min" eksempel. Hvis det er alt som det er-- om det bare er Ã©n streng som jeg skal respond-- Jeg kan bare sende den ut igjen. Hvis den har en stjerne pÃ¥ slutten av det, sÃ¥ skal jeg behandle hver enkelt token i resten av brukerens svar og legge de i, bytte ut ord for ord som jeg mÃ¥. 

Alt dette er helt noe som du kan bygge. Og faktisk, de mÃ¥tene vi har bearbeidet kommandolinjeargumentene, den mÃ¥ten som du har behandlet gjennom HTTP-forespÃ¸rsler fÃ¸lge de samme typer regler. De er mÃ¸nstergjenkjenning. 

SÃ¥ ELIZA hadde en relativt viktig innvirkning pÃ¥ naturlig sprÃ¥k fordi det gjorde det virke som om det var en svÃ¦rt oppnÃ¥elige mÃ¥l, som en eller annen mÃ¥te ville vi vÃ¦re i stand til Ã¥ lÃ¸se dette problemet direkte. NÃ¥, det er ikke Ã¥ si at ELIZA gjÃ¸r alt som vi Ã¸nsker Ã¥ gjÃ¸re. Absolutt ikke. Men vi bÃ¸r kunne Ã¥ gjÃ¸re noe mer. 

VÃ¥rt fÃ¸rste skritt Ã¥ gÃ¥ utover ELIZA kommer Ã¥ vÃ¦re i stand til Ã¥ se pÃ¥ ikke tekst som blir skrevet i tastaturet, men tale, faktiske tale spilt inn i en mikrofon. SÃ¥ som vi ser pÃ¥ disse forskjellige stykker, vi er nÃ¸dt til Ã¥ bygge opp et sett av modeller. Vi er nÃ¸dt til Ã¥ vÃ¦re i stand Ã¥ gÃ¥ fra lavt nivÃ¥ akustisk information-- banen, amplitude, frequency-- og konvertere til noen enheter som vi er i stand til lettere Ã¥ manipulere og endelig, manipulere dem i ord og setninger. 

SÃ¥ de fleste talegjenkjenning systemer som er der ute i dag fÃ¸lger en statistisk modell hvor vi bygger tre separate fremstillinger av hva at lydsignalet faktisk inneholder. Vi starter med en fonetisk modell som snakker om bare basen lyder som jeg produserer. Er jeg produsere noe som er en B som i gutt eller en D som i hund? Hvordan gjenkjenner jeg de to forskjellige telefoner som atskilt og forskjellig? 

PÃ¥ toppen av det, vil vi deretter bygge et ord uttale modell, noe som knytter sammen de individuelle telefoner og kombinerer dem i et ord. Og etter det, vil vi ta ordene og vi vil montere dem med et sprÃ¥k modellere inn i en fullstendig setning. 

NÃ¥ skal vi snakke om hver av disse selvstendig og separat. Men disse tre modellene er alle bare skal vÃ¦re statistikk. Og det betyr at nÃ¥r vi jobbe med dem, vil vi kunne arbeide med dem alle samtidig. Greit. La oss starte med vÃ¥r fonetisk modell. SÃ¥ fonetiske modeller stole pÃ¥ en beregningsteknikk kalt skjulte Markovmodeller. Disse er grafiske modeller der jeg har og gjenkjenne en tilstand av verden som er kjennetegnet av et sett med funksjoner. Og at staten beskriver Ã©n del av en handling som jeg er engasjert i. 

SÃ¥ hvis jeg tenke pÃ¥ Ã¥ gjÃ¸re lyden "ma" som mor, det er annerledes komponenter til den lyden. Det er en del der jeg trekker inn pusten. Og da jeg vesken mine lepper. Og jeg rulle mine lepper litt tilbake litt Ã¥ gjÃ¸re at "ma" lyd. Og sÃ¥ er det en utgivelse. Mine lepper komme fra hverandre. Air blir utvist. "Ma". 

De tre ulike deler ville vÃ¦re representert ved statene i denne graph-- starten, midten og slutten. Og jeg ville ha overganger som tillatt meg Ã¥ reise fra en tilstand til den neste med en viss sannsynlighet. SÃ¥, for eksempel at M hÃ¸res kanskje har en veldig, svÃ¦rt kort inntak pÃ¥ beginning-- "mm" - og deretter et lengre, vibrasjons fase der jeg holder min leppene sammen og nesten humming-- "mmmm" - og deretter en svÃ¦rt kort plosiv hvor jeg utvise breath-- "ma". 

Den skjulte Markov modellen er utformet for Ã¥ fange opp det faktum at den mÃ¥ten som jeg gjÃ¸r at lyden "ma" kommer Ã¥ vÃ¦re litt annerledes i sin timing, er frekvens, og dets funksjoner enn den mÃ¥ten at du gjÃ¸r det eller den mÃ¥ten at jeg kanskje gjÃ¸re det nÃ¥r jeg snakker om ulik bruk av brevet. "Mor" og "kan jeg" vil hÃ¸res litt annerledes. 

SÃ¥ for Ã¥ gjenkjenne en bestemt lyd, ville vi bygge Markov modeller, disse skjulte Markov modeller, av alle mulige telefonen at jeg kanskje vil kjenne igjen, alle mulige lyd, og deretter se pÃ¥ akustiske data som jeg har og bestemme statistisk hvilken som er mest sannsynlig en Ã¥ ha produsert denne lyden. OK. Med denne modellen, vi sÃ¥ begynne Ã¥ bygge pÃ¥ toppen av det. Vi tar en uttale modell. NÃ¥, noen ganger uttale modellene er enkle og lett fordi det er bare Ã©n mÃ¥te Ã¥ uttale noe. Andre ganger, de er en litt mer komplisert. Her er en uttale guide for det rÃ¸de ting som er en frukt som du gjÃ¸r ketchup ut av. Folk tror ikke det er en frukt. HÃ¸yre? 

NÃ¥ er det mange forskjellige mÃ¥ter at folk vil uttale dette ordet. Noen vil si "toe-mai-tÃ¥." Noen vil si "toe-mah-tÃ¥." Og vi kan fange opp at med en av disse grafiske modeller der, igjen, representerer vi overganger som Ã¥ ha en viss sannsynlighet og tilhÃ¸rende sannsynlighet med dem. 

SÃ¥ i dette tilfellet, hvis jeg skulle fÃ¸lge toppen ruten gjennom hele denne grafen, Jeg ville bli som starter pÃ¥ bokstaven lengst til venstre, den "ta" lyd. Jeg ville ta den Ã¸verste halvdelen, den "oh", og deretter en "ma" og deretter en "a", og deretter en "ta", og en "oh". "Toe-may-tÃ¥." Hvis jeg tok den nederste banen gjennom dette, vil jeg fÃ¥ "ta-mah-tÃ¥." Og hvis jeg gikk ned og deretter opp, jeg ville fÃ¥ "ta-may-tÃ¥." 

Disse modellene fange disse forskjeller fordi nÃ¥r vi distribuere en av disse anerkjennelse systemer, det er nÃ¸dt til Ã¥ jobbe med massevis av forskjellige slags mennesker, mange forskjellige aksenter, og selv ulik bruk av de samme ordene. Endelig pÃ¥ toppen av det, vi vil bygge noe som ser veldig komplisert, kalt sprÃ¥kmodell, men i virkeligheten er den enkleste av de tre fordi disse opererer pÃ¥ det som kalles n-gram-modeller. Og i dette tilfellet, jeg viser deg en to-del n-gram-modellen, en bigram. Vi kommer til Ã¥ gjÃ¸re fysisk ideen at noen ganger, enkelte ord er mer sannsynlig Ã¥ fÃ¸lge en gitt ord enn andre. Hvis jeg bare sa "vÃ¦rvarsel" neste ord kunne sannsynligvis vÃ¦re "i dag" eller kan vÃ¦re "vÃ¦ret time i morgen. " Men det er lite sannsynlig Ã¥ vÃ¦re " vÃ¦rvarselet artisjokk. " 

Hva en sprÃ¥kmodell gjÃ¸r er den fanger de statistisk ved Ã¥ telle, fra noen svÃ¦rt store corpus, alle de instanser hvori ett ord fÃ¸lger hverandre. SÃ¥ hvis jeg tar et stort corpus-- som hver Wall Street Journal som har vÃ¦rt produsert siden 1930, som er en av de standard corpuses-- og jeg ser gjennom alle som tekst, og jeg teller opp hvor mange ganger etter "prognose" ser jeg "i dag" og hvor mange ganger jeg ser gjÃ¸re "prognose" etterfulgt av "artisjokk," det fÃ¸rste en kommer Ã¥ vÃ¦re mye mer sannsynlig. Det kommer til Ã¥ dukke opp langt oftere. Og sÃ¥ det vil ha en hÃ¸yere sannsynlighet knyttet til den. 

Hvis jeg Ã¸nsker Ã¥ finne ut av Sannsynligheten for en hel ytring, da, jeg bare bryte den opp. Derfor er sannsynligheten for hÃ¸re setningen "rotta spiste ost" er sannsynligheten for ordet "" start en setning, og sÃ¥ sannsynligheten for at Ordet "rotte" fÃ¸lger ordet "pÃ¥", og sannsynligheten for at Ordet "spiste" fÃ¸lger "rotte" og sannsynligheten for at "ost" fÃ¸lger "spiste". 

Dette hÃ¸res ut som en masse statistikk, mye av sannsynligheter. Og det er alt som det er. Men det utrolige er hvis du gjÃ¸r dette med en stor nok prÃ¸ve av data, det fungerer. Og det fungerer enormt godt. Vi vet alle disse teknologiene. De fleste operativsystemer kommer med talegjenkjenning pÃ¥ dette punktet. Vi bruker Siri og Cortana og Echo. Og disse tingene er basert pÃ¥ denne type av tre-lags model-- en fonetisk modell pÃ¥ bunnen, en uttale modellen i midten, og en sprÃ¥kmodell pÃ¥ toppen av dem. 

NÃ¥ mÃ¥ de gjÃ¸re litt mer enn at for Ã¥ svare pÃ¥ spÃ¸rsmÃ¥l. Men erkjennelsen av hva du er ordtaket avhenger akkurat pÃ¥ det. SÃ¥ la oss ta et eksempel her. SÃ¥ jeg har telefonen min sitter her oppe under dokumentkameraet. Og vi kommer til Ã¥ spÃ¸r Siri noen spÃ¸rsmÃ¥l. Greit? 

SÃ¥ la oss vÃ¥kne opp telefonen min her. Siri, hva er vÃ¦ret som i New Haven i dag? 

SIRI: Her er vÃ¦ret for New Haven, Connecticut i dag. 

BRIAN SCASSELLATI: OK. SÃ¥ fÃ¸rste du sÃ¥ at Siri anerkjent hver av de enkelte ord og deretter produsert en respons. Vi skal snakke om hvordan dette svaret kommer om i en liten bit. Men nÃ¥ som vi vet at dette er bare basert pÃ¥ den rÃ¥ statistikk og dette mÃ¸nstergjenkjenning type tilnÃ¦rming, vi kan spille noen kamper med Siri. 

SÃ¥ jeg kan prÃ¸ve igjen. Siri, hva er vÃ¦ret flodhest New Haven, i dag? 

SIRI: OK. Her er vÃ¦rmeldingen for New Haven, Connecticut for i dag. BRIAN SCASSELLATI: Siri ikke daunted av at fordi det er funnet pattern-- "vÃ¦r", "i dag", "New Haven." Det er hva det er Ã¥ svare til, akkurat som ELIZA. Greit. La oss gi den en mer selv mer latterlig eksempel. Siri, vÃ¦r artisjokk armadillo flodhest New Haven? 

SIRI: La meg se pÃ¥ det. Her er hva jeg fant pÃ¥ nettet for hva er artisjokker armadillo flodhest New Haven. 

BRIAN SCASSELLATI: OK. SÃ¥ hvis jeg gÃ¥r langt nok bort fra denne modellen, Jeg er i stand til Ã¥ forvirre det fordi det ikke lenger samsvarer med mÃ¸nsteret som den har. Og at statistisk motor som sier: hva er sannsynligheten for at du har fÃ¥tt ordene flodhest og artisjokk sammen, og armadillo? Det mÃ¥ vÃ¦re noe nytt. 

SÃ¥ disse teknologiene vi bruker hver dag. Hvis vi Ã¸nsker Ã¥ ta dem ett skritt videre, men hvis vi faktisk Ã¸nsker Ã¥ vÃ¦re i stand til Ã¥ snakke om hva det er at disse systemene er Ã¥ svare pÃ¥, vi mÃ¥ snakke, igjen, om en mer grunnleggende sett med spÃ¸rsmÃ¥l. Og det er et tema i kommunikasjon som vi kaller spÃ¸rsmÃ¥let telefonsvarer. Det vil si at vi Ã¸nsker Ã¥ kunne to-- ja? PUBLIKUM: [uhÃ¸rlig]. BRIAN SCASSELLATI: FÃ¥r vi inn latent semantisk prosessering? SÃ¥ ja. Det er mange ting som er skjer under overflaten med Siri og i noen av eksemplene Jeg kommer til Ã¥ vise deg neste hvor det er ganske mye i form av strukturen av det du sier som er viktig. Og, faktisk, det er en stor forlÃ¸per for neste lysbilde for meg. 

SÃ¥ pÃ¥ samme mÃ¥te som vÃ¥r talegjenkjenning ble bygd opp av flere lag, hvis vi Ã¸nsker Ã¥ forstÃ¥ hva det er som faktisk er blir sagt, skal vi igjen avhengig av et flerlagsanalyse av teksten som blir gjenkjent. SÃ¥ nÃ¥r Siri er faktisk i stand til Ã¥ si, ser jeg fant disse ordene. NÃ¥ hva gjÃ¸r jeg med dem? Den fÃ¸rste komponenten er ofte gÃ¥ gjennom og prÃ¸ve Ã¥ analysere strukturen av setningen. Og hva har vi sett i grunnskolen, ofte, som liksom diagram setninger, skal vi Ã¥ erkjenne at visse ord har visse roller. Dette er substantiver. Dette er pronomen. Dette er verb. Og vi kommer til Ã¥ kjenne igjen at for en bestemt grammatikk, i dette tilfelle engelsk grammatikk, er gyldige mÃ¥ter som jeg kan kombinere dem og andre mÃ¥ter som ikke er gyldige. 

At anerkjennelse, som struktur, kan vÃ¦re nok til Ã¥ hjelpe oss en liten bit. Men det er ikke nok for oss Ã¥ vÃ¦re i stand til Ã¥ gi noen mening til hva som blir sagt her. For Ã¥ gjÃ¸re det, mÃ¥ vi stole pÃ¥ viss mengde semantisk behandling. Det vil si, vi er nÃ¸dt til Ã¥ se pÃ¥ under hva hver av disse ordene faktisk bÃ¦rer som en mening. Og den enkleste mÃ¥ten Ã¥ gjÃ¸re dette pÃ¥, vi kommer til Ã¥ assosiere med hvert ord at vi kjenner en viss funksjon, en viss transformasjon som det tillater Ã¥ skje. 

I dette tilfellet kan vi merke Ordet "John" som et egennavn, at den bÃ¦rer med seg en identitet. Og vi kan merke "Mary" som pÃ¥ samme mÃ¥te. Mens et verb som "elsker", som utgjÃ¸r en bestemt relasjon at vi er i stand til Ã¥ representere. NÃ¥ betyr det ikke at vi forstÃ¥r hva kjÃ¦rlighet er, men bare at vi forstÃ¥r Det i form av et symbolsk system. Det vil si, vi kan merke det og manipulere det. 

Med hver av disse typer av fremgangsmÃ¥ter, hvilken som helst type av semantisk prosessering her kommer til Ã¥ kreve en liten bit av kunnskap og mye arbeid fra vÃ¥r side. Vi er ikke lenger i riket hvor bare ren statistikk kommer til Ã¥ vÃ¦re nok for oss. NÃ¥, for Ã¥ gÃ¥ fra dette punkt til Ã¥ bli i stand til Ã¥ snakke om innsiden av hva som faktisk skjer her, Ã¥ vÃ¦re i stand til Ã¥ manipulere denne strukturere og forstÃ¥ et spÃ¸rsmÃ¥l og deretter Ã¥ kunne for Ã¥ gÃ¥ ut og sÃ¸ke, som krever en mer kompleks kognitiv modell. 

Den mÃ¥ten som disse systemene er bygget er for det meste veldig, veldig arbeids intensiv. De involverer mennesker bruke mye tid strukturere mÃ¥ter i som slike setninger kan representeres pÃ¥ en eller annen logikk. Det blir enda litt mer komplekse, men. 

Selv nÃ¥r vi har jobbet med semantikk, vil vi har fortsatt Ã¥ se pÃ¥ pragmatikk av hva som blir sagt. Det vil si, hvordan jeg forholder ordene at jeg mÃ¥ noe fysisk ut der ute i verden eller i det minste noen informasjonskilde at jeg kan manipulere? 

Noen ganger, disse fÃ¸re til fantastiske biter av tvetydighet. "Red-hot stjerne til gifte astronom." OK. NÃ¥ leser vi at etter hvert som morsom type overskrift at vi vil se pÃ¥ sen kveld TV fordi vi ikke tolke "stjerne" Ã¥ ha sin himmellegeme mening. Vi vet at det vil si jo mer vanlig skuespiller med hÃ¸ye mengder av sikten. 

"Squad hjelper hunden bite offeret." Er det at troppen er faktisk der ute hjelpe en hund i gÃ¥r rundt og bite ofre? Eller er det slik at det var en person som var bitt av en hund som trengte litt hjelp? Bare fra Ã¥ se pÃ¥ syntaksen og semantikk setningene, Vi kan ikke bestemme det. 

"Helikopter drevet av menneske fluer." Er det faktisk faktiske smÃ¥ting flyr rundt som er mennesker med vinger slÃ¥r helikoptre til det gode for menneskeheten? Eller er det en mekanisk innretning som fÃ¥r sin strÃ¸m fra en person? 

NÃ¥r vi ser pÃ¥ spÃ¸rsmÃ¥let svarsystemer, disse er de lag som vi trenger Ã¥ forholde seg til. NÃ¥, den beste og den mest sortere av utbredt av disse systemene dag er i stand til Ã¥ gjÃ¸re ting pÃ¥ et nivÃ¥ som er langt utover det vi hadde for 10 Ã¥r siden. Her er en av de beste systemene som er der ute i dag. Og dette er et system fra IBM heter Watson. Dette er fra vÃ¥re venner i IBM. Dette er Katherine banker, Jia Chen, og Priscilla Moraes gi oss en demonstrasjon av Watson i gÃ¥r i IBM Yorktown. [VIDEO PLAYBACK] -Hvordan har du det? 

-Jeg har det bra. Jeg er alltid glad nÃ¥r jeg er tenkning, spesielt nÃ¥r jeg kan vÃ¦re kul i disse serverrom. -Hvem Er din favoritt skuespiller? 

-Min Favoritt skuespiller Angelina Jolie som Lara Croft i Tomb Raider fordi hennes opprinnelige formen var som en virtuell karakter som meg. 

-Hvordan Kan Watson hjelpe pasienter? 

-Er Plan for pasienter til har tilgang til Watson direkte? Tilgang til Watson rÃ¥dgivende sÃ¸knader vil variere etter bruk tilfelle. Men i dag, vil Watson bare gi mulig diagnose og behandling alternativer til medisinsk faglig. Der det er hensiktsmessig, pasienter kan gi informasjon Watson, kanskje gjennom en portal webgrensesnitt, tablet, eller til og med en mobiltelefon. For eksempel kan en pasient vÃ¦re bedt om Ã¥ beskrive sine symptomer i naturlig sprÃ¥k direkte inn i en Watson lÃ¸sning, tillater legen Ã¥ fokusere pÃ¥ diagnose og ikke datainnsamling. 

-Hvem Myrdet Abraham Lincoln? 

-John Wilkes Booth. 

-I Hvilket Ã¥r gjorde Arizona Diamondbacks vinne World Series? 

-2001. 

[END PLAYBACK] 

BRIAN SCASSELLATI: So slike systemer nÃ¸dt til Ã¥ stole pÃ¥ fÃ¸rst og fremst gjenkjenne tale; sekund, omdanne den til en meningsfylt indre representasjon; og deretter, tredje, Ã¥ vÃ¦re i stand til Ã¥ gÃ¥ ut og finne informasjonskilden som gir dem mulighet til Ã¥ svare pÃ¥ det spÃ¸rsmÃ¥let. Dette nivÃ¥et av kompleksitet innebÃ¦rer samme typer programmatiske ting at du har vÃ¦rt gjÃ¸r i oppgavesett. 

Vi er i stand til Ã¥ analysere HTTP-forespÃ¸rsler i samme type lavt nivÃ¥ mÃ¸nster matching som ELIZA kan gjÃ¸re. Vi er i stand til Ã¥ konvertere dem inn i en intern representasjon, og deretter bruke dem til Ã¥ spÃ¸rre noen ekstern database, muligens ved hjelp av SQL. Alle systemene som Det bygges i dag for Ã¥ gjÃ¸re denne type naturlig sprÃ¥klig kommunikasjon blir bygget pÃ¥ de samme prinsipper. 

NÃ¥, med et system som Watson er ikke komplisert nok Ã¥ vÃ¦re i stand til Ã¥ svare pÃ¥ vilkÃ¥rlig spÃ¸rsmÃ¥l om hvilket som helst tema. Og faktisk, de mÃ¥ vÃ¦re strukturert innenfor et gitt domene. SÃ¥ du kan gÃ¥ pÃ¥ nettet og du kan finne versjoner av Watson som opererer godt innen medisinsk informatikk. Eller det er en online som bare dreier seg om hvordan Ã¥ gjÃ¸re gode anbefalinger om hva Ã¸l vil gÃ¥ med noe mat. Og innenfor disse domenene, det kan svare pÃ¥ spÃ¸rsmÃ¥l, finne informasjon om at det er behov for. 

Men du kan ikke mikse og matche dem. Systemet som er blitt opplÃ¦rt med databasen av mat og Ã¸l ikke fungerer godt nÃ¥r du plutselig sette den inn med medisinsk informatikk database. SÃ¥ selv vÃ¥re beste systemene i dag avhengig av et bearbeidings der vi hÃ¥nden koding og bygge i infrastrukturen i orden for Ã¥ gjÃ¸re dette systemet lÃ¸pe. 

NÃ¥, den siste emnet jeg Ã¸nsker for Ã¥ kunne komme til i dag handler om nonverbal kommunikasjon. En stor masse av informasjon som vi kommuniserer med hverandre ikke kommet til gjennom enkelte ord at vi sÃ¸ker. Det har Ã¥ gjÃ¸re med ting som nÃ¦rhet, blikk, tonen i stemmen, din bÃ¸yning. Og at kommunikasjon er ogsÃ¥ noe som mange forskjellige grensesnitt bryr seg mye om. Det er ikke hva Siri bryr seg om. Jeg kan spÃ¸rre Siri noe i en stemme eller i en annen tone i stemmen, og Siri kommer til Ã¥ gi meg det samme svaret. Men det er ikke det vi bygger for mange andre typer grensesnitt. 

Jeg Ã¸nsker Ã¥ introdusere deg nÃ¥ til en av roboter. Denne ble bygget av min mangeÃ¥rige venn og kollega Cynthia Breazeal og hennes selskap Jibo. Og dette robot-- vi kommer Ã¥ ha et par frivillige komme opp til samvirke med denne. SÃ¥ kan jeg ha to personer villige Ã¥ leke med roboten for meg? Hvorfor ikke komme pÃ¥ opp, og hvorfor gjÃ¸r ikke du kommer videre opp. Hvis du vil bli med meg opp her, takk. 

Og hvis jeg kunne ha deg komme rett over her. Takk. Hei. 

ALFREDO: Hyggelig Ã¥ mÃ¸te deg. Alfredo. 

BRIAN SCASSELLATI: Alfredo. 

RACHEL: Rachel. BRIAN SCASSELLATI: Rachel. Hyggelig Ã¥ mÃ¸te dere begge. Alfredo, jeg kommer til Ã¥ ha deg gÃ¥ fÃ¸rst. Kom rett opp her. Jeg kommer til Ã¥ introdusere you-- hvis jeg kan fÃ¥ dette av uten Ã¥ banke den microphone-- til en liten robot som heter Jibo. OK? 

NÃ¥ er Jibo utformet for Ã¥ vÃ¦re interaktive. Og selv om det kan gi deg tale, mye av interaksjonen med roboten er nonverbal. Alfredo, jeg kommer til Ã¥ be deg om Ã¥ si noe fint og gratis til roboten, takk. ALFREDO: Jeg tror du ser sÃ¸t. 

[Surrende SOUND] BRIAN SCASSELLATI: OK. Sitt svar er ikke verbal. Og likevel det ga dere begge en klar erkjennelse at det hadde hÃ¸rt hva du sa og ogsÃ¥ liksom forstÃ¥tt det. OK? GÃ¥ rett tilbake hit for ett sekund. Takk. 

Rachel, hvis du ville. NÃ¥ kommer jeg til Ã¥ gi du det mye vanskeligere jobb. Hvis du vil stÃ¥ rett her, sikkerhetskopiere bare litt sÃ¥ vi kan fÃ¥ deg pÃ¥ kamera og se pÃ¥ denne mÃ¥ten. Jeg kommer til Ã¥ be deg om Ã¥ si noe egentlig mener og stygg til roboten. 

RACHEL: Hva du har virket Ã¥ gjÃ¸re var helt absurd. 

[Summelyd] 

Det var enda mer absurd. Hva skjer med deg? Aw, fÃ¸ler meg ikke dÃ¥rlig. Jeg skal gi deg en klem. BRIAN SCASSELLATI: All right. Takk, Rachel. Alfredo, Rachel, takk folkens veldig mye. 

[BIFALL] 

SÃ¥ denne typen interaksjon har i mange mÃ¥ter noen av de samme regler og noe av den samme struktur som det vi kan ha i sprÃ¥klig samhandling. Det er bÃ¥de kommunikative og har en viktig funksjon. Og at samhandling, i mange mÃ¥ter, er utformet Ã¥ ha en bestemt virkning pÃ¥ person i samspill med eller lytter til roboten. 

NÃ¥ er jeg sÃ¥ heldig Ã¥ ha Jibo her i dag. Sam Spaulding er her Ã¥ hjelpe oss ut med roboten. Og jeg kommer til Ã¥ be Sam Ã¥ gi oss en fin demo av Jibo dans at vi kan se pÃ¥ slutten her. SÃ¥ sett i gang, Jibo. 

SAM: OK, Jibo. Vis oss dine dansetrinn. 

[MUSIC SPILLE] BRIAN SCASSELLATI: Greit, alle sammen. Takk til vÃ¥re venner pÃ¥ Jibo. 

[BIFALL] 

Og takk til vÃ¥re venner pÃ¥ IBM for Ã¥ hjelpe ut i dag. Kommunikasjon er noe at du kommer Ã¥ se kommer opp mer og mer som vi bygge mer komplekse grensesnitt. Snakker neste uke, vi skal om hvordan grensesnittet med datamotstandere i spill. Men hvis du har spÃ¸rsmÃ¥l om dette, Jeg skal vÃ¦re rundt i kontortiden i kveld. Jeg er glad for Ã¥ snakke med deg om AI emner eller Ã¥ komme inn i mer detalj. Ha en fin helg. 

[BIFALL] [MUSIC SPILLE]