[Musik spiller] 

DAVID MALAN: Dette er CS50. Dette er slutningen af ââuge 10. Og dreng, har vi en god klasse for dig i dag. Vi er sÃ¥ glade for at invitere to af vores venner fra Yale op til os i dag og se pÃ¥ skÃ¦ringspunktet mellem kunstig intelligens, robotteknologi, behandling af naturligt sprog, og meget mere. 

Og ja, over sidste par uger, vi har sikkert brugt en masse tid, isÃ¦r i de tidligere psets, med fokus pÃ¥ smukke detaljer lavt niveau. Og det er meget nemt at glemme af skoven for bare trÃ¦er og fÃ¥ hÃ¦ngt op pÃ¥ loops og vilkÃ¥r og henvisninger, i hvert fald, og lignende. Men virkeligheden er du fyre har nu ingredienser, som du virkelig kan lÃ¸se nogle interessante problemer, blandt dem dem, vores venner pÃ¥ Yale arbejde pÃ¥ lige genert af Cambridge. 

SÃ¥ tillad mig fÃ¸rst at introducere vores hoved undervisningsassistent fra Yale, Andy. 

[BIFALD] 

ANDY: FÃ¸rst og fremmest, bare tak dig for at lade et par Yalies til pop ned til Cambridge i dag. Vi har virkelig sÃ¦tter pris pÃ¥ det. For det andet til vores venner tilbage home-- Jason, tak for opholder sig og kÃ¸rer foredrag. HÃ¥ber det er alle gode i New Haven. 

SÃ¥ ja, jeg er super spÃ¦ndt at indfÃ¸re SCAZ dag. SCAZ kÃ¸rer robotteknologi lab. Han er professor i, ligesom, fem forskellige afdelinger pÃ¥ Yale. I sit laboratorium, han har mange, mange robotter, han kan lide at spille med. Han har lignende, fedeste job i verden. Og han fÃ¥r at slags rod rundt med, at hele dagen lang og gÃ¸re noget arbejde, sÃ¥ godt. 

Og sÃ¥ vi faktisk bragt en af dem ned med os i dag. SÃ¥ uden videre, SCAZ er kommer til at gÃ¥ videre og indfÃ¸re os til sin robot ven. 

[BIFALD] BRIAN Scassellati: Tak, David. Tak, Andy. Det er sÃ¥ vidunderligt at vÃ¦re her med alle i dag. Jeg vil fÃ¸rst vÃ¦re meget klart, at det CS50 personalet her i Cambridge har vÃ¦ret utroligt gÃ¦stfrie til os. Vi er sÃ¥ taknemmelige for alt de har gjort for at stÃ¸tte os. Og sÃ¥ vi vil gerne vÃ¦re i stand at returnere venlighed. 

SÃ¥ i dag, fÃ¥r vi at annoncere at vi kommer til at have en ny, one-of-a-kind CS50 begivenhed sker i New Haven i nÃ¦ste uge. Og dette er den CS50 Research Expo. SÃ¥ vi kommer til at vÃ¦re indbydende everyone-- CS50 studerende, personale fra bÃ¥de Harvard og Yale-- til komme ned og besÃ¸ge med os pÃ¥ fredag. Vi vil have en bred vifte af forhold 30 forskellige mennesker frembyder og exhibiting-- upperclassmen viser fra nogle af deres forskning produkter. Vi vil have nogle nystartede, selv, ser for en lille smule af nye tech talent, nystartede fra bÃ¥de Harvard og Yale. Og vi vil have nogle grupper af studerende pÃ¥ udkig efter nogle nye medlemskab. 

Det kommer til at vÃ¦re en meget spÃ¦ndende tid. ForhÃ¥bentlig dem af jer, der er kommer ned for Harvard-Yale spil vil vÃ¦re i stand til at stoppe af en lille smule tidligt, lige i centrum af campus, Sterling Memorial Library. Vi kommer til at have et sÃ¦t udstillinger, der spÃ¦nder fra autonom sejlbÃ¥de til mÃ¥der at bruge software at bevare middelalderlige hÃ¥ndskrifter. 

Vi bliver nÃ¸dt til annonce hoc netvÃ¦rk og mennesker undervisning software kodning i Cape Town. Vi vil have computer musik demonstrationer. Og vi vil selvfÃ¸lgelig have flere robotter. SÃ¥ vi hÃ¥ber, du vil slutte sig til os for denne begivenhed. Det bÃ¸r vÃ¦re en masse sjov, en lille smule af mad, og en masse interessante ting at tale om. 

SÃ¥ i dag, vi kommer til at tale om behandling af naturligt sprog. Og det er forsÃ¸get for os at bygge en ny mÃ¥de sammenknytning med vores enheder fordi for de sidste par uger, du er blevet fokuseret pÃ¥, hvordan det er, at du kan skrive koden, skriver software der er en mÃ¥de at vÃ¦re i stand til at sige til en maskine, dette er hvad jeg vil have dig til at gÃ¸re. 

Men vi bÃ¸r ikke vÃ¦re nÃ¸dvendigt at forventer, at alt , der er derude, der bruges af alle i verden kommer til at vÃ¦re dygtige i denne form for undervisning. SÃ¥ vi skelne mellem computer sprog og naturlige languages-- det vil sige, ting der mennesker brug at kommunikere med andre mennesker. Og vi forsÃ¸ger at bygge grÃ¦nseflader, der bruger disse naturlige kommunikationsmekanismer. 

Nu, ligesom alle andre emne at vi har startet med i CS50, vi kommer til at starte med den enkleste bit af naturligt sprog forarbejdning at vi kan forestille os. Vi kommer til at starte med historiske del af naturligt sprog. Og sÃ¥ vil vi bygge op til flere og flere nyere systemer og har nogle sjove demoer undervejs. 

SÃ¥ vi kommer til at starte med, hvad der var formentlig den fÃ¸rste naturligt sprog system. Dette var et softwaresystem skrevet i 1966 af Joseph Weizenbaum kaldet ELIZA. Og ELIZA er designet til replikere form for interaktion du ville have med en Rogerian psykoterapeut. Nu er Rogerians, de havde en idÃ© om, at psykoterapi involveret at kunne spejle tilbage til en patient, og tale med dem, dybest set, ved kun at give dem en lillebitte smule terapeuten. Det er, alt at terapeuten sagde skulle vÃ¦re bare en afspejling af hvad patienten fortÃ¦ller til dem. 

SÃ¥ lad os prÃ¸ve og demo dette. Har vi en frivillig, der ville vÃ¦re villige til at dele deres dybeste, mÃ¸rkeste og / eller falske hemmeligheder med ELIZA? Sikker pÃ¥, hvorfor du ikke kommer videre op. Fantastisk. Og dit navn? 

MILES: Miles. 

BRIAN Scassellati: Miles. Rart at mÃ¸de dig, Miles. Hvis du vil holde pÃ¥ det. Og vi kommer til at anvende en version af ELIZA at vi har kopieret inden for CS50 IDE. Og vi vil se pÃ¥ kilden kode til dette i et lille stykke tid. Men for lige nu, er vi bare kommer til at pÃ¥berÃ¥be sig den ved at skrive Eliza. 

Og ELIZA vil give dig svar der kommer til at vÃ¦re i alle hovedstÃ¦der. Og kommer til at stille dig nogle spÃ¸rgsmÃ¥l. Og vi vil reagere og skrive i svarene i Eliza. SÃ¥ ELIZA har sagt, "Hej, jeg er ELIZA. Hvad er dit problem?" Hvad vil du gerne fortÃ¦lle ELIZA om i dag? 

MILES: Jeg kan kun falde i sÃ¸vn hvis jeg har bunny slippers pÃ¥. 

BRIAN Scassellati: Okay. Okay. 

[LATTER] 

"Jeg kan kun falde i sÃ¸vn med bunny hjemmesko pÃ¥. " Og ELIZA siger, "Sig, gÃ¸r du har nogen psykiske problemer? MÃ¥ske er det en god indikator. " 

OK. SÃ¥ hvad ville du gerne svare? 

MILES: Ja. 

BRIAN Scassellati: Ja. Mand med mange ord. Jeg nyder det. Eliza siger: "Du virker ganske positivt." 

MILES: Nej, jeg er i virkeligheden en elektron. 

BRIAN Scassellati: "Nej. Faktisk er jeg en elektron. " "Har du kommer til mig fordi du er en elektron? " Nu kan vi se nogle af den things-- jeg har tÃ¦nkt mig at holde pause dig for bare et sekund, Miles. MÃ¥ ikke gÃ¥ nogen steder. Vi er ikke fÃ¦rdig med dig endnu. ELIZA er, pÃ¥ nogle mÃ¥der, reagere pÃ¥ visse ting at han siger, men uden nogen reel forstÃ¥else. Og det er ogsÃ¥ parroting tilbage nogle af de dele af sin straf. 

SÃ¥ sagde vi, "Nej Faktisk er jeg en elektron. " Eliza svarede tilbage, "Har du kommet til mig fordi du er en elektron? " Okay. Lad os give det en mere respons her. Giv det en god en, Miles. 

MILES: Godt Ã©n? 

Ja, kan du hjÃ¦lpe mig. BRIAN Scassellati: "Ja. Please hjÃ¦lp mig. "" Er du sikker? " MILES: Nej. BRIAN Scassellati: Nej. "Hvad vil det foreslÃ¥ dig?" 

MILES: Jeg kan ikke vÃ¦re en elektron. 

BRIAN Scassellati: "Jeg kan ikke vÃ¦re en elektron. " "Siger du ikke bare for at vÃ¦re negativ?" 

Okay. SÃ¥ Miles, tak sÃ¥ meget. 

MILES: Tak. 

BRIAN Scassellati: Tak meget. [BIFALD] 

SÃ¥ dette ELIZA program, pÃ¥ mange mÃ¥der, reagerer blot at stykkerne at vi leverer uden nogen dyb forstÃ¥else af, hvad der sker her. Dette er en form for system kaldes mÃ¸nster matching, hvor Vi leder efter bestemte bidder af tekst, som vi er sÃ¥ kommer til at tage ud af, hvad blev givet som input, konvertere det potentielt pÃ¥ en mÃ¥de, og derefter give det tilbage til brugeren. 

Er der nogen af ââjer tror at ELIZA er faktisk udfÃ¸rer gyldigt psykoanalyse her? Ãn person, mÃ¥ske. 

PUBLIKUM: [uhÃ¸rligt]. BRIAN Scassellati: Og hvordan GÃ¸r det du fÃ¸ler? Ja, faktisk det gÃ¸r. Og vi kommer til at se, faktisk, det kildekoden til det pÃ¥ blot et Ã¸jeblik. Og sÃ¥ du kommer til at vÃ¦re i stand til at gÃ¸re netop dette. 

Nu ELIZA er en form for, hvad vi ville kalde i dag en chat bot. Det bare gÃ¥r gennem tekst, som du giver, giver minimum belÃ¸b forstÃ¥else eller forarbejdning, og sÃ¥ papegÃ¸jer det tilbage til dig. SÃ¥ lad os tage et kig, konceptuelt, og snakke om, hvad det er, at ELIZA faktisk gÃ¸r. 

ELIZA tager en sentence-- lad os sige, "Jeg Ã¸nsker at imponere min chef." Og ELIZA ser gennem denne sÃ¦tning og forsÃ¸ger at finde og matche bestemte mÃ¸nstre. SÃ¥ for eksempel, en af ââde mÃ¸nstre at ELIZA er pÃ¥ udkig efter er de ord "Jeg vil." Og helst det ser noget der har "jeg vil" i det, Det formulerer et svar. Og dette svar er en fast streng. I dette tilfÃ¦lde er det "hvorfor vil du?" Og jeg sÃ¦tte en lille stjerne pÃ¥ sidste ende, fordi det er bare begyndelsen af ââvores svar. Og stjernen angiver, at vi kommer til at tage resten af brugerens utterance-- "for at imponere min chef" - og vi vil tilfÃ¸je, at pÃ¥ enden af ââdenne streng. 

SÃ¥ nu, i stedet for at sige, "hvorfor vil du imponere min chef, " der er en lille smule af yderligere forarbejdning, som vi vil gÃ¸re. Det vil sige, at vi bliver nÃ¸dt til at konvertere nogle af stedord her fra "min chef" til "din chef." Og der kan vÃ¦re et par andre Ã¦ndringer, som vi har brug for at gÃ¸re. SÃ¥ i stedet for bare stikning det direkte pÃ¥ enden, hvad vi vil gÃ¸re er vi vil tage resten af brugerens utterance-- i hvid her-- og vi vil tage det et stykke ad gangen og konvertere hver streng token, hvert ord, ind i sÃ¦tningen. 

SÃ¥ vi vil tage ordet "til". Der er ingen konvertering at vi skal gÃ¸re det. "Impress". Der er ingen konvertering vi nÃ¸dt til at gÃ¸re der. "Min" vil konvertere til "din". Og "boss" Vi vil bare lade som "boss". Og derefter endelig noget der slutter med en periode, vi vil omdanne det til et spÃ¸rgsmÃ¥l. 

Denne meget simpelt mÃ¸nster matching er faktisk ganske vellykket. Og nÃ¥r dette blev indfÃ¸rt i 1966-- Joseph Weizenbaum programmeret det pÃ¥ en computer. Nu, computere pÃ¥ det tidspunkt var ikke stationÃ¦re modeller. De blev delt ressourcer. Og hans elever ville gÃ¥ og chatte med ELIZA. Til sidst mÃ¥tte han begrÃ¦nse adgangen til det fordi hans elever var ikke fÃ¥ noget arbejde gjort. De var bare chatter med ELIZA. Og i virkeligheden, mÃ¥tte han fyre hans assistent, der brugt alle hendes tid pÃ¥ at tale i Eliza om hendes dybe og bekymrende problemer. 

Alle, der brugte disse systemer begyndte at anthropomorphize dem. De begyndte at tÃ¦nke pÃ¥ dem som bliver levende og virkelige mennesker. De begyndte at genkende nogle af de ting, de sagde kom tilbage til dem. Og de finde ud ting om sig selv. Og i virkeligheden, selv eksperterne, selv de psykoterapeuter, begyndte at bekymre sig, at i virkeligheden, mÃ¥ske ELIZA ville vÃ¦re at erstatte dem. Og selv computeren forskere bekymrede, at vi var sÃ¥ tÃ¦t pÃ¥ at lÃ¸se naturligt sprog. 

Nu, det var ikke et sted tÃ¦t pÃ¥ sand. Men det er, hvordan imponerende disse systemer kan synes. SÃ¥ lad os begynde at se nedenunder og prÃ¸v at fÃ¥ en lille smule af et spÃ¸rgsmÃ¥l hvor denne kode rent faktisk sker. SÃ¥ vi vil gÃ¸re denne kode tilgÃ¦ngelige bagefter. Og dette er en meget enkel og direkte port af den oprindelige ELIZA gennemfÃ¸relse. 

SÃ¥ nogle af disse stilistiske ting, som du vil se her ikke stilistisk hvad vi Ã¸nsker dig til at gÃ¸re eller hvad vi har undervist dig at gÃ¸re. Men vi har prÃ¸vet at holde dem den samme pÃ¥ tvÃ¦rs af de mange havne at dette har haft sÃ¥ den har smag af originalen. SÃ¥ vi kommer til at omfatte en masse ting, og sÃ¥ vil vi have en sÃ¦t sÃ¸geord, ting at ELIZA vil genkende og svare direkte. SÃ¥ hvis du har ord som "kan du" eller "Jeg ikke" eller "nej" eller "ja" eller "drÃ¸m" eller "hej", sÃ¥ ELIZA vil reagere selektivt til dem. Vi vil ogsÃ¥ have en bestemt antal ting at vi vil bytte, ligesom konvertere "min" til "din". 

Og sÃ¥ vil vi have et sÃ¦t svar at for hver af disse kategorier, vi vil rotere igennem disse forskellige reaktioner. SÃ¥ hvis jeg siger "ja" tre gange i trÃ¦k, jeg kan fÃ¥ tre forskellige svar fra ELIZA. Vores kode, sÃ¥ er faktisk meget simpel. Hvis jeg rulle ned forbi alle disse reaktioner, som vi har programmeret i og vi kommer ned til vores vigtigste, vi kommer til at initialisere et par forskellige variabler og gÃ¸re en lille smule af husholdning i begyndelsen. Men sÃ¥ er der absolut et sÃ¦t af kode, som du kan forstÃ¥. En stor while-lÃ¸kke, der siger jeg er kommer til at gentage dette igen og igen. Jeg lÃ¦ste i en linje, og jeg vil gemme disse i en input string. Jeg vil kontrollere og se, om det er den sÃ¦rlige sÃ¸geordet "bye", som betyder afslutte programmet. Og sÃ¥ vil jeg kontrollere og se, om nogen er bare gentager sig selv igen og igen. Og jeg vil rÃ¥be ad dem, hvis de gÃ¸r. Jeg vil sige "ikke gentage dig selv." 

SÃ¥ lÃ¦nge ingen af ââdem ske, vi fÃ¥r derefter scanne gennem og slÃ¸jfe gennem, pÃ¥ linje 308 til 313 her, og kontrollere og se, er enhver af de nÃ¸gleord sÃ¦tninger indeholdt i input at jeg bare blev givet? Hvis der er et match for dem, og sÃ¥ vil jeg huske denne placering. Jeg vil huske det pÃ¥gÃ¦ldende sÃ¸geord. Og jeg vil vÃ¦re i stand til at opbygge et svar. 

Hvis jeg ikke kan finde en, ja sÃ¥, den sidste ting i mit sÃ¸geord matrix vil vÃ¦re min standard svar, nÃ¥r intet andet matcher. Jeg vil stille spÃ¸rgsmÃ¥l som "Hvorfor gjorde du komme her? "eller" Hvordan kan jeg hjÃ¦lpe dig? " der er bare delvist passende uanset hvad indgangen er. 

Vi vil derefter opbygge Elizas svar. Vi vil vÃ¦re i stand til at tage at basen respons, ligesom vi gjorde i, at "min chef" eksempel. Hvis det er alt, der is-- hvis det er bare en streng, som jeg skulle respond-- Jeg kan bare sende det tilbage ud. Hvis den har en stjerne I slutningen af ââdet, sÃ¥ vil jeg behandle hver enkelt token resten af ââbrugerens svar og tilfÃ¸je dem i, bytte ud ord for ord, som jeg har brug for. 

Alt dette er absolut noget, du kunne bygge. Og i virkeligheden, de mÃ¥der, hvorpÃ¥ vi har forarbejdet kommandolinjeargumenter, den mÃ¥de, hvorpÃ¥ du har behandles gennem HTTP-forespÃ¸rgsler fÃ¸lge de samme slags regler. De er mÃ¸nster matching. 

SÃ¥ ELIZA havde en relativt vigtig indvirkning pÃ¥ naturligt sprog fordi det gjorde det synes som om det var en meget opnÃ¥eligt mÃ¥l, ligesom en eller anden mÃ¥de vi havde kunne lÃ¸se dette problem direkte. Nu, det er ikke at sige, at ELIZA gÃ¸r alt det, vi Ã¸nsker at gÃ¸re. Bestemt ikke. Men vi bÃ¸r vÃ¦re i stand til at gÃ¸re noget mere. 

Vores fÃ¸rste skridt til at gÃ¥ ud over ELIZA gÃ¥r at kunne se pÃ¥ ikke tekst, der indtastes i tastaturet, men tale, faktiske tale optaget i en mikrofon. SÃ¥ som vi ser pÃ¥ disse forskellige stykker, men vi er nÃ¸dt til at bygge et sÃ¦t af modeller. Vi bliver nÃ¸dt til at vÃ¦re i stand at gÃ¥ fra akustisk pÃ¥ lavt niveau information-- beg, amplitude, frequency-- og konvertere det til nogle enheder, som vi er stand til lettere at manipulere og endelig manipulere dem til ord og sÃ¦tninger. 

SÃ¥ de fleste talegenkendelse systemer, der er derude i dag fÃ¸lge en statistisk model, hvor vi bygger tre separate gengivelser af, hvad at lydsignalet indeholder faktisk. Vi starter med en fonetisk model der taler om netop basen lyde, som jeg producerer. Er jeg producere noget, der er et B som i dreng eller en D som i hund? Hvordan genkender jeg de to forskellige telefoner som adskilte og forskellige? 

Oven i dette, vil vi derefter bygge et ord udtale model noget, der forbinder sammen de individuelle telefoner og kombinerer dem i et ord. Og efter det, vil vi tage de ord, og vi vil samle dem med et sprog model i en hel sÃ¦tning. 

Nu, vi kommer til at tale om hver af disse uafhÃ¦ngigt og sÃ¦rskilt. Men disse tre modeller er alle bare vil vÃ¦re statistik. Og det betyder, nÃ¥r vi arbejde med dem, vi fÃ¥r kunne arbejde med dem alle samtidigt. Okay. Lad os starte med vores fonetisk model. SÃ¥ fonetiske modeller stole pÃ¥ en beregningsmÃ¦ssige teknik sÃ¥kaldte skjulte Markov modeller. Disse er grafiske modeller, hvor jeg har og genkende en tilstand af verden som er kendetegnet ved et sÃ¦t af funktioner. Og at staten beskriver den ene del af en handling, som jeg er engageret i. 

SÃ¥ hvis jeg tÃ¦nke pÃ¥ at gÃ¸re lyden "ma" som mor, Der er forskellige komponenter til den lyd. Der er en del, hvor jeg trÃ¦kker i vejret. Og sÃ¥ er jeg pung mine lÃ¦ber. Og jeg ruller mine lÃ¦ber lidt tilbage bit til at gÃ¸re, at "ma" lyd. Og sÃ¥ er der en udgivelse. Mine lÃ¦ber kommer fra hinanden. Luft er bortvist. "Ma." 

Disse tre forskellige dele ville vÃ¦re reprÃ¦senteret af stater i denne graph-- debut, den midterste, og enden. Og jeg ville have overgange, tilladt mig at rejse fra en tilstand til den nÃ¦ste med en vis sandsynlighed. SÃ¥ for eksempel, at M lyde kan have en meget, meget kort indtag pÃ¥ beginning-- "mm" - og derefter en lÃ¦ngere, vibrerende fase, hvor jeg holder min lÃ¦ber sammen og nÃ¦sten humming-- "mmmm" - og derefter en meget kort klusil hvor jeg udvise breath-- "ma". 

Den skjulte Markov model er designet til at fange den kendsgerning at den mÃ¥de, at jeg gÃ¸r at lyd "ma" gÃ¥r at vÃ¦re en smule anderledes i dens timing, er frekvens, og dens funktioner end den mÃ¥de, at du gÃ¸r det eller den mÃ¥de, at jeg mÃ¥ske gÃ¸re det, nÃ¥r jeg taler om forskellige anvendelser af brevet. "Moder" og "kan jeg" vil lyde en smule anderledes. 

SÃ¥ for at genkende en bestemt lyd, vi ville opbygge Markov modeller, er disse skjulte Markov modeller af alle mulige telefon, jeg mÃ¥ske Ã¸nsker at erkende, alle mulige lyd, og derefter se pÃ¥ akustiske data, som jeg har og bestemme statistisk hvoraf den ene er den mest sandsynlige at have produceret denne lyd. OK. Med denne model, vi sÃ¥ begynde at bygge oven pÃ¥ den. Vi tager en udtale model. Nu undertiden udtale modeller er enkle og nemme fordi der er kun Ã©n mÃ¥de at udtaler noget. Andre gange, de er en lidt mere kompliceret. Her er en udtale guide for den rÃ¸de ting, der er en frugt, som du gÃ¸r ketchup ud af. Folk tror ikke, det er en frugt. HÃ¸jre? 

Nu er der mange forskellige mÃ¥der at folk vil udtale dette ord. Nogle vil sige "toe-maj-tÃ¥." Nogle vil sige "toe-mah-tÃ¥." Og vi kan fange det med en af ââdisse grafiske modeller hvor, igen, reprÃ¦senterer vi overgange som havende en vis sandsynlighed og tilhÃ¸rende sandsynlighed med dem. 

SÃ¥ i dette tilfÃ¦lde, hvis jeg skulle fÃ¸lge den Ã¸verste rute gennem hele denne graf, Jeg ville starte pÃ¥ brevet lÃ¦ngst til venstre er "ta" lyd. Jeg ville tage den Ã¸verste halvdel, den "Ãh," og derefter en "ma" og derefter et "a", og derefter en "TA", og en "Ãh." "Toe-may-tÃ¥." Hvis jeg tog den nederste sti gennem dette, vil jeg fÃ¥ "ta-mah-tÃ¥." Og hvis jeg gik ned og derefter op, jeg ville fÃ¥ "ta-may-tÃ¥." 

Disse modeller fange disse forskelle, fordi hver gang vi implementere en af ââdisse anerkendelse systemer, det kommer til at skulle arbejde med masser af forskellige slags mennesker, masser af forskellige accenter, og selv forskellige anvendelser af de samme ord. Endelig, pÃ¥ toppen af ââdet, vi vil bygge noget der ser virkelig kompliceret, kaldet sprogmodel, men i virkeligheden er den enkleste af de tre fordi disse fungerer pÃ¥ det, der kaldes n-gram-modeller. Og i dette tilfÃ¦lde, jeg viser dig en todelt n-gram model, en bigram. Vi kommer til at gÃ¸re fysisk ideen at nogle gange, visse ord er mere tilbÃ¸jelige til at fÃ¸lge en givet ord end andre. Hvis jeg bare sagde "vejrudsigt" det nÃ¦ste ord kunne sandsynligvis vÃ¦re "i dag" eller kan vÃ¦re "vejret prognose i morgen. " Men det er usandsynligt, at vÃ¦re " vejrudsigt artiskok. " 

Hvad et sprog model gÃ¸r, er det fanger dem statistisk ved at tÃ¦lle, fra nogle meget store Corpus, alle forekomster hvor Ã©t ord fÃ¸lger anden. SÃ¥ hvis jeg tager en stor corpus-- ligesom alle Wall Street Journal der er blevet produceret siden 1930, som er en af ââstandard corpuses-- og jeg ser gennem alle denne tekst, og jeg regner op, hvor mange gange efter "prognose" ser jeg "i dag" og hvor mange gange skal jeg se "prognose" efterfulgt af "artiskok" den fÃ¸rste gÃ¥r til at vÃ¦re meget mere sandsynligt. Det kommer til at blive vist langt oftere. Og sÃ¥ det vil have en hÃ¸jere sandsynlighed er forbundet med det. 

Hvis jeg Ã¸nsker at finde ud af sandsynlighed for en hel ytring, sÃ¥ jeg bare bryde det op. SÃ¥ sandsynligheden for hÃ¸relse sÃ¦tningen "rotten spiste ost" er sandsynligheden for ordet "den" starter en sÃ¦tning, og derefter sandsynligheden for, at ordet "rotte" fÃ¸lger ordet "den" og sandsynligheden for, at Ordet "spiste" fÃ¸lger "rotte" og sandsynligheden for, at "ost" fÃ¸lger "spiste". 

Det lyder som en masse statistik, en masse af sandsynligheder. Og det er alt, hvad det er. Men den forblÃ¸ffende ting er, hvis du gÃ¸r dette med en tilstrÃ¦kkelig stor prÃ¸ve af data, det virker. Og det fungerer uhyre godt. Vi kender alle disse teknologier. De fleste operativsystemer kommer med stemmegenkendelse pÃ¥ dette tidspunkt. Vi bruger Siri og Cortana og Echo. Og disse ting er baseret pÃ¥ denne type trelags model-- en fonetisk model nederst, en udtale model i midten, og en sprogmodel oven pÃ¥ dem. 

Nu er de nÃ¸dt til at gÃ¸re en lille smule mere end, at for at besvare spÃ¸rgsmÃ¥l. Men anerkendelsen af, hvad du er ordsprog afhÃ¦nger nÃ¸jagtigt pÃ¥ det. SÃ¥ lad os tage et eksempel her. SÃ¥ jeg har min telefon sidder heroppe under dokumentkameraet. Og vi kommer til at spÃ¸rger Siri et par spÃ¸rgsmÃ¥l. Okay? 

SÃ¥ lad os vÃ¥gne op min telefon her. Siri, hvad er vejret ligesom i New Haven i dag? 

SIRI: Her er vejret for New Haven, Connecticut i dag. 

BRIAN Scassellati: OK. SÃ¥ fÃ¸rst du sÃ¥, at Siri anerkendt hver af de enkelte ord og derefter produceret en reaktion. Vi taler om, hvordan dette svar kommer omkring i en lille smule. Men nu, hvor vi ved at dette blot er baseret pÃ¥ de rÃ¥ statistik og dette mÃ¸nstersammenligning type tilgang, vi kan spille nogle spil med Siri. 

SÃ¥ jeg kan prÃ¸ve igen. Siri, hvad er vejret flodhest New Haven, i dag? 

SIRI: OK. Her er vejret for New Haven, Connecticut for i dag. BRIAN Scassellati: Siri s ikke skrÃ¦mt af det fordi det er fundet pattern-- "vejr", "i dag", "New Haven." Det er, hvad det er at reagere til, ligesom ELIZA. Okay. Lad os give det en mere selv mere latterligt eksempel. Siri, vejr artiskok bÃ¦ltedyr flodhest New Haven? 

SIRI: Lad mig kontrollere pÃ¥ det. Her er hvad jeg fandt pÃ¥ nettet for hvad er artiskokker bÃ¦ltedyr flodhest New Haven. 

BRIAN Scassellati: OK. SÃ¥ hvis jeg gÃ¥r langt nok vÃ¦k fra denne model, Jeg er i stand til at forvirre det, fordi det ikke lÃ¦ngere matcher det mÃ¸nster, at det har. Og det statistiske motor, der siger, hvad er sandsynligheden for, at du har fÃ¥et ordene flodhest og artiskok sammen og bÃ¦ltedyr? Det er nÃ¸dt til at vÃ¦re noget nyt. 

SÃ¥ disse teknologier, vi bruger hver dag. Hvis vi Ã¸nsker at tage dem et skridt yderligere, men hvis vi faktisk Ã¸nsker at vÃ¦re i stand til at tale om, hvad det er, at disse systemer reagerer pÃ¥, vi nÃ¸dt til at tale igen, om et mere grundlÃ¦ggende sÃ¦t af spÃ¸rgsmÃ¥l. Og det er et emne i kommunikation som vi kalder spÃ¸rgsmÃ¥l besvarelse. Det vil sige, at vi Ã¸nsker at kunne at-- ja? PUBLIKUM: [uhÃ¸rligt]. BRIAN Scassellati: Har vi fÃ¥r i latent semantisk behandling? SÃ¥ ja. Der er en masse ting, som er sker under overfladen med Siri og i nogle af eksemplerne Jeg har tÃ¦nkt mig at vise dig nÃ¦ste hvor der er ganske lidt i form af strukturen af, hvad du siger, det er vigtigt. Og i virkeligheden, det er en stor forlÃ¸ber for det nÃ¦ste dias for mig. 

SÃ¥ pÃ¥ samme mÃ¥de som vores talegenkendelse blev bygget op af flere lag, hvis vi Ã¸nsker at forstÃ¥, hvad det er, der er faktisk er sagt, vil vi igen afhÃ¦ngige af en flerlaget analyse af teksten, der bliver anerkendt. SÃ¥ nÃ¥r Siri er faktisk i stand til at sige, ser jeg fandt disse ord. Nu, hvad skal jeg gÃ¸re med dem? Den fÃ¸rste komponent er ofte at gÃ¥ igennem og forsÃ¸ge at analysere strukturen af ââsÃ¦tningen. Og i det, vi har set i folkeskolen, ofte, som en slags diagrammer sÃ¦tninger, vi kommer at erkende, at visse ord har bestemte roller. Disse er navneord. Disse er stedord. Disse er verber. Og vi kommer til at genkende at for en bestemt grammatik, i dette tilfÃ¦lde engelsk grammatik, der er gyldige mÃ¥der, hvorpÃ¥ jeg kan kombinere dem og andre mÃ¥der, der ikke er gyldige. 

Denne anerkendelse, den struktur, kan vÃ¦re nok til at hjÃ¦lpe med at guide os en lille smule. Men det er ikke helt nok for os at vÃ¦re i stand til at give nogen betydning for, hvad der bliver sagt her. For at gÃ¸re dette, vil vi nÃ¸dt til at stole pÃ¥ en vis mÃ¦ngde af semantisk forarbejdning. Det vil sige, at vi er nÃ¸dt til at kigge pÃ¥ undersiden, hvad hver af disse ord faktisk driver som en betydning. Og pÃ¥ den enkleste mÃ¥de at gÃ¸re dette, vi kommer til at associere med hvert ord at vi ved en bestemt funktion, en vis transformation, at det gÃ¸r det muligt at ske. 

I dette tilfÃ¦lde, kan vi mÃ¦rke Ordet "John" som et egennavn, at det bÃ¦rer med sig en identitet. Og vi kunne mÃ¦rke "Mary" som pÃ¥ samme mÃ¥de. Hvorimod et verbum som "elsker", som udgÃ¸r en sÃ¦rlig forhold at vi er i stand til at reprÃ¦sentere. Nu betyder det ikke, at vi forstÃ¥r hvad kÃ¦rlighed er, men kun, at vi forstÃ¥r det i vejen for en symbolsk system. Det vil sige, at vi kan mÃ¦rke det og manipulere den. 

Med hver af disse typer af fremgangsmÃ¥der, enhver form for semantisk behandling her vil krÃ¦ve lidt lidt viden og en masse arbejde fra vores side. Vi er ikke lÃ¦ngere i realm hvor bare plain statistik vil vÃ¦re nok for os. Nu, med henblik pÃ¥ at gÃ¥ fra dette punkt til at vÃ¦re stand til at tale om indersiden af hvad der rent faktisk sker her, at vÃ¦re i stand til at hÃ¥ndtere denne strukturere og forstÃ¥ et spÃ¸rgsmÃ¥l og derefter vÃ¦re i stand at gÃ¥ ud og sÃ¸ge, der krÃ¦ver en mere komplekse kognitive model. 

Den mÃ¥de, hvorpÃ¥ disse systemer er bygget er for det meste meget, meget arbejdskraft intensiv. De omfatter mennesker tilbringe en hel del af tiden strukturere de mÃ¥der, som disse former for sÃ¦tninger kan reprÃ¦senteres i en vis logik. Det bliver endnu en lille mere kompleks, selv om. 

Selv nÃ¥r vi har behandlet med semantik, vi fÃ¥r stadig nÃ¸dt til at se pÃ¥ pragmatik af hvad der bliver sagt. Det vil sige, hvordan jeg relaterer ordene at jeg er nÃ¸dt til noget fysisk ud der i verden eller pÃ¥ mindste nogle informationskilde at jeg kan manipulere? 

Undertiden disse fÃ¸rer til vidunderlige stumper af tvetydighed. "RÃ¸d-hot stjerne at gifte astronom." OK. Nu lÃ¦ser vi, at da sjove type overskrift at vi ville se pÃ¥ late night tv fordi vi ikke fortolker "stjerne" at have sin himmellegeme betydning. Vi ved, at det betyder mere hverdagskost skuespiller med store mÃ¦ngder af synlighed. 

"Squad hjÃ¦lper hundebid offer." Er det, at holdet er faktisk derude hjÃ¦lpe en hund i at gÃ¥ rundt og bide ofre? Eller er det, at der var en person, der var bidt af en hund, der havde brug for hjÃ¦lp? Lige fra at se pÃ¥ syntaksen og semantik af sÃ¦tningerne, Vi kan ikke afgÃ¸re det. 

"Helicopter drevet af menneskelige fluer." Er der i virkeligheden faktisk smÃ¥ ting, der flyver omkring dette er mennesker med vinger kraftoverfÃ¸rsel helikoptere til gavn for menneskeheden? Eller er der en mekanisk anordning der fÃ¥r sin strÃ¸m fra en person? 

NÃ¥r vi ser pÃ¥ spÃ¸rgsmÃ¥l besvarelse systemer, disse er de lag, vi nÃ¸dt til at beskÃ¦ftige sig med. Nu er den bedste og den mest sortere af udbredt af disse systemer dag er i stand til at gÃ¸re ting pÃ¥ et niveau, der er langt ud over det, vi havde for 10 Ã¥r siden. Her er en af ââde bedste systemer det er derude i dag. Og dette er et system fra IBM kaldes Watson. Dette er fra vores venner pÃ¥ IBM. Dette er Katherine banker, Jia Chen, og Priscilla Moraes giver os en demonstration af Watson i gÃ¥r i IBM Yorktown. [VIDEO PLAYBACK] -Hvordan har du det? 

-Jeg har det godt. Jeg er altid glad, nÃ¥r jeg er tÃ¦nker, isÃ¦r nÃ¥r jeg kan holde hovedet koldt i disse serverrum. Hvem er din yndlings skuespiller? 

-min Yndlings skuespiller Angelina Jolie som Lara Croft i Tomb Raider, fordi hendes oprindelige formular var som en virtuel karakter som mig. 

-Hvordan Kan Watson hjÃ¦lpe patienter? 

-er Planen for patienter til har adgang til Watson direkte? Adgang til Watson rÃ¥dgivende applikationer vil variere fra use case. Men i Ã¸jeblikket, vil kun give Watson mulig diagnose og behandling indstillinger til lÃ¦ge. Hvor det er hensigtsmÃ¦ssigt, patienter kan give oplysninger til Watson, mÃ¥ske gennem en portal web interface, tablet, eller endda en mobiltelefon. For eksempel kan en patient vÃ¦re bedt om at beskrive deres symptomer i naturligt sprog direkte i en Watson-oplÃ¸sning, at lÃ¦gen kan fokusere pÃ¥ diagnose og ikke dataindsamling. 

-Hvem Myrdet Abraham Lincoln? 

-John Wilkes Booth. 

-I Hvilket Ã¥r gjorde Arizona Diamondbacks vinde World Series? 

-2001. 

[END AFSPIL] 

BRIAN Scassellati: SÃ¥ disse typer af systemer nÃ¸dt til at stole pÃ¥ fÃ¸rst anerkender tale; anden, omdanne den til en meningsfuld intern reprÃ¦sentation; og derefter, tredje, at kunne gÃ¥ ud og finde informationskilden, som giver dem mulighed for at besvare dette spÃ¸rgsmÃ¥l. Dette niveau af kompleksitet indebÃ¦rer de samme typer af programmatiske ting at du har vÃ¦ret gÃ¸r i problemomrÃ¥der sÃ¦t. 

Vi er i stand til at parse HTTP-anmodninger i samme type lavt niveau mÃ¸nster matching som ELIZA kan gÃ¸re. Vi er i stand til at konvertere dem til en intern reprÃ¦sentation, og derefter bruge dem til at forespÃ¸rge nogle ekstern database, eventuelt ved anvendelse af SQL. Alle de systemer, er ved at blive bygget i dag at gÃ¸re denne type af naturlige sprog kommunikation er ved at blive bygget pÃ¥ disse samme principper. 

Nu, selv et system som Watson er ikke kompliceret nok at vÃ¦re i stand til at svare pÃ¥ vilkÃ¥rlige spÃ¸rgsmÃ¥l om ethvert emne. Og i virkeligheden, de skal vÃ¦re struktureret inden for en given domÃ¦ne. SÃ¥ du kan gÃ¥ online og du kan finde versioner af Watson, der opererer godt inden for medicinsk informatik. Eller der er en online der bare beskÃ¦ftiger sig med, hvordan at gÃ¸re gode anbefalinger om hvad Ã¸l vil gÃ¥ med hvilken mad. Og inden for disse domÃ¦ner, det kan besvare spÃ¸rgsmÃ¥l, finde de oplysninger, den har brug for. 

Men du kan ikke mikse og matche dem. Systemet, der er blevet uddannet med databasen over fÃ¸devarer og Ã¸l fungerer ikke godt, nÃ¥r du pludselig sÃ¦tte det i med den medicinske informatik database. SÃ¥ selv vores bedste systemer i dag stole pÃ¥ et niveau af behandling hvor vi er hÃ¥nd kodning og bygning i infrastruktur for at dette system kan kÃ¸re. 

Nu er den sidste emne, jeg vil have at kunne komme til dag handler om nonverbal kommunikation. En stor masse af information, der vi kommunikerer med hinanden ikke ske gennem enkelte ord, som vi anvender. Det har at gÃ¸re med ting som nÃ¦rhed, blik, dit tonefald, din bÃ¸jning. Og at kommunikation er ogsÃ¥ noget, som mange forskellige grÃ¦nseflader pleje meget om. Det er ikke, hvad Siri bekymrer sig om. Jeg kan spÃ¸rge Siri noget i Ã©n stemme eller i et andet tonefald, og Siri kommer til at give mig det samme svar. Men det er ikke det, vi bygger for mange andre typer af grÃ¦nseflader. 

Jeg Ã¸nsker at introducere dig nu et af de robotter. Dette blev bygget af min mangeÃ¥rige ven og kollega Cynthia Breazeal og hendes firma Jibo. Og denne robot-- vi vil at have et par frivillige komme til at interagere med dette. SÃ¥ kan jeg have to mennesker er villige at lege med robotten for mig? Hvorfor tager du ikke kommer videre op, og hvorfor ikke du kommer videre op. Hvis du gerne slutte mig op her, tak. 

Og hvis jeg kunne have dig kommer lige herovre. Tak. Hej. 

ALFREDO: Rart at mÃ¸de dig. Alfredo. 

BRIAN Scassellati: Alfredo. 

RACHEL: Rachel. BRIAN Scassellati: Rachel. Rart at mÃ¸de jer begge. Alfredo, jeg har tÃ¦nkt mig at have dig gÃ¥ fÃ¸rst. Kom lige op her. Jeg har tÃ¦nkt mig at indfÃ¸re du-- hvis jeg kan fÃ¥ dette fra uden at banke den microphone-- til en lille robot ved navn Jibo. OK? 

Nu er Jibo designet til at vÃ¦re interaktivt. Og selv om det kan give dig tale, meget af interaktionen med robotten er nonverbal. Alfredo, jeg har tÃ¦nkt mig at bede dig om at sige noget pÃ¦nt og gratis til robotten, tak. ALFREDO: Jeg tror, ââdu ser sÃ¸d. 

[Snurrende lyd] BRIAN Scassellati: OK. Sit svar er ikke verbal. Og alligevel gav dig bÃ¥de en klar anerkendelse at det havde hÃ¸rt, hvad du sagde og ogsÃ¥ pÃ¥ en mÃ¥de forstÃ¥et. OK? TrÃ¦d tilbage her i et sekund. Tak. 

Rachel, hvis du ville. Nu, jeg har tÃ¦nkt mig at give dig meget svÃ¦rere opgave. Hvis du gerne stÃ¥ lige her, sikkerhedskopiere bare en lille smule, sÃ¥ vi kan fÃ¥ dig pÃ¥ kamera og ser pÃ¥ denne mÃ¥de. Jeg har tÃ¦nkt mig at bede dig om at sige noget virkelig betyder og vÃ¦mmeligt til robotten. 

RACHEL: Hvad du syntes bare at gÃ¸re, var fuldstÃ¦ndig absurd. 

[Summende lyd] 

Det var endnu mere absurd. Hvad sker der med dig? Ãv, ikke fÃ¸ler sig dÃ¥rligt. Jeg vil give dig et knus. BRIAN Scassellati: Okay. Tak, Rachel. Alfredo, Rachel, tak fyrene meget. 

[BIFALD] 

SÃ¥ denne form for interaktion har i mange mÃ¥der nogle af de samme regler og nogle af de samme struktur som hvad vi kan have i sproglig interaktion. Det er bÃ¥de kommunikative og tjener et vigtigt formÃ¥l. Og at interaktionen i mange mÃ¥der, er designet at have en sÃ¦rlig effekt pÃ¥ person, interagere med eller lytte til robotten. 

Nu, jeg er heldig nok at have Jibo her i dag. Sam Spaulding er her at hjÃ¦lpe os ud med robotten. Og jeg har tÃ¦nkt mig at spÃ¸rge Sam til at give os en pÃ¦n demo af Jibo dans at vi kan se i slutningen her. SÃ¥ gÃ¥ videre, Jibo. 

SAM: OK, Jibo. Vis os dine dansetrin. 

[Musik spiller] BRIAN Scassellati: Okay, alle sammen. Tak til vores venner pÃ¥ Jibo. 

[BIFALD] 

Og tak til vores venner pÃ¥ IBM til at hjÃ¦lpe ud i dag. Kommunikation er noget at du vil at se kommer op mere og mere som vi bygger mere komplekse grÃ¦nseflader. I nÃ¦ste uge vil vi tale om, hvordan interface med computer modstandere i spil. Men hvis du har spÃ¸rgsmÃ¥l om dette, Jeg vil vÃ¦re rundt pÃ¥ kontortid i aften. Jeg er glad for at snakke med dig om AI emner eller for at fÃ¥ mere i detaljer. Hav en god weekend. 

[BIFALD] [Musik spiller]