[MUZYKI] DAVID MALAN: To CS50. To jest koniec tygodnia 10. A chłopak, nie mamy dobrej klasy dla Ciebie dziś. Jesteśmy tak podekscytowany, aby zaprosić dwóch nasi przyjaciele z Yale aż do nas dzisiaj i patrzeć na skrzyżowaniu sztuczna inteligencja, robotyka, przetwarzanie języka naturalnego, i więcej. I rzeczywiście, w ciągu ostatnie tygodnie, mamy na pewno spędził dużo czasu, zwłaszcza we wcześniejszych psets, koncentrując się na ładnych szczegółów niskiego poziomu. I to jest bardzo łatwo stracić z oczu lasu dla drzew i się powiesił się na pętli i warunków i wskaźniki, oczywiście, i tym podobne. Rzeczywistość jest jednak macie teraz Składniki, z którym można naprawdę rozwiązać kilka interesujących problemów, m.in. nich te, które nasi przyjaciele z Yale pracować tylko nieśmiały Cambridge. Więc pozwól mi pierwszy wprowadził naszą głowę asystent z Yale, Andy. [OKLASKI] ANDY: Przede wszystkim, po prostu dziękuję za umożliwienie kilka Yalies pop na dół do Cambridge dziś. Naprawdę to doceniam. Po drugie, do naszych przyjaciół powrót home-- Jason, dzięki za pobyt i prowadzenie wykładu. Mam nadzieję, że to wszystko jest dobre w New Haven. Więc tak, jestem bardzo podniecony wprowadzenie Scaz dziś. Scaz prowadzi laboratorium robotyki. On jest profesorem, jak, pięć różne działy w Yale. W swoim laboratorium, ma wiele, wiele roboty, że lubi się bawić. Ma, podobnych, najfajniejsza praca na świecie. I dostaje rodzaju bałagan ok z tym cały dzień długi i trochę pracy, jak również. A więc tak naprawdę przyniósł jeden z nich się z nami już dziś. Więc bez zbędnych ceregieli, Scaz jest zamiar iść dalej i wprowadzić nas do jego przyjaciela robota. [OKLASKI] BRIAN SCASSELLATI: Dzięki, David. Dzięki, Andy. To jest tak wspaniałe być tutaj z dziś każdy. Chcę pierwszy być bardzo jasne, że personel tutaj CS50 w Cambridge była niezwykle gościnni do nas. Jesteśmy bardzo wdzięczni za wszystko zrobili nas wspierać. A więc chcielibyśmy, aby móc powrót życzliwość. Więc dzisiaj, mamy do ogłoszenia że będziemy mieć nowy, jedyny w swoim rodzaju wydarzeniu CS50 dzieje się w New Haven w przyszłym tygodniu. I to jest CS50 Badania Expo. Tak więc mamy zamiar być zaproszenie everyone-- CS50 studentów, Pracownicy zarówno Harvard i Yale-- do przyjść i odwiedzić nas w piątek. Będziemy mieć szeroki wybór z ponad 30 różnych osób prezentujących i exhibiting-- upperclassmen pokazując wyłączyć niektóre z ich produktów badawczych. Będziemy mieć kilka startupów, nawet, patrząc na trochę nowych tech talent, firmach zarówno z Harvardu i Yale. I będziemy mieć kilka grup studentów poszukuje jakiegoś nowego składu. To będzie bardzo ekscytujący czas. Mam nadzieję, że ci z was, którzy są schodzili na Harvard-Yale gry będą w stanie zatrzymać przez trochę wcześnie, w samym centrum kampusu, Sterling Memorial Library. Mamy zamiar mieć zestaw Eksponaty, które wahają się od autonomiczne żaglówki do sposobów korzystania z oprogramowania do zachowania średniowiecznych rękopisów. My będziemy mieć ogłoszenie sieci hoc i ludzie nauczanie kodowanie oprogramowania w Cape Town. Będziemy mieć komputer pokazy muzyczne. A my oczywiście mieć więcej roboty. Więc mamy nadzieję, że będziesz dołącz do nas na tej imprezie. Powinno być dużo zabawa, trochę jedzenia, i wiele interesujące rzeczy mówić. Więc dzisiaj będziemy rozmawiać o przetwarzaniu języka naturalnego. I to jest dla nas próba zbudować nowy sposób łączenia z naszych urządzeń, ponieważ w ciągu ostatnich kilku tygodni, już koncentruje się na, jak to jest, że można napisać kod, pisać oprogramowanie który to sposób jest w stanie powiedzieć Maszyna, to jest to, co chcę, aby to zrobić. Ale nie ma potrzeby spodziewać się, że wszystko, to, że obecnie nie jest używany przez wszystkich na świecie będzie sprawny w tego rodzaju instrukcji. Więc odróżnić komputera języki i naturalne languages-- czyli rzeczy, które ludzie używają komunikować się z innymi ludźmi. I staramy się budować interfejsy, które używają te naturalne mechanizmy komunikacji. Teraz, tak jak każdy inny temat że zaczęliśmy się w CS50, mamy zamiar zacząć od najprostszych Trochę przetwarzania języka naturalnego które możemy sobie wyobrazić. Mamy zamiar zacząć od Historyczna część języka naturalnego. I wtedy będziemy budować na coraz nowsze systemy i zabawy dema po drodze. Tak więc mamy zamiar zacząć od tego, co było prawdopodobnie pierwszym językiem naturalnym system przetwarzania. Był to system oprogramowania napisane w 1966 roku przez Josepha Weizenbaum nazywa Eliza. I ELIZA został zaprojektowany do replikować rodzaj interakcji trzeba z Rogerian psychoterapeuta. Teraz, Rogerians, mieli pomysł, że psychoterapia zaangażowana jest w stanie odzwierciedlać powrotem pacjentowi i rozmawiać z nimi, w zasadzie, tylko przez nadanie im malutkie nieco terapeuty. Oznacza to, że wszystko że terapeuta powiedział miał być po prostu odzwierciedleniem co pacjent mówił do nich. Więc spróbujmy demo tego. Czy mamy ochotnika, kto by być chętni do dzielenia się ich najgłębsze, najciemniejsze i / lub fałszywe tajemnice z ELIZA? Jasne, czemu nie pójdziesz na górę. Fantastyczny. A Twoje imię? MILES: Miles. BRIAN SCASSELLATI: Miles. Miło cię poznać, Miles. Jeśli chcesz trzymać się tego. I będziemy używać wersji ELIZA że mamy replikowane w IDE CS50. A my spojrzeć na źródła Kod do tego za chwilę. Ale na razie, jesteśmy po prostu zamiar wywołać wpisując Elizę. I ELIZA zamierza dać odpowiedzi które będą we wszystkich stolicach. I zamierza zadać kilka pytań. I będziemy reagować i wpisz w odpowiedzi na ELIZA. Więc ELIZA powiedział: "Cześć, jestem Eliza. Jaki masz problem?" Co chcesz powiedzieć Eliza dzisiaj? MILES: Mogę tylko zasnąć jeśli mam kapcie bunny na. BRIAN SCASSELLATI: Wszystko w porządku. W porządku. [ŚMIECH] "Mogę tylko zasnąć z bunny pantofle na. " Eliza mówi: "Powiedz, prawda masz jakieś problemy psychiczne? Być może jest to dobry wskaźnik. " OK. Więc co chcesz odpowiedzieć? MILES: Tak. BRIAN SCASSELLATI: Tak. Człowiek z wielu słów. I cieszyć się, że. Eliza mówi: "wydaje się dość pozytywnie." MILES: Nie, jestem w rzeczywistości, elektron. BRIAN SCASSELLATI: "Nie. W rzeczywistości, jestem elektron. " "Czy przyszedłeś do mnie bo jesteś elektron? " Teraz możemy zobaczyć niektóre z things-- idę aby zatrzymać cię tylko na sekundę, Miles. Nigdzie nie odchodź. Jeszcze nie skończyliśmy z tobą jeszcze. ELIZA jest, w pewnym sensie, reaguje na pewne rzeczy że on mówi, ale bez jakiekolwiek prawdziwe zrozumienie. I to również papuga powrotem niektóre z części kary. Więc powiedział: "Nie. W rzeczywistości, jestem elektron. " Eliza odpowiedziała powrotem, "Czy przyszedłeś do mnie, bo jesteś elektron? " W porządku. Dajmy mu jeszcze jedną odpowiedź tutaj. Daj mu dobry, Miles. MILES: Dobry jeden? Tak, proszę mi pomóc. BRIAN SCASSELLATI: "Tak. Proszę mi pomóc. "" Czy na pewno? " MILES: Nie BRIAN SCASSELLATI: Nie "Co to proponuję do ciebie?" MILES: Nie może być elektron. BRIAN SCASSELLATI: "Ja Nie może być elektronów. " "Czy nie mówiąc po prostu być ujemne?" W porządku. Więc Miles, bardzo dziękuję. MILES: Dziękuję. BRIAN SCASSELLATI: Dziękuję bardzo. [OKLASKI] Więc ten program ELIZA, na wiele sposobów, reaguje tylko kawałki zapewniając, że jesteśmy bez głębokiego zrozumienie tego, co się tutaj dzieje. Ten rodzaj systemu nazywa pasujące do wzorca, gdzie szukamy pewne fragmenty tekstu, że mamy czym zamiar wziąć z tego, co dostarczono jako wejście przekształcić go, potencjalnie, w jakiś sposób, a następnie oddać do użytkownika. Czy ktoś z was myśli że ELIZA jest rzeczywiście wykonywania ważnego psychoanalizę tutaj? Jedna osoba, może. PUBLICZNOŚCI: [niesłyszalne]. BRIAN SCASSELLATI: A jak ma się z tym czujesz? Tak, w rzeczywistości nie. I mamy zamiar zobaczyć, Faktycznie, Kod źródłowy dla niej za chwilę. A więc masz zamiar się w stanie dokładnie to zrobić. Teraz, ELIZA jest jedną z form, co nazwalibyśmy dziś czat bot. To po prostu poprzez Tekst, który jesteś zapewniając, zapewnia minimum ilość zrozumienia lub przetwarzania, papugi go, a następnie z powrotem do Ciebie. Warto więc spojrzeć, koncepcyjnie, i porozmawiać o tym, co jest to, że ELIZA rzeczywiście robi. ELIZA bierze sentence-- Miejmy powiedzieć: "Chcę, aby zaimponować szefowi." I ELIZA szuka po tym zdaniu i stara się znaleźć i dopasować pewne wzorce. Tak więc, na przykład, jeden ze wzorów że ELIZA szuka są słowa "Chcę." I za każdym razem, że widzi coś że ma "chcę" w nim, formułuje odpowiedź. I że odpowiedź jest stały ciąg. W tym przypadku, to: "dlaczego chcesz?" I umieścić trochę gwiazdę na koniec, bo to jest po prostu początek naszej odpowiedzi. A gwiazda wskazuje, że mamy zamiar wziąć resztę z utterance-- użytkownika "zaimponować szefowi" - i mamy zamiar dołączyć, że na końcu tego łańcucha. Więc teraz, zamiast mówić: "dlaczego chcesz zaimponować szefowi, " jest trochę dodatkowe Przetwarzanie, że zrobimy. Oznacza to, że będziemy musieli konwersji niektóre zaimki tu z "szefem" do "szefa". I nie może być kilka innych Zmiany, które musimy zrobić. Tak więc, zamiast po prostu trzymać go bezpośrednio na końcu, co zrobimy jest weźmiemy resztę utterance-- autora w białym here-- i my ją jeden kawałek na czas i przekonwertować każdy łańcuch Znak, każde słowo, w zdaniu. Więc weźmiemy słowo "do". Nie ma konwersji że musimy to zrobić. "Piętno." Nie ma konwersji trzeba tam robić. "My" zamieni się "twój". I "szef", będziemy po prostu zostawić jako "szefa". I w końcu, wszystko że kończy się okres, będziemy przekształcić go w pytaniu. To bardzo proste, pasujące do wzorca jest całkiem udany. A kiedy to został wprowadzony w 1966-- Joseph Weizenbaum Ta zaprogramowana w komputerze. Teraz komputery w tym czasie nie były modele desktopowe. Byli udostępnionych zasobów. I jego uczniowie iść i porozmawiać z ELIZA. W końcu musiał ograniczyć dostęp do niego dlatego, że jego uczniowie nie byli coraz wykonana praca. Oni po prostu rozmawiając z ELIZA. I rzeczywiście, miał ogień jego asystenta, który spędził cały swój czas rozmawiając z ELIZA o swoich głębokich i niepokojących problemów. Każdy, kto używał tych systemów zaczął je antropomorfizować. Zaczęli myśleć o nich jako jest ożywione i prawdziwi ludzie. Zaczęli do uznania niektórych to, co mówili wracali do nich. A oni dowiedzieć się, rzeczy o sobie. A w rzeczywistości nawet eksperci nawet psychoterapeuci, zaczął się martwić, że w rzeczywistości, Może ELIZA byłoby zastąpienie ich. A nawet komputer Naukowcy obawiają się, że byliśmy tak blisko do rozwiązywania języka naturalnego. Teraz, że nie było nigdzie w pobliżu prawda. Ale to, jak imponujące systemy te mogą wydawać. Więc zacznijmy szukać poniżej i spróbuj dostać trochę pytanie gdzie ten kod faktycznie się dzieje. Więc zrobimy ten kod dostępne później. I jest to bardzo proste i bezpośrednie portu oryginalnego realizacji ELIZA. Tak więc niektóre z nich stylistyczne rzeczy, które zobaczysz tutaj nie są stylistycznie co chcielibyśmy, aby zrobić lub co my nauczania można zrobić. Ale staraliśmy się je utrzymać taka sama dla licznych portów które miało to tak, że ma smak oryginału. Tak więc mamy zamiar to kilka rzeczy, i wtedy będziemy mieli zestaw słów kluczowych, rzeczy że ELIZA rozpozna i bezpośrednie. Więc jeśli masz takie słowa jak "można" lub "nie" lub "nie" lub "tak" lub "marzenie" lub "cześć", a następnie ELIZA selektywnie odpowiedzi na te. Będziemy także mieć pewna liczba rzeczy że będziemy wymieniać, jak konwersji "my" na "swoje". I wtedy będziemy mieć zestaw odpowiedzi że każde z tych słów, będziemy obracać się te różne reakcje. Więc jeśli mówię "tak" trzy razy z rzędu, ja może uzyskać trzy różne Odpowiedzi z ELIZA. Nasz kod, a następnie, rzeczywiście bardzo prosta. Jeśli mogę przewinąć w dół obok nich wszystkich odpowiedzi, że mamy zaprogramowane w i dostać się do naszego głównego, mamy zamiar zainicjować kilka różnych zmiennych i zrobić trochę sprzątania na początku. Ale to nie ma absolutnie zestaw kodu, który można zrozumieć. Jedna wielka pętla while, która mówi, że jestem powtórzę to w kółko. Czytam w linii, i będę zapisać, że w ciągu wejściowego. Będę sprawdzić i zobaczyć, czy jest to Specjalny kluczowe "do widzenia", który Oznacza wyjść z programu. A potem będę sprawdzić i zobaczyć, czy ktoś po prostu powtarzając się raz po raz. I będę krzyczeć na nich, jeśli robią. Powiem "nie powtarzaj się." Tak długo, jak żadna z tych wydarzy, będziemy następnie poprzez skanowanie i pętli, na liniach 308 do 313 tutaj i sprawdź i zobacz to każdy z tych kluczowych Określenie zawarte w wejściu że właśnie podane? Jeśli jest mecz dla nich, oraz potem, będę pamiętać, że lokalizacja. Będę pamiętać, że słowa kluczowego. I będę w stanie zbudować odpowiedź. Jeśli nie znajdę jeden, dobrze więc, ostatnia rzecz w moim tablicy słów kluczowych Domyślne będzie moje odpowiedzi, kiedy nic innego nie pasuje. Zadaję pytania typu "dlaczego tu? "lub" Jak mogę pomóc? " które są tylko częściowo odpowiednie bez względu na to, co jest wejście. Będziemy wtedy budować odpowiedź Elizy. Będziemy w stanie podjąć że odpowiedź podstawa, tak jak zrobiliśmy to w tym "mój szef" przykład. Jeśli to wszystko, że nie jest-- jeśli to tylko jeden Ciąg, który Ja mam respond-- Może po prostu wysłać go z powrotem. Jeśli ma gwiazdkę na koniec na tym, a potem będę przetworzyć każdy pojedynczy wyraz w reszta odpowiedzi użytkownika i dodać te, w, wymieniając słowo w słowo, jak trzeba. Wszystko to jest całkowicie coś, co można zbudować. I rzeczywiście, te sposoby, w których mają zrealizowane argumenty wiersza poleceń, sposób, w jaki masz przetwarzane przez żądań HTTP wykonaj te same rodzaje reguł. Są pasujące do wzorca. Więc Eliza stosunkowo ważne wpływ na języku naturalnym bo to sprawiło, że wydaje się, że to bardzo osiągalny cel, jak jakoś bym w stanie rozwiązać problemu bezpośrednio. Teraz, to nie znaczy, że ELIZA robi wszystko, co chcielibyśmy robić. Zdecydowanie nie. Ale powinniśmy być w stanie zrobić coś więcej. Naszym pierwszym krokiem, aby przejść poza ELIZA będzie aby być w stanie spojrzeć na Nie tekst wpisywany na klawiaturze, ale słowa, faktyczna mowy nagrane do mikrofonu. Więc, jak patrzymy na nich różne kawałki, jesteśmy będzie musiał zbudować zestaw modeli. Mamy zamiar być w stanie jechać z akustycznych niskiego poziomu information-- boisko, amplituda, frequency-- i przekonwertować do niektóre jednostki, że jesteśmy mogli łatwiej manipulować i wreszcie manipulowania nimi w słowa i zdania. Więc najbardziej rozpoznawania mowy systemy, które są tam dzisiaj postępuj statystyczny Model, w którym budujemy trzy oddzielne reprezentacje co że sygnał audio rzeczywiście zawiera. Zaczynamy od fonetycznego modelu które mówi o tylko podstawy brzmi, że jestem produkcji. Ja produkcji czegoś, co jest B jak na chłopca lub D jak w psa? Jak mogę rozpoznać tych dwóch różnych telefony jak odrębną? Oprócz tego, będziemy następnie zbudować słowo modelu wymowę, coś, co łączy ze sobą te poszczególne telefony i łączy je w słowie. A potem weźmiemy słowa i będziemy montować je w języku modelować w kompletne zdania. Teraz będziemy rozmawiać o sobie z nich niezależnie i oddzielnie. Ale te trzy modele są tylko będzie statystyka. A to oznacza, kiedy pracować z nimi, będziemy móc pracować je wszystkie jednocześnie. W porządku. Zacznijmy naszą fonetycznej modelu. Więc modele fonetyczne polegać na technika obliczeniowa Ukryte modele Markowa nazywa. Są to modele graficzne, w którym mieć i rozpoznać stan świata a charakteryzuje zestawem funkcji. I ten stan opisuje jedną część skargi, że jestem zaangażowany w. Więc jeśli myślę o zrobieniu dźwięk "ma" jak matka, nie różnią Komponenty do tego dźwięku. Jest częścią, gdzie zwrócić się w powietrze. I wtedy kiesy moje usta. I toczyć moje usta się trochę do tyłu nieco, aby ten "ma" dźwięku. A wtedy nie uwolnienie. Moje usta rozpadnie. Powietrze jest wykluczony. "Mama." Te trzy różne części będzie reprezentowane przez państwa w tym graph-- początek, środek i koniec. I będę musiał przejść, że pozwoliła mi podróżować z jednego stanu do drugiej z pewnym prawdopodobieństwem. Tak więc, na przykład, że M dźwięk może mieć bardzo, bardzo krótki spożycie w beginning-- "mm" - i wtedy dłużej Faza wibracyjny, gdzie trzymam moje wargi i niemal humming-- "mmmm" - i to bardzo krótki plosive gdzie wyrzucić breath-- "Ma". Ukryty modelu Markowa jest przeznaczony do przechwytywania fakt że sposób, że robię że dźwięk "ma" będzie się nieco inaczej jej czas, to częstotliwość, i jego funkcje niż sposób, że ci się uda lub sposób, że może sprawiają, że kiedy mówię o różne zastosowania listu. "Matka" i "może ja" będzie brzmieć nieco inaczej. Tak więc, aby rozpoznać szczególności dźwięk, że będzie budować modele Markowa, te ukryte Markowa modele, z każdej możliwej telefon, że I Może chcą uznać, każdy możliwy dźwięk, a następnie spojrzeć na dane akustyczne, że mam i określić statystycznie który z nich jest najbardziej prawdopodobny aby dały ten dźwięk. OK. Z tego modelu, my wtedy zacząć budować na nim. Bierzemy wymową. Teraz, czasami wymowa Modele są proste i łatwe dlatego, że jest tylko jedna sposób wymówić coś. Inne czasy, że jesteś trochę bardziej skomplikowane. Oto przewodnik wymowa dla tej czerwonej rzeczy, które są owoce, które sprawiają, ketchup z. Ludzie nie myślą, że to owoce. Dobrze? Obecnie istnieje wiele różnych metod że ludzie będą wymawia to słowo. Niektórzy powiedzą "toe-maj-toe". Niektórzy powiedzą "toe-mah-toe". I możemy uchwycić, że z jeden z tych modeli graficznych gdzie znowu reprezentujemy przejścia jako posiadające pewne prawdopodobieństwo i związane z tym prawdopodobieństwo z nimi. Więc w tym przypadku, gdybym miał do naśladowania górna trasa przez cały ten wykres, Chciałbym być począwszy od litery daleko po lewej, "ta" dźwięk. Wziąłbym górną połowę, W "och", a następnie "ma" i "a", a następnie "ta" i "ach". "Toe-may-toe". Gdybym wziął dolną drogę przez to będę się "TA-mah-toe". A gdybym poszedł, a następnie się, chciałbym uzyskać "TA-maj-toe". Modele te uchwycić te różnice, bo gdy możemy wdrożyć jeden z nich Systemy rozpoznawania, to będzie musiał pracować z wiele różnego rodzaju ludzi, wiele różnych akcentów, a nawet różne zastosowania tych samych słów. Wreszcie, na dodatek, będziemy budować coś że wygląda naprawdę skomplikowane, zwany model języka, ale w rzeczywistości jest najprostszym trzy, bo te działają na tak zwane modele n-gram. I w tym przypadku, jestem pokazano, dwuczęściowy Model n-gram, A BIGRAM. Jedziemy do fizycznej pomysł że czasami niektóre słowa są bardziej prawdopodobne, aby postępować zgodnie ze dane słowo niż inne. Gdybym tylko, że "Prognoza pogody" następne słowo może prawdopodobnie "dzisiaj" lub może być "pogoda Prognoza na jutro. " Ale to jest mało prawdopodobne, aby być " prognoza pogody karczocha. " Jaki model język nie jest ujmuje tych statystycznie licząc od niektórych bardzo duże corpus, wszystkie instancje w której jedno słowo następuje kolejny. Więc jeśli wezmę dużą corpus-- jak co Wall Street Journal który jest produkowany od 1930 roku, który jest jednym z normą corpuses-- i patrzę przez wszystkich ten tekst, i liczę ile razy po "dzisiaj", "Prognoza" widzę i ile razy widzę "Prognoza", a następnie "karczoch" pierwszy z nich będzie jest znacznie większe. To będzie się pojawiać znacznie częściej. I tak będziesz mieć wyższą prawdopodobieństwa związanego z nim. Jeśli chcę, aby dowiedzieć się prawdopodobieństwo całej wypowiedzi, następnie, po prostu złamać go. Tak więc prawdopodobieństwo rozprawie zdanie "szczur zjadł ser" jest prawdopodobieństwo tego słowa "the" zaczynając zdanie, i prawdopodobieństwo, że Słowo "szczur" następuje słowo "THE" a prawdopodobieństwo, że Słowo "zjadł" podąża "szczura" oraz prawdopodobieństwo, że "ser" następuje "zjadł". To brzmi jak dużo statystyki, wiele prawdopodobieństw. I to jest wszystko, co to jest. Ale zadziwiające jest to, jeśli to zrobisz z wystarczająco dużej próbki danych, to działa. I działa niesamowicie dobrze. Wszyscy wiemy, że te technologie. Większość systemów operacyjnych pochodzą z rozpoznawania głosu w tym punkcie. Używamy Siri i Cortana i Echo. A te rzeczy są oparte na Tego typu trójwarstwowego model-- fonetyczny modelu na dole, a Wymowa model w środku, i model języka na nich. Teraz mają zrobić trochę więcej niż w celu odpowiedzi na pytania. Ale uznanie, co masz powiedzenie zależy właśnie na tym. Więc weźmy przykład tutaj. Więc mam mój telefon siedzi tutaj pod kamerą dokumentu. I mamy zamiar zwraca Siri na kilka pytań. W porządku? Więc obudź się mój telefon tutaj. Siri, jaka jest pogoda jak w dzisiejszym New Haven? Siri: Oto pogoda dla New Haven, Connecticut dziś. BRIAN SCASSELLATI: OK. Więc pierwszy zobaczyłem, że Siri uznane każdy z poszczególnych słów a następnie wytwarza się w reakcji. Porozmawiamy o tym, że reakcja chodzi o w trochę. Ale teraz, gdy wiemy, że opiera się na surowych danych statystycznych i tym wzór typu dopasowanie podejścia, możemy pograć w gry z Siri. Więc mogę spróbować ponownie. Siri, jaka jest pogoda Hipopotam New Haven, dzisiaj? Siri: OK. Oto pogoda dla nowych Haven, Connecticut na dzisiaj. BRIAN SCASSELLATI: Siri nie obawiają się, że bo to znalazł pattern-- "pogoda", "dzisiaj", "New Haven." To jest to, co reaguje by, tak jak Eliza. W porządku. Dajmy jej jeszcze nawet bardziej śmieszny przykład. Siri, pogoda karczoch Pancernik hipopotam New Haven? Siri: Pozwól mi sprawdzić się na tym. Oto co znalazłem w internecie za to, co są karczochy Armadillo Hipopotam New Haven. BRIAN SCASSELLATI: OK. Więc jeśli pójdę na tyle daleko z dala od tego modelu, Jestem w stanie zmylić, bo to nie ma już pasuje do wzorca, że ​​ma. I że statystyczna silnik, który mówi, co to jest prawdopodobieństwo, że masz hipopotam słowa i karczochami razem i Armadillo? To musi być coś nowego. Więc tych technologii używamy na co dzień. Jeśli chcemy się im jeden krok dalej, choć, jeśli rzeczywiście Chcesz być w stanie rozmawiać o tym, co jest to, że systemy te reagują, musimy porozmawiać, ponownie, około bardziej podstawowy zestaw pytań. I to jest to temat w komunikacji które nazywamy pytanie sekretarka. Oznacza to, że chcemy być w stanie to-- tak? PUBLICZNOŚCI: [niesłyszalne]. BRIAN SCASSELLATI: Czy mamy do ukrytej przetwarzania semantycznego? Więc tak. Istnieje wiele rzeczy, które są dzieje się pod powierzchnią z Siri oraz w niektórych przykładach Mam zamiar pokazać, obok tam, gdzie jest trochę pod względem struktury z tego, co mówisz, że to ważne. I, w rzeczywistości, to jest wielki prekursor do następnego slajdu dla mnie. Tak więc w taki sam sposób, że nasze rozpoznawanie mowy został zbudowany z wielu warstw, jeśli chcemy zrozumieć, co to jest to, że rzeczywiście Mimo to, jesteśmy znów będzie polegać na analizie wielowarstwowej tekstu, który jest rozpoznawana. Więc kiedy Siri jest rzeczywiście w stanie powiedzmy, spójrz znalazłem te słowa. Teraz co mam z nimi zrobić? Pierwszy składnik jest często przejść i spróbować przeanalizować struktura zdania. A w co widzieliśmy w szkole, często jako swego rodzaju diagramów zdania, jedziemy do uznania, że ​​pewne Słowa mają określone role. Są to rzeczowniki. Są to zaimki. Są to czasowniki. I będziemy rozpoznawać że dla określonego gramatyki w tym przypadku gramatyki angielskiej, istnieje ważne sposoby, w jakie je łączą mogę i inne sposoby, które nie są ważne. Uznanie, że struktura, może być za mało, aby pomóc nam trochę. Ale to nie wystarczy, dość dla nas, aby być w stanie udzielić żadnego znaczenia to, co powiedział, jest tutaj. Aby to zrobić, musimy polegać na niektóre ilość przetwarzania semantycznego. Oznacza to, że będziemy patrzeć co pod spodem, co każdy z tych słów faktycznie prowadzi w rozumieniu. A w najprostszy sposób to zrobić, będziemy obcować z każdego słowa że wiemy, pewną funkcję, pewna transformacja niego pozwala się zdarzyć. W tym wypadku możemy oznakować Słowo "John" jako imię własne, że wiąże się z tożsamością. I możemy oznakować "Mary" w taki sam sposób. Podczas gdy czasownik jak "miłości", które stanowi szczególny związek że jesteśmy w stanie reprezentować. Teraz, to nie znaczy, że rozumiemy co to jest miłość, ale tylko, że rozumiemy jest w zasadzie systemem symbolicznego. Oznacza to, że można oznaczyć to i manipulować. Z każdym z tych typów rozwiązań, każdy rodzaj przetwarzania semantycznego tutaj będzie wymagać trochę trochę wiedzy i dużo pracy z naszej strony. Nie jesteśmy już w sferze gdzie po prostu statystyki będą dla nas wystarczające. Teraz, aby przejść od tego punktu do bycia w stanie mówić o wewnętrznej co się właściwie dzieje, do możliwości manipulowania tym uporządkować i zrozumieć pytanie i są w stanie wyjść i szukać, że wymaga bardziej złożony model poznawczy. Sposób, w jaki te urządzenia są zbudowane Jest na ogół bardzo roboczej intensywny. Dotyczą one ludzi spędzać dużo czasu ukształtowania drogi w którym te rodzaje kar może być reprezentowany w pewnej logiki. To staje się jeszcze trochę bardziej skomplikowane, choć. Nawet, gdy mamy do czynienia z semantyką, będziemy jeszcze patrzeć na pragmatyka, co mówi. To, w jaki sposób odnoszą się słowa że muszę coś fizycznie się tam na świecie, lub przynajmniej niektóre źródła informacji że można manipulować? Czasami te prowadzą do wspaniałe kawałki dwuznaczności. "Red-hot gwiazda poślubić astronoma." OK. Teraz czytamy, że jako śmieszne typ nagłówka które widzimy na nocną TV bo nie interpretować "gwiazda" mieć swoje niebiańskie znaczenia ciała. Wiemy, że oznacza to, że więcej Aktor lub aktorka powszechne duża ilość widoczności. "Skład pomaga ofierze psa gryźć". Czy to, że drużyna jest w rzeczywistości tam pomoc psa w dzieje wokół i gryząc ofiary? Albo jest to, że nie było osoba, która była ugryziony przez psa, który potrzebował pomocy? Tylko patrząc na składni i semantyka zdań, nie możemy określić, że. "Helikopter zasilany przez człowieka muchy." Są tam w rzeczywistości, rzeczywiste małe rzeczy latają, że są ludzie ze skrzydłami zasilania śmigłowce dla dobra ludzkości? Czy jest tam jedno urządzenie mechaniczne która czerpie moc od osoby? Kiedy patrzymy na pytanie systemy odpowiadające, Są to Warstwy musimy sobie poradzić. Teraz, najlepsze i najbardziej sortowania of rozpowszechnione tych systemów dziś są w stanie zrobić rzeczy, na poziomie, które są daleko poza to, co mieliśmy 10 lat temu. Oto jeden z najlepszych systemów to tam dzisiaj. I jest to system IBM o nazwie Watson. To od naszych przyjaciół z IBM. To banki Katherine, Jia Chen, i Pryscylla Moraes dając nam pokaz Watson wczoraj w IBM Yorktown. [ODTWARZANIE] -Jak się masz? -Jest mi dobrze. Zawsze jestem szczęśliwy, kiedy jestem myślenia, zwłaszcza kiedy można zachować spokój w tych pomieszczeniach serwerowych. -Kto Jest twoja ulubiona aktorka? -Moja Ulubiona aktorka Angelina Jolie jako Lara Croft Tomb Raider, ponieważ jej oryginał forma była jako wirtualny charakter jak ja. -Jak Można Watson pomóc pacjentom? -Czy Plan pacjentów do mają dostęp do Watsona bezpośrednio? Dostęp do doradztwa Watson aplikacje będą różne w zależności od przypadku użycia. Ale obecnie, Watson zapewni tylko możliwe rozpoznanie i leczenie Opcje do lekarza specjalisty. W stosownych przypadkach, u pacjentów może dostarczyć informacji z Watsonem, być może przez Portal interfejs www, tablet, lub nawet telefon komórkowy. Na przykład, pacjent może mieć poprosił, aby opisać swoje objawy w języku naturalnym bezpośrednio do roztworu Watson umożliwiając lekarzowi skupić się na Diagnoza i nie zbieranie danych. -Kto Zamordowany Abraham Lincoln? -John Wilkes Booth. -W Co roku zrobił Arizona Blue Jays wygrać World Series? -2001. [Zakończyć odtwarzanie] BRIAN SCASSELLATI: Tak Te rodzaje systemów musi polegać na pierwsze rozpoznawania mowy; sekunda, przekształcenie go w znaczący wewnętrzne reprezentacja; a następnie trzeci jest w stanie wyjść i znaleźć źródło informacji, które pozwala im na to odpowiedzieć. Ten poziom złożoności dotyczy te same rodzaje programowych rzeczy że zostały robi w zestawach problemowych. Jesteśmy w stanie przetworzyć żądania HTTP w tego samego rodzaju wzoru niskim poziomie dopasowanie, że ELIZA może zrobić. Jesteśmy w stanie przekształcić te się w reprezentacji wewnętrznej, a następnie wykorzystać je do kwerendy niektóre zewnętrzną bazę danych, prawdopodobnie za pomocą SQL. Wszystkich systemach budowane są dziś robić tego typu naturalne komunikacja budowane są na te same zasady. Teraz, nawet system jak Watson nie jest wystarczająco skomplikowane aby móc odpowiedzieć dowolna pytania o dowolnej tematyce. I w rzeczywistości muszą mieć zorganizowany w danej domenie. Tak więc można przejść do trybu online, a znajdziesz wersje Watson, które działają dobrze w ramach informatyki medycznej. Albo jest jedna Internecie że po prostu zajmuje się, jak zrobić dobre rekomendacje dotyczące Jakie piwo pójdzie z żywnością. I w tych dziedzinach, może on odpowiedzieć na pytania, znaleźć informacje, że musi. Ale nie można mieszać i łączyć je. System, który został przeszkolony z bazą żywności i piwa nie działa dobrze, gdy nagle umieścić go w informatyce medycznej z Baza danych. Więc nawet nasze najlepsze systemy dziś polegać na poziomie przetwarzania w którym jesteśmy kodowanie strony i budynku w infrastrukturę w celu aby ten system działa. Teraz ostatni wątek chcę aby być w stanie dostać się do dziś to jest o komunikacji niewerbalnej. Wielki masa informacji, które komunikowania się ze sobą nie doszło poprzez Poszczególne słowa, które się ubiegasz. Ma do czynienia z rzeczy, jak Bliskość, wzrok, twój ton głosu, Twój przegięcia. I że komunikacja jest również coś, że wiele różnych interfejsów obchodzi się wiele na temat. To nie to, co Siri obchodzi. Mogę poprosić Siri coś w jednym głosem lub w innym tonem, i Siri będzie daj mi tę samą odpowiedź. Ale to nie jest to, co budujemy dla wiele innych rodzajów interfejsów. Chcę przedstawić Wam obecnie jeden z robotów. Ten zbudowany przez mojego longtime przyjaciel i kolega Cynthia Breazeal i jej firma Jibo. I to robot-- jedziemy mieć kilka wolontariuszy wystąpienia interakcji z tym. Więc mogę mieć dwóch chętnych grać z robota dla mnie? Dlaczego nie przyszedł na górę, i dlaczego nie przyszedł na górę. Jeśli chcesz dołączyć do mnie tutaj, proszę. A czy mógłbym cię przyjdź tutaj. Dzięki. Cześć. ALFREDO: Miło cię poznać. Alfredo. BRIAN SCASSELLATI: Alfredo. RACHEL: Rachel. BRIAN SCASSELLATI: Rachel. Miło cię poznać obu. Alfredo, ja będę musiał iść pierwszy. Przyjdź aż tutaj. Mam zamiar przedstawić you-- jeśli mogę to wysiąść bez pukania do microphone-- do małego robota o nazwie Jibo. OK? Teraz Jibo ma być interaktywna. I chociaż może dać ci mowę, wiele interakcji z robotem jest niewerbalnej. Alfredo, mam zamiar poprosić o powiedzieć coś miłego i bezpłatne do robota, proszę. ALFREDO: Myślę, że ładny wygląd. [Szum DŹWIĘK] BRIAN SCASSELLATI: OK. Jego odpowiedź nie jest w formie ustnej. A mimo to dał wam obojgu wyraźne potwierdzenie że słyszał to, co powiedział a także w jakiś sposób zrozumiałe, że. OK? Krok z powrotem tutaj na jedną sekundę. Dziękuję. Rachel, jeśli możesz. Teraz mam zamiar dać jesteś o wiele trudniejsze zadanie. Jeśli chcesz stanąć tu, kopię zapasową tylko trochę tak możemy dostać się na kamery i wyglądają w ten sposób. Mam zamiar poprosić o coś powiedzieć naprawdę oznacza i paskudne do robota. RACHEL: To, co wydawało się zrobić, to kompletny absurd. [Nucąc DŹWIĘK] To było jeszcze bardziej absurdalne. Co sie z toba dzieje? Oj, nie czuję się źle. Dam ci przytulić. BRIAN SCASSELLATI: Wszystko w porządku. Dzięki, Rachel. Alfredo, Rachel, dzięki chłopaki bardzo. [OKLASKI] Więc ten rodzaj interakcji ma w wiele sposobów, niektóre z tych samych zasad i niektóre z tych samych Struktura co mamy może mieć w interakcji językowej. Jest to zarówno komunikatywny i służy ważnemu celowi. I że interakcja, w wiele sposobów, jest przeznaczony mieć szczególny wpływ na Osoba interakcji z lub słuchania do robota. Teraz jestem na tyle szczęście, do dzisiaj Jibo tutaj. Sam Spaulding jest tutaj pomoc nam się z robotem. I mam zamiar zapytać Sam dać jesteśmy jednym miłe demo Jibo tańca które możemy oglądać w końcu tutaj. Więc śmiało, Jibo. SAM: OK, Jibo. Pokaż nam swoje ruchy taneczne. [MUZYKI] BRIAN SCASSELLATI: Dobra, wszyscy. Dzięki naszym przyjaciołom na Jibo. [OKLASKI] I podziękowania dla naszych przyjaciół na IBM za pomoc dzisiaj. Komunikacja jest coś że masz zamiar zobaczyć zbliża się coraz bardziej jako budujemy bardziej skomplikowanych interfejsów. W przyszłym tygodniu będziemy rozmawiać o tym, jak do interfejsu z komputerowymi przeciwnikami w grach. Ale jeśli masz pytania dotyczące tego, Będę wokół w godzinach pracy dzisiaj. Jestem szczęśliwy z tobą porozmawiać o AI tematów lub dostać się do bardziej szczegółowo. Miłego weekendu. [OKLASKI] [MUZYKI]