[Música tocando] 

DAVID Malan: Este é CS50. Este é o fin de semana 10. E o neno, que temos un clase boa para ti hoxe. Estamos tan animado para invitar dous nosos amigos de Yale ata nós hoxe e mirar a intersección de intelixencia artificial, robótica, procesamento de linguaxe natural, e moito máis. 

E, de feito, sobre o últimas semanas temos seguramente pasou moito tempo, especialmente nas Serie de exercicios anteriores, centrados en fermosos detalles de baixo nivel. E é moi fácil perder de vista do bosque para as árbores e quedan colgadas sobre loops e condicións e punteiros, con certeza, e así por diante. Pero a realidade é que vostedes teñen agora a ingredientes cos que realmente pode resolver algúns problemas interesantes, entre eles os que os nosos amigos na Yale traballar só tímido de Cambridge. 

Así, permitan-me primeiro en introducir a nosa cabeza asistente de ensino de Yale, Andy. 

[Aplausos] 

Andy: Primeiro de todo, só agradecer por permitir que unha parella Yalies a estalar en baixo para Cambridge hoxe. Nós realmente aprecio iso. En segundo lugar, para os nosos amigos volta casa-- Jason, Grazas por estar e executar charla. Esperanza é todo de bo en New Haven. 

Entón si, eu estou super animado introducir SCAZ hoxe. SCAZ corre o laboratorio de robótica. El é un profesor de, como, cinco diferentes departamentos en Yale. No seu laboratorio, el ten moitos, moitos robots que gusta de xogar con. Ten, como, a máis legal traballo do mundo. E comeza a tipo de confusión en torno a todo o día que longo e facer un traballo, tamén. 

E así nós, de feito trouxo unha de-los para abaixo coa xente hoxe. Así, sen máis delongas, é SCAZ indo a ir adiante e introducirse nos ao seu amigo robot. 

[Aplausos] BRIAN Scassellati: Grazas, David. Grazas, Andy. É tan marabilloso estar aquí con todo o mundo hoxe. Quero primeiro ser moi claro que o equipo CS50 aquí en Cambridge foi incrible hospitalario para nós. Somos tan gratos por todo fixeron para apoiar. E así nós queremos ser capaz para corresponder a favor. 

Entón, hoxe, comezan a anunciar que nós imos ter un novo, one-of-a-Kind evento CS50 pasando en New Haven a próxima semana. E esa é a Research Expo CS50. Entón, nós estamos indo a ser invitado everyone-- CS50 alumnos, funcionarios de ambos Harvard e Yale-- para baixar e visitar-nos o venres. Nós imos ter unha gran variedade de máis de 30 persoas diferentes que presentan e upperclassmen exhibiting-- mostrando fóra algúns dos seus produtos de investigación. Nós imos ter algunhas startups, mesmo, á procura para un pouco de novos talentos tecnoloxía, startups de ambos Harvard e Yale. E nós imos ter algúns grupos de estudantes buscando algunha nova asociación. 

Vai ser un momento moi emocionante. Esperemos que aqueles de vostedes que son descendendo para o xogo Harvard-Yale será capaz de parar por un pouco máis cedo, mentres que no centro de campus, Sterling Memorial Library. Nós imos ter un conxunto de exposicións que van desde autónoma veleiros para formas de utilización de software para preservar manuscritos medievais. 

Nós imos ter de anuncios networking hoc e persoas ensino de codificación de software en Cape Town. Teremos ordenador manifestacións musicais. E nós imos, naturalmente, máis robots. Entón, esperamos que vai unirse a nós para este evento. Debe ser unha morea de divertimento, un pouco de comida, e unha morea de interesante cousas para falar. 

Entón, hoxe, imos falar preto de procesamento de linguaxe natural. E esta é a tentativa para nós para construír unha nova forma de interactuar cos nosos dispositivos, xa para as últimas semanas, foi focado en como é que pode escribir código, escribir software que é unha forma de ser capaz de dicir a un máquina, iso é o que quero que faga. 

Pero non debemos ter esperar que todo que está aí fóra que se usa por todos no mundo será proficiente neste tipo de instrución. Así, podemos distinguir entre o ordenador linguaxes e languages-- naturais é dicir, cousas que os seres humanos usan para comunicarse con outros seres humanos. E nós tratamos construír interfaces que usan estes mecanismos naturais de comunicación. 

Agora, como calquera outro tema que comezan con en CS50, imos comezar co máis sinxelo bit de procesamento de linguaxe natural que podemos imaxinar. Nós imos comezar coa parte histórica da linguaxe natural. E entón nós imos construír ata sistemas máis e máis recentes e ten algunhas demos de diversión ao longo do camiño. 

Entón, imos comezar co que foi probablemente a primeira linguaxe natural sistema de procesamento. Este foi un sistema de software escrito en 1966 por José Weizenbaum chamado ELIZA. E Eliza foi deseñado para replicar o tipo de interacción tería cun Psicoterapeuta Rogerian. Agora, os Rogerians, tiñan unha idea que a psicoterapia implicados seren capaces de reflectir de volta a un paciente e falar con eles, basicamente, de só dándolles un pouquiño do terapeuta. Isto é, todo que o terapeuta dixo era quere que sexa só un reflexo da o que o paciente estaba dicindo a eles. 

Entón, imos tratar e demostrar iso. Será que temos un voluntario que sería dispostos a compartir o seu máis profundo, máis escuros, e / ou segredos teitos con ELIZA? Claro, por que non vén enriba. Fantástico. E o seu nome? 

MILES: Miles. 

BRIAN Scassellati: Miles. Pracer en coñece-lo, Miles. Se soster iso. E nós estamos indo a usar unha versión de ELIZA que temos replicada dentro do IDE CS50. E nós imos ollar para a fonte código para iso en pouco tempo. Pero, por agora, somos só indo invocala lo escribindo eliza. 

ELIZA e vai darlle as respostas que van estar en todas as capitais. E lle vai facer algunhas preguntas. E nós imos responder e escriba en respostas a ELIZA. Entón ELIZA dixo: "Ola, eu son ELIZA. Cal é o seu problema? " O que desexa ELIZA dicir hoxe? 

MILES: Só podo durmir se eu teño pantufas de coelliño diante. 

BRIAN Scassellati: Todo ben. Todo ben. 

[Risas] 

"Só podo durmir con pantufas de coelliño sobre ". ELIZA e di: "Diga, vostede ten problemas psicolóxicos? Quizais este sexa un bo indicador. " 

Aceptar. Entón, o que quere responder? 

MILES: Si. 

BRIAN Scassellati: Si. Home de moitas palabras. Me gusta diso. Eliza di: "Vostede parece bastante positiva." 

MILES: Non, eu son, de feito, un electrón. 

BRIAN Scassellati: "No En realidade, eu son un electrón. " "Vostede veu para me porque é un electrón? " Agora podemos ver algúns dos o coisas- vou para facer unha pausa por só un segundo, Miles. Non ir a calquera lugar. Non terminais contigo aínda. ELIZA é, nalgúns aspectos, responder a certas cousas que está dicindo, pero sen calquera entendemento real. E tamén está repetindo ao algúns das partes da súa sentenza. 

Por iso, dixo, "No En realidade, eu son un electrón. " Eliza respondeu de volta, "Vostede veu para min, porque é un electrón? " Todo ben. Imos dar unha resposta aquí. Dele unha boa, Miles. 

MILES: Good one? 

Si, por favor me axude. BRIAN Scassellati: "Si. Por favor, me axude. "" Está seguro? " MILES: Non. BRIAN Scassellati: Non. "O que isto suxire a vostede?" 

MILES: Non podo ser un electrón. 

BRIAN Scassellati: "Eu pode non ser un electrón. " "Está dicindo que non só a ser negativo?" 

Todo ben. Entón, Miles, moitas grazas. 

MILES: Grazas. 

BRIAN Scassellati: Moitas grazas. [Aplausos] 

Polo tanto, este programa ELIZA, de moitos xeitos, responde só ás pezas que estamos ofrecendo, sen profundidade comprensión do que está a suceder aquí. Este é un tipo de sistema chamado de correspondencia de patróns, onde estamos á procura de certa anacos de texto que estamos a continuación, vai levar para fóra do que foi proporcionada como entrada, convertelo lo, potencialmente, dalgunha forma, e despois devolve-lo para o usuario. 

Algún de vós pensa ELIZA que é realmente realizando psicanálise válido aquí? Unha persoa, quizais. 

Audiencia: [inaudível]. BRIAN Scassellati: E como iso fai vostede se sentir? Si, de feito, fai. E veremos, en realidade, a código fonte para el en só un momento. E así vai ser capaz de facer exactamente isto. 

Agora, Eliza é unha forma daquilo que chamariamos hoxe dun bot de chat. El só vai a través do texto que está dando, ofrece a cantidade mínima de comprensión ou de transformación, e, a continuación, papagaios-lo de volta para ti. Entón, imos dar un ollo, conceptualmente, e falar do que é que ELIZA está realmente facendo. 

ELIZA está tomando un let sentence-- dicir: "Eu quero impresionar o meu xefe." E ELIZA está mirando a través de que a sentenza e intentando atopar e coincidir con certos estándares. Así, por exemplo, un dos patróns ELIZA que está a buscar son as palabras "Eu quero." E en calquera momento se ve algo que ten "quero" nel, formula unha resposta. E esa resposta é unha cadea fixa. Neste caso, é "por que quere?" E eu coloque unha pequena estrela na o final, porque iso é só o inicio da nosa resposta. E o asterisco indica que imos levar o resto de utterance-- do usuario "para impresionar o meu patrón" - e nós estamos indo a engadir que ao final desa secuencia. 

Entón, agora, en vez de dicir, "por quere impresionar o meu xefe ", hai un pouco de adicional procesamento que nós imos facer. É dicir, nós imos ter que converter algúns dos pronomes aquí dende "meu xefe" para "o seu xefe." E pode haber algúns outros cambios que necesitamos facer. Entón, en vez de só furando- directamente ao final, o que imos facer é que imos levar o resto do utterance-- do usuario en branco aqui-- e nós imos levalo dunha peza de un tempo e converter cada secuencia forma, cada palabra, na sentenza. 

Entón, imos tomar a palabra "para". Non hai ningunha conversión que temos que facer. "Impress". Non hai ningunha conversión o que necesitamos facer alí. "O meu" ha converter a "o seu". E "xefe" imos deixar como "xefe". E, a continuación, finalmente, nada que remata cun período, imos convertelo en unha pregunta. 

Este patrón de correspondencia moi sinxelo é realmente moi exitoso. E cando este se introduciu en 1966-- Joseph Weizenbaum programado isto nun ordenador. Agora, os ordenadores naquela época non eran modelos de escritorio. Estaban de recursos compartidos. E os seus alumnos sería ir e falar con ELIZA. Finalmente, tivo que restrinxir o acceso a el porque os seus alumnos non eran recibindo todo o traballo feito. Estaban só a falar con ELIZA. E, de feito, el tivo que disparar a súa asistente, que gastou todo o seu tempo a falar con ELIZA sobre os seus problemas profundos e preocupantes. 

Todos os que usaron estes sistemas comezou a antropomorfizar a eles. Eles comezaron a pensar neles como sendo animado e persoas reais. Eles comezaron a recoñecer algúns dos as cousas que eles estaban dicindo estaban volvendo a eles. E eles foron descubrindo cousas sobre si mesmos. E, de feito, mesmo os expertos, mesmo os psicoterapeutas, comezou a preocuparse que, de feito, quizais ELIZA sería substituír-los. E mesmo o ordenador científicos preocupados que estabamos tan preto de resolver linguaxe natural. 

Agora, iso non foi en calquera lugar preto de verdade. Pero iso é como impresionante estes sistemas poden parecer. Entón, imos comezar a ollar por baixo e tentar para obter un pouco de unha pregunta de onde este código realmente acontece. Entón, imos facer este código dispoñible despois. E este é un moi porta sinxela e directa da implantación orixinal ELIZA. 

Así, algúns destes estilística cousas que podes ver aquí non son o que estilisticamente queremos que faga ou o que estamos ensinando-lle para facer. Pero nós tratamos mantelos o mesmo en moitos portos que este tivo de xeito que ten o sabor do orixinal. Entón, nós estamos indo a incluír unha morea de cousas, e entón nós imos ter un conxunto de palabras clave, as cousas ELIZA que recoñecer e contestar os directamente. Entón se ten palabras como "pode ​​vostede" ou "eu non" ou "non" ou "si" ou "soño" ou "Ola", entón ELIZA responderá selectivamente para aqueles. Tamén imos ter un número de cousas que imos cambiar, como converter "o meu" para "o seu". 

E entón nós imos ter un conxunto de respostas que, para cada unha destas palabras clave, nós imos virar través estas diferentes respostas. Entón, se eu dicir "si" tres veces seguidas, I pode ter tres diferentes respostas de ELIZA. Noso código, entón, é de feito, moi sinxelo. Se eu rolar para abaixo despois de todos estes respostas que temos programados en e nós chegar ata a páxina, nós estamos indo a iniciar un par de variables distintas e facer un pouco de almacenamento no inicio. Pero non hai absolutamente un conxunto de código que podes entender. Un loop while grande que di que eu son vai repetir iso máis e máis. Vou ler nunha liña, e eu vou almacenar isto nunha secuencia de entrada. Vou comprobar e ver se é o contrasinal especial "bye", que significa saír do programa. E entón eu vou comprobar e ver se alguén está só repetindo-se máis e máis. E eu vou berrar con eles se fan. Eu vou dicir "non repetir-se." 

Mentres ningún deses ocorrer, imos logo a pescudas a través de e loop través, en liñas 308 a 313 aquí, e comprobar e ver son os de calquera palabra clave frases contidas na entrada que estaba acabado de dar? Se hai unha correspondencia para eles, así entón, eu vou lembrar dese lugar. Vou lembrar desa palabra clave. E eu vou ser capaz de construír unha resposta. 

Se eu non atopar un, ben, entón, o último na miña matriz contrasinal seredes miñas respostas estándar, cando nada máis xogos. Eu vou facer preguntas como "Por que fixo vir aquí? "ou" Como podo axudar? " que son só parcialmente axeitado non importa o que a entrada é. 

Imos, entón, construír-se a resposta de ELIZA. Nós imos ser capaces de tomar que a resposta de base, así como fixemos no que exemplo "meu xefe". Se iso é todo o que hai é-- se é só un cadea que eu debería respond-- Só podo envialo de volta para fóra. Se ten un asterisco no o fin de todo, entón eu vou procesar cada símbolo individual na resto da resposta do usuario e engadir os que, cambiando a fóra palabra por palabra como eu teño. 

Todo isto é absolutamente algo que pode construír. E, de feito, as formas en que nós ter argumentos de liña de comandos procesados, o xeito en que ten procesadas a través de solicitudes HTTP siga os mesmos tipos de regras. Son a correspondencia de patrón. 

Así ELIZA tiña un concepto importante impacto sobre a linguaxe natural porque fixo parecer como se fose un meta moi atinxible, como dalgunha forma estariamos ser capaz de resolver este problema directamente. Agora, iso non quere dicir que fai ELIZA todo o que quere facer. Certamente que non. Pero hai que ser capaces para facer algo máis. 

O noso primeiro paso para ir ademais ELIZA vai para poder mirar non o texto inserido no teclado, pero discurso, real discurso gravado nun micrófono. Así, cando miramos para estes pezas diferentes, somos vai ter que construír un conxunto de modelos. Nós imos ter que ser capaz para ir do baixo nivel acústico lanzamento information--, amplitude, frequency-- e convertelo en algunhas unidades que estamos capaz de manipular máis facilmente e, finalmente, manipulalos los en palabras e frases. 

Así, a maioría de recoñecemento de voz sistemas que están aí fóra hoxe siga unha estatística modelo no que nós construímos tres representacións separadas de que que o sinal de audio conten na realidade. Comezamos cun modelo de fonética que fala sobre só a base Parece que estou producindo. Estou producindo algo que é un B como no neno ou unha D como no can? Como podo recoñecer os dous diferentes teléfonos como separada e distinta? 

Por riba diso, nós imos, entón, construír unha pronuncia modelo palabra, algo que une os teléfonos individuais e as combina nunha palabra. E despois diso, imos dar as palabras e nós imos monte-las cunha linguaxe modelar nunha frase completa. 

Agora imos falar sobre cada destes independentemente e por separado. Pero estes tres modelos son todos só será estatísticas. E isto significa que cando nós traballar con eles, imos ser capaz de traballar con todas elas á vez. Todo ben. Imos comezar co noso modelo de fonética. Así, modelos fonéticos dependen unha técnica computacional chamados modelos ocultos de Markov. Estes son modelos gráficos en que ter e recoñecer un estado do mundo como caracterizada por un conxunto de características. E ese estado describe unha parte dunha acción que estou implicado. 

Entón, se eu pensar en facer o son de "ma" como nai, existen diferentes compoñentes para que o son. Hai unha parte onde eu deseñar no aire. E entón eu engurrar os beizos. E eu rolo meus beizos un pouco para atrás pouco para facer aquel son "ma". E despois hai unha liberación. Meus beizos se separan. O aire é expulsado. "Ma". 

Estas tres partes diferentes sería representado por estados neste graph-- o principio, o medio eo fin. E eu tería transicións que me permitiu viaxar dun estado ao seguinte, cunha certa probabilidade. Así, por exemplo, que a M son pode ter un moi, inxestión de moi curto no beginning-- "mm" - e, a continuación, unha máis longa, fase vibrante onde estou seguro a miña beizos e case humming-- "mmmm" - e despois dun curto Plosive onde expulsar breath-- "ma". 

O modelo oculto de Markov é deseñado para capturar o feito que a forma que eu fago que o son de "ma" vai para ser lixeiramente diferente en o calendario, é a frecuencia, e os seus recursos que a forma que fai ou a forma que eu podería facelo cando falo sobre os distintos usos da carta. "Nai" e "may I" vontade soar un pouco diferente. 

Así, para recoñecer un en particular son, fariamos construír modelos de Markov, estes Markov oculto modelos, de cada teléfono posible que Pode querer recoñecer, cada son é posible, e despois ollar para o datos acústicos que teño e determinar estatisticamente cal é o máis probable producir ese son. Aceptar. Con ese modelo, a continuación, comezar a construír enriba dela. Tomamos un modelo de pronuncia. Agora, ás veces pronuncia modelos son simples e fáciles porque só hai unha xeito de pronunciar algo. Outras veces, son un pouco máis complicado. Aquí está unha guía de pronuncia para esa cousa que é vermello unha froita que fai fóra de ketchup. A xente non creo que é unha froita. Non? 

Agora, hai moitas maneiras diferentes que as persoas van pronuncia esta palabra. Algúns dirán "toe-may-dedo do pé." Algúns dirán "toe-Mah-dedo do pé." E podemos capturar esa con un destes modelos gráficos onde, de novo, nós representan transicións como tendo unha certa probabilidade ea probabilidade asociada con eles. 

Polo tanto, neste caso, se eu fose para seguir arriba ruta a través deste gráfico enteiro, Eu estaría empezando na carta na extrema esquerda, a "ta" son. Quere ter a metade superior, o "Oh," e, a continuación, un "ma" e, a continuación, un "a", e, a continuación, un "ta", e un "oh". "Toe-may-dedo do pé." Se eu pegase o camiño a través do fondo este, vou conseguir "ta-Mah-dedo do pé." E se eu fun para abaixo e, a continuación, anterior, quere obter "ta-may-dedo do pé." 

Estes modelos capturar estes diferenzas porque sempre que implantar un destes sistemas de recoñecemento, vai ter que traballar con lotes de diferentes tipos de persoas, lotes de diferentes acentos, e mesmo diferentes usos das mesmas palabras. Finalmente, encima diso, imos construír algo que parece moi complicado, chamado o modelo de linguaxe, pero, de feito, é o máis simple de a tres porque estes operan sobre o que son chamados de modelos n-gram. E neste caso, eu estou mostrándolle un modelo de n-gramo de dúas partes, unha bigram. Nós imos facer física idea que, ás veces, certas palabras son máis propensos a seguir un determinada palabra que outros. Se eu só dixo: "previsión do tempo", a seguinte palabra podería probablemente ser "hoxe" ou podería ser "o tempo Previsión do mañá. " Pero é pouco probable que sexa "o previsión do tempo alcachofa. " 

O que un modelo de linguaxe fai é que capta os estatisticamente por conta, dalgún moi grande corpus, as instancias en que unha palabra segue a outra. Entón, se eu tomar unha gran corpus-- como cada Wall Street Journal que foi producido desde 1930, que é un dos corpuses-- estándar e eu ollar a través de todos este texto, e eu conto Se as veces despois "previsión" vexo "hoxe" e cantas veces eu vexo "previsión" seguido de "alcachofa", o primeiro vai ser moito máis probable. Aparecerá con máis frecuencia. E polo que vai ter unha maior probabilidade asociada con el. 

Se eu queira descubrir a probabilidade dun enunciado enteiro, entón, só rompe-lo. Así, a probabilidade de audición a frase "o rato comeu queixo" é a probabilidade de que a palabra "a" iniciar unha frase, e, a continuación, a probabilidade de que o palabra "rato" segue a palabra "a", ea probabilidade de que o palabra "comeu" segue "rato" ea probabilidade de que "queixo" segue "comeu". 

Isto soa como unha morea de estatísticas, unha morea de probabilidades. E iso é todo o que é. Pero o máis incrible é se fai iso cunha mostra suficientemente grande de datos, funciona. E funciona tremendamente ben. Todos sabemos que esas tecnoloxías. A maioría dos sistemas operativos veñen con recoñecemento de voz neste momento. Usamos Siri e Cortana e Echo. E estas cousas están baseadas en este tipo de tres capas model-- un modelo fonética no fondo, unha modelo de pronuncia no medio, e un modelo de linguaxe enriba deles. 

Agora, eles teñen que facer un pouco máis que iso, a fin de responder a preguntas. Pero o recoñecemento do que é proverbio depende exactamente sobre iso. Entón, imos dar un exemplo aquí. Entón, eu teño o meu teléfono que senta-se aquí debaixo da cámara de documentos. E nós imos pide Siri algunhas preguntas. Todo ben? 

Entón, imos espertar o teléfono aquí. Siri, que é o tempo como en New Haven hoxe? 

Siri: Aquí está o tempo para New Haven, Connecticut hoxe. 

BRIAN Scassellati: Aceptar. Entón, primeiro viu que Siri recoñecido cada unha das palabras individuais e, a continuación, produciu unha resposta. Imos falar sobre como esa resposta acontece un pouco. Pero agora que sabemos que este é só baseado sobre as estatísticas crus e esta Tipo de correspondencia estándar de visión, podemos xogar algúns xogos con Siri. 

Entón, podo tentar de novo. Siri, que é o tempo hipopótamo New Haven, hoxe? 

Siri: Aceptar. Aquí está o tempo para New Haven, Connecticut para hoxe. BRIAN Scassellati: Siri da non intimide que porque se atopa o pattern-- "clima", "Hoxe", "New Haven." Isto é o que está a responder para, así como ELIZA. Todo ben. Imos darlle un mesmo exemplo máis ridículo. Siri, tempo de alcachofa tatu hipopótamo New Haven? 

Siri: Déixeme comprobar. Aquí está o que eu atope na web para o que son alcachofas tatu hipopótamo New Haven. 

BRIAN Scassellati: Aceptar. Entón, se eu ir lonxe o suficiente distancia dende este modelo, Eu son capaz de confundir-lo porque non xa non coincide co patrón que ten. E esa estatística motor que está dicindo, cal é a probabilidade de que ten o Hippopotamus das palabras e alcachofa xuntos, e tatu? Isto ten que ser algo novo. 

Así, estas tecnoloxías que utilizamos todos os días. Se queremos levalos un paso Ademais, con todo, se realmente quero ser capaz de falar do que é que estes sistemas están a responder a, temos que falar, de novo, sobre un conxunto máis fundamental das preguntas. E iso é un tema en comunicación que chamamos cuestión de atención. Isto é, queremos ser capaces a-- si? Audiencia: [inaudível]. BRIAN Scassellati: Obtemos en procesamento de semántica latente? Entón, si. Hai unha morea de cousas que son pasando por debaixo da superficie con Siri e nalgúns dos exemplos Eu vou amosar para ti próximo onde hai un pouco en termos de estrutura do que está dicindo que é importante. E, de feito, iso é un gran precursor no seguinte foto para min. 

Así, do mesmo xeito que o noso recoñecemento de voz foi construído de múltiples capas, se queremos comprender o que é que, en realidade, Dito isto, imos de novo depender dunha análise multi-capa do texto que está a ser recoñecido. Así, cando Siri é realmente capaz de digamos, mira eu atope estas palabras. Agora o que fago con eles? O primeiro compoñente é a miúdo a pasar e tentar analizar a estrutura da frase. E no que vimos na escola, moitas veces, como unha especie de diagramación frases, imos de recoñecer que certos palabras teñen certos papeis. Estes son substantivos. Estes son pronomes. Estes son verbos. E nós estamos indo a recoñecer que, para unha gramática particular, neste caso Inglés gramática, existen formas válidas en que podo combina-los e outras formas que non son válidos. 

Este recoñecemento, esa estrutura, pode ser suficiente para axudar a guiar-nos un pouco. Pero non é o bastante para que sexamos capaces de dar calquera significado para o que está a ser dito aquí. Para iso, imos ter que confiar en unha certa cantidade de procesamento semántico. É dicir, nós imos ter que mirar en baixo o que cada unha destas palabras realmente leva como un significado. E da forma máis sinxela de facelo, nós estamos indo a asociar con cada palabra que sabemos que unha determinada función, unha certa transformación que permite que isto ocorre. 

Neste caso, poderiamos etiquetar o palabra "John", como un nome propio, que trae consigo unha identidade. E poderiamos etiquetar "Mary" como o mesmo camiño. Considerando un verbo como "ama", que constitúe unha relación particular que somos capaces de representar. Agora, iso non significa que que entendemos que é o amor, pero só que nós entendemos Lo na forma dun sistema simbólico. É dicir, podemos etiquetar lo e manipula-lo. 

Con cada un destes tipos de enfoques, calquera tipo de procesamento semántico aquí vai esixir un pouco pouco de coñecemento e unha chea de traballo da nosa parte. Non estamos máis no reino onde as estatísticas só simple será o suficiente para nós. Agora, a fin de ir a partir deste punto para ser capaz de falar do interior o que está realmente a suceder aquí, para poder manipular este estruturar e comprender unha pregunta e, a continuación, ser capaz para saír e buscar, que require un máis modelo cognitivo complexo. 

A forma en que estes sistemas son construídos é, na maior parte moito, moito traballo intensiva. Elas envolven seres humanos gastar unha gran cantidade tempo de estruturar as formas de que estes tipos de frases pode ser representada nalgúns lóxica. El está aínda un pouco máis complexo, con todo. 

Mesmo xa que lidei coa semántica, imos aínda ten que ollar para o pragmática do que está a ser dito. É dicir, como fago para relacionar as palabras que teño que algo fisicamente para fóra hai no mundo, ou polo menos algunha fonte de información que eu poida manipular? 

Ás veces, estes levar a anacos marabillosas de ambigüidade. "Red-quente estrela de casar astrónomo." Aceptar. Agora, lemos que, como o Tipo divertido de Headline que queremos ver en TV tarde de noite porque non interpretar "estrela" para ter o seu significado corpo celeste. Sabemos que isto significa que a máis actor ou actriz común con cantidades elevadas de visibilidade. 

"Tropa de axuda mordida de can vítima." Será que o conxunto é realmente aí, asistindo un can ir ao redor e mordendo vítimas? Ou será que non había un individuo que era mordido por un can que precisaba de axuda? Só de ollar para a sintaxe ea semántica das sentenzas, non podemos determinar iso. 

"Helicóptero funciona moscas humanos." Hai, de feito, real pequenas cousas que voan arredor son persoas con ás alimentaria helicópteros para o ben da humanidade? Ou hai un dispositivo mecánico que deriva súa enerxía dunha persoa? 

Cando ollamos para a cuestión sistemas de atención, estes son as capas que temos que tratar con eles. Agora, o mellor eo máis sorte de prevalente destes sistemas hoxe son capaces de facer as cousas a un nivel que son moito máis do que tiñamos hai 10 anos. Aquí está un dos mellores sistemas que está aí fóra hoxe. E este é un sistema de IBM chamado Watson. Esta é a partir dos nosos amigos de IBM. Esta é Katherine bancos, Jia Chen, e Priscila Moraes dándonos unha demostración de Watson onte, en Yorktown IBM. [REPRODUCIÓN DE VIDEO] -Como estás? 

-Estou ben. Estou sempre feliz cando estou pensar, especialmente cando pode estar legal nesas salas de servidores. -Quen É a súa actriz favorita? 

-Meu Actriz favorita Angelina Jolie como Lara Croft en Tomb Raider porque a súa orixe forma era como un personaxe virtual como eu. 

-Como Pode Watson axudar os pacientes? 

-É O plan para os pacientes para teñen acceso a Watson directamente? O acceso a Watson consultivo aplicacións varían segundo caso de uso. Pero na actualidade, Watson só fornecerá posible diagnóstico e tratamento opcións para profesional médico. De ser o caso, os pacientes pode proporcionar información a Watson, quizais a través dun interface web portal, tablet, ou mesmo un teléfono móbil. Por exemplo, un paciente pode ser solicitados a describir os seus síntomas en linguaxe natural directamente nunha solución Watson, permitindo ao médico centrar diagnóstico e non a obtención de datos. 

-Quen Asasinado Abraham Lincoln? 

-João Wilkes Booth. 

-En Que ano fixo o Arizona Diamondbacks gañar a World Series? 

-2001. 

[FIN DE REPRODUCIÓN] 

BRIAN Scassellati: Entón, este tipo de sistemas ten que confiar en primeiro lugar recoñecer o discurso; En segundo lugar, converténdoa en unha interna significativa representación; e, a continuación, en terceiro lugar, poder saír e atopar a fonte de información que lles permite responder a esta pregunta. Este nivel de complexidade implica os mesmos tipos de cousas programáticas que foi facendo en conxuntos de problemas. 

Somos capaces de analizar as solicitudes HTTP en o mesmo tipo de patrón de baixo nivel ELIZA correspondente que pode facer. Somos capaces de converter os nunha representación interna, e entón usalos para consultar algúns base de datos externa, posiblemente utilizando SQL. Todos os sistemas que están sendo construídas hoxe para facer este tipo de catástrofes naturais comunicación lingua están sendo construídas enriba eses mesmos principios. 

Agora mesmo un sistema como Watson non é suficiente complexo para poder responder arbitraria preguntas sobre calquera tema. E, de feito, eles teñen que ser estruturada dentro dun determinado ámbito. Entón pode ir en liña e pode atopar versións de Watson que operan ben dentro de informática médica. Ou hai unha liña que só trata de como facer boas recomendacións sobre o que a cervexa vai que o alimento. E dentro destes dominios, pode responder a preguntas, atopar a información que precise. 

Pero non pode mesturar e combinar a eles. O sistema que foi adestrado con a base de datos de alimentos e cervexa non funciona ben cando de súpeto poñelas coa informática médica base de datos. Así, mesmo os nosos mellores sistemas de hoxe dependen dun nivel de procesamento en que estamos codificación manual e construción da infraestrutura, a fin para facer este sistema funcione. 

Agora, o último tema que quero para poder obter a hoxe é sobre comunicación non verbal. Unha gran masa de información que nós nos comunicamos entre si non acontece a través do palabras individuais que estamos aplicando. Ten que ver con cousas como proximidade, ollar, o seu ton de voz, súa inflexión. E que a comunicación é tamén algo que moitas interfaces diferentes importa moito sobre. Non é o que se preocupa Siri. Podo pedir Siri algo nunha soa voz ou nun ton de voz diferente, e Siri vai me dar a mesma resposta. Pero non é iso que nós construímos a moitos outros tipos de interfaces. 

Quero presentar-lle Agora, a un dos robots. Este foi construído polo meu de longa data amigo e compañeiro Cynthia Breazeal ea súa empresa Jibo. E este robot-- imos para ter un par de voluntarios chegar a interactuar con iso. Entón eu podo ter dúas persoas dispostas xogar co robot para min? Por que non vén para arriba, e por que non vén enriba. Se quere unirse a min aquí enriba, por favor. 

E se eu puidese ter vostede vir ben aquí. Grazas. Ola. 

ALFREDO: Pracer en coñece-lo. Alfredo. 

BRIAN Scassellati: Alfredo. 

RACHEL: Rachel. BRIAN Scassellati: Rachel. Pracer en coñece-los. Alfredo, vou ter que ir primeiro. Veña ata aquí. Eu estou indo a introducir você-- se podo sacar iso sen bater o microphone-- para un pequeno robot chamado Jibo. OK? 

Agora Jibo está deseñado para ser interactivo. E aínda que poida darlle a fala, tanto da interacción co robot é non-verbal. Alfredo, vou solicitar a vostede dicir algo agradable e cortesía ao robot, por favor. ALFREDO: Eu creo que ollar bonito. 

[Zumbido] BRIAN Scassellati: Aceptar. A súa resposta non é verbal. E aínda lle deu tanto un claro recoñecemento que tiña oído falar que dixo e tamén entendeu que de algunha maneira. OK? Paso a dereita de volta aquí por un segundo. Grazas. 

Rachel, se faría. Agora, eu vou dar- o traballo moito máis difícil. Se queda aquí, backup de só un pouco así que pode obter na cámara e mire para este lado. Vou pedirlle para dicir algo realmente significa e desagradable para o robot. 

RACHEL: Que só parecía facendo era completamente absurda. 

[Zumbido SOUND] 

Iso era aínda máis absurdo. O que está a suceder con vostede? Ah, non se sinta mal. Vou che dar un abrazo. BRIAN Scassellati: Todo ben. Grazas, Rachel. Alfredo, Rachel, grazas eles moito. 

[Aplausos] 

Polo tanto, este tipo de interacción ten en moitas formas algunhas das mesmas regras e algúns dos mesmos estrutura como o que nos pode ter na interacción lingüística. É tanto comunicativa e serve a un propósito importante. E que a interacción, en moitos xeitos, está concibida ter un efecto particular sobre a persoa interactuar con ou escoita para o robot. 

Agora, eu teño a sorte ter Jibo aquí hoxe. Sam Spaulding está aquí axudando nos co robot. E eu vou preguntar a Sam para dar nos un bo demo de Jibo danza que podemos ver ao final aquí. Entón vai adiante, Jibo. 

SAM: OK, Jibo. B-nos os seus movementos de danza. 

[Música tocando] BRIAN Scassellati: Todo ben, todo o mundo. Grazas aos nosos amigos en Jibo. 

[Aplausos] 

E grazas aos nosos amigos na IBM para axudar a fóra hoxe. A comunicación é algo que vai para ver chegando cada vez máis como nós construír interfaces máis complexas. A próxima semana, imos estar falando sobre como facer a interface con adversarios controlados por ordenador en xogos. Pero se ten dúbidas sobre iso, Eu vou estar en torno a esta noite o horario de oficina. Estou feliz de falar contigo sobre AI temas ou para entrar en máis detalles. Teña unha boa semana. 

[Aplausos] [Música tocando]