[MÃºsica tocando] 

COLUNA: Bem-vindo de volta, todo mundo. Este Ã© CS50. E hoje, nÃ³s temos um monte de coisas interessantes para falar. Primeiro, porÃ©m, eu tenho que lembrÃ¡- vocÃª de algumas coisas administrativas. Esta semana Ã© um questionÃ¡rio, quarta- ou para a secÃ§Ã£o de Yale Ã s terÃ§as-feiras e quintas-feiras, na quinta-feira. NÃ£o hÃ¡ comentÃ¡rios do quiz hoje Ã  noite na Universidade de Yale, 05:30 - 07:00. Em Harvard, eles gravaram um ontem. E todos podem ver que online. 

AlÃ©m disso, esta semana ou inÃ­cio da prÃ³xima semana, nÃ³s temos nossa Ãºltima palestra CS50. [Gemidos] Eu sei. Ele veio tÃ£o cedo. Estudantes de Yale terÃ¡ um live palestra aqui na escola de direito auditÃ³rio na sexta-feira. HaverÃ¡ bolo. Estudantes de Harvard terÃ¡ a Ãºltima palestra em Sanders na segunda-feira. HaverÃ¡ tambÃ©m bolo. 

AlÃ©m disso, esta semana na sexta-feira, para aqueles de vocÃªs que estÃ£o vindo para New Haven, temos a Expo CS50. Temos mais de 30 diferentes grupos registrados para lhe mostrar tudo de veleiros autÃ³nomos, para sistemas que reconhecem retratos digitais, para o computador mÃºsica e mÃºsica produzida por computador. EntÃ£o, por favor se juntar a nÃ³s. Eu acho que vai ser um grande momento. 

Hoje, porÃ©m, temos de continuar a falar sobre AI, sobre a inteligÃªncia artificial. E uma das coisas que nÃ³s estamos indo para chegar ao hoje Ã© a idÃ©ia de como usar o AI para resolver problemas. Agora, como sempre, vamos comeÃ§ar com algo simples. E nÃ³s vamos comeÃ§ar com uma idÃ©ia simples. E isso Ã© usando a pesquisa. 

EntÃ£o, imagine por um minuto que eu tem uma tarefa que eu preciso para executar. E eu gostaria de ter essa tarefa automatizado por algum agente software. Imagine que eu estou tentando reservar um conjunto de voos a partir de, digamos, Boston a San Francisco. Eu poderia passar e eu poderia usar um de busca on-line maravilhosa ferramentas, o que vai fazer basicamente o mesmo processo que estamos indo a pÃ© atÃ© hoje. Mas se vocÃª nÃ£o tem que ferramenta, o que vocÃª faria? 

Bem, vocÃª pode olhar e ver e dizer, eu estou em Boston. O que os voos estÃ£o disponÃ­veis para mim? Agora, talvez eu tenha trÃªs possÃ­veis vÃ´os a partir de Boston que vai caber o tempo quando eu preciso sair. Eu poderia voar para Chicago. Ou eu poderia voar para Miami. Ou eu poderia voar para Nova York. Eu poderia, entÃ£o, olhar de cada um uma daquelas cidades de destino e pensar sobre o que locais Eu poderia chegar de cada uma dessas cidades individuais. 

EntÃ£o, talvez a partir de Chicago, eu posso conseguir um vÃ´o direto para San Francisco. Isso Ã© excelente. Ou eu poderia pegar um vÃ´o para Denver. Agora, talvez que o vÃ´o para San Francisco Ã© a soluÃ§Ã£o perfeita para mim, mas talvez nÃ£o. Talvez eu estou procurando algo isso Ã© um pouco mais barato ou um pouco melhor para o meu horÃ¡rio. E para que eu pudesse olhar para o que os outros possibilidades podem estar lÃ¡ fora. EntÃ£o, eu poderia olhar para Denver. E a partir de Denver, bem, talvez Eu posso pegar um vÃ´o para Austin. E a partir de Austin, talvez eu possa obter uma voo para Phoenix e da Phoenix a San Francisco. Agora, eu nÃ£o estou pronto ainda. Porque talvez haja uma com voos directos de Nova Iorque a San Francisco que Ã© perfeito para mim. Ou talvez haja um vÃ´o de Miami atravÃ©s de Denver que Ã© muito mais barato. EntÃ£o, eu ainda tenho que ir. E eu ainda tenho que olhar para todos aqueles cidades que eu ainda nÃ£o investigados. Eu tenho que verificar exaustivamente todas as possibilidades que eu possa ter. 

Assim, a partir de Nova Iorque, talvez eu possa obter uma voo para Nashville, e de Nashville para Austin. E entÃ£o eu sei onde estou. E entÃ£o eu sei a partir de Austin, eu posso voar para Phoenix e da Phoenix a San Francisco. Se eu voar para Miami primeira, porÃ©m, talvez eu possa pegar um vÃ´o de Miami para Nashville, ou a partir de Miami para Austin. 

E agora eu tentei tudo das possibilidades. Eu construÃ­-se neste grÃ¡fico que me mostra todas as possÃ­veis rotas que eu poderia ser capaz de tomar. Quando nÃ³s representamos estes tipos de problemas, nÃ³s nÃ£o estamos indo para representar -los explicitamente como este grÃ¡fico, porque esse grÃ¡fico nÃ£o representa a histÃ³ria de onde fomos. Sabendo que eu voei de Phoenix para San Francisco nÃ£o me diga se eu vim via Nashville, ou atravÃ©s de Denver, ou atravÃ©s de Miami. 

EntÃ£o, o que eu vou fazer Ã© em vez Vou levar este mesmo problema, e eu vou representÃ¡-lo como uma Ã¡rvore. E na raiz da Ã¡rvore, na topo, eu vou colocar o lugar que eu comecei, Boston. E a partir de Boston, eu vou olhar para todos os possÃ­veis locais que eu possa viajar. Bem, neste caso, eu tinha trÃªs, Chicago, Nova York e Miami. E entÃ£o eu vou explorar cada um dos essas crianÃ§as na Ã¡rvore. 

De Chicago, vi que eu tinha dois vÃ´os. Eu poderia voar diretamente para San Francisco ou Denver. Agora San Francisco, que Ã© o meu objetivo. Esse Ã© o meu destino. Isso vai ser uma folha dessa Ã¡rvore. Ou seja, eu nunca estou indo para ir em algum lugar apÃ³s San Francisco. De Denver, embora, Eu posso voar a partir de Denver para Austin, a partir de Austin para Phoenix, e de Phoenix para San Francisco. E agora novamente, cheguei a uma folha. 

Eu poderia, entÃ£o, voltar para a prÃ³xima cidade que eu ainda nÃ£o totalmente explorado. Isso seria Nova York, ir volta-se para o topo da minha Ã¡rvore, desÃ§am para Nova York. De Nova York, eu posso voar para Nashville, de Nashville a Austin, de Austin para Phoenix, e a partir de Phoenix para San Francisco. E, finalmente, uma cidade que eu nÃ£o olhei ainda, Miami. 

Bem, a partir de Miami eu disse que tinha dois possibilidades, Nashville ou Austin. Se eu voar para Nashville, bem, entÃ£o eu vÃ´o a partir de Nashville, para Austin, para Phoenix, a San Francisco. Se eu voar para Austin, eu vÃ´o Austin, para Phoenix, a San Francisco. E agora eu tenho uma Ã¡rvore. Ã uma Ã¡rvore completa. Ã todas as possibilidades e todos os caminhos que eu poderia tomar. Isto Ã©, se eu comeÃ§ar no raiz da Ã¡rvore no topo e eu descer para um dos sai, ele diz-me nÃ£o sÃ³ onde eu vou acabar, San Francisco, mas ele me diz a rota que Eu preciso levar para chegar lÃ¡. 

Agora, qual destes Ã© o melhor? Bem, nada sobre isso problema ainda me diz qual delas Ã© a melhor soluÃ§Ã£o. Talvez eu me importo mais sobre quanto tempo eu estou no ar, ou a distÃ¢ncia que eu estou voando. Nesse caso, Chicago para San Francisco pode ser o menor nÃºmero de milhas no ar. 

Talvez eu me preocupo com o custo. E todos nÃ³s sabemos voos directos sÃ£o geralmente mais caros. EntÃ£o, talvez se eu levar isso tipo de rota para trÃ¡s atravÃ©s de Miami, Nashville, Austin, Phoenix, talvez, em seguida, Eu recebo um preÃ§o mais baixo. Mas eu poderia otimizar em qualquer critÃ©rios que me interessa. Quem tem o melhor em voo Wi-Fi, ou que aeroportos tÃªm a melhor comida disponÃ­vel. E cada um desses pode me dar uma soluÃ§Ã£o diferente que eu vejo como sendo o melhor. 

Esses tipos de problemas, onde vamos para construir esta Ã¡rvore de possibilidades e, em seguida olhar para cada um desses caminhos individuais, e examinar qual desses fulfills um critÃ©rio para nÃ³s, vamos chamÃ¡- esses problemas de busca. E nÃ³s temos lotes de algoritmos, alguns dos quais temos visto jÃ¡, ir e explorar aquelas Ã¡rvores. PoderÃ­amos fazÃª-lo da maneira que eu apenas fiz, uma busca em profundidade, indo para baixo, tanto quanto pudermos atÃ© nÃ³s bateu uma folha, e, em seguida, voltando-se, e indo para a direita de volta para baixo. Ou podemos fazer o que Ã© chamado de busca em largura. PoderÃ­amos expandir tudo na parte superior, e, em seguida tudo uma linha embaixo que, em seguida, tudo uma linha debaixo daquele. Essas Ã¡rvores de busca sÃ£o fundamentais para a AI. Mas eles nÃ£o comeÃ§ completamente certo o tempo todo. De fato, em muitos dos casos que realmente se preocupam, queremos construir uma Ã¡rvore, mas nÃ³s nÃ£o, na verdade, comeÃ§a a fazer todas as decisÃµes. 

Estas sÃ£o situaÃ§Ãµes chamadas busca adversarial, tambÃ©m conhecido como a forma de escrever playing game sistemas e ser pago por isso. Mas estes sÃ£o os tipos de sistemas onde pode comeÃ§ar a escolher quando eu ir de Boston, qual cidade eu ir para a prÃ³xima. Mas depois disso, alguÃ©m pode obter para tomar a decisÃ£o sobre onde eu voar. Portanto, para construir estes tipos de estruturas, estamos vai ter que tomar um pouco abordagem diferente para ele. NÃ³s nÃ£o vamos ser capazes de basta pesquisar atravÃ©s da Ã¡rvore mais, porque nÃ³s nÃ£o somos aquele que estÃ¡ no controle de cada um desses pontos de decisÃ£o. 

EntÃ£o, vamos imaginar uma simples jogo como tic-tac-toe. Eu poderia comeÃ§ar com um Placa completamente em branco. E em tic-tac-dedo do pÃ©, X consegue jogar primeiro. E para que eu pudesse pensar em tudo o movimentos possÃ­veis que X poderia fazer. E se eu sou o Ãºnico jogo o X, isso Ã© Ã³timo. Tenho nove possÃ­vel move que eu posso fazer. Eu poderia colocar um X em qualquer uma destes nove posiÃ§Ãµes. 

E, em seguida, a partir de cada um daqueles, I podia imaginar o que acontece em seguida. Bem, neste caso, a outra jogador iria comeÃ§ar a tomar um rumo. O iria comeÃ§ar a tomar um rumo. E de cada um desses, hÃ¡ seria oito lugares diferentes O que poderia colocar o seu marcador. 

Vamos dizer que eu decidi que eu era vai colocar um X no centro. Que sempre parece que um bom movimento de abertura. Eu poderia olhar para baixo que, a oito movimentos possÃ­veis que O faz. Agora, se eu estou jogando X, isso Ã© maravilhoso. Eu comeÃ§ar a escolher qual deles eu ir para o um no meio. Mas agora Ã³ comeÃ§a a escolher. E eu nÃ£o tenho controle sobre essa decisÃ£o. 

Mas a partir de cada um daqueles possÃ­veis posiÃ§Ãµes de tabuleiro, hÃ¡ entÃ£o um outro conjunto de possibilidades. Quando se trata de ser minha vez novamente, eu faria comeÃ§a a escolher e dizer, bem, O se move para o bem, o ponto mÃ©dio do lado esquerdo, em seguida, Eu tenho um conjunto de possibilidades onde eu possa tomar o meu prÃ³ximo passo. Desses, eu poderia considerar todos as possibilidades debaixo deles. E, em seguida, O obteria para escolher entre aqueles. 

E eu poderia continuar a construir esta Ã¡rvore atÃ© que eu cheguei ao ponto onde quer alguÃ©m ganha o que Ã© game-- tem que ser considerada uma folha node-- ou o conselho estÃ¡ completamente cheio e ninguÃ©m ganhou. E isso tambÃ©m vai ser um nÃ³ folha. Isso vai ser um empate. 

Mas a coisa complicada com isto Ã© se isso fosse apenas uma pesquisa regular problema, eu seria capaz de digamos, bem, X deve ir aqui. E O caminho deve ir para lÃ¡. E entÃ£o X deve ir aqui. E, em seguida, deve ir O caminho atÃ© lÃ¡. E entÃ£o X pode obter trÃªs em uma fila, e eu ganhar. E o jogo seria mais em cinco movimentos, trÃªs para mim, dois para o meu adversÃ¡rio. Mas eu nem sempre consegue escolher isso. 

EntÃ£o, em vez disso, o que nÃ³s somos vai ter que fazer Ã© que nÃ³s vamos ter para ter uma nova estratÃ©gia. E que a estratÃ©gia algoritmos jogo-playing costumam usar Ã© o que Ã© chamado minimax. A idÃ©ia central do minimax Ã© que nÃ³s somos vai escolher o movimento que dÃ¡ o nosso adversÃ¡rio o pior conjunto possÃ­vel de movimentos que eles podem fazer. NÃ£o me faz nenhum bem para escolher um movimento onde Eu poderia ser capaz de vencer depois que, porque o meu adversÃ¡rio nÃ£o Ã© vai me dar essa chance. Eles vÃ£o escolher alguns resultado terrÃ­vel para mim. EntÃ£o eu vou fazer o mova que forÃ§a o meu adversÃ¡rio para fazer algo melhor para mim. Tudo certo. Vamos ver como isso se desenrola. EntÃ£o aqui estÃ¡ o nosso algoritmo em pseudocÃ³digo. NÃ³s estamos indo para gerar toda a Ã¡rvore de jogo. NÃ³s vamos construir toda a estrutura. E entÃ£o nÃ³s vamos passar. E mesmo no fundo em cada um dos nÃ³s terminais, em cada uma das folhas, vamos avaliar como valioso Ã© que para mim? E nÃ³s estamos indo para as coisas de valor que sÃ£o bons para mim como sendo positivo. As coisas que nÃ£o sÃ£o boas para mim vai ser menos positivo ou zero, ou mesmo negativo. 

Assim, em tic-tac-toe, talvez uma vitÃ³ria para mim Ã© bom. Essa Ã© uma pergunta. E um empate Ã© zero. E algo que Ã© uma perda para me, talvez isso Ã© uma negativa. Tudo o que importa Ã© que o melhor Ã© para mim, quanto maior a pontuaÃ§Ã£o ele recebe. A partir destas possibilidades no fundo, entÃ£o vamos filtrar para cima. E quando Ã© a minha chance de escolher entre um conjunto de alternativas, Eu vou escolher o que Ã© obteve a maior pontuaÃ§Ã£o. 

E sempre que ele Ã© meu oponentes virar para escolher, Eu vou assumir que eles estÃ£o indo para escolher aquele com a pontuaÃ§Ã£o mais baixa. E se eu fizer isso todo o caminho atÃ© o topo da Ã¡rvore, Vou ter escolhido um caminho que dÃ¡ me o melhor resultado que eu possa obter, assumindo que o meu adversÃ¡rio faz todos os movimentos certos. 

Tudo bem, entÃ£o vamos ver isso em aÃ§Ã£o pela primeira vez. E entÃ£o nÃ³s vamos realmente olhar para o cÃ³digo para ele. EntÃ£o imagine eu tenho este grande Ã¡rvore. E agora eu nÃ£o estou jogando tic-tac-toe. Eu queria dar-lhe algo um pouco mais rico. EntÃ£o, eu tenho um pouco de jogo onde hÃ¡ muitas pontuaÃ§Ãµes diferentes que eu poderia ter no final. E assim eu construir essa Ã¡rvore completa. E eu comeÃ§o a mover em primeiro lugar. Eu sou a raiz da Ã¡rvore. 

E eu comeÃ§ar a escolher isso-- isso fico para maximizar atravÃ©s daquele primeiro nÃ³. E entÃ£o meu adversÃ¡rio tem que ir. E entÃ£o eu tenho que ir mais uma vez. Assim, na parte inferior, eu tenho um conjunto de possibilidades que eu posso escolher, diferentes estados terminais do jogo. Se eu estou para baixo em que extrema esquerda canto, e eu ver que eu tenho uma escolha entre um e oito, sete, e um dois, bem, eu sou o Ãºnico que comeÃ§a a escolher. EntÃ£o, eu estou indo para escolher o melhor das pessoas. Eu vou escolher o oito. 

EntÃ£o eu sei que se eu descer a esse ponto, Eu vou ser capaz de conseguir que os oito pontos. Se eu acabar no prÃ³ximo ponto sobre, sobre o prÃ³ximo nÃ³, um nove, um, ou um seis, bem, eu sou vai escolher a melhor delas. Eu vou escolher a nove. Se eu tiver uma escolha entre dois e quatro, e um, Eu vou escolher a quatro, o mais alto. 

Agora, se eu olhar para o nÃ­vel acima disso, meu adversÃ¡rio Ã© o que se tem de fazer essa escolha. EntÃ£o, o meu adversÃ¡rio comeÃ§a a escolher, eu gostaria de dar-lhe a Ãºnica coisa que estÃ¡ acontecendo para tirÃ¡-lo oito pontos, ou eu dar-lhe a coisa que Ã© vai dar-lhe nove pontos, ou a coisa que estÃ¡ acontecendo para dar-lhe quatro pontos? E o meu adversÃ¡rio, sendo racional, vai escolher o mÃ­nimo daqueles, vai escolher a quatro. 

E eu posso fazer isso atravÃ©s de toda a Ã¡rvore. Eu posso ir para baixo para que conjunto do meio de trÃªs. E eu posso escolher entre um, trÃªs, e cinco. E eu comeÃ§ar a escolher. EntÃ£o eu escolher um de cinco. Posso escolher trÃªs, nove, ou dois. Eu comeÃ§ar a escolher, entÃ£o eu escolher o nove. Seis, cinco, ou dois, eu escolho. Eu comeÃ§ar a escolher a seis. NÃ­vel acima do que, quem comeÃ§a a escolher? Quem comeÃ§a a escolher? O outro cara, o meu adversÃ¡rio. EntÃ£o, eles escolher cinco, nove, ou seis, qual? 

AUDIÃNCIA: A cinco. 

COLUNA: Eles escolhem a cinco. ComeÃ§am a escolher o mÃ­nimo. E, em seguida, o Ãºltimo, escolher um, dois, ou trÃªs. Eu comeÃ§ar a escolher, entÃ£o eu escolher trÃªs. Nove, sete, ou dois, eu escolho nove. E 11, seis, ou quatro, eu escolher 11. Meu oponente em seguida, escolhe trÃªs, nove, ou 11, escolhe o mÃ­nimo. Ele me dÃ¡ um trÃªs. E, finalmente, na parte superior da a Ã¡rvore, eu comeÃ§ar a escolher novamente. E eu comeÃ§ar a escolher entre quatro, cinco, ou trÃªs. EntÃ£o eu levo a cinco. 

Se eu tenho que controlar tudo, eu tomar o caminho que levou ao 11. Mas eu nÃ£o conseguir fazer essa escolha. Se eu ir por esse caminho. Meu oponente vai me forÃ§ar a a escolha que conduz a um de trÃªs. EntÃ£o, o melhor que eu posso fazer Ã© para dar esse ramo meio, fazer essa escolha Ã© que, eventualmente, vai me levar a cinco pontos. Isso Ã© o que faz minimax. 

Tudo certo. Vamos dar uma olhada nisso. EntÃ£o, aqui no CS50 IDE Ã© um programa que implementa minimax jogar tic-tac-toe. NÃ³s vamos construir -se uma representaÃ§Ã£o. NÃ³s vamos ter dois opponent-- ou dois jogadores, o nosso computador jogador e um jogador humano. O jogador nÃºmero um vai jogar o O. Isso vai ser o jogador mÃ¡quina. ComeÃ§am a se mover segundo. E o outro jogador, o nosso jogador humano, serÃ¡ X. 

E para tornar minha vida um pouco simples, eu vou rotular esse jogador um negativo. EntÃ£o eu sÃ³ posso multiplicar por um negativo para trocar entre um e o outro jogador. Tudo bem, entÃ£o vamos dar uma olhada o que na verdade estamos indo fazer. NÃ³s vamos definir o nosso conselho. Vai ser, bem, nÃ³s vamos para permitir que ele seja trÃªs por trÃªs, ou podemos atÃ© mesmo jogar cinco por cinco ou sete por sete tic-tac-dedo do pÃ© se vocÃª como, com base em alguma dimensÃ£o D. 

E nÃ³s vamos ter um casal de funÃ§Ãµes auxiliares que vai fazer coisas como inicializar o screen-- ou desculpe, inicializar nossas variÃ¡veis, desmarque a tela, chamar a bordo na tela, um que verifica uma placa para ver se ou nÃ£o hÃ¡ um vencedor, aquele que analisa atravÃ©s da linha de comando, apenas para ajudar, aquele que lÃª em entrada, e uma funÃ§Ã£o chamada minimax. E isso Ã© o que vamos mais gosta. Mas vamos olhar primeiro para o principal. 

O que nÃ³s fazemos? Bem, vamos analisar a linha de comando, acabou de ler e ver o que placa de dimensÃ£o que nÃ³s gostarÃ­amos de ter. Vamos iniciar o nosso conselho. E entÃ£o nÃ³s vamos entrar em um grande laÃ§o selvagem, repetidamente aceitar se move atÃ© que o jogo Ã© ganhou, ou nÃ£o hÃ¡ nenhum movimento Ã  esquerda. Cada vez que passar por isso loop, vamos limpar a tela. Vamos chamar a bordo na tela. E nÃ³s estamos deliberadamente tipo de abstraindo estes afastado como sub-rotinas, de modo que nÃ£o temos que se preocupar muito sobre os detalhes de como eles acontecem. 

VocÃª vai ter o cÃ³digo mais tarde hoje. E se vocÃª quiser olhar atravÃ©s e descobrir, vocÃª pode vÃª-los todos. Mas nÃ³s vamos desenhar uma placa na tela. E entÃ£o nÃ³s vamos verificar e ver, temos um vencedor? AlguÃ©m ganhou este jogo? Se eles tÃªm, vamos imprimir uma mensagem de vitÃ³ria. E nÃ³s vamos terminar o jogo. 

TambÃ©m vamos verificar e ver se hÃ¡ um empate. Vai ser fÃ¡cil para ver se hÃ¡ um empate. Isto significa que todos os espaÃ§os sÃ£o cheios, mas nÃ£o houve ainda um vencedor. Podemos declarar um empate e ser feito. Em seguida, o verdadeiro se meat-- Ã© um jogador de mÃ¡quina, vamos permitir que jogador mÃ¡quina para pesquisa atravÃ©s da utilizaÃ§Ã£o deste algoritmo minimax, para encontrar a melhor jogada que ele pode. E entÃ£o nÃ³s vamos colocar esse movimento para cima. 

Caso contrÃ¡rio, se Ã© um jogador humano, leremos alguma entrada do humano. E entÃ£o se Ã© o humano jogador ou o jogador mÃ¡quina, vamos fazer um par pouco bits de verificaÃ§Ã£o de erros, garantir que se mantÃ©m dentro dos limites das dimensÃµes reais do bordo que temos, certifique- que Ã© que o espaÃ§o vazio, que ninguÃ©m colocar uma peÃ§a jÃ¡ estava lÃ¡. E entÃ£o nÃ³s vamos apenas colocar uma peÃ§a no tabuleiro, alterar o jogador para a camada seguinte, e incrementar quantos movimentos ter acontecido. 

Esse Ã© o principal laÃ§o para o nosso jogo tic-tac-toe. Minimax, entÃ£o, Ã© exatamente o algoritmo que antes. O Ãºnico ajuste que nÃ³s fizemos, para que possamos pode desempenhar maior placas dimensionais Ã© que nÃ³s temos mantido esse parÃ¢metro extra chamado profundidade. E profundidade apenas diz, se eu sou procura para baixo atravÃ©s daquela Ã¡rvore e eu fico tÃ£o longe para baixo alÃ©m de algum nÃ­vel de profundidade que eu sÃ³ nÃ£o quero para ir mais longe, Eu vou parar e apenas avaliar a bordo naquele ponto. Vou verificar e ver se hÃ¡ um vencedor. Se houver um vencedor, eu devolvÃª-los. Caso contrÃ¡rio, eu vou passar por um loop. E eu vou dizer, para todos as possÃ­veis localizaÃ§Ãµes que eu poderia possivelmente tomar como minha mudanÃ§a, eu vou construir uma placa hipotÃ©tica que inclui a minha jogada em que o conselho, e, em seguida, chama recursivamente minimax. 

Se Ã© a minha jogada, eu tenho que encontrar o aquele que tem a maior pontuaÃ§Ã£o. Se Ã© movimento do meu oponente, encontramos aquele que tem a pontuaÃ§Ã£o mÃ­nima. E tudo o resto Ã© mantendo apenas registro. Tudo bem, entÃ£o vamos ver esta corrida. Na verdade, talvez o que pudermos obter um par de voluntÃ¡rios para vir e jogar tic-tac-toe. [InaudÃ­vel] um, e um mais, dois, ali mesmo. Vamos lÃ¡ para cima. 

EntÃ£o, vamos em frente e reinicie esta completamente. EntÃ£o, oi. 

AUDIÃNCIA: Oi. 

COLUNA: Qual Ã© o seu nome? 

AUDIÃNCIA: Gorav. COLUNA: Gorav. 

AUDIÃNCIA: Eu sou Layla. 

Orador: E Layla, e Layla, desculpe. Vamos lÃ¡ para cima. Gorav, nÃ³s vamos ter de ir primeiro. E eu vou pedir-lhe para ser um nÃ£o terrivelmente bom jogador tic-tac-toe. OK, entÃ£o toda a pressÃ£o estÃ¡ fora em vocÃª. Vamos ver, porÃ©m, que a nossa mÃ¡quina jogador pode realmente fazer alguma coisa inteligente. EntÃ£o vÃ¡ em frente. VocÃª vai digitar em que coordenam vocÃª gostaria de colocar o seu X in. A0, OK, ea mÃ¡quina tem ido imediatamente e colocar sua marca na A1. 

Coloque a O no tabuleiro. Tudo bem, agora vÃ¡ em frente. Onde vocÃª gostaria de ir? C2. Nosso jogador mÃ¡quina tomou o quadrado do meio, bloqueou vocÃª. EntÃ£o isso foi uma boa, coisa inteligente para que ele faÃ§a. VocÃª bloqueou. Isso Ã© excelente. Ele marca o canto lÃ¡. 

E ele vai forÃ§Ã¡-lo a tomar o Ãºltimo espaÃ§o, B0. E o jogo termina em empate. Mas teve um razoÃ¡vel jogo contra vocÃª, certo? Tudo bem, muito obrigado, Gorav. 

[Aplausos] 

Tudo bem, Layla, vamos o jogo em vocÃª aqui. 

AUDIÃNCIA: Oh, Ã³timo. 

COLUNA: NÃ³s estamos indo dar- vocÃª quatro por quatro tic-tac-toe. Agora, em quatro por quatro, vocÃª tem que ganhar com quatro em uma fileira, e nÃ£o trÃªs em uma fileira. E Ã© toda sua. Assim Layla levou D1. Estamos indo para seguir nosso jogador do computador aqui. TrÃªs por trÃªs tic-tac-toe Ã© o tipo de coisa que Ã© fÃ¡cil para todos nÃ³s. Mas ainda Ã© bom ver o jogador do computador fazendo movimentos inteligentes. Quatro por quatro comeÃ§a a ser um pouco mais complicado. 

Bem feito. Tudo bem, entÃ£o Layla do finalizou. Oh, e devemos ter terminado ali. Mas vamos fazer mais uma aqui. EntÃ£o, Layla, obrigado. Bem feito. 

[Aplausos] 

Assim, o nosso jogador tic-tac-toe vai e atravÃ©s encontra locais, resolve-los usando este minimax. E eu tinha uma configuraÃ§Ã£o de profundidade em que, para que ele nÃ£o iria correr muito rÃ¡pido, que Ã© provavelmente porque Layla foi capaz de ir bem em frente como ela fez, e fez muito bem. Mas esses sistemas que apenas passar e forÃ§a bruta ir mais fundo e mais profundo, e mais profundo, e manter a encontrar a soluÃ§Ã£o que eles precisam, esses tipos de sistemas sÃ£o bastante bem-sucedido para estes, bem, jogos de tabuleiro padrÃ£o. 

E, de fato, se olharmos para um trÃªs por trÃªs jogo tic-tac-toe, este Ã© basicamente um problema resolvido. E este Ã© um diagrama maravilhoso Randall Munroe de XKCD em, mostrando qual vocÃª deve se mover tomar, dada movimentos do seu oponente. Isso Ã© algo que pudÃ©ssemos facilmente especificar antes do tempo. Mas o que acontece quando chegarmos a mais jogos complexos, jogos mais complicados, onde existem placas maiores, mais possibilidades, a estratÃ©gia mais profunda? 

Acontece que este forÃ§a bruta procura ainda faz razoavelmente bem, excepto quando vocÃª chegar ao ponto onde a Ã¡rvore Ã© tÃ£o grande que vocÃª nÃ£o pode representar tudo. Quando vocÃª nÃ£o pode calcular toda a Ã¡rvore, quando vocÃª nÃ£o pode ir para a frente e empurre -se para o ponto onde vocÃª tem comeÃ§ado a Ã¡rvore inteira na memÃ³ria, ou se vocÃª pode obtÃª-lo na memÃ³ria e ela sÃ³ vai levÃ¡-lo muito tempo para pesquisar -lo, vocÃª tem que fazer algo mais inteligente. 

A fim de fazer isso, vocÃª tem que fazer duas coisas. Primeiro, vocÃª tem que encontrar algum forma de limitar a sua profundidade. Bem, isso Ã© OK. Podemos encontrar algumas agradÃ¡veis, mÃ­nimo e dizer, vocÃª sÃ³ pode ir tÃ£o fundo. Mas quando vocÃª faz isso, isso significa que vocÃª ter estas placas parcialmente incompletos. E vocÃª tem que escolher, eu gosto esta placa parcialmente incompleta, ou esta placa parcialmente incompleta? 

E em nossos quatro por quatro jogo tic-tac-toe, nosso jogador do computador desceu para a parte inferior e disse, Eu tenho duas placas diferentes. Nenhum dos dois Ã© uma vitÃ³ria. Nenhum dos dois Ã© uma perda. Nenhum dos dois Ã© um empate. Como posso escolher entre eles? E ele nÃ£o tinha uma forma inteligente de fazer isso. 

Vemos esse tipo de avaliaÃ§Ã£o acontecem o tempo todo como nÃ³s entrar em jogos mais complexos. O xadrez Ã© um grande exemplo. No xadrez, temos, em primeiro lugar de tudo, uma placa de maior. NÃ³s temos muito mais peÃ§as. E o posicionamento destas peÃ§as e da maneira que essas peÃ§as se movem Ã© criticamente importante. EntÃ£o, se eu quiser usar minimax, Eu preciso ser capaz de especificar e dizer, esta placa, onde ninguÃ©m ganhou ou perdeu, no entanto, Ã© de alguma forma melhor do que este outro placa, onde ninguÃ©m ganhou ou perdeu. 

Para fazer isso, eu poderia fazÃª- coisas como eu poderia apenas contar quantas peÃ§as que eu tenho e quantas peÃ§as vocÃª tem? Ou eu poderia dar diferente peÃ§as pontos diferentes. Minha rainha vale 20 pontos. Seu peÃ£o vale um ponto. Quem tem mais pontos no total? Ou eu poderia considerar coisas como: quem tem o melhor posiÃ§Ã£o do tabuleiro? Quem Ã© a vez seguinte, qualquer coisa que eu puder nÃ£o para avaliar com mais precisÃ£o qual destas possibilidades Ã© melhor sem considerando exaustivamente cada movimento que poderia vir depois disso. 

Agora, para fazer esse trabalho, uma das coisas que Ã© vai se tornar realmente importante para nÃ³s nÃ£o Ã© apenas se movendo em linha reta atÃ© uma determinada profundidade limite, mas ser capaz de dizer: uma dessas idÃ©ias que eu tÃªm Ã© tÃ£o ruim que Ã© nÃ£o vale a pena considerar todas as formas possÃ­veis que as coisas podem ir de mal a pior. Para fazer isso, vamos adicionar em minimax um princÃ­pio chamado alph-beta. E alfa-beta diz, se vocÃª tiver uma mÃ¡ idÃ©ia, nÃ£o perca seu tempo tentando descobrir exatamente como Ã© ruim. 

EntÃ£o aqui estÃ¡ o que vamos fazer. NÃ³s vamos ter a mesma princÃ­pios que tÃ­nhamos antes, o mesmo tipo minimax de pesquisa, sÃ³ nÃ³s somos vai acompanhar, nÃ£o sÃ³ do valores reais de que dispomos, mas vamos acompanhar o melhor possÃ­vel valor que eu poderia chegar, eo pior possÃ­vel resultado que eu poderia ter. E qualquer momento o pior possÃ­vel coisa Ã© olhar provÃ¡vel, Eu vou abandonar essa parte da Ã¡rvore. E eu nÃ£o vou incomodar mesmo olhando para ele anymore. 

Tudo bem, entÃ£o imagine que comecemos com esta mesma Ã¡rvore jogo exato. E agora nÃ³s estamos indo para ir de novo, todo o caminho para que canto inferior esquerdo. E nesse canto inferior esquerdo canto, nÃ³s olhar e avaliamos esta placa. Talvez seja um quatro por quatro tic-tac-toe placa, ou talvez Ã© um tabuleiro de xadrez. Mas olhamos para ele, e nÃ³s avaliamos -lo, e nÃ³s temos um valor de oito. 

Nesse ponto, sabemos que nÃ³s estamos indo para obter, pelo menos, oito pontos de esta decisÃ£o inferior. NÃ£o importa o que o outro dois sÃ£o, que sete e que dois. Eles poderiam ser quaisquer valores eles queriam ser. NÃ³s vamos chegar a menos oito pontos. Tudo bem, mas poderÃ­amos vÃ¡ em frente e confira. Talvez um deles Ã© melhor do que oito. 

NÃ³s olhamos para o sete. EstÃ¡ melhor do que oito? NÃ£o, isso nÃ£o muda nossa opiniÃ£o em tudo. NÃ³s olhamos para os dois. EstÃ¡ melhor do que oito? NÃ£o, isso nÃ£o muda nossa opiniÃ£o em tudo. Portanto, agora sabemos que jÃ¡ esgotou todas as possibilidades lÃ¡. NÃ³s nÃ£o estamos indo para chegar nada melhor do que oito. NÃ³s estamos indo para obter exatamente oito. 

E assim nÃ³s mudamos esse nÃ³ e digamos, que Ã© agora uma certeza. NÃ³s subir um nÃ­vel acima disso. E agora sabemos alguma coisa sobre esse nÃ­vel de minimizaÃ§Ã£o. NÃ³s sabemos que nÃ³s nunca vamos chegar mais de oito pontos se descemos nessa direÃ§Ã£o. Porque mesmo se os outros dois ramos vir para ser fantÃ¡stico e vale a pena milhares de pontos, cada, o nosso adversÃ¡rio nos darÃ¡ a mÃ­nimo, e nos dÃ¡ a oito. Tudo bem, bem, vamos ver. Vamos continuar por esse caminho. Descemos para que mÃ©dio Ã  esquerda. Olhamos para baixo e vemos que hÃ¡ um nove. Sabemos que vamos chegar pelo menos nove pontos, indo para baixo que caminho do meio. E, neste ponto, podemos apenas fazer uma pausa. E podemos dizer, olha, eu conhecer no nÃ­vel acima, Eu estou indo para obter nÃ£o mais do que oito aponta para baixo, indo nesta direÃ§Ã£o. Mas se eu fui para o meio caminho em vez do caminho da esquerda, Gostaria de obter pelo menos nove pontos. 

Meu oponente Ã© nunca vai deixe-me ir por esse caminho do meio. ComeÃ§am a escolher. E eles estÃ£o indo para escolher o caminho para a esquerda em direÃ§Ã£o a oito, em vez de no meio em direÃ§Ã£o o que Ã©, pelo menos, nove pontos. EntÃ£o, nesse ponto, eu vou parar. E eu vou dizer, vocÃª sabe o quÃª? Eu nÃ£o tenho que olhar para mais baixo nessa direÃ§Ã£o. Porque eu nunca vou chegar lÃ¡. 

Eu posso ignorar que um, e eu posso ignorar que seis, porque isso nunca vai acontecer. EntÃ£o, eu vou descer e eu vou Considere o seguinte possibilidade. Eu vou lÃ¡ e digo, eu vejo um dois. Eu sei que se eu ficar aqui, eu sou vai ficar pelo menos dois. ESTÃ BEM. I continuar. Eu vejo um quatro. Eu sei que estou indo para obter, pelo menos, quatro. Ainda hÃ¡ muito entre quatro e oito, no entanto. EntÃ£o eu continuo indo. Eu olho para baixo e vejo que hÃ¡ um. Tudo bem, eu sei que se I ir por este caminho, Eu vou ser capaz de escolher o quatro. O que o meu adversÃ¡rio vai fazer? Entre algo que me dÃ¡ oito, algo que me dÃ¡ quatro, e que algo me dÃ¡, pelo menos, nove, bem, ele vai me dar quatro. E eu sei agora no muito alto, eu vou para ser capaz de obter, pelo menos, quatro pontos fora deste jogo. 

Toda a idÃ©ia de alfa-beta Ã© cortar partes da Ã¡rvore para que eu nÃ£o olhar para eles anymore. Mas ainda parece que eu estive olhando para um monte da Ã¡rvore. Vamos continuar indo para baixo. Vamos descer a prÃ³xima agora. LÃ¡ no fundo, eu encontrar um. Eu sei que estou indo para obter, pelo menos, um. Eu fico olhando. 

I encontrar um trÃªs. Eu sei que estou indo para obter, pelo menos, trÃªs. I continuar. I encontrar um cinco. Eu sei que estou indo para obter cinco se eu descer nesse caminho. E eu tambÃ©m sei, em seguida, que o meu adversÃ¡rio, se eu escolher o meio de os trÃªs grandes escolhas, ele vai me dar algo que Ã© cinco ou menos. 

ESTÃ BEM. Eu posso continuar lÃ¡. Eu posso olhar para baixo e eu pode-se dizer, o que eu vou de obter, se eu descer o caminho do meio? Eu estou indo para obter, assim, trÃªs lÃ¡. Eu estou indo para obter algo que Ã© pelo menos trÃªs. Ainda hÃ¡ coisas entre trÃªs e cinco, entÃ£o eu continue procurando. Oh, um nove, eu vou definitivamente levar isso ao longo de um trÃªs. Eu estou indo para obter, pelo menos, nove se eu for por esse caminho do meio. 

Agora o meu adversÃ¡rio pÃ¡ra e diz: olhe, nÃ£o hÃ¡ nenhum ponto anymore. Eu sei que o meu minimizaÃ§Ã£o oponente, ele Ã© vai me dar a coisa que Ã© menos do que ou igual a cinco, ao invÃ©s da coisa que Ã© maior do que ou igual a nove. Eu paro. Eu nÃ£o olho mais para isso. I continuar. 

Eu olho para baixo em um presente. AtÃ© o fundo, eu acho um seis. Eu sei que estou indo para obter, pelo menos, seis. E o que eu posso fazer? Eu posso parar. Porque nÃ£o hÃ¡ uma escolha entre algo que Ã©, pelo menos, seis e algo que Ã© menos de cinco anos, ele Ã© vai dar-me a coisa que Ã© menos do que cinco. E agora eu sei que eu vou para obter exatamente essa escolha. Eu estou indo para obter que cinco escolha. 

Eu voltar a subir atÃ© o topo. Que Ã© que eu vou escolher entre algo que Ã© maior do que ou igual a quatro, ou algo que Ã© igual a cinco? Eu vou tomar algo que Ã©, pelo menos, cinco anos. DesÃ§o o Ãºltimo caminho, todos o caminho atÃ© o fundo. HÃ¡ um um. OK, pelo menos eu estou indo para obter um ponto. I continuar. Dois, oh, isso Ã© melhor do que uma. Eu estou indo para obter, pelo menos, dois. I encontrar um trÃªs. Eu sei que estou indo para obter trÃªs. 

E o ponto de cima que, o meu adversÃ¡rio vai para me dar algo que Ã© menos do que ou igual a trÃªs. E agora eu posso parar. Porque na escolha entre eu estar capaz de obter um cinco e meu oponente dando-me uma coisa inferior a trÃªs, Eu sempre vou ter que cinco. EntÃ£o eu nÃ£o avaliar que parte inferior da Ã¡rvore de todo. 

Agora, isto pode parecer menor. Mas quando pequenos pedaÃ§os de aritmÃ©tica, superior e inferior, pode cortar partes inteiras de esta Ã¡rvore em crescimento exponencial, que conduz a um enorme quantidade de poupanÃ§a, poupanÃ§a que sÃ£o grandes o suficiente para que eu pode comeÃ§ar a jogar competitivamente em jogos mais complexos. 

Tudo bem, se olharmos para o tamanho e complexidade de jogos diferentes, tic-tac-toe foi o nosso exemplo fÃ¡cil. Temos uma pequena placa, trÃªs por trÃªs. Ficamos com, no mÃ¡ximo, uma mÃ©dia de cerca de quatro diferentes opÃ§Ãµes como nÃ³s atravessamos o jogo. Temos algo em torno de 10 a possÃ­veis folhas diferentes quinto. Ea construÃ§Ã£o de um tic-tac-toe jogador, bem, nÃ³s sÃ³ fiz isso. Isso Ã© fÃ¡cil. 

Se formos atÃ© algo mais complexo, como Connect Four. VocÃª se lembra deste jogo onde vocÃª deixar cair as pequenas fichas em? Ã uma placa de seis por sete, nÃ£o muito maior, ainda tem aproximadamente a mesma ramificaÃ§Ã£o fator como tic-tac-toe. Eu tenho cerca de quatro escolhas onde posso colocar as coisas em. Mas agora, eu tenho muito mais leva, 10 elevado Ã  potÃªncia 21. Isso Ã© algo que Ã© fÃ¡cil o suficiente para que nÃ³s resolvÃª-lo imediatamente. 

Checkers, mais vocÃª complex-- tem um oito por oito bordo. VocÃª estÃ¡ apenas na metade da los a qualquer momento, no entanto. VocÃª tem uma ramificaÃ§Ã£o fator que Ã© cerca de 2,8. Bem, temos um casal move-se vocÃª pode tomar. VocÃª tem cerca de 10 a 31 de folhas, espaÃ§os maiores e maiores, e maiores. Como eu tenho que pesquisar esses espaÃ§os cada vez maiores, que Ã© quando as coisas como beta e alfa- sendo capaz de cortar ramos inteiros torna-se essencial. 

Agora, damas foi fÃ¡cil o suficiente em 1992. Um programa de computador chamado Chinook bater as damas mundo campeÃ£o, Marion Tinsley. E, desde entÃ£o, nÃ£o jogador de mestre humano tem foi capaz de vencer o melhor sistemas computacionais. Se olharmos para algo como xadrez, agora novamente, temos um oito por oito bordo. Mas temos muito mais complexo peÃ§as, tanto os movimentos mais complexos. Temos um fator de ramificaÃ§Ã£o de cerca de 35, 35 movimentos possÃ­veis em mÃ©dia que eu possa tomar, e um estado espaÃ§o, um nÃºmero de folhas que cresceu de 10 para 123 o poder, um nÃºmero enorme de possibilidades. 

Mesmo assim, os processadores modernos sÃ£o capazes de fazer isso com sucesso. Em 1995 e, em seguida, em 1997, um computador programa chamado Deep Blue construÃ­do pela IBM que corria em um supercomputador gigante bater o atual campeÃ£o mundial, Garry Kasparov. Este foi um ponto de viragem. Hoje, porÃ©m, que a mesma transformaÃ§Ã£o poder se senta no meu MacBook. 

Velocidade de processamento mantÃ©m ficando mais rÃ¡pido e mais rÃ¡pido. NÃ³s podemos avaliar mais e mais placas mais rÃ¡pidas e mais rÃ¡pido. Mas o mais importante, temos melhor funÃ§Ãµes de avaliaÃ§Ã£o e melhor poda mÃ©todos. Assim, podemos procurar o espaÃ§o mais complexo. A maior do conselho jogos que podemos pensar, Vai algo como isso Ã© tem uma placa de 19 por 19, Agora, de repente, nÃ³s estamos alÃ©m do ponto onde os sistemas computacionais pode ganhar. NÃ£o hÃ¡ nenhum computacional sistema lÃ¡ fora, que pode bater um jogador profissional Go. Os melhores sistemas de hoje classificÃ¡-lo sobre o tipo de bom nÃ­vel amador. Assim, ainda hÃ¡ um pouco para fora hÃ¡ que vocÃª nÃ£o pode chegar a ainda. 

Tudo bem, estas jogos de tabuleiro tradicionais, estes tipos de sistemas onde construir essa minimax, se ele tem alfa-beta ou nÃ£o, estes algoritmos de trabalhar porque hÃ¡ certas restriÃ§Ãµes. NÃ³s temos a informaÃ§Ã£o perfeita sobre o mundo. NÃ³s sabemos onde estÃ£o todas as peÃ§as. O mundo Ã© estÃ¡tico. NinguÃ©m fica para mover o pedaÃ§os ao redor, enquanto eu estou sentado lÃ¡ pensando, tomando minha vez. HÃ¡ um espaÃ§o de aÃ§Ã£o que Ã© discreta. Eu posso colocar o meu peÃ£o aqui, ou eu posso colocar meu peÃ£o aqui. Eu nÃ£o estou autorizado a colocar o meu peÃ£o em a linha entre os dois quadrados. 

E, finalmente, as acÃ§Ãµes sÃ£o deterministas. Eu sei que se eu digo, rook cavaleiro para trÃªs, minha torre vai acabar no cavaleiro trÃªs, desde que Ã© um movimento vÃ¡lido. NÃ£o hÃ¡ nenhuma incerteza sobre isso. Agora, como eu ir para mais diferentes tipos de jogos, nÃ³s temos que quebrar essas suposiÃ§Ãµes. 

E se eu ir para algo como clÃ¡ssicos jogos de vÃ­deo? Aqui estÃ¡ uma seleÃ§Ã£o de vÃ­deo jogos do Atari 2600. O que eu tenho lÃ¡ em cima? Eu tenho Frogger, EspaÃ§o Invaders, Pitfall, e Pac-Man. Que tipos de ambientes eu tenho aqui agora? Qual dessas premissas eu tenho que quebrar? 

Bem, isso depende do jogo. Eu poderia jogar xadrez em 2600, e seria exatamente como era antes. Para a maioria destes sistemas, hÃ¡ conhecimento completo sobre o mundo. HÃ¡ completamente aÃ§Ãµes determinista. Mas, geralmente, o mundo nÃ£o estÃ¡tico. Ou seja, enquanto eu estou sentado lÃ¡ esperando, algo estÃ¡ se movendo. Os fantasmas estÃ£o vindo para me pegar. O escorpiÃ£o estÃ¡ me seguindo por baixo. Os invasores do espaÃ§o sÃ£o chegando cada vez mais perto. Como bem podemos fazer contra isso? 

Alguns anos atrÃ¡s, o Google tinha um projeto chamado DeepMind, onde eles treinaram um computador programa de jogar Atari 2600 jogos. E se vocÃª acha que isso nÃ£o Ã© grave negÃ³cio, os resultados de seu estudo foram publicados na revista Nature, de modo quase tÃ£o bom uma publicaÃ§Ã£o como vocÃª pode eventualmente chegar. E aqui estÃ¡ como bem eles realizados. 

Eles tÃªm um algoritmo que se sentou e viu apenas as entradas de tela. Ele tem nenhuma instruÃ§Ã£o que seja sobre as regras do jogo. E era para descobrir, baseou a sua pontuaÃ§Ã£o, o quÃ£o bem ele estava fazendo. Este foi um sistema que utilizado algo chamado de aprendizado por reforÃ§o. Ou seja, ele olhou para a sua pontuaÃ§Ã£o. E se ele obteve uma boa pontuaÃ§Ã£o, ele disse: Eu deveria me lembrar dessas coisas. E eu deveria fazer aqueles outra vez. E se ele obteve uma nota ruim, ele disse: Eu nÃ£o deveria fazer essas coisas novamente. 

Este Ã© o desempenho desses sistemas formados autorizado a jogar por um algumas horas em cada jogo, comparados com jogadores profissionais. Portanto, para todos os jogos que estÃ£o para o lado esquerdo desta linha, Este programa de computador auto-treinados superaram os jogadores profissionais. E para que tudo o direito, os jogadores profissionais ainda foram os melhores. Para algo que sabia nada sobre as regras, que nÃ£o sabia nada sobre a estrutura do jogos, este Ã© um desempenho impressionante. E Ã© isso que nÃ³s somos capazes de fazer hoje. 

OK, vocÃª diz, mas se nÃ³s pensar sobre AI em jogos, normalmente pensamos sobre a coisas que podemos realmente sentar e jogar contra. Se eu me sento e toco StarCraft, ou eu jogo gratuito Sieve, o adversÃ¡rio Ã© o computador pessoa que controla o Zerg, ou o controlo do outro civilizaÃ§Ã£o. Como esses jogadores realmente encontrar seus movimentos? 

Bem, estes jogos sÃ£o estruturados da mesma maneira como os nossos jogos de tabuleiro, estes jogos que vamos chamar colectivamente quatro jogos X, explorar, expand-- esquecer os queridos. O que eles sÃ£o? Explorar, expandir e extinguir, Eu acho que Ã© a Ãºltima. Mas eles sÃ£o, basicamente, jogos de exploraÃ§Ã£o e conquistar. Normalmente, o adversÃ¡rio do computador nÃ£o tem informaÃ§Ãµes limitadas. Eles nÃ£o sabem exatamente o que estÃ¡ acontecendo por trÃ¡s dessa nÃ©voa da guerra. Eles nÃ£o conseguem ver o que vocÃª tem em seu inventÃ¡rio. 

HÃ¡ um ambiente que Ã© dinÃ¢mico. Tudo estÃ¡ mudando o tempo todo. VocÃª nÃ£o consegue sentar-se e esperar para tomar a sua jogada. Mas a maioria das coisas que ainda sÃ£o discretos. Eu tenho que colocar minha cidade aqui. Ou eu tenho que colocar minha cidade aqui. E tudo Ã© determinista. Quando eu digo, mover minha unidade aqui, minha unidade move-se aqui, a nÃ£o ser um obstÃ¡culo de repente entra em jogo. Agora, isso nÃ£o Ã© tudo computador jogos que estÃ£o por aÃ­ hoje. 

Se eu ir e eu jogo um primeiro tipo pessoa jogo, algo como ladrÃ£o ou Fallout ou Skyrim, ou o Halo, agora Eu tenho adversÃ¡rios controlados pelo computador que estÃ£o lÃ¡ fora, que tÃªm uma situaÃ§Ã£o muito diferente. Eles tÃªm, de novo, informaÃ§Ãµes limitadas. Eles sÃ³ podem ver um certo campo de visÃ£o. O ambiente Ã© ainda dinÃ¢mico. As coisas estÃ£o mudando o tempo todo. 

Mas agora eu tenho um muito mais espaÃ§o de aÃ§Ã£o contÃ­nua. Eu posso ser apenas exibir uma pouco fora da porta. E alguns jogos, a minha aÃ§Ãµes sÃ£o estocÃ¡stica. Eu comeÃ§ar a tentar saltar sobre essa parede, mas eu tenho a chance de fracassar. Estes tipos de jogos estÃ£o se aproximando e mais prÃ³ximas para os tipos de controladores que nÃ³s construÃ­mos em robÃ³tica. 

Em robÃ³tica, temos que assumir que temos informaÃ§Ã£o limitada. Temos que sensores conte-nos sobre o mundo. NÃ³s temos um sempre mudando, ambiente dinÃ¢mico. Temos um mundo em que o espaÃ§o Ã© contÃ­nua, em vez de discreta. E nossas aÃ§Ãµes, quando tentamos eles, tem uma chance de fracassar. E, de fato, jogo moderno controladores para o seu adversÃ¡rio de Halo, ou para os NPCs em Skyrim, basicamente, executar pequenas arquiteturas robÃ³ticas. 

Eles sentem o mundo. Eles construir um modelo do mundo. Eles computam com base em um conjunto de objetivos que gostaria de realizar. Eles planejam aÃ§Ãµes baseadas sobre o que eles sabem. E esses sÃ£o exatamente os mesmos tipos dos sistemas que construÃ­mos em robÃ³tica. Assim, essas arquiteturas, para trazer isso de volta juntos, sÃ£o muitas vezes bastante o mesmo. 

EntÃ£o, vamos ver se podemos ver isso. Vamos voltar ao nosso exemplo tic-tac-toe. E eu vou pedir um par de meu pÃ³s-docs para vir e me ajudar. EntÃ£o, Chen Ming, e Alessandro, e Olivier, se vocÃªs viriam para cima. E eu vou precisar um par de voluntÃ¡rios 

OK, eu vi um direito mÃ£o lÃ¡ no meio. Deixe-me dar mais um, alguÃ©m ainda mais na parte de trÃ¡s, talvez. Tudo bem, lÃ¡. Vamos lÃ¡ para cima. Tudo certo. Portanto, vamos ter que tampa para baixo. E se vocÃªs viriam direita de volta por aqui para mim, fantÃ¡stico. 

Portanto, este Ã© um robÃ´ chamado Baxter. E Baxter Ã© um robÃ´ que Ã© uma plataforma comercial, projetado por uma empresa chamada Rethink. E este robÃ´ Ã© concebido para a fabricaÃ§Ã£o em pequena escala. Mas hoje nÃ³s estamos indo para usÃ¡-lo para jogar tic-tac-toe. Agora, este robÃ´ tambÃ©m Ã© algo que Ã© relativamente Ãºnica. Porque se eu estivesse em pÃ© em qualquer lugar perto de uma fÃ¡brica automaÃ§Ã£o padrÃ£o sistema, eu estaria em muito grave perigo de ser ferido. 

Baxter, no entanto, foi concebida para ser relativamente seguro para interagir com. E para que eu possa empurrar este robÃ´. E vocÃª pode ver que Ã© um pouco pouco flexÃ­vel que se move ao redor. E eu posso reposicionÃ¡-la onde eu gostaria que ele vÃ¡. Agora em um sistema robÃ³tico normal, terÃ­amos um conjunto de articulaÃ§Ãµes aqui que seria directamente respondendo aos comandos de posiÃ§Ã£o. E eles nÃ£o necessariamente se preocupam se eles estavam se movendo atravÃ©s de ar livre, ou se eles estavam se movendo atravÃ©s da minha caixa torÃ¡cica. 

ESTÃ BEM. E normalmente, se vocÃª fosse aqui com um sistema industrial, vocÃª iria a lugar nenhum perto dele. Haveria amarelo fita de seguranÃ§a ao redor dele. Este sistema tem um desenho ligeiramente diferente para ser mais amigÃ¡vel e mais fÃ¡cil para as pessoas a interagir com, em que em cada uma das juntas, hÃ¡ uma mola. E, em vez de controlar uma posiÃ§Ã£o exata, que controla uma certa quantidade de de torque, uma certa quantidade de forÃ§a, que gostarÃ­amos de estar nessa primavera. Tudo bem, entÃ£o deixem-me levar nossos voluntÃ¡rios aqui. Oi, qual Ã© o seu nome? 

AUDIÃNCIA: Louis. 

COLUNA: Louis. Ã bom te ver. E? 

AUDIÃNCIA: David. 

COLUNA: David. Bom te conhecer. Se vocÃªs esperariam aqui mesmo por um segundo, eu vou te dar a chance de fazer isso. Portanto, este robÃ´, se vocÃª vir para cima e se vocÃª empurrar delicadamente sobre ele, vocÃª vai ver que ele se move um pouco. E se vocÃª agarrÃ¡-lo direito aqui no pulso apenas acima de onde os botÃµes sÃ£o, ele Parece que vocÃª deve agarrar os botÃµes, mas pegue Ã  direita acima em vez disso, vocÃª vai ser capaz de manipular-se muito suavemente atravÃ©s do espaÃ§o. Louis, vocÃª quer dar-lhe uma tentativa? EntÃ£o, dar-lhe apenas um pouco empurrar para comeÃ§ar. E entÃ£o se vocÃª colocar os dedos ali e agarrar a ele, porque ele vai passar para vocÃª, entÃ£o. Tudo bem, vocÃª quer dar-lhe uma tentativa? Vamos lÃ¡ para cima. EntÃ£o, dar-lhe apenas uma suave empurrar lÃ¡ para comeÃ§ar. VocÃª pode sentir o que Ã© como. E entÃ£o se vocÃª agarrÃ¡-lo ali mesmo, vocÃª vai ser capaz de manobrar em torno. 

ESTÃ BEM. EntÃ£o, normalmente, este tipo de um robÃ´ faria ser utilizado para o fabrico de pequena escala. E eu vou mover este braÃ§o apenas para baixo fora do caminho um pouco aqui. Mas hoje, nÃ³s estamos indo para usar o mesmo sistema de jogo tic-tac-toe baseado em minimax que construÃ­mos antes. ok? EntÃ£o, vocÃªs sÃ£o cada vai jogar um jogo. Louis, vocÃª estÃ¡ indo para ser o primeiro. Deixe-me apenas realizar-se aqui por um segundo. Eu vou ter vocÃª ficar bem aqui, apenas para que todos possam vÃª-lo. VocÃªs estÃ£o configurar aqui? 

ROBOT: Bem-vindo. Vamos jogar tic-tac-toe. NÃ£o segure o token antes Eu digo que Ã© a sua vez. Eu iniciar o jogo. Ã a minha vez. COLUNA: Agora, se vocÃª pudesse tomar uma das suas peÃ§as e ir em frente e colocÃ¡-lo. ROBOT: Ã a sua vez. [RISO] Ã a minha vez. [RISO] [RISO] Ã sua vez. SPEAKER: A raÃ§a humana Ã© contando com vocÃª aqui, Louis. 

ROBOT: Ã a minha vez. 

COLUNA: EntÃ£o Baxter bloqueado com sucesso aqui. 

ROBOT: Ã a sua vez. Ã a minha vez. Ã sua vez. Ã a minha vez. Orador: E nÃ³s vamos deixar Baxter terminar a sua Ãºltima jogada aqui. 

[RISO] 

ROBOT: Isso Ã© um empate. Eu vou ganhar da prÃ³xima vez. 

[RISO] 

COLUNA: Tudo bem, muito obrigado, Louis. Obrigado. VocÃª pode ir por este caminho. 

ROBOT: eu iniciar o jogo. COLUNA: EntÃ£o deixe-me explicar para vocÃª um pouco mais pouco antes de chegarmos a nossa revanche aqui. O que exatamente estÃ¡ acontecendo? Assim, o robÃ´ tem uma cÃ¢mera em cima aqui. E ele estÃ¡ olhando para a placa. E estÃ¡ vendo se ele tem um O vermelho ou um azul e X. branco como aqueles sÃ£o colocados no placa, que Ã© basicamente a mesma entrada que estarÃ­amos lendo a partir nossa estrutura de dados da nossa tela. Ele estÃ¡ correndo o mesmo algoritmo minimax ser capaz de encontrar onde colocar um bom sinal. 

E entÃ£o nÃ³s estamos dando um comando sobre onde nÃ³s gostaria de um token para ser colocado. O braÃ§o estÃ¡ se movendo para fora. Ã usando um dispositivo de preensÃ£o de vÃ¡cuo para aplicar alguma sucÃ§Ã£o para que a peÃ§a de madeira, pegÃ¡-lo, movÃª-lo para a direita local, e em seguida, solte a sucÃ§Ã£o e largÃ¡-lo. Tudo bem, vamos para dar-lhe mais um tiro com um jogador um pouco mais esperto aqui. Esta pronto? Tudo bem, se vocÃª ficar atÃ© aqui e dar um-- resultando nesse caminho assim vocÃª pode ver toda a gente. E entÃ£o [inaudÃ­vel]. 

ROBOT: Ã a minha vez. 

COLUNA: Baxter vai comeÃ§ar. Ã sua vez. Ã a minha vez. Ã sua vez. Ã a minha vez. 

[RISO] 

COLUNA: [sussurrando] Apenas deixÃ¡-lo ir em frente e vencer. ROBOT: Ã a sua vez. COLUNA: Isso Ã© OK. 

ROBOT: Ã a minha vez. 

[RISO] 

Eu ganho. 

[RISO] 

Eu iniciar o jogo. 

COLUNA: Tudo bem, muito obrigado. Tudo bem, eu acho que nÃ³s temos tempo para mais um excelente jogador de tic-tac-toe, alguÃ©m que pode colocar essa coisa de corresponderem, que sabe o que estÃ¡ fazendo. 

[RISO] 

Quem vai ser o nosso campeÃ£o aqui? Tudo bem, seus amigos ofereceram-lhe. Isso Ã© bom o suficiente para mim. Diga-me o seu nome novamente. AUDIÃNCIA: Tamir. COLUNA: Tamir, bom vÃª-lo. Tudo bem, mais uma vez, vamos colocÃ¡-lo atÃ© aqui para que todos possam vÃª-lo. VocÃª Ã© o nosso representante neste jogo agora. Baxter Ã© um e oh e oh. Ou Desculpe, uma oh e um. E cabe a vocÃª aqui. Baxter vai comeÃ§ar a mover-se em primeiro lugar, no entanto. Assim. ROBOT: Ã a minha vez. 

[RISO] 

Ã sua vez. Ã a minha vez. Ã sua vez. Ã a minha vez. Ã sua vez. 

[RISO] ROBOT: Ã a minha vez. COLUNA: Ã muito mais difÃ­cil quando vocÃª estÃ¡ de pÃ© aqui, gente. [RISO] ROBOT: VocÃªs humanos sÃ£o tÃ£o fÃ¡ceis de bater. [Risos e aplausos] COLUNA: Muito obrigado. ROBOT: eu ganhar. Eu iniciar o jogo. 

Palestrante: Tudo bem, entÃ£o muito obrigado muito a Olivier, e Alessandro, e Chen Ming. 

[Aplausos] 

Eu quero fazer um Ãºltimo ponto. Assim Baxter no prÃ³prio termina aÃ­, enganado. E isso era inesperado. Um dos fantÃ¡stica coisas sobre AI Ã© que nÃ³s fazer o trabalho em AI para que possamos construir realmente interessante e inteligente dispositivos. Mas nÃ³s tambÃ©m fazemos trabalho em AI porque nos diz algo sobre como os humanos sÃ£o inteligentes. 

Um dos favoritos estudos de meu laboratÃ³rio Ã© olhando para o que acontece quando mÃ¡quinas inesperadamente batota. Fizemos isso originalmente nÃ£o com Baxter jogar tic-tac-dedo do pÃ©, mas com um robÃ´ menor chamado Nao, que jogou pedra-papel-tesoura. E, Ã s vezes apÃ³s jogando lotes e lotes de perfuraÃ§Ã£o de jogos de pedra-papel-tesoura, o robÃ´ jogaria um gesto, perder, e, em seguida, mudar de repente seu gesto e dizer, eu ganho. 

[RISO] 

Agora, Ã s vezes nÃ³s tambÃ©m terÃ­amos o robÃ´, assim como um controle, jogue um gesto, ganhar, e alterar o seu gesto a perder, jogar o jogo, enganar a fim de perder. E isso nÃ£o Ã© tÃ£o atraente. O robÃ´ que engana a fim de ganhar pessoas para responder como se fosse para obtÃª-los, como ele estÃ¡ se esforÃ§ando para sua destruiÃ§Ã£o. 

[RISO] 

Torna-se um agente. Ã como se fosse uma pessoa. Tem crenÃ§a e intenÃ§Ã£o. E nÃ£o Ã© boa intenÃ§Ã£o. E o robÃ´ que joga o jogo Ã© apenas mau funcionamento. Ã apenas um dispositivo quebrado. Deixe-me mostrar-lhe um par de exemplos de que a partir de alguns dos nossos participantes. EntÃ£o aqui estÃ¡ traindo a fim de perder. 

[REPRODUÃÃO DE VÃDEO] - [InaudÃ­vel] ganhar. Vamos jogar. 

-Espere o que? 

- [InaudÃ­vel] ganhar. Vamos jogar. 

[InaudÃ­vel] ganhar. Vamos jogar. 

Orador: E aqui Ã© batota para ganhar. 

Sim, eu ganho. Vamos jogar. 

-VocÃª NÃ£o pode fazer isso. 

[RISO] 

Sim, eu ganho. -VocÃª trapaceou. VocÃª traiu agora. 

Sim, eu ganho. 

Ei, vocÃª trapaceiro. VocÃª enganar, super fraude. 

[FIM DE REPRODUÃÃO] 

COLUNA: Estes diferente reaÃ§Ãµes rapidamente mudar a nossa percepÃ§Ã£o do dispositivo. Isso significa que nÃ³s deliberadamente construir mÃ¡quinas que se enganam porque Ã© isso a melhor engenharia que podemos fazer? NÃ£o, mas nos diz algo realmente interessante sobre as pessoas. Aquela coisa que vocÃª engana e rouba sua vitÃ³ria, que Ã© algo que estÃ¡ vivo, isso Ã© animar, que estÃ¡ fora para comeÃ§Ã¡-lo. Ele tem estado mental. Tem crenÃ§a. Tem a intenÃ§Ã£o. 

Aquela coisa que as mÃ£os jogo para vocÃª, que nÃ£o Ã©. Isso Ã© apenas mau funcionamento. Isto Ã©, em muitos aspectos, porque Ã© fÃ¡cil de jogar o jogo com as crianÃ§as. Mas se vocÃª tentar enganÃ¡-los e tipo de reivindicar a vitÃ³ria quando, vocÃª sabe, sÃ³ para encurtar o jogo, eles vÃ£o pegÃ¡-lo imediatamente. Esses tipos de efeitos que vemos que sai da AI, eles nos ensinam muito sobre nÃ³s mesmos. 

Tudo bem, Ã© isso por hoje. Muito obrigado a David e a equipe de produÃ§Ã£o Harvard para descer. 

[Aplausos] 

Vamos vÃª-lo em um questionÃ¡rio, e, em seguida, para uma Ãºltima palestra. Tenha um bom dia. 

[Aplausos] 

[MÃºsica tocando] DAVID MALAN J: Bem, nÃ³s provavelmente precisarÃ¡ para introduzir algum tipo de criptografia, certo? Porque, entÃ£o, os cabeÃ§alhos de esses pedidos HTTP serÃ¡ mexidos para que qualquer pessoa tentando capturar seu trÃ¡fego nÃ£o vai realmente ser capaz de vÃª-los. EntÃ£o, qual Ã© a soluÃ§Ã£o para este problema? Bem, nÃ³s precisamos realmente introduzir criptografia na fÃ³rmula, de modo que quando essa pessoa a transmissÃ£o de dados a partir de A para B, nÃ³s podemos seguramente send-- 

[RISO] 

A informaÃ§Ã£o de uma maneira que o adversÃ¡rio nÃ£o pode, de fato, vÃª-lo.