1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Hey. 3 00:00:08,870 --> 00:00:09,980 Sexan benvidos. 4 00:00:09,980 --> 00:00:11,216 O meu nome é Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Eu son un Júnior na [inaudível], estudando ciencia da computación con foco en 6 00:00:15,220 --> 00:00:16,410 lingüística computacional. 7 00:00:16,410 --> 00:00:19,310 Así, a miña secundario é en lingua ea teoría lingüística. 8 00:00:19,310 --> 00:00:21,870 Estou moi animado para ensinar vostedes un pouco sobre o campo. 9 00:00:21,870 --> 00:00:24,300 É unha área moi interesante para estudar. 10 00:00:24,300 --> 00:00:27,260 Tamén cun gran potencial para o futuro. 11 00:00:27,260 --> 00:00:30,160 Entón, eu estou realmente animado que vostedes están considerando proxectos en 12 00:00:30,160 --> 00:00:31,160 lingüística computacional. 13 00:00:31,160 --> 00:00:35,460 E eu serei máis que feliz para aconsellar calquera de vostedes, se decide 14 00:00:35,460 --> 00:00:37,090 perseguir un deses. 15 00:00:37,090 --> 00:00:40,010 >> Entón, primeiro de todo o que son computacional lingüística? 16 00:00:40,010 --> 00:00:44,630 Entón lingüística computacional é o intersección entre lingüística e 17 00:00:44,630 --> 00:00:46,390 ciencia da computación. 18 00:00:46,390 --> 00:00:47,415 Entón, o que é lingüística? 19 00:00:47,415 --> 00:00:48,490 ¿Que é a ciencia da computación? 20 00:00:48,490 --> 00:00:51,580 Ben da lingüística, o que tomamos son as linguas. 21 00:00:51,580 --> 00:00:54,960 Así, a lingüística é realmente o estudo da linguaxe natural en xeral. 22 00:00:54,960 --> 00:00:58,330 Linguaxe tan natural - falamos linguaxe que realmente usar a 23 00:00:58,330 --> 00:00:59,770 comunicarse uns cos outros. 24 00:00:59,770 --> 00:01:02,200 Polo tanto, non estamos a falar exactamente sobre C ou Java. 25 00:01:02,200 --> 00:01:05,900 Estamos a falar máis sobre inglés e Chinés e outras linguas que 26 00:01:05,900 --> 00:01:07,780 usar para comunicarse uns cos outros. 27 00:01:07,780 --> 00:01:12,470 >> O difícil sobre iso é que agora temos case 7.000 28 00:01:12,470 --> 00:01:14,260 linguas do mundo. 29 00:01:14,260 --> 00:01:19,520 Entón, hai un alto variedade de idiomas que podemos estudar. 30 00:01:19,520 --> 00:01:22,600 E entón pensa que é, probablemente, moi difícil de facer, por exemplo, 31 00:01:22,600 --> 00:01:26,960 tradución dunha lingua para a outro, tendo en conta que ten 32 00:01:26,960 --> 00:01:28,240 case 7.000 deles. 33 00:01:28,240 --> 00:01:31,450 Entón, se pensar en facer a tradución dunha lingua a outra ti 34 00:01:31,450 --> 00:01:35,840 ten case máis dun millón combinacións diferentes que pode 35 00:01:35,840 --> 00:01:37,330 ten de lingua para lingua. 36 00:01:37,330 --> 00:01:40,820 Entón, é realmente un desafío para facer algunha tipo de sistema de exemplo para tradución 37 00:01:40,820 --> 00:01:43,540 cada lingua única. 38 00:01:43,540 --> 00:01:47,120 >> Así, a lingüística trata con sintaxe, semántica, pragmática. 39 00:01:47,120 --> 00:01:49,550 Vostedes non exactamente ten para saber o que están son. 40 00:01:49,550 --> 00:01:55,090 Pero a cousa moi interesante é que como un falante nativo, cando aprende 41 00:01:55,090 --> 00:01:59,010 linguaxe como neno, o que realmente aprender Todas esas cousas - semántica sintaxe 42 00:01:59,010 --> 00:02:00,500 e pragmática - 43 00:02:00,500 --> 00:02:01,430 por si mesmo. 44 00:02:01,430 --> 00:02:04,820 E ninguén ten que te ensinar sintaxe para entender como as sentenzas son 45 00:02:04,820 --> 00:02:05,290 estruturada. 46 00:02:05,290 --> 00:02:07,980 Entón, é realmente interesante porque é algo que vén moi 47 00:02:07,980 --> 00:02:10,389 intuitivamente. 48 00:02:10,389 --> 00:02:13,190 >> E o que está tirando a ciencia da computación? 49 00:02:13,190 --> 00:02:16,700 Ben, a cousa máis importante que nós ter en ciencia da computación é, antes de 50 00:02:16,700 --> 00:02:19,340 todo, a intelixencia artificial e aprendizaxe de máquina. 51 00:02:19,340 --> 00:02:22,610 Entón, o que estamos intentando facer lingüística computacional é ensinar 52 00:02:22,610 --> 00:02:26,990 o ordenador como facer algo coa linguaxe. 53 00:02:26,990 --> 00:02:28,630 >> Así, por exemplo, na máquina tradución. 54 00:02:28,630 --> 00:02:32,490 Estou tentando ensinar o meu ordenador como para saber como facer a transición dun 55 00:02:32,490 --> 00:02:33,310 lingua para a outra. 56 00:02:33,310 --> 00:02:35,790 Entón, basicamente desexa ensinar un ordenador dúas linguas. 57 00:02:35,790 --> 00:02:38,870 Se eu fai procesamento de linguaxe natural, que é o caso por exemplo de 58 00:02:38,870 --> 00:02:41,810 Facebook Graph Search, vostede ensinar o ordenador como entender 59 00:02:41,810 --> 00:02:42,730 consultas ben. 60 00:02:42,730 --> 00:02:48,130 >> Entón, se di "as fotos da miña contactos. "Facebook non tratar este 61 00:02:48,130 --> 00:02:51,130 como toda unha serie que ten só unha morea de palabras. 62 00:02:51,130 --> 00:02:56,020 El realmente entende a relación entre "Fotos" e "meus amigos" e 63 00:02:56,020 --> 00:02:59,620 entende que "fotos" son propiedade de "meus amigos". 64 00:02:59,620 --> 00:03:02,350 >> Entón, iso é parte, por exemplo, procesamento de linguaxe natural. 65 00:03:02,350 --> 00:03:04,790 Está tentando entender o que é a relación entre 66 00:03:04,790 --> 00:03:07,520 as palabras nunha frase. 67 00:03:07,520 --> 00:03:11,170 E a gran cuestión é, non é ensinar un ordenador falando 68 00:03:11,170 --> 00:03:12,650 unha linguaxe en xeral? 69 00:03:12,650 --> 00:03:17,810 Que é unha pregunta moi interesante creo que, como se cadra no futuro, 70 00:03:17,810 --> 00:03:19,930 vai ser capaz de fale co seu teléfono móbil. 71 00:03:19,930 --> 00:03:23,290 Máis ou menos como o que facemos con Siri, pero algo máis parecido, realmente pode 72 00:03:23,290 --> 00:03:25,690 dicir o que quere e teléfono vai entender todo. 73 00:03:25,690 --> 00:03:28,350 E pode ter seguimento preguntas e seguir a falar. 74 00:03:28,350 --> 00:03:30,880 Isto é algo realmente emocionante, na miña opinión. 75 00:03:30,880 --> 00:03:33,070 >> Entón, algo sobre linguas naturais. 76 00:03:33,070 --> 00:03:36,220 Algo realmente interesante linguas naturais é que, e este é 77 00:03:36,220 --> 00:03:38,470 crédito para o meu profesor de lingüística, María Polinsky. 78 00:03:38,470 --> 00:03:40,830 Ela dá un exemplo e eu creo que é realmente interesante. 79 00:03:40,830 --> 00:03:47,060 Porque aprender a linguaxe a partir de cando nacemos e entón a nosa nativa 80 00:03:47,060 --> 00:03:49,170 tipo de linguaxe crece en nós. 81 00:03:49,170 --> 00:03:52,570 >> E basicamente aprender a lingua de entrada mínima, non? 82 00:03:52,570 --> 00:03:56,700 Só está a recibir entrada de seu pais de que o seu idioma soa 83 00:03:56,700 --> 00:03:58,770 gusta e que acaba de aprender. 84 00:03:58,770 --> 00:04:02,240 Entón, é interesante porque se ollar a esas frases, por exemplo. 85 00:04:02,240 --> 00:04:06,980 Mira, "María pon un abrigo de cada vez que sae de casa. " 86 00:04:06,980 --> 00:04:10,650 >> Neste caso, se pode estar palabra "ela" refírese a María, non? 87 00:04:10,650 --> 00:04:13,500 Pode dicir "María pon un abrigo cada vez que deixa o María 88 00:04:13,500 --> 00:04:14,960 casa. "de xeito que é bo. 89 00:04:14,960 --> 00:04:19,370 Pero, entón, se ollar para a sentenza "Ela pon un abrigo de cada vez que María 90 00:04:19,370 --> 00:04:22,850 sae de casa. "sabe que é imposible dicir que "ela" é 91 00:04:22,850 --> 00:04:24,260 referíndose a María. 92 00:04:24,260 --> 00:04:27,070 >> Non hai ningunha forma de dicir que "María pon un abrigo de cada vez que Mary deixa 93 00:04:27,070 --> 00:04:30,790 a casa. "Entón, é interesante porque este é o tipo de intuición 94 00:04:30,790 --> 00:04:32,890 que todo falante nativo ten. 95 00:04:32,890 --> 00:04:36,370 E ninguén se ensina que se trata a forma que a sintaxe funciona. 96 00:04:36,370 --> 00:04:41,930 E que só se pode ter ese "ela" referíndose a María neste primeiro caso, 97 00:04:41,930 --> 00:04:44,260 e, de feito, nesta outra tamén, pero non neste. 98 00:04:44,260 --> 00:04:46,500 Pero todo o mundo fica tipo de para a mesma resposta. 99 00:04:46,500 --> 00:04:48,580 Todos coinciden con iso. 100 00:04:48,580 --> 00:04:53,280 Entón, é realmente interesante como a pesar de non sabe as regras 101 00:04:53,280 --> 00:04:55,575 no seu idioma que tipo de comprender como a linguaxe funciona. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Entón, a cousa interesante sobre naturais linguaxe é que non ten que 104 00:05:01,530 --> 00:05:06,970 coñezo ningunha sintaxe saber se unha sentenza é gramatical ou non gramatical para 105 00:05:06,970 --> 00:05:08,810 maior parte dos casos. 106 00:05:08,810 --> 00:05:13,220 O que fai pensar que quizais o que pasa é que, a través da súa vida, 107 00:05:13,220 --> 00:05:17,410 están a ser cada vez máis sentenzas dixo para ti. 108 00:05:17,410 --> 00:05:19,800 E entón manter memorización todas as sentenzas. 109 00:05:19,800 --> 00:05:24,230 E entón, cando alguén lle di algo, escoita esa frase e 110 00:05:24,230 --> 00:05:27,040 mira para o seu vocabulario de sentenzas e ver se 111 00:05:27,040 --> 00:05:28,270 esa frase está aí. 112 00:05:28,270 --> 00:05:29,830 E se está alí dicir que é gramatical. 113 00:05:29,830 --> 00:05:31,740 Se non é vostede dicir que é ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Entón, nese caso, diría: oh, así que ten unha lista enorme de todo 115 00:05:35,150 --> 00:05:36,140 posibles sentenzas. 116 00:05:36,140 --> 00:05:38,240 E entón, cando se escoita unha frase, vostede sabe se é gramatical ou 117 00:05:38,240 --> 00:05:39,450 non con base niso. 118 00:05:39,450 --> 00:05:42,360 A cousa é que se ollar para unha frase, por exemplo, "A 119 00:05:42,360 --> 00:05:47,540 cinco cabezas CS50 TFS cocido cegos polbo usando unha caneca DAPA ". É 120 00:05:47,540 --> 00:05:49,630 definitivamente non é unha sentenza que xa escoitou antes. 121 00:05:49,630 --> 00:05:52,380 Pero, á vez, vostede sabe que é practicamente gramatical, non? 122 00:05:52,380 --> 00:05:55,570 Non hai erros gramaticais e pode dicir que 123 00:05:55,570 --> 00:05:57,020 é unha posible sentenza. 124 00:05:57,020 --> 00:06:01,300 >> Por iso, fainos pensar que, en realidade, a xeito que aprender a lingua non é só 125 00:06:01,300 --> 00:06:07,090 por ter unha enorme base de datos de posibles palabras ou frases, pero máis de 126 00:06:07,090 --> 00:06:11,490 comprender a relación entre palabras esas frases. 127 00:06:11,490 --> 00:06:14,570 Será que isto ten sentido? 128 00:06:14,570 --> 00:06:19,370 Así, entón, a pregunta é, pode ordenadores aprender linguas? 129 00:06:19,370 --> 00:06:21,490 Podemos ensinar a lingua para ordenadores? 130 00:06:21,490 --> 00:06:24,230 >> Entón, imos pensar na diferenza entre un falante nativo dunha lingua 131 00:06:24,230 --> 00:06:25,460 e un ordenador. 132 00:06:25,460 --> 00:06:27,340 Entón, o que pasa co altofalante? 133 00:06:27,340 --> 00:06:30,430 Ben, o falante nativo aprende unha linguaxe da exposición ao produto. 134 00:06:30,430 --> 00:06:34,200 Normalmente os seus anos de infancia. 135 00:06:34,200 --> 00:06:38,570 Entón, basicamente, só ten un bebé, e continúa a falar con el, e el 136 00:06:38,570 --> 00:06:40,540 só aprende a falar a linguaxe, non? 137 00:06:40,540 --> 00:06:42,660 Entón, está basicamente dando entrada para o bebé. 138 00:06:42,660 --> 00:06:45,200 Entón, pode argumentar que un ordenador Pode facer o mesmo, non? 139 00:06:45,200 --> 00:06:49,510 Pode só dar-lingua como entrada para o ordenador. 140 00:06:49,510 --> 00:06:53,410 >> Como por exemplo, unha morea de arquivos que teñen libros en inglés. 141 00:06:53,410 --> 00:06:56,190 Quizais esa sexa unha forma que podería ensinar unha 142 00:06:56,190 --> 00:06:57,850 ordenador Inglés, non? 143 00:06:57,850 --> 00:07:01,000 E, de feito, se pensar sobre iso, hai que que quizais un par 144 00:07:01,000 --> 00:07:02,680 días a ler un libro. 145 00:07:02,680 --> 00:07:05,760 Para un equipo que leva un segundo para mirar para as palabras en un libro. 146 00:07:05,760 --> 00:07:10,810 Así, pode pensar que pode ser só iso argumento de entrada a partir da súa volta, 147 00:07:10,810 --> 00:07:15,440 iso non é suficiente para dicir que iso é algo que só os humanos poden facer. 148 00:07:15,440 --> 00:07:17,680 Pode pensar ordenadores Tamén pode obter entrada. 149 00:07:17,680 --> 00:07:21,170 >> A segunda cousa é que os falantes nativos tamén teñen un cerebro que ten 150 00:07:21,170 --> 00:07:23,870 capacidade de aprendizaxe de linguas. 151 00:07:23,870 --> 00:07:27,020 Pero se pensar sobre iso, un cerebro é unha cousa sólida. 152 00:07:27,020 --> 00:07:30,450 Cando nace, xa está definido - 153 00:07:30,450 --> 00:07:31,320 este é o seu cerebro. 154 00:07:31,320 --> 00:07:34,660 E, como crecer, está máis entrada da linguaxe e quizais nutrientes 155 00:07:34,660 --> 00:07:35,960 e outras cousas. 156 00:07:35,960 --> 00:07:38,170 Pero moi fermoso o seu cerebro é unha cousa sólida. 157 00:07:38,170 --> 00:07:41,290 >> Así, pode dicir, ben, quizais poida construír un ordenador que ten unha morea de 158 00:07:41,290 --> 00:07:45,890 funcións e métodos que imitan capacidade de aprendizaxe de linguas. 159 00:07:45,890 --> 00:07:49,630 Entón, nese sentido, pódese dicir, ben, eu pode ter un ordenador que ten todo o 160 00:07:49,630 --> 00:07:52,270 cousas que eu teño aprender a lingua. 161 00:07:52,270 --> 00:07:56,200 E a última cousa é que un nativo falante aprende con intento e erro. 162 00:07:56,200 --> 00:08:01,090 Entón, basicamente, outra cousa importante na a aprendizaxe de linguas é que medio 163 00:08:01,090 --> 00:08:05,340 de aprender as cousas, facendo xeneralizacións sobre o que se escoita. 164 00:08:05,340 --> 00:08:10,280 >> Entón, como é evidente aprende que algunhas palabras son máis como substantivos, 165 00:08:10,280 --> 00:08:11,820 algunhas outras son adxectivos. 166 00:08:11,820 --> 00:08:14,250 E non ten que ter ningún coñecemento da lingüística 167 00:08:14,250 --> 00:08:15,040 entender iso. 168 00:08:15,040 --> 00:08:18,560 Pero só se sabe que hai algunhas palabras están posicionados en algures do 169 00:08:18,560 --> 00:08:22,570 sentenza e algúns outros noutro partes da sentenza. 170 00:08:22,570 --> 00:08:26,110 >> E que cando fai algo que é como unha frase que non é correcto - 171 00:08:26,110 --> 00:08:28,770 quizais por mor dunha xeneralización sobre por exemplo. 172 00:08:28,770 --> 00:08:32,210 Quizais cando está crecendo, entender que o plural é xeralmente 173 00:08:32,210 --> 00:08:35,809 formado por poñer un S no o fin da palabra. 174 00:08:35,809 --> 00:08:40,042 E entón intenta facer o plural de "Corzo" como "cervos" ou "dentes" como 175 00:08:40,042 --> 00:08:44,780 "Tooths". Entón os seus pais ou alguén resolve e di, non, o 176 00:08:44,780 --> 00:08:49,020 plural de "corzo" é "corzo", eo plural de "dente" é "dentes". E entón 177 00:08:49,020 --> 00:08:50,060 aprender esas cousas. 178 00:08:50,060 --> 00:08:51,520 Entón aprender intento e erro. 179 00:08:51,520 --> 00:08:53,100 >> Pero tamén pode facelo con un ordenador. 180 00:08:53,100 --> 00:08:55,310 Pode que unha cousa chamada aprendizaxe por reforzo. 181 00:08:55,310 --> 00:08:58,560 Que é basicamente como dar un ordenador unha recompensa cada vez que fai 182 00:08:58,560 --> 00:08:59,410 algo correctamente. 183 00:08:59,410 --> 00:09:04,710 E dándolle o contrario dunha recompensa e cando fai algo mal. 184 00:09:04,710 --> 00:09:07,410 Pode realmente ver que se ir a Google Translate e tentar 185 00:09:07,410 --> 00:09:10,220 traducir unha frase, pídelle ao GABARITO. 186 00:09:10,220 --> 00:09:13,240 Entón, se di, oh, hai unha mellor tradución desta frase. 187 00:09:13,240 --> 00:09:18,140 Pode escriba-lo e, a continuación, se unha morea de as persoas seguen a dicir que é a mellor 188 00:09:18,140 --> 00:09:21,560 tradución, el só aprende que debe usala en vez de tradución 189 00:09:21,560 --> 00:09:22,960 aquel que estaba dando. 190 00:09:22,960 --> 00:09:28,830 >> Entón, é unha pregunta moi filosófica a ver se os ordenadores van ser 191 00:09:28,830 --> 00:09:30,340 capaz de falar ou non no futuro. 192 00:09:30,340 --> 00:09:34,440 Pero eu teño grandes esperanzas de que poden só con base neses argumentos. 193 00:09:34,440 --> 00:09:38,570 Pero é só un filosófica pregunta. 194 00:09:38,570 --> 00:09:43,460 >> Así, mentres os ordenadores aínda non pode falar, cales son as cousas que podemos facer? 195 00:09:43,460 --> 00:09:47,070 Algunhas cousas moi legais son clasificación de datos. 196 00:09:47,070 --> 00:09:53,210 Así, por exemplo, xa sabedes que os servizos de correo-e facer, para 197 00:09:53,210 --> 00:09:55,580 exemplo, filtrado de spam. 198 00:09:55,580 --> 00:09:59,070 Así, sempre que recibir spam, intenta filtrar a outra caixa. 199 00:09:59,070 --> 00:10:00,270 Entón, como fai iso? 200 00:10:00,270 --> 00:10:06,080 Non é como se o ordenador só sabe enderezos de correo electrónico que está enviando spam. 201 00:10:06,080 --> 00:10:09,130 Polo tanto, é máis baseado no contido de da mensaxe, ou que o nome, ou 202 00:10:09,130 --> 00:10:11,310 quizais algún defecto que ten. 203 00:10:11,310 --> 00:10:15,690 >> Entón, basicamente, o que pode facer é obter un gran cantidade de datos de correo-e que son spam, 204 00:10:15,690 --> 00:10:19,980 correos electrónicos que non son spam, e así aprender o que tipo de patróns que ten no 205 00:10:19,980 --> 00:10:21,000 aquelas que son spam. 206 00:10:21,000 --> 00:10:23,260 E iso forma parte do computacional lingüística. 207 00:10:23,260 --> 00:10:24,720 Chama-se a clasificación de datos. 208 00:10:24,720 --> 00:10:28,100 E nós estamos indo realmente para ver unha exemplo de que, nos próximos diapositivas. 209 00:10:28,100 --> 00:10:32,910 >> A segunda cousa é a linguaxe natural procesamento que é a cousa que o 210 00:10:32,910 --> 00:10:36,580 Gráfico Investigación está facendo de deixar escribir unha frase. 211 00:10:36,580 --> 00:10:38,690 E confía en ti entender o que é o sentido e dá 212 00:10:38,690 --> 00:10:39,940 un resultado mellor. 213 00:10:39,940 --> 00:10:43,880 De feito, se vai a Google ou Bing e busca algo como Lady 214 00:10:43,880 --> 00:10:47,060 Altura de Gaga, en realidade está indo para obter 5 '1 "no canto de información 215 00:10:47,060 --> 00:10:50,170 dela, porque realmente entende o que está falando. 216 00:10:50,170 --> 00:10:52,140 Entón, iso é parte de recursos naturais procesamento da linguaxe. 217 00:10:52,140 --> 00:10:57,000 >> Ou tamén cando está usando o Siri, primeiro ten un algoritmo que trata de 218 00:10:57,000 --> 00:11:01,130 traducir o que está dicindo en palabras, en texto. 219 00:11:01,130 --> 00:11:03,690 E entón el tenta traducir que en sentido. 220 00:11:03,690 --> 00:11:06,570 Entón, iso é todo parte de recursos naturais procesamento da linguaxe. 221 00:11:06,570 --> 00:11:08,320 >> Entón tes de tradución automática - 222 00:11:08,320 --> 00:11:10,300 que en realidade é un dos meus favoritos - 223 00:11:10,300 --> 00:11:14,060 que é só a tradución de dunha lingua a outra. 224 00:11:14,060 --> 00:11:17,950 Así, pode pensar que, cando está facendo tradución automática, ten 225 00:11:17,950 --> 00:11:19,750 infinitas posibilidades de sentenzas. 226 00:11:19,750 --> 00:11:22,960 Polo tanto, non hai ningunha forma de almacenar só cada tradución única. 227 00:11:22,960 --> 00:11:27,440 Entón tes que chegar a interesante algoritmos para poder 228 00:11:27,440 --> 00:11:30,110 traducir cada sentenza de algunha maneira. 229 00:11:30,110 --> 00:11:32,483 >> Vostedes teñen algunha dúbida ata agora? 230 00:11:32,483 --> 00:11:34,450 Non? 231 00:11:34,450 --> 00:11:34,830 Aceptar. 232 00:11:34,830 --> 00:11:36,900 >> Entón, o que veremos hoxe? 233 00:11:36,900 --> 00:11:39,300 Primeiro de todo, eu vou falar de o problema de clasificación. 234 00:11:39,300 --> 00:11:41,440 Entón, o que eu estaba dicindo sobre spam. 235 00:11:41,440 --> 00:11:46,820 O que vou facer é, dadas as letras unha música, pode tentar descubrir 236 00:11:46,820 --> 00:11:49,810 con elevada probabilidade quen é o cantante? 237 00:11:49,810 --> 00:11:53,590 Imos dicir que eu teño cancións de Lady Gaga e Katy Perry, se che dou un 238 00:11:53,590 --> 00:11:58,130 nova canción, pode descubrir se é Katy Perry ou Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> O segundo, eu só vou falar sobre o problema de segmentación. 240 00:12:01,490 --> 00:12:05,780 Entón, eu non sei se vostedes saben, pero Chinés, xaponés, outro do leste asiático 241 00:12:05,780 --> 00:12:08,090 idiomas, e outros idiomas en xeral, non teñen 242 00:12:08,090 --> 00:12:09,830 espazos entre as palabras. 243 00:12:09,830 --> 00:12:13,540 E entón, se pensar sobre a forma que o tipo de ordenador de intentos para 244 00:12:13,540 --> 00:12:18,600 comprender procesamento de linguaxe natural, ten en conta as palabras e 245 00:12:18,600 --> 00:12:21,500 intenta comprender as relacións entre eles, non? 246 00:12:21,500 --> 00:12:25,440 Pero, entón, se ten chinés, e ter cero espazos, é realmente difícil 247 00:12:25,440 --> 00:12:28,360 descubrir o que é a relación entre palabras, porque eles non teñen ningunha 248 00:12:28,360 --> 00:12:29,530 palabras en primeiro lugar. 249 00:12:29,530 --> 00:12:32,600 Entón tes que facer algo chamado segmentación que significa só poñer 250 00:12:32,600 --> 00:12:36,490 espazos entre o que nós chamariamos palabras nesas linguas. 251 00:12:36,490 --> 00:12:37,740 Ten sentido? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> E entón nós imos falar sintaxe. 254 00:12:41,540 --> 00:12:44,050 Entón, simplemente un pouco sobre naturais procesamento da linguaxe. 255 00:12:44,050 --> 00:12:45,420 Será só unha visión xeral. 256 00:12:45,420 --> 00:12:50,700 Entón, hoxe, basicamente o que quero facer é dar a vostedes un pouco de unha 257 00:12:50,700 --> 00:12:53,930 dentro do que son as posibilidades que se pode facer con computacional 258 00:12:53,930 --> 00:12:54,960 lingüística. 259 00:12:54,960 --> 00:13:00,410 E entón podes ver o que pensa é legal entre esas cousas. 260 00:13:00,410 --> 00:13:02,270 E quizais poida pensar nun proxecto e vén falar comigo. 261 00:13:02,270 --> 00:13:05,260 E podo lle dar consellos sobre o xeito de implementar lo. 262 00:13:05,260 --> 00:13:09,060 >> Entón sintaxe será algo Investigación sobre Graph e máquina 263 00:13:09,060 --> 00:13:09,670 tradución. 264 00:13:09,670 --> 00:13:13,650 Eu só vou dar un exemplo de como podería, por exemplo, traducir 265 00:13:13,650 --> 00:13:16,020 algo de portugués a inglés. 266 00:13:16,020 --> 00:13:17,830 Parece bo? 267 00:13:17,830 --> 00:13:19,293 >> Entón, primeiro, o problema de clasificación. 268 00:13:19,293 --> 00:13:23,590 Eu vou dicir que esta parte do seminario será o maior desafío 269 00:13:23,590 --> 00:13:27,560 un só porque non vai ser algunha codificación. 270 00:13:27,560 --> 00:13:29,470 Pero vai ser Python. 271 00:13:29,470 --> 00:13:34,380 Sei que vostedes non coñecen Python, por iso, Eu só vou explicar sobre a alta 272 00:13:34,380 --> 00:13:35,750 nivel que eu estou facendo. 273 00:13:35,750 --> 00:13:40,900 E non ten que realmente se preocupan máis moito sobre a sintaxe, porque iso é 274 00:13:40,900 --> 00:13:42,140 algo que vostedes poidan aprender. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Parece bo. 277 00:13:43,580 --> 00:13:46,020 >> Entón, cal é o problema de clasificación? 278 00:13:46,020 --> 00:13:49,140 Entón, está dado algunhas letras para unha música, e quere adiviñar 279 00:13:49,140 --> 00:13:50,620 quen está a cantar. 280 00:13:50,620 --> 00:13:54,045 E isto pode ser para calquera tipo doutros problemas. 281 00:13:54,045 --> 00:13:59,980 Así pode ser, por exemplo, ten un campaña presidencial e ten un 282 00:13:59,980 --> 00:14:02,610 fala, e quere atopar si era, por exemplo, 283 00:14:02,610 --> 00:14:04,470 Obama ou Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Ou pode ter unha chea de correos electrónicos e quere descubrir se son 285 00:14:07,700 --> 00:14:08,890 spam ou non. 286 00:14:08,890 --> 00:14:11,440 Entón é só clasificando unhas datos en base ás palabras 287 00:14:11,440 --> 00:14:13,790 que ten alí. 288 00:14:13,790 --> 00:14:16,295 >> Entón, para facelo, ten que facer algunhas suposicións. 289 00:14:16,295 --> 00:14:20,570 Entón, unha morea sobre a lingüística computacional está a facer suposicións, 290 00:14:20,570 --> 00:14:24,100 presupostos xeralmente intelixentes, de xeito que pode obter bos resultados. 291 00:14:24,100 --> 00:14:26,670 Intentando crear un modelo para el. 292 00:14:26,670 --> 00:14:31,290 E, a continuación, proba-lo para ver se funciona, se lle dá unha boa precisión. 293 00:14:31,290 --> 00:14:33,940 E se isto acontecer, entón tentar melloralo. 294 00:14:33,940 --> 00:14:37,640 Se non, é como, OK, quizais eu debe facer unha suposición diferente. 295 00:14:37,640 --> 00:14:44,030 >> Así, a suposición de que imos facer é que un artista normalmente canta 296 00:14:44,030 --> 00:14:49,220 sobre un tema varias veces, e quizais usa palabras varias veces só 297 00:14:49,220 --> 00:14:50,270 porque están afeitos a iso. 298 00:14:50,270 --> 00:14:51,890 Pode só pensar no seu amigo. 299 00:14:51,890 --> 00:14:57,350 Eu estou seguro que todos teñen amigos que din que a súa frase de sinatura, 300 00:14:57,350 --> 00:14:59,260 literalmente a cada frase - 301 00:14:59,260 --> 00:15:02,660 como algunha palabra ou algún específico específico frase que din para 302 00:15:02,660 --> 00:15:04,020 cada frase única. 303 00:15:04,020 --> 00:15:07,920 >> E o que pode dicir é que se ves unha frase que ten unha sinatura 304 00:15:07,920 --> 00:15:11,450 frase, pode imaxinar que, probablemente, o seu amigo é o 305 00:15:11,450 --> 00:15:13,310 un dicilo, non? 306 00:15:13,310 --> 00:15:18,410 Entón fai esa suposición e, a continuación, é así que crear un modelo. 307 00:15:18,410 --> 00:15:24,440 >> O exemplo que vou dar é sobre como Lady Gaga, por exemplo, persoas 308 00:15:24,440 --> 00:15:27,430 dicir que usa "bebé" para todas as súas cancións número un. 309 00:15:27,430 --> 00:15:32,270 E, de feito, este é un vídeo que mostra ela dicir a palabra "bebé" para 310 00:15:32,270 --> 00:15:33,410 cancións diferentes. 311 00:15:33,410 --> 00:15:33,860 >> [REPRODUCIÓN] 312 00:15:33,860 --> 00:15:34,310 >> - (Cantando) Bebé. 313 00:15:34,310 --> 00:15:36,220 Bebé. 314 00:15:36,220 --> 00:15:37,086 Bebé. 315 00:15:37,086 --> 00:15:37,520 Bebé. 316 00:15:37,520 --> 00:15:37,770 Bebé. 317 00:15:37,770 --> 00:15:38,822 Borracho. 318 00:15:38,822 --> 00:15:39,243 Bebé. 319 00:15:39,243 --> 00:15:40,085 Bebé. 320 00:15:40,085 --> 00:15:40,510 Bebé. 321 00:15:40,510 --> 00:15:40,850 Bebé. 322 00:15:40,850 --> 00:15:41,090 >> [FIN reprodución de vídeo- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Polo tanto, hai, penso eu, 40 cancións aquí no que di que a 324 00:15:44,020 --> 00:15:48,690 palabra "bebé". Entón, basicamente podes imaxinar que se ve unha música que ten 325 00:15:48,690 --> 00:15:52,180 a palabra "bebé", hai algúns de alta probabilidade de que é Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Pero imos tratar de desenvolver esta aínda máis formalmente. 327 00:15:56,450 --> 00:16:00,470 >> Entón, estas son letras de cancións por Lady Gaga e Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Entón mira para Lady Gaga, ve que ten unha morea de ocorrencias de "bebé", un 329 00:16:04,120 --> 00:16:07,710 moitas aparicións de "camiño". E entón Katy Perry ten unha morea de ocorrencias de 330 00:16:07,710 --> 00:16:10,360 "A", unha serie de aparicións de "lume". 331 00:16:10,360 --> 00:16:14,560 >> Entón, basicamente, o que queremos facer é, que obtén unha letra. 332 00:16:14,560 --> 00:16:20,480 Imos dicir que ten unha letra a un música que é "bebé", só "bebé". Se 333 00:16:20,480 --> 00:16:24,750 comeza só a palabra "bebé", e iso e todos os datos que ten a partir de 334 00:16:24,750 --> 00:16:27,880 Lady Gaga e Katy Perry, que sería adiviñar é a persoa 335 00:16:27,880 --> 00:16:29,370 quen canta a canción? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga ou Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, non? 338 00:16:33,150 --> 00:16:37,400 Porque é o único que di "Bebé". Isto soa estúpido, non? 339 00:16:37,400 --> 00:16:38,760 OK, iso é moi fácil. 340 00:16:38,760 --> 00:16:41,860 Estou só mirando para as dúas cancións e de Por suposto, é a única persoa que ten 341 00:16:41,860 --> 00:16:42,660 "Bebé". 342 00:16:42,660 --> 00:16:44,740 >> Pero e se ten unha morea de palabras? 343 00:16:44,740 --> 00:16:50,900 Se vostede ten unha letra real, algo como, "bebé, eu só 344 00:16:50,900 --> 00:16:51,610 fun ver un [? CFT?] 345 00:16:51,610 --> 00:16:54,020 charla ", ou algo así, e entón realmente ten que descubrir - 346 00:16:54,020 --> 00:16:55,780 en base a todas as palabras - 347 00:16:55,780 --> 00:16:58,350 quen é o artista que probablemente cantou esta canción? 348 00:16:58,350 --> 00:17:01,860 Entón, imos tratar de desenvolver iso un pouco máis. 349 00:17:01,860 --> 00:17:05,630 >> OK, baseado só nos datos que temos obtido, parece que Gaga é probablemente 350 00:17:05,630 --> 00:17:06,260 o cantante. 351 00:17:06,260 --> 00:17:07,904 Pero como podemos escribir esta máis formal? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 E non vai ser un pouco pouco de estatísticas. 354 00:17:13,140 --> 00:17:15,880 Entón, se se perder, basta tentar para entender o concepto. 355 00:17:15,880 --> 00:17:18,700 Non importa se entender as ecuacións perfectamente ben. 356 00:17:18,700 --> 00:17:22,150 Iso todo vai estar en liña. 357 00:17:22,150 --> 00:17:25,490 >> Entón, basicamente o que eu estou cálculo é o probabilidade de que esta canción é por 358 00:17:25,490 --> 00:17:28,040 Lady Gaga, xa que - 359 00:17:28,040 --> 00:17:30,660 así que este bar significa xa que - 360 00:17:30,660 --> 00:17:33,680 Vin a palabra "bebé". Será que isto ten sentido? 361 00:17:33,680 --> 00:17:35,540 Entón, eu estou tentando calcular esa probabilidade. 362 00:17:35,540 --> 00:17:38,540 >> Polo tanto, non hai este teorema chamado Teorema de Bayes que di que o 363 00:17:38,540 --> 00:17:43,330 probabilidade dunha dada B, é o probabilidade de B deu A, veces o 364 00:17:43,330 --> 00:17:47,660 A probabilidade, durante a probabilidade B. Trátase de unha ecuación longa. 365 00:17:47,660 --> 00:17:51,970 Pero o que ten que entender de que é o que iso é o que quero 366 00:17:51,970 --> 00:17:52,830 calcular, non? 367 00:17:52,830 --> 00:17:56,570 Así, a probabilidade de que esa música é de Lady Gaga, xa que vin a palabra 368 00:17:56,570 --> 00:17:58,230 "Bebé". 369 00:17:58,230 --> 00:18:02,960 >> E agora o que eu estou a recibir é a probabilidade de que a palabra "bebé" deu 370 00:18:02,960 --> 00:18:04,390 que teño Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 E que é o que, basicamente? 372 00:18:07,220 --> 00:18:10,500 O que isto significa, cal é o probabilidade de ver a palabra "bebé" 373 00:18:10,500 --> 00:18:12,130 en letras Gaga? 374 00:18:12,130 --> 00:18:16,240 Se eu queira calcular que dun xeito moi xeito sinxelo, é só o número de 375 00:18:16,240 --> 00:18:23,640 veces vexo "bebé" sobre o número total de palabras en letras Gaga, non? 376 00:18:23,640 --> 00:18:27,600 Cal é a frecuencia que vexo esa palabra no traballo de Gaga? 377 00:18:27,600 --> 00:18:30,530 Ten sentido? 378 00:18:30,530 --> 00:18:33,420 >> O segundo termo é o probabilidade de Gaga. 379 00:18:33,420 --> 00:18:34,360 Que significa isto? 380 00:18:34,360 --> 00:18:38,550 Isto significa, basicamente, o que é o probabilidade de clasificar 381 00:18:38,550 --> 00:18:40,690 algunhas letras como Gaga? 382 00:18:40,690 --> 00:18:45,320 E iso é medio raro, pero Imos pensar nun exemplo. 383 00:18:45,320 --> 00:18:49,230 Entón, imos dicir que a probabilidade de ter "bebé" nunha canción é a mesma 384 00:18:49,230 --> 00:18:51,760 por Gaga e Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Pero Britney Spears ten o dobre máis cancións do que Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Entón, se alguén lle dá só aleatoriamente letra de "bebé", o primeiro que 387 00:19:00,570 --> 00:19:04,710 ollar é, cal é a probabilidade de ter "bebé" nunha canción Gaga, "bebé" 388 00:19:04,710 --> 00:19:05,410 nunha canción de Britney? 389 00:19:05,410 --> 00:19:06,460 E é o mesmo. 390 00:19:06,460 --> 00:19:10,040 >> Polo tanto, a segunda cousa que podes ver é, ben, cal é a probabilidade de 391 00:19:10,040 --> 00:19:13,770 esta letra por si só ser un lírico Gaga, e cal é a probabilidade de 392 00:19:13,770 --> 00:19:15,380 ser un lírico Britney? 393 00:19:15,380 --> 00:19:18,950 Entón, xa que Britney ten tantos máis letras de Gaga, probablemente 394 00:19:18,950 --> 00:19:21,470 digamos, ben, este é, probablemente, unha letra de Britney. 395 00:19:21,470 --> 00:19:23,340 Entón é por iso que temos este termo correcto aquí. 396 00:19:23,340 --> 00:19:24,670 Probabilidade de Gaga. 397 00:19:24,670 --> 00:19:26,950 Ten sentido? 398 00:19:26,950 --> 00:19:28,660 Non é? 399 00:19:28,660 --> 00:19:29,370 Aceptar. 400 00:19:29,370 --> 00:19:33,500 >> E o último é só a probabilidade de "bebé", que non 401 00:19:33,500 --> 00:19:34,810 realmente importa moito. 402 00:19:34,810 --> 00:19:39,940 Pero é a probabilidade de ver "bebé" en inglés. 403 00:19:39,940 --> 00:19:42,725 Nós xeralmente non lles importa que moito sobre ese termo. 404 00:19:42,725 --> 00:19:44,490 Será que isto ten sentido? 405 00:19:44,490 --> 00:19:48,110 Así, a probabilidade de Gaga é chamada a probabilidade anterior 406 00:19:48,110 --> 00:19:49,530 da Gaga clase. 407 00:19:49,530 --> 00:19:53,840 Porque iso significa só que, o que é o probabilidade de ter esa clase - 408 00:19:53,840 --> 00:19:55,520 que é Gaga - 409 00:19:55,520 --> 00:19:59,350 só, en xeral, só sen condicións. 410 00:19:59,350 --> 00:20:02,560 >> E entón cando eu teño probabilidade Gaga regalo "bebé", podemos chamalo máis 411 00:20:02,560 --> 00:20:06,160 marejados unha probabilidade porque é a probabilidade de ter 412 00:20:06,160 --> 00:20:08,300 Gaga deu algunhas probas. 413 00:20:08,300 --> 00:20:11,050 Entón, eu estou dándolle a evidencia que vin o bebé da palabra e 414 00:20:11,050 --> 00:20:12,690 a música ten sentido? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 Aceptar. 417 00:20:16,410 --> 00:20:22,400 >> Entón, se eu calculou que para cada das cancións de Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 o que sería - 419 00:20:25,916 --> 00:20:27,730 ao parecer, non se pode mover este. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 A probabilidade de Gaga será algo así como 2 máis de 24, os tempos de 1/2, 422 00:20:36,920 --> 00:20:38,260 máis de 2 máis de 53. 423 00:20:38,260 --> 00:20:40,640 Non importa se sabe o que estas cifras están vindo. 424 00:20:40,640 --> 00:20:44,750 Pero é só un número que vai ser máis que 0, non? 425 00:20:44,750 --> 00:20:48,610 >> E entón, cando fago Katy Perry, a probabilidade de "bebé" dado Katy é 426 00:20:48,610 --> 00:20:49,830 xa 0, non? 427 00:20:49,830 --> 00:20:52,820 ¿Por que non hai "bebé" en Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Entón iso se fai 0, e Gaga vitorias, o que significa que Gaga é 429 00:20:56,360 --> 00:20:57,310 probablemente o cantante. 430 00:20:57,310 --> 00:20:58,560 Será que isto ten sentido? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 Aceptar. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Entón, se eu quero facelo máis oficial, Podo realmente facer un modelo 435 00:21:11,750 --> 00:21:12,700 varias palabras. 436 00:21:12,700 --> 00:21:14,610 Entón, digamos que eu teño algo como: "Querida, eu son 437 00:21:14,610 --> 00:21:16,030 no lume ", ou algo así. 438 00:21:16,030 --> 00:21:17,760 Por iso, ten varias palabras. 439 00:21:17,760 --> 00:21:20,880 E neste caso, pode ver que "bebé" está en Gaga, 440 00:21:20,880 --> 00:21:21,710 pero non é en Katy. 441 00:21:21,710 --> 00:21:24,940 E o "lume" está en Katy, pero non é en Gaga, non? 442 00:21:24,940 --> 00:21:27,200 Por iso, está quedando máis complicado, non? 443 00:21:27,200 --> 00:21:31,440 Porque parece que case ten un lazo entre os dous. 444 00:21:31,440 --> 00:21:36,980 >> Entón o que tes que facer é asumir independencia entre as palabras. 445 00:21:36,980 --> 00:21:41,210 Entón, basicamente o que significa isto é que Eu só estou calculando o que é o 446 00:21:41,210 --> 00:21:44,330 probabilidade de ver "bebé", o que se a probabilidade de ver "eu", e 447 00:21:44,330 --> 00:21:46,670 "AM" e "on" e "fogo" todo separado. 448 00:21:46,670 --> 00:21:48,670 Entón eu estou multiplicando todos eles. 449 00:21:48,670 --> 00:21:52,420 E eu estou a ver cal é a probabilidade de ver a frase. 450 00:21:52,420 --> 00:21:55,210 Ten sentido? 451 00:21:55,210 --> 00:22:00,270 >> Entón, basicamente, se eu teño só unha palabra, o que quero é atopar o arg max, 452 00:22:00,270 --> 00:22:05,385 o que significa, que é a clase que é me dando a maior probabilidade? 453 00:22:05,385 --> 00:22:10,010 Entón, cal é a clase que está dando ma maior probabilidade de 454 00:22:10,010 --> 00:22:11,940 probabilidade de clase determinada palabra. 455 00:22:11,940 --> 00:22:17,610 Polo tanto, neste caso, Gaga deu "bebé". Ou Katy deu "bebé". Ten sentido? 456 00:22:17,610 --> 00:22:21,040 >> E só desde Bayes, que ecuación que eu mostre, 457 00:22:21,040 --> 00:22:24,780 creamos esta fracción. 458 00:22:24,780 --> 00:22:28,750 O único é que ve que a probabilidade de que a palabra dada 459 00:22:28,750 --> 00:22:31,370 cambios de clase, dependendo na clase, non? 460 00:22:31,370 --> 00:22:34,260 Número de s "bebé" que eu teño en Gaga é diferente de Katy. 461 00:22:34,260 --> 00:22:37,640 A probabilidade de que a clase tamén cambios, porque iso é só o número 462 00:22:37,640 --> 00:22:39,740 de cancións cada un deles ten. 463 00:22:39,740 --> 00:22:43,980 >> Pero a probabilidade da propia palabra será o mesmo para todo o 464 00:22:43,980 --> 00:22:44,740 artistas, non? 465 00:22:44,740 --> 00:22:47,150 Así, a probabilidade de que a palabra está só, cal é a probabilidade de 466 00:22:47,150 --> 00:22:49,820 ver esa palabra no Idioma inglés? 467 00:22:49,820 --> 00:22:51,420 Entón, é o mesmo para todos eles. 468 00:22:51,420 --> 00:22:55,790 Entón, unha vez que esta é constante, podemos só botar iso e non se preocupan con iso. 469 00:22:55,790 --> 00:23:00,230 Entón, que vai ser realmente o ecuación que estamos a buscar. 470 00:23:00,230 --> 00:23:03,360 >> E se eu tivera varias palabras, eu son aínda vai ter o previo 471 00:23:03,360 --> 00:23:04,610 probabilidade aquí. 472 00:23:04,610 --> 00:23:06,980 O único é que eu estou multiplicando a probabilidade de 473 00:23:06,980 --> 00:23:08,490 todas as outras palabras. 474 00:23:08,490 --> 00:23:10,110 Entón, eu estou multiplicando todos eles. 475 00:23:10,110 --> 00:23:12,610 Ten sentido? 476 00:23:12,610 --> 00:23:18,440 Parece raro, pero basicamente significa, calcular o antes da clase, e 477 00:23:18,440 --> 00:23:22,100 logo multiplicar por probabilidade de cada das palabras sendo nesa clase. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> E vostede sabe que a probabilidade dun palabra dada unha clase será o 480 00:23:29,150 --> 00:23:34,520 número de veces que ve esa palabra en clase, dividido polo número de 481 00:23:34,520 --> 00:23:37,020 palabras que ten que clase en xeral. 482 00:23:37,020 --> 00:23:37,990 Ten sentido? 483 00:23:37,990 --> 00:23:41,680 É só como "bebé" foi de 2 sobre o número de palabras que 484 00:23:41,680 --> 00:23:43,020 Tiven nas letras. 485 00:23:43,020 --> 00:23:45,130 Polo tanto, só a miúdo. 486 00:23:45,130 --> 00:23:46,260 >> Pero hai unha cousa. 487 00:23:46,260 --> 00:23:51,250 Lembre-se de como eu estaba mostrando que o probabilidade de seren letras "bebé" 488 00:23:51,250 --> 00:23:56,350 de Katy Perry é 0 só porque Katy Perry non tiña "bebé" en todo? 489 00:23:56,350 --> 00:24:04,900 Pero soa un pouco dura só simplemente dicir que as letras non poden ser de 490 00:24:04,900 --> 00:24:10,040 un artista só porque non teñen esta palabra, en particular, en calquera momento. 491 00:24:10,040 --> 00:24:13,330 >> Entón, vostede podería só dicir, ben, se non ten esta palabra, vou 492 00:24:13,330 --> 00:24:15,640 darlle unha pequena probabilidade, pero eu non vou 493 00:24:15,640 --> 00:24:17,420 darlle 0 inmediatamente. 494 00:24:17,420 --> 00:24:21,040 Porque quizais fose algo así como: "Lume, lume, lume, lume", que é 495 00:24:21,040 --> 00:24:21,990 totalmente Katy Perry. 496 00:24:21,990 --> 00:24:26,060 E, a continuación, "bebé", e iso só serve para 0 de inmediato, xa que había unha 497 00:24:26,060 --> 00:24:27,250 "Bebé". 498 00:24:27,250 --> 00:24:31,440 >> Entón, basicamente, o que facemos é algo chamado Laplace alisado. 499 00:24:31,440 --> 00:24:36,260 E iso só quere dicir que eu estou dando algunha probabilidade, mesmo para as palabras 500 00:24:36,260 --> 00:24:37,850 que non existen. 501 00:24:37,850 --> 00:24:43,170 Entón, o que fago é que cando estou calcular iso, eu sempre engadir 1 ao 502 00:24:43,170 --> 00:24:44,180 o numerador. 503 00:24:44,180 --> 00:24:48,060 Así, aínda que a palabra non existe, en Neste caso, se este é 0, eu aínda estou 504 00:24:48,060 --> 00:24:51,250 cálculo deste como un todo número total de palabras. 505 00:24:51,250 --> 00:24:55,060 En caso contrario, fico con cantas palabras Eu teño e eu engadir 1. 506 00:24:55,060 --> 00:24:58,300 Entón, eu estou contando a ambos os casos. 507 00:24:58,300 --> 00:25:00,430 Ten sentido? 508 00:25:00,430 --> 00:25:03,060 >> Entón agora imos facer algunha codificación. 509 00:25:03,060 --> 00:25:06,440 Vou ter que facelo moi rápido, pero é só importante que 510 00:25:06,440 --> 00:25:08,600 caras entender os conceptos. 511 00:25:08,600 --> 00:25:13,450 Entón o que estamos intentando facer é exactamente aplicar esta 512 00:25:13,450 --> 00:25:14,330 cousa que eu dixen - 513 00:25:14,330 --> 00:25:19,110 Quero que poñer letras de Lady Gaga e Katy Perry. 514 00:25:19,110 --> 00:25:22,980 E o programa vai ser capaz de dicir se esas novas letras son de Gaga 515 00:25:22,980 --> 00:25:24,170 ou Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Ten sentido? 517 00:25:25,800 --> 00:25:27,530 Aceptar. 518 00:25:27,530 --> 00:25:30,710 >> Entón, eu teño este programa eu vou para chamar classify.py. 519 00:25:30,710 --> 00:25:31,970 Polo tanto, esta é Python. 520 00:25:31,970 --> 00:25:34,210 É unha nova linguaxe de programación. 521 00:25:34,210 --> 00:25:38,020 É moi semellante nalgúns formas de C e PHP. 522 00:25:38,020 --> 00:25:43,180 É semellante, porque se quere aprender Python tras coñecer C, é 523 00:25:43,180 --> 00:25:46,270 non é realmente un gran desafío só porque Python é moito máis doado 524 00:25:46,270 --> 00:25:47,520 a C, en primeiro lugar. 525 00:25:47,520 --> 00:25:49,370 E unha morea de cousas que xa están aplicadas para ti. 526 00:25:49,370 --> 00:25:56,820 Entón, como como PHP ten funcións que ordenar unha lista, ou engadir algo 527 00:25:56,820 --> 00:25:58,780 para unha matriz, ou bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python ten todas as tamén. 529 00:26:00,690 --> 00:26:05,960 >> Entón, eu só vou explicar rapidamente como poderiamos facer a clasificación 530 00:26:05,960 --> 00:26:07,860 problema para aquí. 531 00:26:07,860 --> 00:26:13,230 Entón, imos dicir que, neste caso, eu teño letras de Gaga e Katy Perry. 532 00:26:13,230 --> 00:26:21,880 O xeito que eu teño é que esas letras a primeira palabra das letras é 533 00:26:21,880 --> 00:26:25,250 o nome do artista e o resto é a letra. 534 00:26:25,250 --> 00:26:29,470 Entón, imos dicir que eu teño esa lista en que a primeira é letra de Gaga. 535 00:26:29,470 --> 00:26:31,930 Entón, aquí estou no camiño correcto. 536 00:26:31,930 --> 00:26:35,270 E o seguinte é Katy, e el tamén ten as letras. 537 00:26:35,270 --> 00:26:38,040 >> Entón é así que declarar unha variable en Python. 538 00:26:38,040 --> 00:26:40,200 Non ten que dar o tipo de datos. 539 00:26:40,200 --> 00:26:43,150 Acaba de escribir "letras", tipo de gusto en PHP. 540 00:26:43,150 --> 00:26:44,890 Ten sentido? 541 00:26:44,890 --> 00:26:47,770 >> Entón, cales son as cousas que eu teño que calcular a ser capaz de calcular a 542 00:26:47,770 --> 00:26:49,360 probabilidades? 543 00:26:49,360 --> 00:26:55,110 Teño que calcular os "antecedentes" de cada un dos diferentes 544 00:26:55,110 --> 00:26:56,710 clases que eu teño. 545 00:26:56,710 --> 00:27:06,680 Teño que calcular os "posteriors", ou practicamente as probabilidades 546 00:27:06,680 --> 00:27:12,150 cada unha das palabras que diferentes Podo ter a cada artista. 547 00:27:12,150 --> 00:27:17,210 Entón, dentro de Gaga, por exemplo, eu vou ter unha lista de cantas veces eu vexo 548 00:27:17,210 --> 00:27:19,250 cada unha das palabras. 549 00:27:19,250 --> 00:27:20,760 Ten sentido? 550 00:27:20,760 --> 00:27:25,370 >> E, finalmente, eu estou indo só para ter un lista chamada "palabras" que só vai 551 00:27:25,370 --> 00:27:29,780 ter cantas palabras que ter para cada artista. 552 00:27:29,780 --> 00:27:33,760 Así, para Gaga, por exemplo, cando eu ollo para as letras, que eu tiña, eu creo, 24 553 00:27:33,760 --> 00:27:34,750 palabras en total. 554 00:27:34,750 --> 00:27:38,970 Polo tanto, este é só terá Gaga 24, e Katy outro número. 555 00:27:38,970 --> 00:27:40,130 Ten sentido? 556 00:27:40,130 --> 00:27:40,560 Aceptar. 557 00:27:40,560 --> 00:27:42,530 >> Entón, agora, de feito, imos ir á codificación. 558 00:27:42,530 --> 00:27:45,270 Así, en Python, pode realmente voltar unha morea de diferentes 559 00:27:45,270 --> 00:27:46,630 cousas dunha función. 560 00:27:46,630 --> 00:27:50,810 Entón, eu estou indo a crear esta función chamado "condicional", que vai 561 00:27:50,810 --> 00:27:53,890 para volver todas estas cousas, o "Antecedentes", as "probabilidades", eo 562 00:27:53,890 --> 00:28:05,690 "Palabras". Así, "condicional", e é será pór en "letras". 563 00:28:05,690 --> 00:28:11,510 >> Entón agora quero que realmente escribir esta función. 564 00:28:11,510 --> 00:28:17,750 Así, a forma que eu podo escribir este función é só marcou este 565 00:28:17,750 --> 00:28:20,620 funciona con "def". Entón eu fixen "def condicional ", e está tomando 566 00:28:20,620 --> 00:28:28,700 "Letras". E o que iso vai facer é, antes de todo, eu teño as miñas priores 567 00:28:28,700 --> 00:28:31,030 que quero calcular. 568 00:28:31,030 --> 00:28:34,330 >> Así, a forma que eu poida facelo é crear un dicionario en Python, o que 569 00:28:34,330 --> 00:28:37,320 é practicamente o mesmo que un hash mesa, ou é como un iterativo 570 00:28:37,320 --> 00:28:40,480 array en PHP. 571 00:28:40,480 --> 00:28:44,150 Isto é como eu declarar un dicionario. 572 00:28:44,150 --> 00:28:53,580 E, basicamente, o que isto significa que priores de Gaga é de 0,5, por exemplo, se 573 00:28:53,580 --> 00:28:57,200 50% das letras son de Gaga, 50% son de Katy. 574 00:28:57,200 --> 00:28:58,450 Ten sentido? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Entón eu teño que descubrir como para calcular os antecedentes. 577 00:29:03,680 --> 00:29:07,120 >> Os próximos que eu teño que facer, tamén, son as probabilidades e as palabras. 578 00:29:07,120 --> 00:29:17,100 Así, as probabilidades de Gaga é a lista de todas as probabilidades de que I 579 00:29:17,100 --> 00:29:19,160 ter para cada unha das palabras de Gaga. 580 00:29:19,160 --> 00:29:23,880 Entón, se eu for a probabilidade de Gaga "Bebé", por exemplo, el me vai dar 581 00:29:23,880 --> 00:29:28,750 algo así como 2 máis de 24 nese caso. 582 00:29:28,750 --> 00:29:30,070 Ten sentido? 583 00:29:30,070 --> 00:29:36,120 Entón eu vou para "probabilidades", vaia para o Balde "gagá", que ten unha lista de todos 584 00:29:36,120 --> 00:29:40,550 as palabras Gaga, entón eu vou para "bebé" e eu vexo a probabilidade. 585 00:29:40,550 --> 00:29:45,940 >> E, finalmente, eu teño esa "As palabras" dicionario. 586 00:29:45,940 --> 00:29:53,620 Entón, aquí, "probabilidades". E entón "Palabras". Entón, se eu fago "palabras", "gagá", 587 00:29:53,620 --> 00:29:58,330 o que vai ocorrer é que é me vai dar 24, dicindo que eu 588 00:29:58,330 --> 00:30:01,990 ten 24 palabras dentro letras de Gaga. 589 00:30:01,990 --> 00:30:04,110 Ten sentido? 590 00:30:04,110 --> 00:30:07,070 Entón, aquí, "palabras" coincide dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 Ok 592 00:30:07,620 --> 00:30:12,210 >> Entón o que eu vou facer é que eu vou iterado sobre cada unha das letras, así 593 00:30:12,210 --> 00:30:14,490 cada unha das cordas que Teño na lista. 594 00:30:14,490 --> 00:30:18,040 E eu vou para calcular isto para cada un dos candidatos. 595 00:30:18,040 --> 00:30:19,950 Ten sentido? 596 00:30:19,950 --> 00:30:21,700 Entón eu teño que facer un loop for. 597 00:30:21,700 --> 00:30:26,300 >> Así, en Python, o que podo facer é "para a liña en letras. "O mesmo que un 598 00:30:26,300 --> 00:30:28,000 "Para cada" declaración en PHP. 599 00:30:28,000 --> 00:30:33,420 Lembra-se como se fose PHP eu puidese dicir "para cada letras como 600 00:30:33,420 --> 00:30:35,220 liña. "Ten sentido? 601 00:30:35,220 --> 00:30:38,900 Entón, eu estou tomando cada unha das liñas, neste caso, esta secuencia ea próxima 602 00:30:38,900 --> 00:30:44,540 corda de xeito para cada unha das liñas que eu son vai facer é, primeiro, eu vou 603 00:30:44,540 --> 00:30:49,150 dividir esta liña nunha lista de palabras separadas por espazos. 604 00:30:49,150 --> 00:30:53,730 >> Entón, a cousa legal sobre Python é que podería só o Google como "Como podo 605 00:30:53,730 --> 00:30:58,220 dividir unha cadea palabras? "E é vou dicir-lle como facelo. 606 00:30:58,220 --> 00:31:04,890 E o xeito de facelo, é só liña " = Line.split () "e é basicamente 607 00:31:04,890 --> 00:31:08,640 vai dar-lle unha lista con cada un dos termos aquí. 608 00:31:08,640 --> 00:31:09,620 Ten sentido? 609 00:31:09,620 --> 00:31:15,870 Polo tanto, agora que eu fixen iso que quero saber quen é o cantante da canción. 610 00:31:15,870 --> 00:31:20,130 E para facelo eu teño que aproveitar o primeiro elemento do array, non? 611 00:31:20,130 --> 00:31:26,390 Entón, eu só podo dicir que eu "cantante = Liña (0) "Ten sentido? 612 00:31:26,390 --> 00:31:32,010 >> E entón o que eu teño que facer é, en primeiro lugar todo, eu vou actualizar cantos 613 00:31:32,010 --> 00:31:36,130 palabras que eu teño en "gagá". entón eu son só vai dicir cantas palabras que 614 00:31:36,130 --> 00:31:38,690 ten nesta lista, non? 615 00:31:38,690 --> 00:31:41,910 Porque este é o número de palabras que eu teño nas letras e eu só vou 616 00:31:41,910 --> 00:31:44,120 engadir lo á matriz "gagá". 617 00:31:44,120 --> 00:31:47,090 Será que isto ten sentido? 618 00:31:47,090 --> 00:31:49,010 Non concentrarse moito na sintaxe. 619 00:31:49,010 --> 00:31:50,430 Pense máis sobre os conceptos. 620 00:31:50,430 --> 00:31:52,400 Esta é a parte máis importante. 621 00:31:52,400 --> 00:31:52,720 Aceptar. 622 00:31:52,720 --> 00:32:00,260 >> Entón, o que podo facer é "gagá" é xa nesa lista, polo que "se cantante 623 00:32:00,260 --> 00:32:03,190 palabras "o que significa que eu xa teño palabras por Gaga. 624 00:32:03,190 --> 00:32:06,640 Eu só quero engadir o adicional palabras para iso. 625 00:32:06,640 --> 00:32:15,810 Entón, o que fago é "palabras (cantante) + = Len (liña) - 1 ". 626 00:32:15,810 --> 00:32:18,250 E entón podo só facer a lonxitude da liña. 627 00:32:18,250 --> 00:32:21,860 Entón, como moitos elementos I ter na matriz. 628 00:32:21,860 --> 00:32:27,060 E eu teño que facer menos 1 só porque o primeiro elemento da matriz é só 629 00:32:27,060 --> 00:32:29,180 un cantante e os que non son letras. 630 00:32:29,180 --> 00:32:31,420 Ten sentido? 631 00:32:31,420 --> 00:32:32,780 Aceptar. 632 00:32:32,780 --> 00:32:35,820 >> "Else", isto significa que quero, en realidade, introducir Gaga na lista. 633 00:32:35,820 --> 00:32:45,990 Entón, eu só fago "palabras (cantante) = Len (liña) - 1, "Sentímolo. 634 00:32:45,990 --> 00:32:49,200 Así, a única diferenza entre os dous liñas é que un agasallo, isto non acontece 635 00:32:49,200 --> 00:32:51,080 existen aínda, entón eu son só arrinque la. 636 00:32:51,080 --> 00:32:53,820 Este realmente estou engadindo. 637 00:32:53,820 --> 00:32:55,570 Aceptar. 638 00:32:55,570 --> 00:32:59,480 Polo tanto, esta foi a adición de palabras. 639 00:32:59,480 --> 00:33:03,040 >> Agora quero engadir aos antecedentes. 640 00:33:03,040 --> 00:33:05,480 Entón, como fago para calcular os priores? 641 00:33:05,480 --> 00:33:11,580 Os antecedentes pódese calcular por cantas veces. 642 00:33:11,580 --> 00:33:15,340 Entón, cantas veces ves que a cantante entre todos os cantantes que vostedes, 643 00:33:15,340 --> 00:33:16,380 ten, non? 644 00:33:16,380 --> 00:33:18,810 Así, por Gaga e Katy Perry, neste caso, non vexo Gaga 645 00:33:18,810 --> 00:33:20,570 xa que, Katy Perry vez. 646 00:33:20,570 --> 00:33:23,320 >> Entón, basicamente, os priores para Gaga e para Katy Perry faría 647 00:33:23,320 --> 00:33:24,390 ser só un, non? 648 00:33:24,390 --> 00:33:26,500 Só as veces Eu vexo o artista. 649 00:33:26,500 --> 00:33:28,740 Entón iso é moi fácil de calcular. 650 00:33:28,740 --> 00:33:34,100 Podo só algo semellante como como "se cantante en priores, "Eu só vou 651 00:33:34,100 --> 00:33:38,970 engadir 1 para a súa caixa de antecedentes. 652 00:33:38,970 --> 00:33:51,000 Entón, "priores (cantar)" + = 1 "e despois" senón " Vou facer "priores (cantante) 653 00:33:51,000 --> 00:33:55,000 = 1. "Ten sentido? 654 00:33:55,000 --> 00:34:00,080 >> Entón, se non existir Acabo de pór como 1, se non, eu só engadir 1. 655 00:34:00,080 --> 00:34:11,280 OK, entón agora o único que me queda facer tamén é engadir cada unha das palabras do 656 00:34:11,280 --> 00:34:12,290 probabilidades. 657 00:34:12,290 --> 00:34:14,889 Entón eu teño que contar cantas veces Vexo cada unha das palabras. 658 00:34:14,889 --> 00:34:18,780 Entón, eu só teño que facer outro loop for na liña. 659 00:34:18,780 --> 00:34:25,190 >> Entón o primeiro que vou facer é comprobar que o cantante xa ten un 660 00:34:25,190 --> 00:34:26,969 variedade probabilidades. 661 00:34:26,969 --> 00:34:31,739 Entón, eu estou comprobando se a cantante non fai ter unha matriz probabilidades, eu son só 662 00:34:31,739 --> 00:34:34,480 indo a arrincar un deles. 663 00:34:34,480 --> 00:34:36,400 Non é nin mesmo unha matriz, desculpe, é un dicionario. 664 00:34:36,400 --> 00:34:43,080 Así, as probabilidades de cantante vai para ser un dicionario aberto, polo que estou 665 00:34:43,080 --> 00:34:45,830 só arrincar un dicionario para el. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> E agora podo realmente facer un loop para calcular cada unha das palabras ' 668 00:34:58,330 --> 00:35:00,604 probabilidades. 669 00:35:00,604 --> 00:35:01,540 Aceptar. 670 00:35:01,540 --> 00:35:04,160 Entón, o que podo facer é un loop for. 671 00:35:04,160 --> 00:35:06,590 Entón, eu só vou facer unha iteración sobre a matriz. 672 00:35:06,590 --> 00:35:15,320 Así, a forma que eu podo facer iso en Python é "ser i in range". A partir do 1 673 00:35:15,320 --> 00:35:19,200 porque quero comezar o segundo elemento porque o primeiro é o 674 00:35:19,200 --> 00:35:20,260 Nome cantante. 675 00:35:20,260 --> 00:35:24,990 Entón, a partir dun ata o lonxitude da liña. 676 00:35:24,990 --> 00:35:29,760 E cando eu variar realmente ir de como aquí de 1 a len do 677 00:35:29,760 --> 00:35:30,740 liña menos 1. 678 00:35:30,740 --> 00:35:33,810 Por iso, xa fai esa cousa de facer n menos 1 para matrices que é moi 679 00:35:33,810 --> 00:35:35,500 cómodo. 680 00:35:35,500 --> 00:35:37,850 Ten sentido? 681 00:35:37,850 --> 00:35:42,770 >> Así, para cada unha delas, o que eu vou facer é, así como no outro, 682 00:35:42,770 --> 00:35:50,320 Vou comprobar se a palabra neste posición na liña que xa está en 683 00:35:50,320 --> 00:35:51,570 probabilidades. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 E entón, como dixen aquí, as probabilidades palabras, como en engada 686 00:35:57,260 --> 00:35:58,400 "Probabilidades (cantante)". 687 00:35:58,400 --> 00:35:59,390 Así, o nome da cantante. 688 00:35:59,390 --> 00:36:03,450 Entón, se xa está en "Probabilit (cantante)", quere dicir que eu 689 00:36:03,450 --> 00:36:11,960 desexa engadir 1 a iso, entón eu vou facer "probabilidades (cantante)", ea 690 00:36:11,960 --> 00:36:14,100 palabra é chamado de "liña de (i)". 691 00:36:14,100 --> 00:36:22,630 Eu estou indo a engadir un e "senón" Eu son só indo a inicializar-lo para 1. 692 00:36:22,630 --> 00:36:23,880 "Liña (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Ten sentido? 695 00:36:28,420 --> 00:36:30,180 >> Entón, I calculada tódalas matrices. 696 00:36:30,180 --> 00:36:36,580 Entón, agora todo o que eu teño que facer para este é só "volver priores, 697 00:36:36,580 --> 00:36:43,230 probabilidade e palabras. "Imos ver se hai algún, Aceptar. 698 00:36:43,230 --> 00:36:45,690 Parece que todo funciona ata agora. 699 00:36:45,690 --> 00:36:46,900 Entón, iso ten sentido? 700 00:36:46,900 --> 00:36:47,750 De algunha maneira? 701 00:36:47,750 --> 00:36:49,280 Aceptar. 702 00:36:49,280 --> 00:36:51,980 Entón agora eu teño todas as probabilidades. 703 00:36:51,980 --> 00:36:55,100 Entón, agora o único que me queda é só para ter esa cousa que 704 00:36:55,100 --> 00:36:58,650 calcula o produto de todos os probabilidades cando chegar a letra. 705 00:36:58,650 --> 00:37:06,270 >> Entón, imos dicir que quero chamar agora esta función "clasificar ()" eo 706 00:37:06,270 --> 00:37:08,880 que función ten é só unha discusión. 707 00:37:08,880 --> 00:37:13,170 Imos dicir "Baby, eu estou no lume" e é Vai descubrir que é o 708 00:37:13,170 --> 00:37:14,490 probabilidade de que se trata Gaga? 709 00:37:14,490 --> 00:37:16,405 Cal é a probabilidade que este é Katie? 710 00:37:16,405 --> 00:37:19,690 Parece bo? 711 00:37:19,690 --> 00:37:25,750 Entón, eu só vou ter que crear un nova función chamada "clasificar ()" e 712 00:37:25,750 --> 00:37:29,180 iso vai levar moito letras tamén. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 E alén das letras que eu tamén ten que enviar os priores, o 715 00:37:36,160 --> 00:37:37,700 probabilidade e as palabras. 716 00:37:37,700 --> 00:37:44,000 Entón eu vou mandar cartas, priores, probabilidades, palabras. 717 00:37:44,000 --> 00:37:51,840 >> Entón, iso está tomando letras, priores, probabilidades, palabras. 718 00:37:51,840 --> 00:37:53,530 Entón, o que fai? 719 00:37:53,530 --> 00:37:57,180 É basicamente vai pasar por todo os posibles candidatos que teña 720 00:37:57,180 --> 00:37:58,510 ten como cantante. 721 00:37:58,510 --> 00:37:59,425 E onde están os candidatos? 722 00:37:59,425 --> 00:38:01,020 Están no priores, non? 723 00:38:01,020 --> 00:38:02,710 Entón, eu teño todos os alí. 724 00:38:02,710 --> 00:38:07,870 Entón, eu vou ter un dicionario de todos os candidatos posíbeis. 725 00:38:07,870 --> 00:38:14,220 E, a continuación, para cada candidato no priores, entón iso significa que vai 726 00:38:14,220 --> 00:38:17,740 ser Gaga, Katie se eu tivese máis sería máis. 727 00:38:17,740 --> 00:38:20,410 Vou comezar a calcular esta probabilidade. 728 00:38:20,410 --> 00:38:28,310 A probabilidade, como vimos no PowerPoint é os tempos anteriores a 729 00:38:28,310 --> 00:38:30,800 produto de cada un dos outros probabilidades. 730 00:38:30,800 --> 00:38:32,520 >> Entón eu podo facer o mesmo aquí. 731 00:38:32,520 --> 00:38:36,330 Podo só facer a probabilidade é inicialmente só o anterior. 732 00:38:36,330 --> 00:38:40,340 Así antecedentes do candidato. 733 00:38:40,340 --> 00:38:40,870 Non? 734 00:38:40,870 --> 00:38:45,360 E agora teño que iterado sobre todo o palabras que eu teño nas letras a ser 735 00:38:45,360 --> 00:38:48,820 capaz de engadir a probabilidade para cada un deles, ok? 736 00:38:48,820 --> 00:38:57,900 Entón, "por palabra nas letras" o que eu vou que facer é, se a palabra está en 737 00:38:57,900 --> 00:39:01,640 "Probabilidades (candidatos)", que significa que é unha palabra que o 738 00:39:01,640 --> 00:39:03,640 candidato ten nas súas letras - 739 00:39:03,640 --> 00:39:05,940 por exemplo, "bebé" para Gaga - 740 00:39:05,940 --> 00:39:11,710 o que eu vou facer é que o probabilidade será multiplicada 741 00:39:11,710 --> 00:39:22,420 por 1 máis as probabilidades o candidato a esa palabra. 742 00:39:22,420 --> 00:39:25,710 E iso é chamado de "palabra". 743 00:39:25,710 --> 00:39:32,440 Esta dividido polo número de palabras que eu teño para este candidato. 744 00:39:32,440 --> 00:39:37,450 O número total de palabras que eu teño ao cantante que estou mirando. 745 00:39:37,450 --> 00:39:40,290 >> "Else". isto significa que é un novo contrasinal polo que sería por exemplo 746 00:39:40,290 --> 00:39:41,860 "Lume" de Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Entón, eu só quero facer un sobre "Palabras (candidato)". 748 00:39:45,760 --> 00:39:47,710 Entón eu non quero poñer este termo aquí. 749 00:39:47,710 --> 00:39:50,010 >> Por iso, será basicamente copiando e pegando esta. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Pero eu vou borrar esa parte. 752 00:39:56,000 --> 00:39:57,610 Por iso, só será 1 sobre iso. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Parece bo? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 E agora, ao final, eu só vou imprimir o nome do demandante e 757 00:40:09,700 --> 00:40:15,750 a probabilidade de que ten de tendo a S en súas letras. 758 00:40:15,750 --> 00:40:16,200 Ten sentido? 759 00:40:16,200 --> 00:40:18,390 E eu, de feito, nin sequera precisa deste dicionario. 760 00:40:18,390 --> 00:40:19,510 Ten sentido? 761 00:40:19,510 --> 00:40:21,810 >> Entón, imos ver se isto realmente funciona. 762 00:40:21,810 --> 00:40:24,880 Entón, se eu executar tanto, non funcionou. 763 00:40:24,880 --> 00:40:26,130 Espere un segundo. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Palabras (candidatos)", "palabras (candidatos)", iso é 766 00:40:31,720 --> 00:40:33,750 nome da matriz. 767 00:40:33,750 --> 00:40:41,435 OK Entón, el di que hai algún erro ao candidato en antecedentes. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Déixeme só relaxarse ​​un pouco. 770 00:40:48,760 --> 00:40:50,360 Aceptar. 771 00:40:50,360 --> 00:40:51,305 Imos probar. 772 00:40:51,305 --> 00:40:51,720 Aceptar. 773 00:40:51,720 --> 00:40:58,710 >> Entón dá Katy Perry ten este probabilidade de isto veces 10 elevado a 774 00:40:58,710 --> 00:41:02,200 menos rúbricas 7, e Gaga ten esta veces 10 elevado a menos 6. 775 00:41:02,200 --> 00:41:05,610 Entón ve que demostra que Gaga ten unha maior probabilidade. 776 00:41:05,610 --> 00:41:09,260 Así, "Baby, eu estou no lume" é probablemente unha canción Gaga. 777 00:41:09,260 --> 00:41:10,580 Ten sentido? 778 00:41:10,580 --> 00:41:12,030 Entón é iso que nós fixemos. 779 00:41:12,030 --> 00:41:16,010 >> Este código será publicado en liña, para que vostedes poidan revisar. 780 00:41:16,010 --> 00:41:20,720 Quizais usa algunhas delas para se quere facer un proxecto ou algo semellante. 781 00:41:20,720 --> 00:41:22,150 Aceptar. 782 00:41:22,150 --> 00:41:25,930 Este foi só para amosar computacional que 783 00:41:25,930 --> 00:41:27,230 código lingüística parece. 784 00:41:27,230 --> 00:41:33,040 Pero agora imos a máis material de alto nivel. 785 00:41:33,040 --> 00:41:33,340 Aceptar. 786 00:41:33,340 --> 00:41:35,150 >> Así, os outros problemas que eu estaba falando - 787 00:41:35,150 --> 00:41:37,550 o problema de segmentación é a primeira delas. 788 00:41:37,550 --> 00:41:40,820 Entón tes aquí xaponesa. 789 00:41:40,820 --> 00:41:43,420 E entón ve que non hai espazos. 790 00:41:43,420 --> 00:41:49,110 Polo tanto, esta é, basicamente, significa que é o principio da materia, non? 791 00:41:49,110 --> 00:41:50,550 Vostede fala xaponés? 792 00:41:50,550 --> 00:41:52,840 É o principio da materia, non? 793 00:41:52,840 --> 00:41:54,480 >> ALUMNO: Eu non sei o que o kanji alí é. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: É [a falar xaponés] 795 00:41:57,010 --> 00:41:57,950 Aceptar. 796 00:41:57,950 --> 00:42:00,960 Por iso basicamente significa materia de arriba. 797 00:42:00,960 --> 00:42:03,620 Entón, se tivese que poñer un espazo sería aquí. 798 00:42:03,620 --> 00:42:05,970 E entón tes [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Que basicamente significa Ueda. 800 00:42:09,040 --> 00:42:13,180 E ve que "Ueda" e ten un espazo e, a continuación, "san." Entón ve que 801 00:42:13,180 --> 00:42:15,470 Aquí "UE" é por si só. 802 00:42:15,470 --> 00:42:17,750 E aquí ten un carácter ó lado. 803 00:42:17,750 --> 00:42:21,720 >> Entón non é como nas linguas caracteres que significan unha palabra del para que 804 00:42:21,720 --> 00:42:23,980 só tes que poñer unha morea de espazos. 805 00:42:23,980 --> 00:42:25,500 Caracteres refírense se uns aos outros. 806 00:42:25,500 --> 00:42:28,680 E poden estar xuntos como dous, tres, un. 807 00:42:28,680 --> 00:42:34,520 Entón, o que realmente ten que crear algún tipo de forma de poñer estes espazos. 808 00:42:34,520 --> 00:42:38,850 >> E esa cousa é que cada vez que comeza datos destes idiomas asiáticos, 809 00:42:38,850 --> 00:42:40,580 todo vén unsegmented. 810 00:42:40,580 --> 00:42:45,940 Porque ninguén que escribe xaponés ou chinés escribe con espazos. 811 00:42:45,940 --> 00:42:48,200 Sempre que está escribindo chinés, Xaponés que acaba de escribir todo 812 00:42:48,200 --> 00:42:48,710 sen espazos. 813 00:42:48,710 --> 00:42:52,060 Non fai moito sentido para poñer espazos. 814 00:42:52,060 --> 00:42:57,960 Entón cando comeza a partir de datos, algúns Idioma do leste asiático, se quere 815 00:42:57,960 --> 00:43:00,760 realmente facer algo con iso ten que primeiro segmento. 816 00:43:00,760 --> 00:43:05,130 >> Debería facer o exemplo de as letras, sen espazos. 817 00:43:05,130 --> 00:43:07,950 Así, as únicas letras que ten será sentenzas, non? 818 00:43:07,950 --> 00:43:09,470 Separados por puntos. 819 00:43:09,470 --> 00:43:13,930 Pero, entón, que só a sentenza ha non realmente axudar a dar información 820 00:43:13,930 --> 00:43:17,760 de que estas letras son de. 821 00:43:17,760 --> 00:43:18,120 Non? 822 00:43:18,120 --> 00:43:20,010 Polo tanto, ten que poñer espazos en primeiro lugar. 823 00:43:20,010 --> 00:43:21,990 Entón, como pode facelo? 824 00:43:21,990 --> 00:43:24,920 >> Entón, a continuación, ven a idea dunha lingua modelo que é algo realmente 825 00:43:24,920 --> 00:43:26,870 importante para computacional lingüística. 826 00:43:26,870 --> 00:43:32,790 Así, un modelo de linguaxe é basicamente un táboa de probabilidades que mostra 827 00:43:32,790 --> 00:43:36,260 antes de todo, cal é a probabilidade de ter a palabra nunha lingua? 828 00:43:36,260 --> 00:43:39,590 Entón, amosando como unha palabra é frecuente. 829 00:43:39,590 --> 00:43:43,130 E, a continuación, tamén, que mostra a relación entre as palabras nunha frase. 830 00:43:43,130 --> 00:43:51,500 >> Así, a idea principal é que, se un estraño veu para ti e dixo unha frase para 831 00:43:51,500 --> 00:43:55,600 ti, cal é a probabilidade de que, para exemplo, "esta é a miña irmá [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 foi a frase que a persoa dixo? 833 00:43:57,480 --> 00:44:00,380 Entón, obviamente, algunhas frases son máis comúns do que outros. 834 00:44:00,380 --> 00:44:04,450 Por exemplo, "bo día" ou "boa noite ", ou" hey alí, "é moito máis 835 00:44:04,450 --> 00:44:08,260 común do que a maioría das sentenzas que temos un inglés. 836 00:44:08,260 --> 00:44:11,060 Entón, por que estas frases máis frecuente? 837 00:44:11,060 --> 00:44:14,060 >> Primeiro de nada, é porque ten palabras que son máis frecuentes. 838 00:44:14,060 --> 00:44:20,180 Así, por exemplo, se di, o can é grande, e que o can é xigantesca, vostede 839 00:44:20,180 --> 00:44:23,880 xeralmente probablemente escoitar o can é grande máis frecuentemente, por "gran" é máis 840 00:44:23,880 --> 00:44:27,260 frecuente en inglés de "xigantesco". Así, un dos 841 00:44:27,260 --> 00:44:30,100 cousas é a frecuencia de palabras. 842 00:44:30,100 --> 00:44:34,490 >> A segunda cousa que é realmente importante é só o 843 00:44:34,490 --> 00:44:35,490 orde das palabras. 844 00:44:35,490 --> 00:44:39,500 Así, é común dicir que "o gato está dentro da caixa. ", pero xeralmente non 845 00:44:39,500 --> 00:44:44,250 ver en "O cadro de dentro é o gato." así ve que hai algunha importancia 846 00:44:44,250 --> 00:44:46,030 na orde das palabras. 847 00:44:46,030 --> 00:44:50,160 Non pode simplemente dicir que os dous sentenzas teñen a mesma probabilidade 848 00:44:50,160 --> 00:44:53,010 só porque teñen as mesmas palabras. 849 00:44:53,010 --> 00:44:55,550 Realmente ten que coidar sobre a orde tamén. 850 00:44:55,550 --> 00:44:57,650 Ten sentido? 851 00:44:57,650 --> 00:44:59,490 >> Entón, o que facemos? 852 00:44:59,490 --> 00:45:01,550 Entón, o que eu podería intentar levalo? 853 00:45:01,550 --> 00:45:04,400 Estou intentando conseguir o que nós chamar os modelos n-gramos. 854 00:45:04,400 --> 00:45:09,095 Así, os modelos n-gram basicamente asumir que, para cada palabra que 855 00:45:09,095 --> 00:45:10,960 ten nunha frase. 856 00:45:10,960 --> 00:45:15,020 É a probabilidade de ter que palabra non depende non só do 857 00:45:15,020 --> 00:45:18,395 frecuencia da palabra na lingua, pero tamén en que as palabras 858 00:45:18,395 --> 00:45:19,860 están ao seu redor. 859 00:45:19,860 --> 00:45:25,810 >> Así, por exemplo, xeralmente cando ve algo así como en ou polo que é 860 00:45:25,810 --> 00:45:28,040 probablemente vai ver un substantivo despois, non? 861 00:45:28,040 --> 00:45:31,750 Porque cando tes unha preposición xeralmente leva substantivo despois del. 862 00:45:31,750 --> 00:45:35,540 Ou se ten un verbo que é transitivo normalmente van 863 00:45:35,540 --> 00:45:36,630 ter un sintagma nominal. 864 00:45:36,630 --> 00:45:38,780 Por iso, vai ter un substantivo en algún lugar en torno a el. 865 00:45:38,780 --> 00:45:44,950 >> Entón, basicamente, o que fai é que considera a probabilidade de ter 866 00:45:44,950 --> 00:45:47,960 palabras á beira do outro, cando está calculando o 867 00:45:47,960 --> 00:45:49,050 probabilidade dunha sentenza. 868 00:45:49,050 --> 00:45:50,960 E iso é o que a lingua modelo é basicamente. 869 00:45:50,960 --> 00:45:54,620 Só ten que dicir cal é a probabilidade de ter unha específica 870 00:45:54,620 --> 00:45:57,120 sentenza nunha lingua? 871 00:45:57,120 --> 00:45:59,110 Entón, por que é tan útil, basicamente? 872 00:45:59,110 --> 00:46:02,390 E antes de todo o que é un modelo de n-gramos, entón? 873 00:46:02,390 --> 00:46:08,850 >> Así, un modelo de n-gramos significa que cada palabra depende da 874 00:46:08,850 --> 00:46:12,700 N próxima de menos 1 palabras. 875 00:46:12,700 --> 00:46:18,150 Entón, basicamente, significa que se eu ollar, por exemplo, o TF CS50 cando 876 00:46:18,150 --> 00:46:21,500 Estou calculando a probabilidade de a frase, vai ser como "o 877 00:46:21,500 --> 00:46:25,280 probabilidade de ter a palabra "a" veces a probabilidade de ter o " 878 00:46:25,280 --> 00:46:31,720 CS50 "veces a probabilidade de ter "O TF CS50". Entón, basicamente, eu conto 879 00:46:31,720 --> 00:46:35,720 todas as formas posibles de estirala-lo. 880 00:46:35,720 --> 00:46:41,870 >> E, entón, xeralmente cando está facendo iso, como nun proxecto, se pon N a ser 881 00:46:41,870 --> 00:46:42,600 un valor baixo. 882 00:46:42,600 --> 00:46:45,930 Entón, xeralmente teñen bigramas ou trigramas. 883 00:46:45,930 --> 00:46:51,090 Así que acaba de contar dúas palabras, unha grupo de dúas palabras, ou tres palabras, 884 00:46:51,090 --> 00:46:52,620 só para problemas de rendemento. 885 00:46:52,620 --> 00:46:56,395 E tamén porque, se cadra, se ten algo así como "O TF CS50". Cando 886 00:46:56,395 --> 00:47:00,510 ter "TF", é moi importante que "CS50" está ao lado del, non? 887 00:47:00,510 --> 00:47:04,050 Esas dúas cousas son normalmente á beira do outro. 888 00:47:04,050 --> 00:47:06,410 >> Se pensar en "TF", é probablemente terá que 889 00:47:06,410 --> 00:47:07,890 clase é TF'ing para. 890 00:47:07,890 --> 00:47:11,330 Tamén "a" é realmente importante para CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Pero se ten algo como "O CS50 TF fun á clase e deron o seu 892 00:47:14,570 --> 00:47:20,060 os alumnos algúns doces. "" Candy "e" a " non teñen relación de verdade, non? 893 00:47:20,060 --> 00:47:23,670 Están tan distantes unhas das outras que iso realmente non importa o que 894 00:47:23,670 --> 00:47:25,050 palabras que ten. 895 00:47:25,050 --> 00:47:31,210 >> Entón, facendo un bigram ou un trigrama, el Significa só que está limitando 896 00:47:31,210 --> 00:47:33,430 a algunhas palabras que están ao redor. 897 00:47:33,430 --> 00:47:35,810 Ten sentido? 898 00:47:35,810 --> 00:47:40,630 Entón, cando quere facer segmentación, Basicamente, o que quere facer é ver 899 00:47:40,630 --> 00:47:44,850 cales son todas as formas posibles que podes segmentar a frase. 900 00:47:44,850 --> 00:47:49,090 >> De tal forma que ve o que é a probabilidade de cada unha das mencionadas frases 901 00:47:49,090 --> 00:47:50,880 existente na linguaxe? 902 00:47:50,880 --> 00:47:53,410 Entón, o que fai é como, así, imos me tentar poñer un espazo aquí. 903 00:47:53,410 --> 00:47:55,570 Entón poñer un espazo alí e ve o que é a 904 00:47:55,570 --> 00:47:57,590 probabilidade de que a sentenza? 905 00:47:57,590 --> 00:48:00,240 Entón é como, OK, quizais que non era tan bo. 906 00:48:00,240 --> 00:48:03,420 Entón engada un espazo alí e un espazo alí, e calcular a 907 00:48:03,420 --> 00:48:06,240 probabilidade agora, e ve que é unha probabilidade máis elevada. 908 00:48:06,240 --> 00:48:12,160 >> Polo tanto, este é un algoritmo chamado TANGO algoritmo de segmentación, que é 909 00:48:12,160 --> 00:48:14,990 en realidade, algo que sería realmente legal para un proxecto, que 910 00:48:14,990 --> 00:48:20,860 basicamente leva texto unsegmented que pode ser xaponés ou chinés ou que 911 00:48:20,860 --> 00:48:26,080 Inglés sen espazos e intenta poñer espazos entre as palabras e fai 912 00:48:26,080 --> 00:48:29,120 que, ao utilizar un modelo de linguaxe e tentar ver o que é o máis alto 913 00:48:29,120 --> 00:48:31,270 probabilidade pode comezar. 914 00:48:31,270 --> 00:48:32,230 Aceptar. 915 00:48:32,230 --> 00:48:33,800 Polo tanto, esta é a segmentación. 916 00:48:33,800 --> 00:48:35,450 >> Agora sintaxe. 917 00:48:35,450 --> 00:48:40,940 Así, a sintaxe está a ser usado para tantas cousas neste momento. 918 00:48:40,940 --> 00:48:44,880 Así, por Graph Investigación, por Siri para practicamente calquera tipo de recursos naturais 919 00:48:44,880 --> 00:48:46,490 procesamento de linguaxe que ten. 920 00:48:46,490 --> 00:48:49,140 Entón, cales son os importantes cousas sobre sintaxe? 921 00:48:49,140 --> 00:48:52,390 Así, as sentenzas en xeral, teñen o que chamamos electores. 922 00:48:52,390 --> 00:48:57,080 Cales son os tipo de como grupos de palabras que teñen unha función na frase. 923 00:48:57,080 --> 00:49:02,220 E eles non poden realmente ser afastados uns dos outros. 924 00:49:02,220 --> 00:49:07,380 >> Entón, se eu digo, por exemplo, "Lauren ama Milo. "Sei que" Lauren "é un 925 00:49:07,380 --> 00:49:10,180 constituínte e despois "amores Milo "é tamén outra. 926 00:49:10,180 --> 00:49:16,860 Porque non pode dicir como "Lauren Milo ama "ter o mesmo significado. 927 00:49:16,860 --> 00:49:18,020 Non terá mesmo significado. 928 00:49:18,020 --> 00:49:22,500 Ou eu non podo dicir como "Milo Lauren ama. "Non todo ten o mesmo 929 00:49:22,500 --> 00:49:25,890 significando con iso. 930 00:49:25,890 --> 00:49:31,940 >> Así, as dúas cousas máis importantes sobre sintaxe son os tipos lexicais que se 931 00:49:31,940 --> 00:49:35,390 basicamente a función que teño palabras por si mesmos. 932 00:49:35,390 --> 00:49:39,180 Entón tes que saber que "Lauren" e "Milo" son substantivos. 933 00:49:39,180 --> 00:49:41,040 "Love" é un verbo. 934 00:49:41,040 --> 00:49:45,660 E a segunda cousa importante é que son tipo frasais. 935 00:49:45,660 --> 00:49:48,990 Entón vostede sabe que "ama Milo" é, en realidade, unha frase verbal. 936 00:49:48,990 --> 00:49:52,390 Entón, cando digo "Lauren," Sei que Lauren está facendo algo. 937 00:49:52,390 --> 00:49:53,620 O que está facendo? 938 00:49:53,620 --> 00:49:54,570 Ela está amando Milo. 939 00:49:54,570 --> 00:49:56,440 Entón é unha cousa toda. 940 00:49:56,440 --> 00:50:01,640 Pero os seus compoñentes son substantivo e un verbo. 941 00:50:01,640 --> 00:50:04,210 Pero xuntos, eles fan unha frase verbal. 942 00:50:04,210 --> 00:50:08,680 >> Entón, o que podemos realmente facer lingüística computacional? 943 00:50:08,680 --> 00:50:13,810 Entón, se eu tivera algo, por exemplo, "Amigos de Allison". Vexo si 944 00:50:13,810 --> 00:50:17,440 unha árbore sintáctica gustaríame saber que "Amigos" é unha frase que é un substantivo 945 00:50:17,440 --> 00:50:21,480 substantivo e despois "de Allison" é un locución prepositiva en que "de" é 946 00:50:21,480 --> 00:50:24,810 unha proposición e "Allison" é un substantivo. 947 00:50:24,810 --> 00:50:30,910 O que eu podería facer é ensinar o meu ordenador que cando eu teño un sintagma nominal e un 948 00:50:30,910 --> 00:50:33,080 logo unha frase preposicional. 949 00:50:33,080 --> 00:50:39,020 Entón, neste caso, "amigos" e logo "de Milo "Sei que isto significa que 950 00:50:39,020 --> 00:50:43,110 NP2, a segunda, posúe NP1. 951 00:50:43,110 --> 00:50:47,680 >> Para que eu poida crear algún tipo de relación, algún tipo de función para el. 952 00:50:47,680 --> 00:50:52,370 Así, cada vez que vexo esta estrutura, que corresponde exactamente con "amigos de 953 00:50:52,370 --> 00:50:56,030 Allison, "Sei que Allison ten os amigos. 954 00:50:56,030 --> 00:50:58,830 Así, os amigos son algo que ten Allison. 955 00:50:58,830 --> 00:50:59,610 Ten sentido? 956 00:50:59,610 --> 00:51:01,770 Entón, iso é basicamente o que Gráfico Busca fai. 957 00:51:01,770 --> 00:51:04,360 Só crea regras para unha morea de cousas. 958 00:51:04,360 --> 00:51:08,190 Así, "amigos de Allison", "meus amigos que viven en Cambridge "," meus amigos 959 00:51:08,190 --> 00:51:12,970 que van a Harvard. "El crea regras para todas esas cousas. 960 00:51:12,970 --> 00:51:14,930 >> Agora tradución automática. 961 00:51:14,930 --> 00:51:18,850 Así, a tradución automática tamén é algo estatística. 962 00:51:18,850 --> 00:51:21,340 E, de feito, se se involucrar en lingüística computacional, unha morea de 963 00:51:21,340 --> 00:51:23,580 o seu material será estatísticas. 964 00:51:23,580 --> 00:51:26,670 Entón, como eu estaba facendo o exemplo con unha morea de probabilidades de que eu era 965 00:51:26,670 --> 00:51:30,540 cálculo, e entón comeza a este número moi pequeno que é o final 966 00:51:30,540 --> 00:51:33,180 probabilidade, e iso é o que dálle a resposta. 967 00:51:33,180 --> 00:51:37,540 A tradución automática tamén usa un modelo estatístico. 968 00:51:37,540 --> 00:51:44,790 E se queres pensar en máquina tradución no máis sinxelo posible 969 00:51:44,790 --> 00:51:48,970 forma, o que pode pensar é só traducir palabra por palabra, non? 970 00:51:48,970 --> 00:51:52,150 >> Cando está a aprender un idioma para o primeira vez, que xeralmente é o que 971 00:51:52,150 --> 00:51:52,910 fai, non? 972 00:51:52,910 --> 00:51:57,050 Se quere, traducir unha frase na súa lingua a linguaxe 973 00:51:57,050 --> 00:52:00,060 está a aprender, xeralmente en primeiro lugar, ten converter cada unha das palabras 974 00:52:00,060 --> 00:52:03,180 individualmente, e logo tentar para poñer as palabras no seu lugar. 975 00:52:03,180 --> 00:52:07,100 >> Entón, se eu quería traducir este, [PORTUGUÉS LINGUA] 976 00:52:07,100 --> 00:52:10,430 que significa "o gato branco fuxiu." Se eu quixese traducir-lo desde 977 00:52:10,430 --> 00:52:13,650 Portugués a inglés, o que eu podería facer é, en primeiro lugar, eu só 978 00:52:13,650 --> 00:52:14,800 traducir palabra por palabra. 979 00:52:14,800 --> 00:52:20,570 Así, "o" é "a", "gato", "gato", "Branco", "branco", e entón "Fugio" é 980 00:52:20,570 --> 00:52:21,650 "Fuxiu". 981 00:52:21,650 --> 00:52:26,130 >> Entón eu teño todas as palabras aquí, pero eles non están en orde. 982 00:52:26,130 --> 00:52:29,590 É como "o gato branco fuxiu" que é gramatical. 983 00:52:29,590 --> 00:52:34,490 Así, entón eu podo ter un segundo paso, que será atopar o ideal 984 00:52:34,490 --> 00:52:36,610 posición para cada unha das palabras. 985 00:52:36,610 --> 00:52:40,240 Entón eu sei que eu realmente quero ter "Gato branco" no canto de "gato branco". Así 986 00:52:40,240 --> 00:52:46,050 o que podo facer é, o método máis inxenuo sería a creación de toda a 987 00:52:46,050 --> 00:52:49,720 permutacións posibles de palabras, de posicións. 988 00:52:49,720 --> 00:52:53,300 E entón ver cal deles ten o maior probabilidade de acordo 989 00:52:53,300 --> 00:52:54,970 para o meu modelo de linguaxe. 990 00:52:54,970 --> 00:52:58,390 E entón, cando eu atopar o que ten a máis alta probabilidade de que, o que é 991 00:52:58,390 --> 00:53:01,910 probablemente "o gato branco fuxiu" esa é a miña tradución. 992 00:53:01,910 --> 00:53:06,710 >> E esta é unha maneira sinxela de explicar como unha morea de tradución automática 993 00:53:06,710 --> 00:53:07,910 algoritmos funcionan. 994 00:53:07,910 --> 00:53:08,920 Será que isto ten sentido? 995 00:53:08,920 --> 00:53:12,735 Isto tamén é algo realmente emocionante que vostedes poden explotar se cadra por un 996 00:53:12,735 --> 00:53:13,901 proxecto final, non? 997 00:53:13,901 --> 00:53:15,549 >> ALUMNO: Ben, vostede dixo que era a forma inxenua, entón cal é 998 00:53:15,549 --> 00:53:17,200 a forma non inxenua? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: O xeito non inxenua? 1000 00:53:18,400 --> 00:53:19,050 Aceptar. 1001 00:53:19,050 --> 00:53:22,860 Entón o primeiro que é malo sobre deste método é que eu só traducido 1002 00:53:22,860 --> 00:53:24,330 palabras, palabra por palabra. 1003 00:53:24,330 --> 00:53:30,570 Pero ás veces ten palabras que pode ter varias traducións. 1004 00:53:30,570 --> 00:53:32,210 Vou tentar pensar de algo. 1005 00:53:32,210 --> 00:53:37,270 Por exemplo, "manga" en lata Portugués quere ser "mangle" ou "manga". Así 1006 00:53:37,270 --> 00:53:40,450 cando estás a traducir palabra por palabra, pódese dar-lle 1007 00:53:40,450 --> 00:53:42,050 algo que non ten sentido. 1008 00:53:42,050 --> 00:53:45,770 >> Entón, o que realmente quere que ollar para todos as posibles traducións da 1009 00:53:45,770 --> 00:53:49,840 palabras e ver, en primeiro lugar, cal é a orde. 1010 00:53:49,840 --> 00:53:52,000 Estabamos falando sobre permutando as cousas? 1011 00:53:52,000 --> 00:53:54,150 Para ver todas as ordes posibles e escoller aquel co maior 1012 00:53:54,150 --> 00:53:54,990 probabilidade? 1013 00:53:54,990 --> 00:53:57,860 Tamén podes escoller todo o posible traducións para cada 1014 00:53:57,860 --> 00:54:00,510 palabra e, a continuación, ver - 1015 00:54:00,510 --> 00:54:01,950 combinados coas permutacións - 1016 00:54:01,950 --> 00:54:03,710 cal deles ten a maior probabilidade. 1017 00:54:03,710 --> 00:54:08,590 >> Ademais, tamén se pode ver non só palabras, senón frases. 1018 00:54:08,590 --> 00:54:11,700 para que poida analizar as relacións entre as palabras e, a continuación, obter un 1019 00:54:11,700 --> 00:54:13,210 mellor tradución. 1020 00:54:13,210 --> 00:54:16,690 Tamén outra cousa, de xeito que este semestre En realidade, estou facendo unha investigación en 1021 00:54:16,690 --> 00:54:19,430 Chinés-Inglés tradución automática, así traducindo 1022 00:54:19,430 --> 00:54:20,940 Chinés para o inglés. 1023 00:54:20,940 --> 00:54:26,760 >> E unha cousa que facemos é, ademais de utilizar un modelo estatístico, que é só 1024 00:54:26,760 --> 00:54:30,570 vendo as probabilidades de ver postura nunha frase, eu son 1025 00:54:30,570 --> 00:54:35,360 de feito tamén engadir un pouco de sintaxe ao meu modelo, dicindo: Oh, se eu ver este tipo 1026 00:54:35,360 --> 00:54:39,420 de construción, que é o que quero mudalo para cando traducir. 1027 00:54:39,420 --> 00:54:43,880 Así, tamén se pode engadir algún tipo de elemento de sintaxis para facer o 1028 00:54:43,880 --> 00:54:47,970 tradución máis eficiente e máis preciso. 1029 00:54:47,970 --> 00:54:48,550 Aceptar. 1030 00:54:48,550 --> 00:54:51,010 >> Entón, como pode comezar, se quere de facer algo en computacional 1031 00:54:51,010 --> 00:54:51,980 lingüística? 1032 00:54:51,980 --> 00:54:54,560 >> En primeiro lugar, escolle un proxecto que implica idiomas. 1033 00:54:54,560 --> 00:54:56,310 Así, non hai tantos por aí. 1034 00:54:56,310 --> 00:54:58,420 Hai tantas cousas que podes facer. 1035 00:54:58,420 --> 00:55:00,510 E despois podemos pensar nun modelo que pode usar. 1036 00:55:00,510 --> 00:55:04,710 Normalmente, isto significa que o pensamento de suposicións, como, como, oh, cando eu era 1037 00:55:04,710 --> 00:55:05,770 como o pensamento das letras. 1038 00:55:05,770 --> 00:55:09,510 Eu era como, ben, se quero descubrir un que escribiu iso, eu probablemente quere 1039 00:55:09,510 --> 00:55:15,400 mirar para as palabras da persoa e usa ver quen usa esa palabra con moita frecuencia. 1040 00:55:15,400 --> 00:55:18,470 Polo tanto, probe facer suposicións e tente pensar en modelos. 1041 00:55:18,470 --> 00:55:21,395 E entón tamén pode buscar en liña para o tipo de problema que ten, 1042 00:55:21,395 --> 00:55:24,260 e só pode suxerir para vós modelos que quizais 1043 00:55:24,260 --> 00:55:26,560 modelado esa cousa tamén. 1044 00:55:26,560 --> 00:55:29,080 >> E tamén pode sempre enviar correo-e me. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 E eu só podo responder as súas preguntas. 1047 00:55:34,940 --> 00:55:38,600 Podemos incluso pode atoparse para que eu poida dar suxerencias sobre as formas de 1048 00:55:38,600 --> 00:55:41,490 implementación do seu proxecto. 1049 00:55:41,490 --> 00:55:45,610 E quero dicir, se se involucrar co lingüística computacional, que vai 1050 00:55:45,610 --> 00:55:46,790 para ser grande. 1051 00:55:46,790 --> 00:55:48,370 Vai ver que moito potencial. 1052 00:55:48,370 --> 00:55:52,060 E a industria quere contratar vostede é tan malo por causa diso. 1053 00:55:52,060 --> 00:55:54,720 Entón, eu espero que vós guste. 1054 00:55:54,720 --> 00:55:57,030 Se vós ten algunha dúbida, que me pode preguntar despois. 1055 00:55:57,030 --> 00:55:58,280 Pero grazas. 1056 00:55:58,280 --> 00:56:00,150