1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Hey. 3 00:00:08,870 --> 00:00:09,980 Benvinguts tots. 4 00:00:09,980 --> 00:00:11,216 El meu nom és Lluc Freitas. 5 00:00:11,216 --> 00:00:15,220 Sóc un júnior a [inaudible] d'estudiar ciències de la computació amb un enfocament en 6 00:00:15,220 --> 00:00:16,410 lingüística computacional. 7 00:00:16,410 --> 00:00:19,310 Així que el meu secundària és en el llenguatge i la teoria lingüística. 8 00:00:19,310 --> 00:00:21,870 Estic molt emocionat d'ensenyar a nois una mica sobre el camp. 9 00:00:21,870 --> 00:00:24,300 És una zona molt interessant per estudiar. 10 00:00:24,300 --> 00:00:27,260 També amb molt potencial per al futur. 11 00:00:27,260 --> 00:00:30,160 Per tant, estic molt emocionada que vostès estan considerant projectes en 12 00:00:30,160 --> 00:00:31,160 lingüística computacional. 13 00:00:31,160 --> 00:00:35,460 I jo estaré més que feliç per assessorar algun de vostès si decideix 14 00:00:35,460 --> 00:00:37,090 perseguir un d'aquests. 15 00:00:37,090 --> 00:00:40,010 >> Així que en primer lloc quins són computacional la lingüística? 16 00:00:40,010 --> 00:00:44,630 Així que la lingüística computacional és el intersecció entre la lingüística i la 17 00:00:44,630 --> 00:00:46,390 ciències de la computació. 18 00:00:46,390 --> 00:00:47,415 Llavors, què és la lingüística? 19 00:00:47,415 --> 00:00:48,490 Què és la informàtica? 20 00:00:48,490 --> 00:00:51,580 Doncs des de la lingüística, la qual cosa prenem són els idiomes. 21 00:00:51,580 --> 00:00:54,960 Així que la lingüística és en realitat l'estudi del llenguatge natural en general. 22 00:00:54,960 --> 00:00:58,330 Així que el llenguatge natural - es parla de llenguatge que realment fem servir per 23 00:00:58,330 --> 00:00:59,770 comunicar-se entre si. 24 00:00:59,770 --> 00:01:02,200 Així que no estem parlant exactament sobre C o Java. 25 00:01:02,200 --> 00:01:05,900 Estem parlant més sobre Anglès i Xinès i altres idiomes que 26 00:01:05,900 --> 00:01:07,780 utilitzar per comunicar-se entre si. 27 00:01:07,780 --> 00:01:12,470 >> El difícil d'això és que en aquest moment tenim gairebé 7.000 28 00:01:12,470 --> 00:01:14,260 idiomes en el món. 29 00:01:14,260 --> 00:01:19,520 Així que hi ha una molt alta diversitat d'idiomes que podem estudiar. 30 00:01:19,520 --> 00:01:22,600 I llavors vostè pensa que és probable que sigui molt difícil de fer, per exemple, 31 00:01:22,600 --> 00:01:26,960 traducció d'una llengua a l' altra, tenint en compte que vostè té 32 00:01:26,960 --> 00:01:28,240 gairebé 7.000 d'ells. 33 00:01:28,240 --> 00:01:31,450 Per tant, si vostè pensa de fer la traducció d'una llengua a l'altra que 34 00:01:31,450 --> 00:01:35,840 tenen gairebé més d'un milió diferents combinacions que pugui 35 00:01:35,840 --> 00:01:37,330 tenir d'un idioma a un altre. 36 00:01:37,330 --> 00:01:40,820 Així que és realment difícil de fer alguns tipus de sistema d'exemple de traducció per 37 00:01:40,820 --> 00:01:43,540 tots els idiomes. 38 00:01:43,540 --> 00:01:47,120 >> Per tant, la lingüística tracta amb la sintaxi, la semàntica, la pragmàtica. 39 00:01:47,120 --> 00:01:49,550 Vostès no necessiten exactament saber el que és. 40 00:01:49,550 --> 00:01:55,090 Però l'interessant és que com un parlant nadiu, quan s'aprèn 41 00:01:55,090 --> 00:01:59,010 llenguatge com a nen, en realitat s'aprèn totes aquestes coses - la semàntica de sintaxi 42 00:01:59,010 --> 00:02:00,500 i la pragmàtica - 43 00:02:00,500 --> 00:02:01,430 per si mateix. 44 00:02:01,430 --> 00:02:04,820 I ningú ha d'ensenyar sintaxi per a entendre com les oracions són 45 00:02:04,820 --> 00:02:05,290 estructurat. 46 00:02:05,290 --> 00:02:07,980 Així que és molt interessant perquè que és una cosa que ve molt 47 00:02:07,980 --> 00:02:10,389 intuïtivament. 48 00:02:10,389 --> 00:02:13,190 >> I el que portes de la ciència de la computació? 49 00:02:13,190 --> 00:02:16,700 Bé, la cosa més important que tenir en ciències de la computació és davant 50 00:02:16,700 --> 00:02:19,340 tot, la intel · ligència artificial i l'aprenentatge automàtic. 51 00:02:19,340 --> 00:02:22,610 Per tant, el que estem tractant de fer la lingüística computacional és ensenyar 52 00:02:22,610 --> 00:02:26,990 seu equip com fer alguna cosa amb el llenguatge. 53 00:02:26,990 --> 00:02:28,630 >> Així, per exemple, en la màquina traducció. 54 00:02:28,630 --> 00:02:32,490 Estic tractant d'ensenyar al meu equip com saber com fer la transició d'un 55 00:02:32,490 --> 00:02:33,310 idioma a un altre. 56 00:02:33,310 --> 00:02:35,790 Així que, com bàsicament l'ensenyament 01:00 informàtics dos idiomes. 57 00:02:35,790 --> 00:02:38,870 Si faig el processament del llenguatge natural, que és el cas per exemple de 58 00:02:38,870 --> 00:02:41,810 De Facebook Graph motor, ensenyar seu equip la manera d'entendre 59 00:02:41,810 --> 00:02:42,730 consultes així. 60 00:02:42,730 --> 00:02:48,130 >> Per tant, si vostè diu "les fotos del meu amics. "Facebook no tracta que 61 00:02:48,130 --> 00:02:51,130 com tota una cadena que té només un munt de paraules. 62 00:02:51,130 --> 00:02:56,020 En realitat, entén la relació entre les "fotos" i "els meus amics" i 63 00:02:56,020 --> 00:02:59,620 entén que les "fotos" són propietat de "els meus amics". 64 00:02:59,620 --> 00:03:02,350 >> Llavors, això és part de, per exemple, processament del llenguatge natural. 65 00:03:02,350 --> 00:03:04,790 Està tractant d'entendre el que és la relació entre 66 00:03:04,790 --> 00:03:07,520 les paraules en una oració. 67 00:03:07,520 --> 00:03:11,170 I la gran pregunta és, pot ensenyar a un ordinador com parlar 68 00:03:11,170 --> 00:03:12,650 un llenguatge en general? 69 00:03:12,650 --> 00:03:17,810 El que és una pregunta molt interessant pensar, com si potser en el futur, 70 00:03:17,810 --> 00:03:19,930 vostè serà capaç de parli amb el seu telèfon mòbil. 71 00:03:19,930 --> 00:03:23,290 Una cosa així com el que fem amb Siri, però una mica més semblant, en realitat es pot 72 00:03:23,290 --> 00:03:25,690 dir el que vulguis i el telèfon va a entendre tot. 73 00:03:25,690 --> 00:03:28,350 I pot tenir preguntes de seguiment i seguir parlant. 74 00:03:28,350 --> 00:03:30,880 Això és una cosa molt emocionant, al meu entendre. 75 00:03:30,880 --> 00:03:33,070 >> Per tant, una mica de les llengües naturals. 76 00:03:33,070 --> 00:03:36,220 Una cosa realment interessant d' llenguatges naturals és que, i això és 77 00:03:36,220 --> 00:03:38,470 crèdit al meu professor de lingüística, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Ella dóna un exemple i crec que és realment interessant. 79 00:03:40,830 --> 00:03:47,060 Perquè aprenem el llenguatge de quan naixem i després el nostre natiu 80 00:03:47,060 --> 00:03:49,170 tipus de llenguatge creix en nosaltres. 81 00:03:49,170 --> 00:03:52,570 >> I, bàsicament, a aprendre l'idioma de participació mínima, no? 82 00:03:52,570 --> 00:03:56,700 Vostè és només l'aportació de la seva els pares del que sona el seu idioma 83 00:03:56,700 --> 00:03:58,770 agrada i que acaba d'aprendre. 84 00:03:58,770 --> 00:04:02,240 Així, és interessant perquè si ens fixem en aquestes frases, per exemple. 85 00:04:02,240 --> 00:04:06,980 Mires: "Maria es posa una capa de cada vegada que surt de la casa ". 86 00:04:06,980 --> 00:04:10,650 >> En aquest cas, és possible tenir la paraula "ella" es refereixen a Maria, no? 87 00:04:10,650 --> 00:04:13,500 Vostè pot dir "Maria es posa una capa de cada vegada que Maria deixa la 88 00:04:13,500 --> 00:04:14,960 casa. ", pel que està bé. 89 00:04:14,960 --> 00:04:19,370 Però si ens fixem en la sentència "Ella es posa una capa cada vegada que Maria 90 00:04:19,370 --> 00:04:22,850 surt de la casa. "saps que és impossible dir que "ella" és 91 00:04:22,850 --> 00:04:24,260 referint-se a Maria. 92 00:04:24,260 --> 00:04:27,070 >> No hi ha manera de dir que "Maria posa en una capa cada vegada que Maria deixa 93 00:04:27,070 --> 00:04:30,790 la casa ". Així que és interessant perquè aquest és el tipus de la intuïció 94 00:04:30,790 --> 00:04:32,890 que cada parlant nadiu té. 95 00:04:32,890 --> 00:04:36,370 I a ningú se li va ensenyar que això és la forma en què funciona la sintaxi. 96 00:04:36,370 --> 00:04:41,930 I això només es pot tenir aquest "ella" referint-se a Maria en aquest primer cas, 97 00:04:41,930 --> 00:04:44,260 i en realitat en aquesta altra també, però no en aquest. 98 00:04:44,260 --> 00:04:46,500 Però tothom es posa tipus de a la mateixa resposta. 99 00:04:46,500 --> 00:04:48,580 Tots estan d'acord en això. 100 00:04:48,580 --> 00:04:53,280 Així que és realment interessant com tot vostè no sap totes les regles 101 00:04:53,280 --> 00:04:55,575 en el seu idioma quin tipus d'entendre com funciona l'idioma. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Així que l'interessant de naturals llenguatge és que vostè no ha de 104 00:05:01,530 --> 00:05:06,970 conèixer qualsevol sintaxi per saber si una sentència és gramatical o gramatical per 105 00:05:06,970 --> 00:05:08,810 la majoria dels casos. 106 00:05:08,810 --> 00:05:13,220 Què et fa pensar que potser el que que passa és que a través de la seva vida, 107 00:05:13,220 --> 00:05:17,410 es tornen cada vegada més i més frases van dir a vostè. 108 00:05:17,410 --> 00:05:19,800 I després segueixes memorització totes les sentències. 109 00:05:19,800 --> 00:05:24,230 I després, quan algú et diu alguna cosa, s'escolta aquesta frase i 110 00:05:24,230 --> 00:05:27,040 ens fixem en el seu vocabulari de les sentències i veure si 111 00:05:27,040 --> 00:05:28,270 aquesta frase hi és. 112 00:05:28,270 --> 00:05:29,830 I si és que cal diuen que és gramatical. 113 00:05:29,830 --> 00:05:31,740 Si no és vostè diu que és ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Així que, en aquest cas, vostè diria, oh, el que té una enorme llista de tots els 115 00:05:35,150 --> 00:05:36,140 possibles condemnes. 116 00:05:36,140 --> 00:05:38,240 I després, quan s'escolta una oració, vostè sap si és gramatical o 117 00:05:38,240 --> 00:05:39,450 no es basa en això. 118 00:05:39,450 --> 00:05:42,360 La cosa és que si ens fixem en una frase, per exemple, "El 119 00:05:42,360 --> 00:05:47,540 cinc caps CS50 TFS cuinat els cecs pop utilitzant una tassa DAPA. "És 120 00:05:47,540 --> 00:05:49,630 definitivament no és una sentència de que has escoltat abans. 121 00:05:49,630 --> 00:05:52,380 Però al mateix temps, vostè sap que és gairebé gramatical, oi? 122 00:05:52,380 --> 00:05:55,570 No hi ha errors gramaticals i es pot dir que 123 00:05:55,570 --> 00:05:57,020 és una possible sentència. 124 00:05:57,020 --> 00:06:01,300 >> Pel que ens fa pensar que en realitat l' manera com aprenem el llenguatge no és només 125 00:06:01,300 --> 00:06:07,090 per tenir una gran base de dades de possibles paraules o frases, però més de 126 00:06:07,090 --> 00:06:11,490 la comprensió de la relació entre paraules en aquestes frases. 127 00:06:11,490 --> 00:06:14,570 Això té sentit? 128 00:06:14,570 --> 00:06:19,370 Així, doncs, la pregunta és, pot ordinadors aprenen idiomes? 129 00:06:19,370 --> 00:06:21,490 Podem ensenyar el llenguatge de les computadores? 130 00:06:21,490 --> 00:06:24,230 >> Per tant, anem a pensar en la diferència entre un parlant nadiu de la llengua 131 00:06:24,230 --> 00:06:25,460 i un ordinador. 132 00:06:25,460 --> 00:06:27,340 Així que, què passa amb l'altaveu? 133 00:06:27,340 --> 00:06:30,430 Doncs bé, el parlant nadiu aprèn una el llenguatge de l'exposició a la mateixa. 134 00:06:30,430 --> 00:06:34,200 Normalment els seus primers anys d'infància. 135 00:06:34,200 --> 00:06:38,570 Així que, bàsicament, que acaba de tenir un nadó, i segueixes parlant amb ella, i 136 00:06:38,570 --> 00:06:40,540 només aprèn a parlar el llenguatge, no? 137 00:06:40,540 --> 00:06:42,660 Així que, bàsicament estàs donant d'entrada per al nadó. 138 00:06:42,660 --> 00:06:45,200 Així que, a continuació, es pot argumentar que un ordinador pot fer el mateix, oi? 139 00:06:45,200 --> 00:06:49,510 Vostè només pot donar idioma com a entrada per a l'ordinador. 140 00:06:49,510 --> 00:06:53,410 >> Com per exemple, un munt d'arxius que tenen els llibres en anglès. 141 00:06:53,410 --> 00:06:56,190 Potser aquesta és una manera que vostè possiblement podria ensenyar una 142 00:06:56,190 --> 00:06:57,850 ordinador Anglès, oi? 143 00:06:57,850 --> 00:07:01,000 I de fet, si es pensa en això, que et porta potser un parell 144 00:07:01,000 --> 00:07:02,680 dia per llegir un llibre. 145 00:07:02,680 --> 00:07:05,760 Per a un equip que es necessita un segon per veure totes les paraules en un llibre. 146 00:07:05,760 --> 00:07:10,810 Així que vostè pot pensar que pot tractar-se d'aquesta argument d'entrada del teu voltant, 147 00:07:10,810 --> 00:07:15,440 això no és suficient per dir que això és cosa que només els éssers humans poden fer. 148 00:07:15,440 --> 00:07:17,680 Vostè pot pensar en els ordinadors També pot obtenir l'entrada. 149 00:07:17,680 --> 00:07:21,170 >> La segona cosa és que els parlants nadius també tenen un cervell que té 150 00:07:21,170 --> 00:07:23,870 capacitat d'aprenentatge d'idiomes. 151 00:07:23,870 --> 00:07:27,020 Però si es pensa en això, un cervell és una cosa sòlida. 152 00:07:27,020 --> 00:07:30,450 Quan neixes, ja està establert - 153 00:07:30,450 --> 00:07:31,320 aquesta és la teva cervell. 154 00:07:31,320 --> 00:07:34,660 I a mesura que creixen, que acaba d'obtenir més entrada de la llengua i potser els nutrients 155 00:07:34,660 --> 00:07:35,960 i altres coses. 156 00:07:35,960 --> 00:07:38,170 Però més o menys el seu cervell és una cosa sòlida. 157 00:07:38,170 --> 00:07:41,290 >> Així que vostè pot dir, bé, potser vostè pot construir un equip que té un munt de 158 00:07:41,290 --> 00:07:45,890 funcions i mètodes que només imiten capacitat d'aprenentatge d'idiomes. 159 00:07:45,890 --> 00:07:49,630 Així que en aquest sentit, es podria dir, bé, pot tenir un equip que té tot el 160 00:07:49,630 --> 00:07:52,270 coses que he d'aprendre el llenguatge. 161 00:07:52,270 --> 00:07:56,200 I l'últim és que un nadiu parlant aprèn d'assaig i error. 162 00:07:56,200 --> 00:08:01,090 Així que, bàsicament, una altra cosa important en l'aprenentatge d'idiomes és quin tipus 163 00:08:01,090 --> 00:08:05,340 d'aprendre coses per fer generalitzacions del que se sent. 164 00:08:05,340 --> 00:08:10,280 >> Així com estàs creixent aprens que algunes paraules són més semblants als substantius, 165 00:08:10,280 --> 00:08:11,820 alguns altres són adjectius. 166 00:08:11,820 --> 00:08:14,250 I vostè no ha de tenir cap coneixement de la lingüística 167 00:08:14,250 --> 00:08:15,040 entendre això. 168 00:08:15,040 --> 00:08:18,560 Però vostè acaba de saber que hi ha algunes paraules estan col · locats en una part de la 169 00:08:18,560 --> 00:08:22,570 frase i alguns altres en una altra parts de l'oració. 170 00:08:22,570 --> 00:08:26,110 >> I que quan fas una cosa que és com una sentència que no és correcta - 171 00:08:26,110 --> 00:08:28,770 potser a causa d'una generalització sobre per exemple. 172 00:08:28,770 --> 00:08:32,210 Potser quan estàs creixent, t'adones que el plural és generalment 173 00:08:32,210 --> 00:08:35,809 format per posar en S al final de la paraula. 174 00:08:35,809 --> 00:08:40,042 I a continuació, intenta fer el plural "Cérvol" com "cérvols" o "dent" com 175 00:08:40,042 --> 00:08:44,780 "Tooths". Així que els teus pares o algú et corregeix i diu, no, el 176 00:08:44,780 --> 00:08:49,020 plural de "deer" és "cérvol", i el plural de "dent" és "dents". I després 177 00:08:49,020 --> 00:08:50,060 a aprendre aquestes coses. 178 00:08:50,060 --> 00:08:51,520 Així s'aprèn de prova i error. 179 00:08:51,520 --> 00:08:53,100 >> Però també es pot fer això amb un ordinador. 180 00:08:53,100 --> 00:08:55,310 Vostè pot tenir alguna cosa que es diu aprenentatge per reforç. 181 00:08:55,310 --> 00:08:58,560 La qual cosa és, bàsicament, com donar un equip una recompensa cada vegada que ho fa 182 00:08:58,560 --> 00:08:59,410 alguna cosa correctament. 183 00:08:59,410 --> 00:09:04,710 I donant-li el contrari d'una recompensa i quan fa alguna cosa malament. 184 00:09:04,710 --> 00:09:07,410 En realitat es pot veure que si vas el traductor de Google i s'intenta 185 00:09:07,410 --> 00:09:10,220 traduir una frase, li demana la seva opinió. 186 00:09:10,220 --> 00:09:13,240 Així que si vostè diu, oh, hi ha una millor traducció d'aquesta frase. 187 00:09:13,240 --> 00:09:18,140 Vostè pot escriure i després, si una gran quantitat de la gent segueix dient que és una millor 188 00:09:18,140 --> 00:09:21,560 traducció, només s'assabenta que ella que ha d'usar la traducció en lloc de 189 00:09:21,560 --> 00:09:22,960 el que estava donant. 190 00:09:22,960 --> 00:09:28,830 >> Així que, és una pregunta molt filosòfica per veure si els ordinadors seran 191 00:09:28,830 --> 00:09:30,340 capaç de parlar o no en el futur. 192 00:09:30,340 --> 00:09:34,440 Però tinc grans esperances que puguin només sobre la base d'aquests arguments. 193 00:09:34,440 --> 00:09:38,570 Però és només més d'un filosòfic qüestió. 194 00:09:38,570 --> 00:09:43,460 >> Així, mentre que els ordinadors encara no poden parlar, quines són les coses que podem fer? 195 00:09:43,460 --> 00:09:47,070 Algunes coses molt interessants són classificació de dades. 196 00:09:47,070 --> 00:09:53,210 Així, per exemple, que vostès saben que els serveis de correu electrònic fan, per 197 00:09:53,210 --> 00:09:55,580 exemple, el filtratge de correu brossa. 198 00:09:55,580 --> 00:09:59,070 Així que quan vostè rep spam, es tracta de filtrar a una altra caixa. 199 00:09:59,070 --> 00:10:00,270 Llavors, com ho fa? 200 00:10:00,270 --> 00:10:06,080 No és que l'ordinador només sap adreces de correu electrònic que envien spam. 201 00:10:06,080 --> 00:10:09,130 Així que està més basat en el contingut de el missatge, o potser el títol, o 202 00:10:09,130 --> 00:10:11,310 potser algun patró que vostè té. 203 00:10:11,310 --> 00:10:15,690 >> Així que, bàsicament, el que pots fer és aconseguir un gran quantitat de dades de missatges de correu electrònic que són spam, 204 00:10:15,690 --> 00:10:19,980 correus electrònics que no són spam i aprenen el tipus de patrons que té al 205 00:10:19,980 --> 00:10:21,000 els que són SPAM. 206 00:10:21,000 --> 00:10:23,260 I això és part del càlcul la lingüística. 207 00:10:23,260 --> 00:10:24,720 Es diu la classificació de dades. 208 00:10:24,720 --> 00:10:28,100 I de fet anem a veure un exemple que en les pròximes diapositives. 209 00:10:28,100 --> 00:10:32,910 >> La segona cosa és el llenguatge natural processament, que és el que el 210 00:10:32,910 --> 00:10:36,580 Gràfic Search està fent de deixar s'escriu una frase. 211 00:10:36,580 --> 00:10:38,690 I confia que entén el és el significat i dóna 212 00:10:38,690 --> 00:10:39,940 Ets un resultat millor. 213 00:10:39,940 --> 00:10:43,880 En realitat, si vostè va a Google o Bing i buscar alguna cosa com Lady 214 00:10:43,880 --> 00:10:47,060 Alçada de Gaga, en realitat està passant per obtenir 5 '1 "en lloc de la informació 215 00:10:47,060 --> 00:10:50,170 d'ella, ja que en realitat entén el que estàs parlant. 216 00:10:50,170 --> 00:10:52,140 Així que això és part dels recursos naturals el processament del llenguatge. 217 00:10:52,140 --> 00:10:57,000 >> O també quan s'utilitza Siri, primer vostè té un algoritme que intenta 218 00:10:57,000 --> 00:11:01,130 traduir el que dius en paraules, en el text. 219 00:11:01,130 --> 00:11:03,690 I llavors s'intenta traduir que en significat. 220 00:11:03,690 --> 00:11:06,570 Així que això és part dels recursos naturals el processament del llenguatge. 221 00:11:06,570 --> 00:11:08,320 >> Llavors vostè té la traducció automàtica - 222 00:11:08,320 --> 00:11:10,300 que és en realitat una dels meus favorits - 223 00:11:10,300 --> 00:11:14,060 que s'acaba de traduir del una llengua a l'altra. 224 00:11:14,060 --> 00:11:17,950 Així que vostè pot pensar que quan vostè està fent traducció automàtica, vostè té 225 00:11:17,950 --> 00:11:19,750 infinites possibilitats de sentències. 226 00:11:19,750 --> 00:11:22,960 Així que no hi ha manera de simplement emmagatzemar cada traducció individual. 227 00:11:22,960 --> 00:11:27,440 Així que has de pujar amb interessant algoritmes per poder 228 00:11:27,440 --> 00:11:30,110 traduir cada frase d'alguna manera. 229 00:11:30,110 --> 00:11:32,483 >> Vostès tenen alguna pregunta fins ara? 230 00:11:32,483 --> 00:11:34,450 No? 231 00:11:34,450 --> 00:11:34,830 D'acord. 232 00:11:34,830 --> 00:11:36,900 >> Així que el que anem a veure avui? 233 00:11:36,900 --> 00:11:39,300 En primer lloc, vaig a parlar de el problema de classificació. 234 00:11:39,300 --> 00:11:41,440 Així que el que jo estava dient d'spam. 235 00:11:41,440 --> 00:11:46,820 El que faré és, lletres donades una cançó, es pot tractar d'esbrinar 236 00:11:46,820 --> 00:11:49,810 amb alta probabilitat qui és el cantant? 237 00:11:49,810 --> 00:11:53,590 Anem a dir que no tinc cançons de Lady Gaga i Katy Perry, si et dono un 238 00:11:53,590 --> 00:11:58,130 nova cançó, pots esbrinar si és Katy Perry o Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> La segona, que només parlaré sobre el problema de la segmentació. 240 00:12:01,490 --> 00:12:05,780 Així que no sé si vostès ho saben, però Xinès, japonès, un altre d'Àsia Oriental 241 00:12:05,780 --> 00:12:08,090 idiomes i altres llengües en general, no tenen 242 00:12:08,090 --> 00:12:09,830 espais entre les paraules. 243 00:12:09,830 --> 00:12:13,540 I després, si es pensa en la forma en què seva amable equip d'intents per 244 00:12:13,540 --> 00:12:18,600 entendre el processament del llenguatge natural, es veu en les paraules i 245 00:12:18,600 --> 00:12:21,500 tracta de comprendre les relacions entre ells, oi? 246 00:12:21,500 --> 00:12:25,440 Però llavors, si vostè té el xinès, i vostè té zero espais, és molt difícil 247 00:12:25,440 --> 00:12:28,360 esbrinar quina és la relació entre És a dir, pel fet que no tenen cap 248 00:12:28,360 --> 00:12:29,530 paraules a primera. 249 00:12:29,530 --> 00:12:32,600 Així que has de fer alguna cosa que es diu segmentació que només significa posar 250 00:12:32,600 --> 00:12:36,490 espais entre el que nosaltres anomenaríem paraules en aquests idiomes. 251 00:12:36,490 --> 00:12:37,740 Té sentit? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> I després anem a parlar de la sintaxi. 254 00:12:41,540 --> 00:12:44,050 Així que una mica sobre física el processament del llenguatge. 255 00:12:44,050 --> 00:12:45,420 Serà només un resum. 256 00:12:45,420 --> 00:12:50,700 Així que avui, bàsicament el que vull fer és donar-li nois una mica d'un 257 00:12:50,700 --> 00:12:53,930 dins del que són les possibilitats que vostè pot fer amb computacional 258 00:12:53,930 --> 00:12:54,960 la lingüística. 259 00:12:54,960 --> 00:13:00,410 I llavors vostè pot veure el que vostè pensa és fresc entre les coses. 260 00:13:00,410 --> 00:13:02,270 I potser vostè pot pensar en un projecte i vine a parlar amb mi. 261 00:13:02,270 --> 00:13:05,260 I jo et puc donar consells sobre la manera de posar-la en pràctica. 262 00:13:05,260 --> 00:13:09,060 >> Així sintaxi serà una mica Gràfic sobre Recerca i màquina 263 00:13:09,060 --> 00:13:09,670 traducció. 264 00:13:09,670 --> 00:13:13,650 Només donaré un exemple de com vostè podria, per exemple, traduir 265 00:13:13,650 --> 00:13:16,020 una mica de Portuguès a Anglès. 266 00:13:16,020 --> 00:13:17,830 Sona bé? 267 00:13:17,830 --> 00:13:19,293 >> Així que en primer lloc, el problema de classificació. 268 00:13:19,293 --> 00:13:23,590 Vaig a dir que aquesta part del seminari serà la més difícil 269 00:13:23,590 --> 00:13:27,560 un simplement perquè no va a ser una mica de codi. 270 00:13:27,560 --> 00:13:29,470 Però serà Python. 271 00:13:29,470 --> 00:13:34,380 Sé que vostès no saben Python, per la qual cosa Jo només vaig a explicar en l'alt 272 00:13:34,380 --> 00:13:35,750 nivell o el que estic fent. 273 00:13:35,750 --> 00:13:40,900 I vostè no ha de preocupar realment massa molt sobre la sintaxi, perquè això és 274 00:13:40,900 --> 00:13:42,140 cosa que vostès poden aprendre. 275 00:13:42,140 --> 00:13:42,540 ¿D'acord? 276 00:13:42,540 --> 00:13:43,580 Sona bé. 277 00:13:43,580 --> 00:13:46,020 >> Llavors, quin és el problema de classificació? 278 00:13:46,020 --> 00:13:49,140 Així que et donen algunes lletres per una cançó i vol endevinar 279 00:13:49,140 --> 00:13:50,620 que cantava. 280 00:13:50,620 --> 00:13:54,045 I això pot ser de qualsevol tipus d'altres problemes. 281 00:13:54,045 --> 00:13:59,980 Així que pot ser, per exemple, té una campanya presidencial i té un 282 00:13:59,980 --> 00:14:02,610 la parla i la que voleu cercar si ho va ser, per exemple, 283 00:14:02,610 --> 00:14:04,470 Obama o Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 O vostè pot tenir un munt de correus electrònics i vol esbrinar si són 285 00:14:07,700 --> 00:14:08,890 spam o no. 286 00:14:08,890 --> 00:14:11,440 Així que és només una mica de la classificació les dades basats en les paraules 287 00:14:11,440 --> 00:14:13,790 que vostè té allà. 288 00:14:13,790 --> 00:14:16,295 >> Així que per fer això, vostè ha de fer algunes suposicions. 289 00:14:16,295 --> 00:14:20,570 Així que molt de la lingüística computacional està fent suposicions, 290 00:14:20,570 --> 00:14:24,100 supòsits generalment intel · ligents, de manera que vostè pot aconseguir bons resultats. 291 00:14:24,100 --> 00:14:26,670 Tractar de crear un model per a ell. 292 00:14:26,670 --> 00:14:31,290 I després provar-ho i veure si funciona, si et dóna una bona precisió. 293 00:14:31,290 --> 00:14:33,940 I si ho fa, llavors vostè tractar de millorar-lo. 294 00:14:33,940 --> 00:14:37,640 Si no és així, ets com, OK, potser ha de fer una suposició diferent. 295 00:14:37,640 --> 00:14:44,030 >> Així que la suposició que anem a fer és que un artista canta generalment 296 00:14:44,030 --> 00:14:49,220 sobre un tema en múltiples ocasions, i potser utilitza paraules múltiples vegades només 297 00:14:49,220 --> 00:14:50,270 perquè estan acostumats a això. 298 00:14:50,270 --> 00:14:51,890 Vostè només pot pensar en el seu amic. 299 00:14:51,890 --> 00:14:57,350 Estic segur que vostès tots tenen amics que diuen que la seva frase de la firma, 300 00:14:57,350 --> 00:14:59,260 literalment cada frase - 301 00:14:59,260 --> 00:15:02,660 com una paraula específica o alguns específics frase que se sol dir de 302 00:15:02,660 --> 00:15:04,020 cada frase. 303 00:15:04,020 --> 00:15:07,920 >> I què es pot dir és que si vostè veu una frase que té una signatura 304 00:15:07,920 --> 00:15:11,450 frase, es pot endevinar que probablement el teu amic és el 305 00:15:11,450 --> 00:15:13,310 que ho diu, no? 306 00:15:13,310 --> 00:15:18,410 Així que vostè fa aquesta suposició i després així és com es crea un model. 307 00:15:18,410 --> 00:15:24,440 >> L'exemple que donaré és el com Lady Gaga, per exemple, les persones 308 00:15:24,440 --> 00:15:27,430 diu que ella usa "nadó" de totes les seves cançons nombre un. 309 00:15:27,430 --> 00:15:32,270 I en realitat es tracta d'un vídeo que mostra ella dient la paraula "nadó" de 310 00:15:32,270 --> 00:15:33,410 diferents cançons. 311 00:15:33,410 --> 00:15:33,860 >> [REPRODUCCIÓ DE VÍDEO] 312 00:15:33,860 --> 00:15:34,310 >> - (CANT) Bebè. 313 00:15:34,310 --> 00:15:36,220 Nadó. 314 00:15:36,220 --> 00:15:37,086 Nadó. 315 00:15:37,086 --> 00:15:37,520 Nadó. 316 00:15:37,520 --> 00:15:37,770 Nadó. 317 00:15:37,770 --> 00:15:38,822 Nena. 318 00:15:38,822 --> 00:15:39,243 Nadó. 319 00:15:39,243 --> 00:15:40,085 Nadó. 320 00:15:40,085 --> 00:15:40,510 Nadó. 321 00:15:40,510 --> 00:15:40,850 Nadó. 322 00:15:40,850 --> 00:15:41,090 >> [FI REPRODUCCIÓ DE VÍDEO- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Així que hi ha, crec, 40 cançons aquí al que diu la 324 00:15:44,020 --> 00:15:48,690 paraula "nadó". Així que bàsicament es pot endevinar que si veus una cançó que té 325 00:15:48,690 --> 00:15:52,180 la paraula "nadó", que hi ha alguns d'alta probabilitat que es tracta de Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Però anem a tractar de desenvolupar aquest encara de manera més formal. 327 00:15:56,450 --> 00:16:00,470 >> Així que aquestes són les lletres de les cançons de Lady Gaga i Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Així que ens fixem en Lady Gaga, que es veu que tenen un munt d'aparicions de "nadó", un 329 00:16:04,120 --> 00:16:07,710 gran quantitat d'aparicions de "camí". I després Katy Perry té una gran quantitat d'aparicions de 330 00:16:07,710 --> 00:16:10,360 "El", un munt d'aparicions de "foc". 331 00:16:10,360 --> 00:16:14,560 >> Així que bàsicament el que volem fer és, s'obté una lletra. 332 00:16:14,560 --> 00:16:20,480 Diguem que vostè rep una lletra per a una cançó que és "bebè," només "nadó". Si 333 00:16:20,480 --> 00:16:24,750 que acaba d'obtenir la paraula "nadó", i això és que totes les dades que tingui amb 334 00:16:24,750 --> 00:16:27,880 Lady Gaga i Katy Perry, que faria Pots endevinar és la persona 335 00:16:27,880 --> 00:16:29,370 qui canta la cançó? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga o Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, oi? 338 00:16:33,150 --> 00:16:37,400 Perquè ella és l'única que diu "Nadó". Això sona estúpid, oi? 339 00:16:37,400 --> 00:16:38,760 OK, això és molt fàcil. 340 00:16:38,760 --> 00:16:41,860 Només estic mirant les dues cançons i d' Per descomptat, ella és l'única persona que té 341 00:16:41,860 --> 00:16:42,660 "Nadó". 342 00:16:42,660 --> 00:16:44,740 >> Però el que si vostè té un munt de paraules? 343 00:16:44,740 --> 00:16:50,900 Si vostè té una lírica actual, cosa com, "nadó, només 344 00:16:50,900 --> 00:16:51,610 va anar a veure [? CFT?] 345 00:16:51,610 --> 00:16:54,020 conferència ", o alguna cosa així, i llavors vostè realment ha d'esbrinar - 346 00:16:54,020 --> 00:16:55,780 sobre la base de totes aquestes paraules - 347 00:16:55,780 --> 00:16:58,350 qui és l'artista que probablement cantar aquesta cançó? 348 00:16:58,350 --> 00:17:01,860 Així que anem a tractar de desenvolupar això una mica més. 349 00:17:01,860 --> 00:17:05,630 >> OK, així que basat només en les dades que ens aconseguit, sembla que Gaga és probablement 350 00:17:05,630 --> 00:17:06,260 la cantant. 351 00:17:06,260 --> 00:17:07,904 Però, com podem escriure de manera més formal? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 I serà una mica poc d'estadístiques. 354 00:17:13,140 --> 00:17:15,880 Així que si et perds, simplement intenta per entendre el concepte. 355 00:17:15,880 --> 00:17:18,700 No importa si vostè entén les equacions perfectament bé. 356 00:17:18,700 --> 00:17:22,150 Tot això estarà en línia. 357 00:17:22,150 --> 00:17:25,490 >> Així que bàsicament el que estic calculant és el probabilitat que aquesta cançó és per 358 00:17:25,490 --> 00:17:28,040 Lady Gaga ja que - 359 00:17:28,040 --> 00:17:30,660 de manera que aquest bar significa ja que - 360 00:17:30,660 --> 00:17:33,680 Vaig veure la paraula "nadó". Això té sentit? 361 00:17:33,680 --> 00:17:35,540 Així que estic tractant de calcular aquesta probabilitat. 362 00:17:35,540 --> 00:17:38,540 >> Així que hi ha aquest teorema anomenat el El teorema de Bayes que diu que el 363 00:17:38,540 --> 00:17:43,330 probabilitat d'A donat B, és la probabilitat de B donat A, vegades el 364 00:17:43,330 --> 00:17:47,660 probabilitat de A, sobre la probabilitat de B. Aquesta és una equació llarga. 365 00:17:47,660 --> 00:17:51,970 Però, què cal entendre per és a dir que això és el que vull 366 00:17:51,970 --> 00:17:52,830 calcular, oi? 367 00:17:52,830 --> 00:17:56,570 Per tant la probabilitat que aquesta cançó és per Lady Gaga ja que vaig veure la paraula 368 00:17:56,570 --> 00:17:58,230 "Nadó". 369 00:17:58,230 --> 00:18:02,960 >> I ara el que vull arribar és el probabilitat que la paraula "nadó", donat 370 00:18:02,960 --> 00:18:04,390 que tinc Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 I què és això bàsicament? 372 00:18:07,220 --> 00:18:10,500 El que això significa és, quina és la probabilitat de veure la paraula "nadó" 373 00:18:10,500 --> 00:18:12,130 en Gaga lletres? 374 00:18:12,130 --> 00:18:16,240 Si vull calcular que en un temps molt manera simple, és sols un nombre de 375 00:18:16,240 --> 00:18:23,640 vegades veig "nadó" sobre el total de les paraules en lletres Gaga, oi? 376 00:18:23,640 --> 00:18:27,600 Quina és la freqüència que veig aquesta paraula en el treball de Gaga? 377 00:18:27,600 --> 00:18:30,530 Té sentit? 378 00:18:30,530 --> 00:18:33,420 >> El segon terme és la probabilitat de Gaga. 379 00:18:33,420 --> 00:18:34,360 Què significa això? 380 00:18:34,360 --> 00:18:38,550 Això significa, bàsicament, el que és la probabilitat de classificar 381 00:18:38,550 --> 00:18:40,690 algunes lletres com Gaga? 382 00:18:40,690 --> 00:18:45,320 I això és una mica estrany, però pensem en un exemple. 383 00:18:45,320 --> 00:18:49,230 Així que diguem que la probabilitat tenir "nadó" en una cançó és la mateixa 384 00:18:49,230 --> 00:18:51,760 per Gaga i Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Però Britney Spears té dues vegades més cançons que Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Així que si algú et dóna just a l'atzar lletra de "nadó", el primer que 387 00:19:00,570 --> 00:19:04,710 miri, és a dir, quina és la probabilitat de tenir "nadó" en una cançó Gaga, "nadó" 388 00:19:04,710 --> 00:19:05,410 en una cançó de Britney? 389 00:19:05,410 --> 00:19:06,460 I és la mateixa cosa. 390 00:19:06,460 --> 00:19:10,040 >> Així que la segona cosa que vostè veurà és, així, quina és la probabilitat de 391 00:19:10,040 --> 00:19:13,770 aquesta lletra per si mateixa ser una lletra Gaga, i quina és la probabilitat de 392 00:19:13,770 --> 00:19:15,380 sent una lletra Britney? 393 00:19:15,380 --> 00:19:18,950 Així que des que Britney té moltes més lletres que Gaga, vostè probablement 394 00:19:18,950 --> 00:19:21,470 diguem, bé, això és probablement una lletra Britney. 395 00:19:21,470 --> 00:19:23,340 Així que és per això que tenim aquesta cridar aquí. 396 00:19:23,340 --> 00:19:24,670 Probabilitat de Gaga. 397 00:19:24,670 --> 00:19:26,950 Té sentit? 398 00:19:26,950 --> 00:19:28,660 Ho fa? 399 00:19:28,660 --> 00:19:29,370 D'acord. 400 00:19:29,370 --> 00:19:33,500 >> I l'últim és la probabilitat de "nadó", que no 401 00:19:33,500 --> 00:19:34,810 Realment importa tant. 402 00:19:34,810 --> 00:19:39,940 Però és la probabilitat veure "nadó" en anglès. 403 00:19:39,940 --> 00:19:42,725 En general, no ens importa que molt d'aquest terme. 404 00:19:42,725 --> 00:19:44,490 Això té sentit? 405 00:19:44,490 --> 00:19:48,110 Per tant la probabilitat de Gaga és anomenat la probabilitat prèvia 406 00:19:48,110 --> 00:19:49,530 de la Gaga classe. 407 00:19:49,530 --> 00:19:53,840 Com que només vol dir que, el que és el probabilitat de tenir aquesta classe - 408 00:19:53,840 --> 00:19:55,520 que és Gaga - 409 00:19:55,520 --> 00:19:59,350 només en general, només sense condicions. 410 00:19:59,350 --> 00:20:02,560 >> I després quan tinc probabilitat Gaga donat "nadó", en diem més 411 00:20:02,560 --> 00:20:06,160 Teary una probabilitat perquè és la probabilitat de tenir 412 00:20:06,160 --> 00:20:08,300 Gaga dóna algunes proves. 413 00:20:08,300 --> 00:20:11,050 Així que et vaig a donar l'evidència que vaig veure la paraula nadó i 414 00:20:11,050 --> 00:20:12,690 la cançó té sentit? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 D'acord. 417 00:20:16,410 --> 00:20:22,400 >> Així que si he calculat que per cada de les cançons de Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 el que seria - 419 00:20:25,916 --> 00:20:27,730 pel que sembla, no em puc moure això. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 La probabilitat de Gaga serà alguna cosa així com: 2 sobre 24, multiplicada per 1/2, 422 00:20:36,920 --> 00:20:38,260 més de 2 sobre 53. 423 00:20:38,260 --> 00:20:40,640 No importa si vostè sap el que aquests números estan venint. 424 00:20:40,640 --> 00:20:44,750 Però és només un nombre que es va per ser més que 0, no? 425 00:20:44,750 --> 00:20:48,610 >> I després quan ho faig Katy Perry, la probabilitat de "nadó" donada Katy és 426 00:20:48,610 --> 00:20:49,830 ia 0, no? 427 00:20:49,830 --> 00:20:52,820 Com que no hi ha un "bebè" en Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Llavors això es converteix en 0, i Gaga victòries, el que significa que Gaga és 429 00:20:56,360 --> 00:20:57,310 probablement el cantant. 430 00:20:57,310 --> 00:20:58,560 Això té sentit? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 D'acord. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Així que si vull fer això més oficial, De fet, em puc fer un model 435 00:21:11,750 --> 00:21:12,700 de diverses paraules. 436 00:21:12,700 --> 00:21:14,610 Així que anem a dir que tinc alguna cosa com, "nena, jo sóc 437 00:21:14,610 --> 00:21:16,030 en flames ", o alguna cosa així. 438 00:21:16,030 --> 00:21:17,760 Pel que té diverses paraules. 439 00:21:17,760 --> 00:21:20,880 I en aquest cas, es pot veure que "nadó" està en Gaga, 440 00:21:20,880 --> 00:21:21,710 però no és en Katy. 441 00:21:21,710 --> 00:21:24,940 I "foc" es troba en Katy, però no està en Gaga, oi? 442 00:21:24,940 --> 00:21:27,200 Així que cada vegada és més complicat, no? 443 00:21:27,200 --> 00:21:31,440 Perquè sembla que gairebé tenir un llaç entre els dos. 444 00:21:31,440 --> 00:21:36,980 >> Així que el que has de fer és assumir independència entre les paraules. 445 00:21:36,980 --> 00:21:41,210 Així que bàsicament el que això significa és que Només estic calculant quin és el 446 00:21:41,210 --> 00:21:44,330 probabilitat de veure "nadó", el que és la probabilitat de veure "jo", i 447 00:21:44,330 --> 00:21:46,670 "Am" i "on" i "foc" tot per separat. 448 00:21:46,670 --> 00:21:48,670 Llavors estic multiplicant tots ells. 449 00:21:48,670 --> 00:21:52,420 I estic veient quina és la probabilitat de veure a tota la frase. 450 00:21:52,420 --> 00:21:55,210 Té sentit? 451 00:21:55,210 --> 00:22:00,270 >> Així que, bàsicament, si tinc una sola paraula, el que jo vull saber és el arg max, 452 00:22:00,270 --> 00:22:05,385 el que significa, el que és la classe que és em dóna la major probabilitat? 453 00:22:05,385 --> 00:22:10,010 Llavors, quina és la classe que està donant me la probabilitat més alta de 454 00:22:10,010 --> 00:22:11,940 probabilitat de classe donada paraula. 455 00:22:11,940 --> 00:22:17,610 Així que en aquest cas, donat Gaga "nadó". O Katy donat "nadó". Té sentit? 456 00:22:17,610 --> 00:22:21,040 >> I només de Bayes, que equació que li vaig mostrar, 457 00:22:21,040 --> 00:22:24,780 creem aquesta fracció. 458 00:22:24,780 --> 00:22:28,750 L'única cosa és que es veu que la probabilitat de la paraula donada la 459 00:22:28,750 --> 00:22:31,370 els canvis de classe en funció a la classe, oi? 460 00:22:31,370 --> 00:22:34,260 El nombre de "baby" es que tinc en Gaga és diferent de Katy. 461 00:22:34,260 --> 00:22:37,640 La probabilitat de la classe també canvis, perquè és sols un nombre 462 00:22:37,640 --> 00:22:39,740 de cançons de cada un d'ells té. 463 00:22:39,740 --> 00:22:43,980 >> Però la probabilitat que la paraula en si serà la mateixa per a tots els 464 00:22:43,980 --> 00:22:44,740 artistes, no? 465 00:22:44,740 --> 00:22:47,150 Per tant la probabilitat de la paraula és simplement, quina és la probabilitat de 466 00:22:47,150 --> 00:22:49,820 veure aquesta paraula en el Anglès? 467 00:22:49,820 --> 00:22:51,420 Així que és el mateix per a tots ells. 468 00:22:51,420 --> 00:22:55,790 Així que ja que això és constant, podem simplement deixar això i no es preocupen per ell. 469 00:22:55,790 --> 00:23:00,230 Així que aquest serà en realitat el equació que estem buscant. 470 00:23:00,230 --> 00:23:03,360 >> I si tinc diverses paraules, estic encara tindrà la prèvia 471 00:23:03,360 --> 00:23:04,610 probabilitat aquí. 472 00:23:04,610 --> 00:23:06,980 L'única cosa és que estic multiplicant la probabilitat de 473 00:23:06,980 --> 00:23:08,490 totes les altres paraules. 474 00:23:08,490 --> 00:23:10,110 Així que estic multiplicant tots ells. 475 00:23:10,110 --> 00:23:12,610 Té sentit? 476 00:23:12,610 --> 00:23:18,440 Sembla estrany, però bàsicament vol dir, calcular el prior de la classe, i 477 00:23:18,440 --> 00:23:22,100 després multiplica per la probabilitat de cada de les paraules que estan en aquesta classe. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> I vostè sap que la probabilitat d'un paraula donada una classe serà la 480 00:23:29,150 --> 00:23:34,520 nombre de vegades que vostè veu aquesta paraula en aquesta classe, dividit pel nombre de 481 00:23:34,520 --> 00:23:37,020 paraules que tenen en aquest de classes en general. 482 00:23:37,020 --> 00:23:37,990 Té sentit? 483 00:23:37,990 --> 00:23:41,680 És només la forma "nadó" va ser de 2 sobre el nombre de paraules que 484 00:23:41,680 --> 00:23:43,020 Tenia en les lletres. 485 00:23:43,020 --> 00:23:45,130 Així que la freqüència. 486 00:23:45,130 --> 00:23:46,260 >> Però hi ha una cosa. 487 00:23:46,260 --> 00:23:51,250 Recorda que m'estava mostrant que la probabilitat de "baby" ser lletres 488 00:23:51,250 --> 00:23:56,350 de Katy Perry de 0 només perquè Katy Perry no tenia "nadó" en absolut? 489 00:23:56,350 --> 00:24:04,900 Però sona una mica dur a poc Simplement diuen que les lletres no poden ser de 490 00:24:04,900 --> 00:24:10,040 un artista només perquè no tenen aquesta paraula en particular en qualsevol moment. 491 00:24:10,040 --> 00:24:13,330 >> Així que vostè podria dir, bé, si vostè no tenen aquesta paraula, vaig a 492 00:24:13,330 --> 00:24:15,640 donar-li una probabilitat més baixa, però estic simplement no va a 493 00:24:15,640 --> 00:24:17,420 donar-li 0 seguida. 494 00:24:17,420 --> 00:24:21,040 Com que potser era una cosa així com: "Foc, foc, foc, foc", que és 495 00:24:21,040 --> 00:24:21,990 totalment Katy Perry. 496 00:24:21,990 --> 00:24:26,060 I després, "nadó", i que només serveix per 0 seguida perquè n'hi havia un 497 00:24:26,060 --> 00:24:27,250 "Nadó". 498 00:24:27,250 --> 00:24:31,440 >> Així que bàsicament el que fem és una cosa anomenada de Laplace de suavitzat. 499 00:24:31,440 --> 00:24:36,260 I això només significa que estic donant certa probabilitat fins i tot a les paraules 500 00:24:36,260 --> 00:24:37,850 que no existeixen. 501 00:24:37,850 --> 00:24:43,170 Així que el que faig és que quan estic el càlcul d'aquest, sempre afegeixo 1 a 502 00:24:43,170 --> 00:24:44,180 el numerador. 503 00:24:44,180 --> 00:24:48,060 Així que encara que no existeix la paraula, en aquest cas, si això és 0, segueixo sent 504 00:24:48,060 --> 00:24:51,250 el càlcul d'aquest com 1 sobre el nombre total de paraules. 505 00:24:51,250 --> 00:24:55,060 En cas contrari, em surt la quantitat de paraules Tinc i agrego 1. 506 00:24:55,060 --> 00:24:58,300 Així que estic explicant en ambdós casos. 507 00:24:58,300 --> 00:25:00,430 Té sentit? 508 00:25:00,430 --> 00:25:03,060 >> Així que ara anem a fer una mica de codi. 509 00:25:03,060 --> 00:25:06,440 Vaig a haver de fer-ho molt ràpid, però és igual d'important que vostè 510 00:25:06,440 --> 00:25:08,600 nois entenen els conceptes. 511 00:25:08,600 --> 00:25:13,450 Així que el que estem tractant de fer és exactament l'aplicació d'aquest 512 00:25:13,450 --> 00:25:14,330 El que acabo de dir - 513 00:25:14,330 --> 00:25:19,110 Vull que posis la lletra de Lady Gaga i Katy Perry. 514 00:25:19,110 --> 00:25:22,980 I el programa serà capaç de dir si aquestes noves lletres són de Gaga 515 00:25:22,980 --> 00:25:24,170 o Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Té sentit? 517 00:25:25,800 --> 00:25:27,530 D'acord. 518 00:25:27,530 --> 00:25:30,710 >> Així que tinc aquest programa que vaig cridar classify.py. 519 00:25:30,710 --> 00:25:31,970 Així que això és Python. 520 00:25:31,970 --> 00:25:34,210 És un nou llenguatge de programació. 521 00:25:34,210 --> 00:25:38,020 És molt similar en alguns aspectes a C i PHP. 522 00:25:38,020 --> 00:25:43,180 És similar, perquè si vols aprendre Python després de conèixer C, és 523 00:25:43,180 --> 00:25:46,270 Realment no és molt d'un desafiament només perquè Python és molt més fàcil 524 00:25:46,270 --> 00:25:47,520 que C, primer de tot. 525 00:25:47,520 --> 00:25:49,370 I un munt de coses que ja estan implementat per a vostè. 526 00:25:49,370 --> 00:25:56,820 Llavors, com ara PHP té funcions que ordenar una llista, o afegir alguna cosa 527 00:25:56,820 --> 00:25:58,780 a una matriu, o bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python té tots aquests també. 529 00:26:00,690 --> 00:26:05,960 >> Així que només vaig a explicar ràpidament com podríem fer la classificació 530 00:26:05,960 --> 00:26:07,860 problema per aquí. 531 00:26:07,860 --> 00:26:13,230 Així que anem a dir que en aquest cas, tinc lletres de Gaga i Katy Perry. 532 00:26:13,230 --> 00:26:21,880 La manera que tinc aquestes lletres és que la primera paraula de la lletra és 533 00:26:21,880 --> 00:26:25,250 el nom de l'artista, i la resta és la lletra. 534 00:26:25,250 --> 00:26:29,470 Així que anem a dir que tinc aquesta llista en dels quals el primer és lletra de Gaga. 535 00:26:29,470 --> 00:26:31,930 Així que aquí estic en el camí correcte. 536 00:26:31,930 --> 00:26:35,270 I el següent és Katy, i sinó que també té la lletra. 537 00:26:35,270 --> 00:26:38,040 >> Així que així és com es declara una variable en Python. 538 00:26:38,040 --> 00:26:40,200 No ha de donar el tipus de dades. 539 00:26:40,200 --> 00:26:43,150 Vostè acaba d'escriure "lletres" Una cosa així com en PHP. 540 00:26:43,150 --> 00:26:44,890 Té sentit? 541 00:26:44,890 --> 00:26:47,770 >> Quines són les coses que he de calcular per ser capaç de calcular la 542 00:26:47,770 --> 00:26:49,360 probabilitats? 543 00:26:49,360 --> 00:26:55,110 He de calcular les "probabilitats a priori" de cada un dels diferents 544 00:26:55,110 --> 00:26:56,710 classes que tinc. 545 00:26:56,710 --> 00:27:06,680 He de calcular els "darrere" o més o menys les probabilitats de 546 00:27:06,680 --> 00:27:12,150 cadascuna de les diferents paraules que Jo puc tenir per a cada artista. 547 00:27:12,150 --> 00:27:17,210 Així que dins de Gaga, per exemple, vaig tenir una llista de les vegades que veig 548 00:27:17,210 --> 00:27:19,250 cadascuna de les paraules. 549 00:27:19,250 --> 00:27:20,760 Té sentit? 550 00:27:20,760 --> 00:27:25,370 >> I, finalment, jo només vaig a tenir un llista anomenada "paraules" que només va 551 00:27:25,370 --> 00:27:29,780 tenir el nombre de paraules que tenir per a cada artista. 552 00:27:29,780 --> 00:27:33,760 Així que per Gaga, per exemple, quan miro a la lletra, jo hi havia, crec, 24 553 00:27:33,760 --> 00:27:34,750 paraules en total. 554 00:27:34,750 --> 00:27:38,970 Així que aquesta llista és només tindrà Gaga 24, i Katy un altre número. 555 00:27:38,970 --> 00:27:40,130 Té sentit? 556 00:27:40,130 --> 00:27:40,560 D'acord. 557 00:27:40,560 --> 00:27:42,530 >> Així que ara, en realitat, anem a anar a la codificació. 558 00:27:42,530 --> 00:27:45,270 Així que en Python, en realitat es pot tornar un munt de diferents 559 00:27:45,270 --> 00:27:46,630 coses d'una funció. 560 00:27:46,630 --> 00:27:50,810 Així que jo vaig a crear aquesta funció anomenada "condicional", que es va 561 00:27:50,810 --> 00:27:53,890 per tornar totes aquestes coses, la "Probabilitats a priori", els "probabilitats", i el 562 00:27:53,890 --> 00:28:05,690 "Paraules". Així que "condicional", i que és posarà en "lletres". 563 00:28:05,690 --> 00:28:11,510 >> Així que ara vull que en realitat escriure aquesta funció. 564 00:28:11,510 --> 00:28:17,750 Així que la forma en què jo puc escriure això funció és que m'acaba de definir aquesta 565 00:28:17,750 --> 00:28:20,620 funcionar amb "def". Així que ho vaig fer "def condicional ", i que està prenent 566 00:28:20,620 --> 00:28:28,700 "Lletres". I el que això farà és, primer de tot, tinc les meves priors 567 00:28:28,700 --> 00:28:31,030 que vull calcular. 568 00:28:31,030 --> 00:28:34,330 >> Així que la forma en què jo puc fer això és crear un diccionari en Python, que 569 00:28:34,330 --> 00:28:37,320 és més o menys el mateix que un hash taula, o que és un procés iteratiu 570 00:28:37,320 --> 00:28:40,480 matriu en PHP. 571 00:28:40,480 --> 00:28:44,150 Així és com em declaro un diccionari. 572 00:28:44,150 --> 00:28:53,580 I bàsicament el que això significa és que priors de Gaga és 0.5, per exemple, si 573 00:28:53,580 --> 00:28:57,200 50% de les lletres són de Gaga, 50% són de Katy. 574 00:28:57,200 --> 00:28:58,450 Té sentit? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Així que he de trobar la manera per calcular els priors. 577 00:29:03,680 --> 00:29:07,120 >> Els propers els que he de fer, també, són les probabilitats i les paraules. 578 00:29:07,120 --> 00:29:17,100 Així que les probabilitats de Gaga és la llista de totes les probabilitats que jo 579 00:29:17,100 --> 00:29:19,160 tenir per a cadascuna de les paraules per Gaga. 580 00:29:19,160 --> 00:29:23,880 Així que si em vaig a les probabilitats de Gaga "Nadó", per exemple, em donarà 581 00:29:23,880 --> 00:29:28,750 una mena 2 sobre 24 en aquest cas. 582 00:29:28,750 --> 00:29:30,070 Té sentit? 583 00:29:30,070 --> 00:29:36,120 Així que em vaig a "probabilitats", aneu a la Cub "Gaga" que té una llista de tots els 584 00:29:36,120 --> 00:29:40,550 les paraules Gaga, llavors em van a "nadó" i veig la probabilitat. 585 00:29:40,550 --> 00:29:45,940 >> I finalment tinc aquest Diccionari "paraules". 586 00:29:45,940 --> 00:29:53,620 Així que aquí, "les probabilitats". I després "Paraules". Així que si ho faig "paraules", "Gaga" 587 00:29:53,620 --> 00:29:58,330 el que va a succeir és que es tracta d' em donarà 24, dient que 588 00:29:58,330 --> 00:30:01,990 tenir 24 paraules en les cançons de Gaga. 589 00:30:01,990 --> 00:30:04,110 Té sentit? 590 00:30:04,110 --> 00:30:07,070 Així que aquí, "paraules" és igual a dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 Bé 592 00:30:07,620 --> 00:30:12,210 >> Així que el que faré és que vaig a iterar sobre cadascuna de les lletres, de manera 593 00:30:12,210 --> 00:30:14,490 cadascuna de les cadenes que Tinc a la llista. 594 00:30:14,490 --> 00:30:18,040 I jo vaig a calcular aquestes coses per a cada un dels candidats. 595 00:30:18,040 --> 00:30:19,950 Té sentit? 596 00:30:19,950 --> 00:30:21,700 Així que he de fer un bucle for. 597 00:30:21,700 --> 00:30:26,300 >> Així que en Python el que puc fer és "per a la línia en lletres. "El mateix que un 598 00:30:26,300 --> 00:30:28,000 "Per a cada" declaració en PHP. 599 00:30:28,000 --> 00:30:33,420 Recordes si va ser PHP vaig poder dir "per cada lletra com 600 00:30:33,420 --> 00:30:35,220 la línia. "Té sentit? 601 00:30:35,220 --> 00:30:38,900 Així que em vaig a portar cadascuna de les línies, en aquest cas, aquesta cadena i la propera 602 00:30:38,900 --> 00:30:44,540 cadena per la qual cosa per a cadascuna de les línies del que estic farem és en primer lloc, vaig a 603 00:30:44,540 --> 00:30:49,150 dividir aquesta línia en una llista de paraules separades per espais. 604 00:30:49,150 --> 00:30:53,730 >> Així que el bo de Python és que vostè podria simplement Google com "Com puc 605 00:30:53,730 --> 00:30:58,220 dividir una cadena en paraules? "I és vaig a dir com fer-ho. 606 00:30:58,220 --> 00:31:04,890 I la manera de fer-ho, és només "la línia = Linea.split () "i és bàsicament 607 00:31:04,890 --> 00:31:08,640 vaig a donar una llista amb cadascuna de les paraules aquí. 608 00:31:08,640 --> 00:31:09,620 Té sentit? 609 00:31:09,620 --> 00:31:15,870 Així que ara que ho vaig fer jo vull saber qui és el cantant de la cançó. 610 00:31:15,870 --> 00:31:20,130 I per fer això he d'aconseguir el primer element de la matriu, no? 611 00:31:20,130 --> 00:31:26,390 Així que només puc dir que "cantant = Línia (0) "Té sentit? 612 00:31:26,390 --> 00:31:32,010 >> I llavors, què he de fer és, en primer lloc tot, vaig a actualitzar el nombre de 613 00:31:32,010 --> 00:31:36,130 paraules que tenen baix "Gaga". així que estic va a calcular el nombre de paraules que 614 00:31:36,130 --> 00:31:38,690 tenir en aquesta llista, oi? 615 00:31:38,690 --> 00:31:41,910 Com que aquest és el nombre de paraules que tinc en la lletra i jo només vaig a 616 00:31:41,910 --> 00:31:44,120 afegir a la matriu "Gaga". 617 00:31:44,120 --> 00:31:47,090 Això té sentit? 618 00:31:47,090 --> 00:31:49,010 No es concentri massa en la sintaxi. 619 00:31:49,010 --> 00:31:50,430 Pensa més en els conceptes. 620 00:31:50,430 --> 00:31:52,400 Aquesta és la part més important. 621 00:31:52,400 --> 00:31:52,720 D'acord. 622 00:31:52,720 --> 00:32:00,260 >> Així que el que puc fer és si "Gaga" és Ja en aquesta llista, de manera que "si el cantant a 623 00:32:00,260 --> 00:32:03,190 paraules "el que significa que ja tenir paraules de Gaga. 624 00:32:03,190 --> 00:32:06,640 Només vull afegir l'addicional paraules a això. 625 00:32:06,640 --> 00:32:15,810 Així que el que faig és "paraules (cantant) + = Len (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 I llavors jo puc fer el longitud de la línia. 627 00:32:18,250 --> 00:32:21,860 Així que el nombre d'elements de R tenir en la matriu. 628 00:32:21,860 --> 00:32:27,060 I he de fer almenys 1 només perquè el primer element de la matriu és només 629 00:32:27,060 --> 00:32:29,180 un cantant i els que no són lletres. 630 00:32:29,180 --> 00:32:31,420 Té sentit? 631 00:32:31,420 --> 00:32:32,780 D'acord. 632 00:32:32,780 --> 00:32:35,820 >> "Si no," que vol dir que vull en realitat inseriu Gaga a la llista. 633 00:32:35,820 --> 00:32:45,990 Així que acabo de fer "les paraules (cantant) = Len (line) - 1, "ho sento. 634 00:32:45,990 --> 00:32:49,200 Així que l'única diferència entre els dos línies és que aquest, no és així 635 00:32:49,200 --> 00:32:51,080 encara existeixo, així que estic inicialitzar. 636 00:32:51,080 --> 00:32:53,820 Aquesta realitat estic agregant. 637 00:32:53,820 --> 00:32:55,570 D'acord. 638 00:32:55,570 --> 00:32:59,480 Així que això se suma a les paraules. 639 00:32:59,480 --> 00:33:03,040 >> Ara vull afegir als priors. 640 00:33:03,040 --> 00:33:05,480 Llavors, com puc calcular els antecedents? 641 00:33:05,480 --> 00:33:11,580 Els priors es poden calcular per la quantitat de vegades. 642 00:33:11,580 --> 00:33:15,340 Llavors, quantes vegades es veu que la cantant entre tots els cantants que li 643 00:33:15,340 --> 00:33:16,380 tenir, no? 644 00:33:16,380 --> 00:33:18,810 Així que per Gaga i Katy Perry, en aquest cas, no veig Gaga 645 00:33:18,810 --> 00:33:20,570 una vegada, Katy Perry una vegada. 646 00:33:20,570 --> 00:33:23,320 >> Així que, bàsicament, els priors de Gaga i per Katy Perry faria 647 00:33:23,320 --> 00:33:24,390 només un, oi? 648 00:33:24,390 --> 00:33:26,500 Només el nombre de vegades Veig l'artista. 649 00:33:26,500 --> 00:33:28,740 Així que això és molt fàcil de calcular. 650 00:33:28,740 --> 00:33:34,100 Puc només alguna cosa similar a com "si cantant en priors, "Jo només vaig 651 00:33:34,100 --> 00:33:38,970 afegir 1 al seu quadre d'antecedents. 652 00:33:38,970 --> 00:33:51,000 Per tant, "priors (cantar)" + = 1 "i després" si no " Jo faré "probabilitats a priori (cantant) 653 00:33:51,000 --> 00:33:55,000 = 1 ". Té sentit? 654 00:33:55,000 --> 00:34:00,080 >> Així que si no hi ha Acabo de posar com 1, en cas contrari Acabo d'afegir 1. 655 00:34:00,080 --> 00:34:11,280 OK, així que ara l'únic que em queda per fer També és afegir cadascuna de les paraules a l' 656 00:34:11,280 --> 00:34:12,290 probabilitats. 657 00:34:12,290 --> 00:34:14,889 Així que he de comptar quantes vegades Veig cadascuna de les paraules. 658 00:34:14,889 --> 00:34:18,780 Així que només he de fer una altra bucle en la línia. 659 00:34:18,780 --> 00:34:25,190 >> Així que el primer que faré és comprovar si el cantant ja té una 660 00:34:25,190 --> 00:34:26,969 probabilitats matriu. 661 00:34:26,969 --> 00:34:31,739 Així que estic comprovant si el cantant no té una matriu de probabilitats, jo només sóc 662 00:34:31,739 --> 00:34:34,480 va a inicialitzar una per a ells. 663 00:34:34,480 --> 00:34:36,400 Ni tan sols és una matriu, ho sento, es tracta d'un diccionari. 664 00:34:36,400 --> 00:34:43,080 Així que les probabilitats que el cantant es va ser un diccionari, així que estic 665 00:34:43,080 --> 00:34:45,830 simplement inicialitzar un diccionari per a això. 666 00:34:45,830 --> 00:34:46,820 ¿D'acord? 667 00:34:46,820 --> 00:34:58,330 >> I ara puc realment fer un bucle per al càlcul de cadascuna de les paraules ' 668 00:34:58,330 --> 00:35:00,604 probabilitats. 669 00:35:00,604 --> 00:35:01,540 D'acord. 670 00:35:01,540 --> 00:35:04,160 Així que el que puc fer és un bucle for. 671 00:35:04,160 --> 00:35:06,590 Així que només vaig a repetir sobre la matriu. 672 00:35:06,590 --> 00:35:15,320 Així que la forma en què jo puc fer això en Python és "for i in range". A partir de l'1 673 00:35:15,320 --> 00:35:19,200 perquè vull començar en el segon element perquè el primer és el 674 00:35:19,200 --> 00:35:20,260 Nom del cantant. 675 00:35:20,260 --> 00:35:24,990 Així que des d'un fins al longitud de la línia. 676 00:35:24,990 --> 00:35:29,760 I quan ho faig rang que realment van des com aquí l'1 al llenguatge del 677 00:35:29,760 --> 00:35:30,740 almenys la línia 1. 678 00:35:30,740 --> 00:35:33,810 Així que ja ho fa aquesta cosa de fer n menys 1 per a les matrius que és molt 679 00:35:33,810 --> 00:35:35,500 convenient. 680 00:35:35,500 --> 00:35:37,850 Té sentit? 681 00:35:37,850 --> 00:35:42,770 >> Així que per a cada un d'ells, el que vaig a fer és, igual que en l'altre, 682 00:35:42,770 --> 00:35:50,320 Vaig a comprovar si la paraula en aquest posició en la línia ja està en 683 00:35:50,320 --> 00:35:51,570 probabilitats. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 I després, com ja he dit aquí, les probabilitats És a dir, com en vaig posar 686 00:35:57,260 --> 00:35:58,400 "Probabilitats (cantant)". 687 00:35:58,400 --> 00:35:59,390 Així que el nom de la cantant. 688 00:35:59,390 --> 00:36:03,450 Així que si ja està en "Probabilit (cantant)", vol dir que 689 00:36:03,450 --> 00:36:11,960 Vull afegir 1 a la mateixa, de manera que vaig a fer "probabilitats (cantant)", i la 690 00:36:11,960 --> 00:36:14,100 paraula es diu "línia (i)". 691 00:36:14,100 --> 00:36:22,630 Vaig a afegir 1 i "si no" jo només sóc va a inicialitzar a 1. 692 00:36:22,630 --> 00:36:23,880 "Línia (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Té sentit? 695 00:36:28,420 --> 00:36:30,180 >> Per tant, vaig calcular tots els arrays. 696 00:36:30,180 --> 00:36:36,580 Així doncs, ara tot el que he de fer per aquest és només "tornar priors, 697 00:36:36,580 --> 00:36:43,230 probabilitats i paraules. "anem a veure si hi ha algun, a D'acord. 698 00:36:43,230 --> 00:36:45,690 Sembla que tot està treballant fins ara. 699 00:36:45,690 --> 00:36:46,900 Per tant, això té sentit? 700 00:36:46,900 --> 00:36:47,750 D'alguna manera? 701 00:36:47,750 --> 00:36:49,280 D'acord. 702 00:36:49,280 --> 00:36:51,980 Així que ara tinc totes les probabilitats. 703 00:36:51,980 --> 00:36:55,100 Així que ara l'únic que em queda és només per tenir aquesta cosa que 704 00:36:55,100 --> 00:36:58,650 calcula el producte de tots els probabilitats quan si les lletres. 705 00:36:58,650 --> 00:37:06,270 >> Així que diguem que jo vull cridar ara aquesta funció "classificar ()" i la 706 00:37:06,270 --> 00:37:08,880 cosa que la funció de presa és només un argument. 707 00:37:08,880 --> 00:37:13,170 Diguem que "Baby, estic en flames" i és va a esbrinar el que és la 708 00:37:13,170 --> 00:37:14,490 probabilitat que aquest és Gaga? 709 00:37:14,490 --> 00:37:16,405 Quina és la probabilitat que aquest és Katie? 710 00:37:16,405 --> 00:37:19,690 Sona bé? 711 00:37:19,690 --> 00:37:25,750 Així que estic haurà de crear un nova funció anomenada "classificar ()" i 712 00:37:25,750 --> 00:37:29,180 que prendrà algun lletres també. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 I a més de les lletres que també ha de trametre els antecedents, la 715 00:37:36,160 --> 00:37:37,700 probabilitats i les paraules. 716 00:37:37,700 --> 00:37:44,000 Així que vaig a enviar lletres, priors, probabilitats, paraules. 717 00:37:44,000 --> 00:37:51,840 >> Així que això està prenent lletres, priors, probabilitats, paraules. 718 00:37:51,840 --> 00:37:53,530 Llavors, què fa? 719 00:37:53,530 --> 00:37:57,180 És, bàsicament, passarà per tot els possibles candidats que es 720 00:37:57,180 --> 00:37:58,510 tenir com a cantant. 721 00:37:58,510 --> 00:37:59,425 I on són els candidats? 722 00:37:59,425 --> 00:38:01,020 Estan en els priors, oi? 723 00:38:01,020 --> 00:38:02,710 Així que he tots els que hi eren. 724 00:38:02,710 --> 00:38:07,870 Així que vaig a tenir un diccionari de tots els possibles candidats. 725 00:38:07,870 --> 00:38:14,220 I a continuació, per a cada candidat a la priors, pel que significa que es va a 726 00:38:14,220 --> 00:38:17,740 ser Gaga, Katie si tingués més seria més. 727 00:38:17,740 --> 00:38:20,410 Vaig a començar a calcular aquesta probabilitat. 728 00:38:20,410 --> 00:38:28,310 La probabilitat com hem vist al PowerPoint és els temps anteriors la 729 00:38:28,310 --> 00:38:30,800 producte de cadascun dels altres probabilitats. 730 00:38:30,800 --> 00:38:32,520 >> Així que jo puc fer el mateix aquí. 731 00:38:32,520 --> 00:38:36,330 Jo només puc fer probabilitat és inicialment només l'anterior. 732 00:38:36,330 --> 00:38:40,340 Així priors del candidat. 733 00:38:40,340 --> 00:38:40,870 Cert? 734 00:38:40,870 --> 00:38:45,360 I ara he de iterar sobre tots els paraules que tinc a les lletres per a ser 735 00:38:45,360 --> 00:38:48,820 capaç d'afegir la probabilitat per a cada un d'ells, d'acord? 736 00:38:48,820 --> 00:38:57,900 Així, "per paraula en lletres" el que vaig de fer és, si la paraula està en 737 00:38:57,900 --> 00:39:01,640 "Probabilitats (candidats)", que significa que és una paraula que el 738 00:39:01,640 --> 00:39:03,640 candidat té en les seves lletres - 739 00:39:03,640 --> 00:39:05,940 per exemple, "nadó" de Gaga - 740 00:39:05,940 --> 00:39:11,710 el que vaig a fer és que el probabilitat serà multiplicat 741 00:39:11,710 --> 00:39:22,420 per 1 més les probabilitats de el candidat a aquesta paraula. 742 00:39:22,420 --> 00:39:25,710 I es diu "paraula". 743 00:39:25,710 --> 00:39:32,440 Aquesta dividit pel nombre de paraules que tinc per aquest candidat. 744 00:39:32,440 --> 00:39:37,450 El nombre total de paraules que tinc per al cantant que estic mirant. 745 00:39:37,450 --> 00:39:40,290 >> "D'una altra manera". significa que és una nova paraula pel que seria com, per exemple, 746 00:39:40,290 --> 00:39:41,860 "Foc" de Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Així que només vull fer més d'1 "Paraula (candidat)". 748 00:39:45,760 --> 00:39:47,710 Així que no vull posar aquest terme aquí. 749 00:39:47,710 --> 00:39:50,010 >> Així que serà, bàsicament, copiar i enganxar aquest. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Però jo vaig a esborrar aquesta part. 752 00:39:56,000 --> 00:39:57,610 Així que és només va a ser 1 més d'això. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Sona bé? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 I ara, al final, jo només vaig a imprimir el nom del candidat i 757 00:40:09,700 --> 00:40:15,750 la probabilitat que vostè té de tenint l'S en les seves lletres. 758 00:40:15,750 --> 00:40:16,200 Té sentit? 759 00:40:16,200 --> 00:40:18,390 I jo realment faig ni tan sols Necessitareu aquest diccionari. 760 00:40:18,390 --> 00:40:19,510 Té sentit? 761 00:40:19,510 --> 00:40:21,810 >> Per tant, anem a veure si això realment funciona. 762 00:40:21,810 --> 00:40:24,880 Així que si executo això, no va funcionar. 763 00:40:24,880 --> 00:40:26,130 Esperi un segon. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Paraules (candidats)", "paraules (candidats)", això és 766 00:40:31,720 --> 00:40:33,750 el nom de la matriu. 767 00:40:33,750 --> 00:40:41,435 Acceptar tant, es diu que hi ha algun error per al candidat en antecedents. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Permetin-me simplement relaxar-se una mica. 770 00:40:48,760 --> 00:40:50,360 D'acord. 771 00:40:50,360 --> 00:40:51,305 Anem a tractar. 772 00:40:51,305 --> 00:40:51,720 D'acord. 773 00:40:51,720 --> 00:40:58,710 >> Així que dóna Katy Perry té aquesta probabilitat que això vegades 10 a la 774 00:40:58,710 --> 00:41:02,200 menys 7, i Gaga té aquest vegades 10 a la menys 6. 775 00:41:02,200 --> 00:41:05,610 Així que ja veus que demostra que Gaga té una probabilitat més alta. 776 00:41:05,610 --> 00:41:09,260 Així que "Amor meu, estic en flames" es probablement una cançó de Gaga. 777 00:41:09,260 --> 00:41:10,580 Té sentit? 778 00:41:10,580 --> 00:41:12,030 Així que això és el que vam fer. 779 00:41:12,030 --> 00:41:16,010 >> Aquest codi serà publicat a Internet, així que vostès poden comprovar-ho. 780 00:41:16,010 --> 00:41:20,720 Potser fer servir una part per si vols fer un projecte o alguna cosa semblant. 781 00:41:20,720 --> 00:41:22,150 D'acord. 782 00:41:22,150 --> 00:41:25,930 Això va ser només per mostrar el computacional 783 00:41:25,930 --> 00:41:27,230 codi de la lingüística s'assembla. 784 00:41:27,230 --> 00:41:33,040 Però ara anirem a més coses d'alt nivell. 785 00:41:33,040 --> 00:41:33,340 D'acord. 786 00:41:33,340 --> 00:41:35,150 >> Així que els altres problemes que estava parlant - 787 00:41:35,150 --> 00:41:37,550 el problema de la segmentació és el primer d'ells. 788 00:41:37,550 --> 00:41:40,820 Així que tens aquí japonès. 789 00:41:40,820 --> 00:41:43,420 I llavors es veu que no hi ha espais. 790 00:41:43,420 --> 00:41:49,110 Així que això és bàsicament significa que és la part superior de la cadira, no? 791 00:41:49,110 --> 00:41:50,550 Parles japonès? 792 00:41:50,550 --> 00:41:52,840 És la part superior de la cadira, no? 793 00:41:52,840 --> 00:41:54,480 >> ESTUDIANT: No sé el que el kanji d'allà és. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: És [parla japonesa] 795 00:41:57,010 --> 00:41:57,950 D'acord. 796 00:41:57,950 --> 00:42:00,960 Així que, bàsicament, significa que la cadira de la part superior. 797 00:42:00,960 --> 00:42:03,620 Així que si hagués de posar un espai seria aquí. 798 00:42:03,620 --> 00:42:05,970 I llavors vostè ha [? Ueda-sant. ?] 799 00:42:05,970 --> 00:42:09,040 El que bàsicament significa senyor Ueda. 800 00:42:09,040 --> 00:42:13,180 I pots veure que "Ueda" i té una espai i després "sant". Així que ja veus que 801 00:42:13,180 --> 00:42:15,470 aquí "Ue" és com per si mateix. 802 00:42:15,470 --> 00:42:17,750 I aquí té un caràcter al costat d'ell. 803 00:42:17,750 --> 00:42:21,720 >> Així que no és com en aquests idiomes personatges que significa una paraula, per la qual cosa 804 00:42:21,720 --> 00:42:23,980 només cal posar un munt d'espais. 805 00:42:23,980 --> 00:42:25,500 Caràcters es relacionen entre si. 806 00:42:25,500 --> 00:42:28,680 I poden estar junts com dos, tres, un. 807 00:42:28,680 --> 00:42:34,520 Així que vostè realment ha de crear algun tipus de manera de posar aquests espais. 808 00:42:34,520 --> 00:42:38,850 >> I això és que cada vegada que rebi dades d'aquests idiomes asiàtics, 809 00:42:38,850 --> 00:42:40,580 tot ve no segmentat. 810 00:42:40,580 --> 00:42:45,940 Perquè ningú que escriu japonès o el xinès s'escriu amb espais. 811 00:42:45,940 --> 00:42:48,200 Cada vegada que vostè està escrivint xinesa, Japonès que acaba d'escriure tot el que 812 00:42:48,200 --> 00:42:48,710 sense espais. 813 00:42:48,710 --> 00:42:52,060 Fins i tot no té sentit posar espais. 814 00:42:52,060 --> 00:42:57,960 Així que quan arribi a les dades d'alguns Idioma Àsia oriental, si vol 815 00:42:57,960 --> 00:43:00,760 realment fer alguna cosa amb això vostè ha de primer segment. 816 00:43:00,760 --> 00:43:05,130 >> Penseu en fer l'exemple de les lletres sense espais. 817 00:43:05,130 --> 00:43:07,950 Així que les úniques lletres que tens serà frases, oi? 818 00:43:07,950 --> 00:43:09,470 Separats per punts. 819 00:43:09,470 --> 00:43:13,930 Però després tenir només la frase no és realment ajudar a donar informació 820 00:43:13,930 --> 00:43:17,760 que aquestes lletres són a. 821 00:43:17,760 --> 00:43:18,120 Cert? 822 00:43:18,120 --> 00:43:20,010 Així que vostè ha primer posa espais. 823 00:43:20,010 --> 00:43:21,990 Llavors, com pot vostè fer això? 824 00:43:21,990 --> 00:43:24,920 >> Llavors ve la idea d'un llenguatge model que és una cosa realment 825 00:43:24,920 --> 00:43:26,870 important per computacional la lingüística. 826 00:43:26,870 --> 00:43:32,790 Pel que un model de llenguatge és bàsicament un taula de probabilitats que els programes de 827 00:43:32,790 --> 00:43:36,260 en primer lloc, quina és la probabilitat de tenir la paraula en un idioma? 828 00:43:36,260 --> 00:43:39,590 Així mostra la freqüència amb una paraula és. 829 00:43:39,590 --> 00:43:43,130 I a continuació també mostra la relació entre les paraules en una oració. 830 00:43:43,130 --> 00:43:51,500 >> Així que la idea principal és que, si es va produir un estrany a tu i va dir una frase per 831 00:43:51,500 --> 00:43:55,600 vostè, quina és la probabilitat que, per exemple, "aquesta és la meva germana [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 va ser la frase que va dir la persona? 833 00:43:57,480 --> 00:44:00,380 Així que, òbviament, algunes frases són més comuns que altres. 834 00:44:00,380 --> 00:44:04,450 Per exemple, "bon dia" o "bones nit "o" Hola, "és molt més 835 00:44:04,450 --> 00:44:08,260 comú que la majoria de les sentències que tenim un anglès. 836 00:44:08,260 --> 00:44:11,060 Per què són aquestes frases amb més freqüència? 837 00:44:11,060 --> 00:44:14,060 >> En primer lloc, és perquè vostè té paraules que són més freqüents. 838 00:44:14,060 --> 00:44:20,180 Així, per exemple, si vostè diu que el gos és gran, i el gos és gegantina, que 839 00:44:20,180 --> 00:44:23,880 en general, probablement sentir el gos és gran més sovint perquè "gran" és més 840 00:44:23,880 --> 00:44:27,260 freqüent en anglès de "gegantí". Així, un dels 841 00:44:27,260 --> 00:44:30,100 coses és la freqüència de la paraula. 842 00:44:30,100 --> 00:44:34,490 >> La segona cosa que és realment important és només el 843 00:44:34,490 --> 00:44:35,490 ordre de les paraules. 844 00:44:35,490 --> 00:44:39,500 Així, és comú dir "el gat està dins de la caixa. "però no solen 845 00:44:39,500 --> 00:44:44,250 veure a "El quadre interior és el gat." així veus que hi ha alguna cosa d'importància 846 00:44:44,250 --> 00:44:46,030 en l'ordre de les paraules. 847 00:44:46,030 --> 00:44:50,160 No es pot simplement dir que aquests dos frases tenen la mateixa probabilitat 848 00:44:50,160 --> 00:44:53,010 només perquè tenen les mateixes paraules. 849 00:44:53,010 --> 00:44:55,550 Segur que ha de tenir cura sobre l'ordre també. 850 00:44:55,550 --> 00:44:57,650 Té sentit? 851 00:44:57,650 --> 00:44:59,490 >> Llavors, què fem? 852 00:44:59,490 --> 00:45:01,550 Així que el que jo podria tractar d'aconseguir que? 853 00:45:01,550 --> 00:45:04,400 Estic tractant d'aconseguir el que trucar als models n-gram. 854 00:45:04,400 --> 00:45:09,095 Així models de n-gram bàsicament assumeixen que per a cada paraula que 855 00:45:09,095 --> 00:45:10,960 que té en una frase. 856 00:45:10,960 --> 00:45:15,020 És la probabilitat d'haver de paraula no depèn no només de la 857 00:45:15,020 --> 00:45:18,395 freqüència d'aquesta paraula en l'idioma, però també en les paraules que 858 00:45:18,395 --> 00:45:19,860 s'envolta. 859 00:45:19,860 --> 00:45:25,810 >> Així, per exemple, generalment quan es veu cosa així com el o pel que ets 860 00:45:25,810 --> 00:45:28,040 probablement va a veure una substantiu després d'ella, oi? 861 00:45:28,040 --> 00:45:31,750 Perquè quan vostè té una preposició en general es necessita un nom després d'ell. 862 00:45:31,750 --> 00:45:35,540 O si vostè té un verb que és transitiva en general, va a 863 00:45:35,540 --> 00:45:36,630 tenir un sintagma nominal. 864 00:45:36,630 --> 00:45:38,780 Per tant, tindrà un nom en algun lloc al voltant d'ella. 865 00:45:38,780 --> 00:45:44,950 >> Així que, bàsicament, el que fa és que considera la probabilitat de tenir 866 00:45:44,950 --> 00:45:47,960 paraules un al costat de l'altre, quan vostè està calculant la 867 00:45:47,960 --> 00:45:49,050 probabilitat d'una condemna. 868 00:45:49,050 --> 00:45:50,960 I això és el que és un idioma model és bàsicament. 869 00:45:50,960 --> 00:45:54,620 Simplement dir quina és la probabilitat d'haver una específica 870 00:45:54,620 --> 00:45:57,120 frase en un idioma? 871 00:45:57,120 --> 00:45:59,110 Així que per què és tan útil, bàsicament? 872 00:45:59,110 --> 00:46:02,390 I en primer lloc el que és un model de n-grames, llavors? 873 00:46:02,390 --> 00:46:08,850 >> Així que significa un model de n-grames que cada paraula depèn de la 874 00:46:08,850 --> 00:46:12,700 següent N almenys 1 paraules. 875 00:46:12,700 --> 00:46:18,150 Així que, bàsicament, vol dir que si miro, Per exemple, en el TF CS50 quan 876 00:46:18,150 --> 00:46:21,500 Estic càlcul de la probabilitat de la sentència, que serà com "la 877 00:46:21,500 --> 00:46:25,280 probabilitat de tenir la paraula "the" vegades la probabilitat de tenir "la 878 00:46:25,280 --> 00:46:31,720 CS50 vegades "la probabilitat de tenir "El TF CS50." Així que, bàsicament, conte 879 00:46:31,720 --> 00:46:35,720 totes les formes possibles de estirar. 880 00:46:35,720 --> 00:46:41,870 >> I després, en general quan vostè està fent això, com en un projecte, es posa N sigui 881 00:46:41,870 --> 00:46:42,600 un valor baix. 882 00:46:42,600 --> 00:46:45,930 Així que, en general tenen bigrames o trigrames. 883 00:46:45,930 --> 00:46:51,090 Així que acaba de comptar dues paraules, una grup de dues paraules o tres paraules, 884 00:46:51,090 --> 00:46:52,620 només pels problemes de rendiment. 885 00:46:52,620 --> 00:46:56,395 I també perquè potser si té alguna cosa així com "La TF CS50." Quan 886 00:46:56,395 --> 00:47:00,510 té "TF", que és molt important que "CS50" està al costat d'ella, oi? 887 00:47:00,510 --> 00:47:04,050 Aquestes dues coses són en general un al costat de l'altre. 888 00:47:04,050 --> 00:47:06,410 >> Si vostè pensa en "TF", que és probablement va a tenir el que 889 00:47:06,410 --> 00:47:07,890 classe està TF'ing per. 890 00:47:07,890 --> 00:47:11,330 També "la" és realment important per TF CS50. 891 00:47:11,330 --> 00:47:14,570 Però si vostè té alguna cosa així com "El CS50 TF va anar a classe i va donar el seu 892 00:47:14,570 --> 00:47:20,060 estudiants una mica de caramel. "" Candy "i" el " no tenir relació de veritat, no? 893 00:47:20,060 --> 00:47:23,670 Són tan distants entre si que en realitat no importa el que 894 00:47:23,670 --> 00:47:25,050 paraules que tenen. 895 00:47:25,050 --> 00:47:31,210 >> Així que fent un bigram o trigrama, es simplement vol dir que vostè està limitant 896 00:47:31,210 --> 00:47:33,430 vostè mateix a algunes paraules que estan al voltant. 897 00:47:33,430 --> 00:47:35,810 Té sentit? 898 00:47:35,810 --> 00:47:40,630 Així que quan vostè vol fer la segmentació, bàsicament, el que vols fer és veure 899 00:47:40,630 --> 00:47:44,850 Quines són totes les formes possibles que vostè pot la frase segment. 900 00:47:44,850 --> 00:47:49,090 >> De tal manera que vostè veu el que és el probabilitat que cadascuna d'aquestes frases 901 00:47:49,090 --> 00:47:50,880 existent en l'idioma? 902 00:47:50,880 --> 00:47:53,410 Així que el que fas és com, bé, anem a jo tracte de posar un espai aquí. 903 00:47:53,410 --> 00:47:55,570 Així es posa un espai no i veus el que és la 904 00:47:55,570 --> 00:47:57,590 probabilitat que la sentència? 905 00:47:57,590 --> 00:48:00,240 Llavors vostè és com, OK, potser que no era tan bo. 906 00:48:00,240 --> 00:48:03,420 Així que vaig posar un espai allà i un espai allà, i es calcula el 907 00:48:03,420 --> 00:48:06,240 probabilitat d'ara, i vostè veurà que que és una probabilitat més alta. 908 00:48:06,240 --> 00:48:12,160 >> Així que aquest és un algoritme anomenat TANGO algorisme de segmentació, que és 909 00:48:12,160 --> 00:48:14,990 en realitat una cosa que seria molt fresc per a un projecte, que 910 00:48:14,990 --> 00:48:20,860 bàsicament pren el text no segmentat que pot ser japonès o xinès o potser 911 00:48:20,860 --> 00:48:26,080 Anglès sense espais i tracta de posar espais entre les paraules i ho fa 912 00:48:26,080 --> 00:48:29,120 que mitjançant l'ús d'un model de llenguatge i tractant de veure quina és la més alta 913 00:48:29,120 --> 00:48:31,270 probabilitat que vostè pot aconseguir. 914 00:48:31,270 --> 00:48:32,230 D'acord. 915 00:48:32,230 --> 00:48:33,800 Així que aquesta és la segmentació. 916 00:48:33,800 --> 00:48:35,450 >> Ara sintaxi. 917 00:48:35,450 --> 00:48:40,940 Per tant, la sintaxi s'utilitza per tantes coses ara mateix. 918 00:48:40,940 --> 00:48:44,880 Així que per al gràfic de recerca, per Siri per gairebé qualsevol tipus de naturals 919 00:48:44,880 --> 00:48:46,490 processament del llenguatge que té. 920 00:48:46,490 --> 00:48:49,140 Llavors, què són els importants coses sobre la sintaxi? 921 00:48:49,140 --> 00:48:52,390 Així, les oracions en general tenen el que anomenem constituents. 922 00:48:52,390 --> 00:48:57,080 Què són alguna cosa així com grups de paraules que tenen una funció en la frase. 923 00:48:57,080 --> 00:49:02,220 I en realitat no poden ser separats uns dels altres. 924 00:49:02,220 --> 00:49:07,380 >> Així que, si jo dic, per exemple, "Lauren estima Milo. "Jo sé que" Lauren "és un 925 00:49:07,380 --> 00:49:10,180 constituent i després "amors Milo "és també un altre. 926 00:49:10,180 --> 00:49:16,860 Perquè no es pot dir com "Lauren Milo estima "tenir el mateix significat. 927 00:49:16,860 --> 00:49:18,020 No tindrà el mateix significat. 928 00:49:18,020 --> 00:49:22,500 O jo no puc dir com "Milo Lauren estima. "No tot té el mateix 929 00:49:22,500 --> 00:49:25,890 que significa fer això. 930 00:49:25,890 --> 00:49:31,940 >> Així que les dues coses més importants sobre sintaxi són els tipus lèxics que és 931 00:49:31,940 --> 00:49:35,390 bàsicament la funció que tenir per a les paraules per si soles. 932 00:49:35,390 --> 00:49:39,180 Així que vostè ha de saber que "Lauren" i "Milo" són substantius. 933 00:49:39,180 --> 00:49:41,040 "Love" és un verb. 934 00:49:41,040 --> 00:49:45,660 I la segona cosa important és que són tipus amb preposició. 935 00:49:45,660 --> 00:49:48,990 Així que ja saps que "estima Milo" és en realitat una frase verbal. 936 00:49:48,990 --> 00:49:52,390 Així que quan dic "Lauren," jo sé que Lauren està fent alguna cosa. 937 00:49:52,390 --> 00:49:53,620 Què fa? 938 00:49:53,620 --> 00:49:54,570 Ella és amant de Milo. 939 00:49:54,570 --> 00:49:56,440 Així que és una cosa totalment. 940 00:49:56,440 --> 00:50:01,640 Però els seus components són un substantiu i un verb. 941 00:50:01,640 --> 00:50:04,210 Però junts, fan una frase verbal. 942 00:50:04,210 --> 00:50:08,680 >> Així que, què podem fer realment amb lingüística computacional? 943 00:50:08,680 --> 00:50:13,810 Així que, si tinc alguna cosa, per exemple, "Amics d'Allison". Veig si em 944 00:50:13,810 --> 00:50:17,440 va realitzar un arbre sintàctic que sabria que "Amics" és un sintagma nominal que és un 945 00:50:17,440 --> 00:50:21,480 substantiu i després "d'Allison" és una sintagma preposicional en què "de" és 946 00:50:21,480 --> 00:50:24,810 una proposta i "Allison" és un substantiu. 947 00:50:24,810 --> 00:50:30,910 El que podria fer és ensenyar al meu equip que quan tinc un sintagma nominal i un 948 00:50:30,910 --> 00:50:33,080 a continuació, una frase preposicional. 949 00:50:33,080 --> 00:50:39,020 Així que en aquest cas, "amics" i després "de Milo "Jo sé que això vol dir que 950 00:50:39,020 --> 00:50:43,110 NP2, la segona, és propietària de NP1. 951 00:50:43,110 --> 00:50:47,680 >> Així que pot crear algun tipus de relació, algun tipus de funció per a això. 952 00:50:47,680 --> 00:50:52,370 Així que cada vegada que veig aquesta estructura, que coincideix exactament amb "amics de 953 00:50:52,370 --> 00:50:56,030 Allison: "Jo sabia que Allison posseeix els amics. 954 00:50:56,030 --> 00:50:58,830 Així que els amics són una mica que Allison té. 955 00:50:58,830 --> 00:50:59,610 Té sentit? 956 00:50:59,610 --> 00:51:01,770 Així que això és bàsicament el que Gràfic Search fa. 957 00:51:01,770 --> 00:51:04,360 Simplement crea regles per a un munt de coses. 958 00:51:04,360 --> 00:51:08,190 Així que els "amics d'Allison", "els meus amics que viuen a Cambridge "," els meus amics 959 00:51:08,190 --> 00:51:12,970 d'anar a Harvard ". Crea regles per totes aquestes coses. 960 00:51:12,970 --> 00:51:14,930 >> Ara la traducció automàtica. 961 00:51:14,930 --> 00:51:18,850 Per tant, la traducció automàtica és també alguna cosa estadística. 962 00:51:18,850 --> 00:51:21,340 I en realitat, si t'involucres en lingüística computacional, una gran quantitat de 963 00:51:21,340 --> 00:51:23,580 les teves coses serà estadístiques. 964 00:51:23,580 --> 00:51:26,670 Així com jo estava fent l'exemple amb moltes probabilitats que jo era 965 00:51:26,670 --> 00:51:30,540 càlcul, i després arribar a aquest nombre molt petit que és la final 966 00:51:30,540 --> 00:51:33,180 probabilitat, i això és el li dóna la resposta. 967 00:51:33,180 --> 00:51:37,540 La traducció automàtica utilitza també un model estadístic. 968 00:51:37,540 --> 00:51:44,790 I si vostè vol pensar en la màquina traducció en el més simple possible 969 00:51:44,790 --> 00:51:48,970 Així, el que es pot pensar és només traduir paraula per paraula, oi? 970 00:51:48,970 --> 00:51:52,150 >> Quan vostè està aprenent un idioma per al primera vegada, que és en general el 971 00:51:52,150 --> 00:51:52,910 ho fa, no? 972 00:51:52,910 --> 00:51:57,050 Per traduir una oració en el seu idioma per a la llengua 973 00:51:57,050 --> 00:52:00,060 vostè està aprenent, en general primer, traduirà cadascuna de les paraules 974 00:52:00,060 --> 00:52:03,180 individualment, a continuació, intenta posar les paraules al seu lloc. 975 00:52:03,180 --> 00:52:07,100 >> Així que si jo volia traduir això, [Parla Portuguesa] 976 00:52:07,100 --> 00:52:10,430 que significa "el gat blanc es va escapar." Si volgués traduir del 977 00:52:10,430 --> 00:52:13,650 Portuguès a Anglès, el que podríem fer és, primer, que acabo de 978 00:52:13,650 --> 00:52:14,800 traduir paraula per paraula. 979 00:52:14,800 --> 00:52:20,570 Així que "o" és "el", "gat", "gat" "Branco", "blanc", i després "refugi" és 980 00:52:20,570 --> 00:52:21,650 "Es va escapar". 981 00:52:21,650 --> 00:52:26,130 >> Així que tinc totes les paraules aquí, però no estan en ordre. 982 00:52:26,130 --> 00:52:29,590 És com "el gat blanc es va escapar" que és gramaticalment incorrecta. 983 00:52:29,590 --> 00:52:34,490 Així, llavors puc tenir un segon pas, que es trobarà l'ideal 984 00:52:34,490 --> 00:52:36,610 posició per a cadascuna de les paraules. 985 00:52:36,610 --> 00:52:40,240 Així que sé que realment vull tenir "Gat blanc" en lloc de "gat blanc". Així 986 00:52:40,240 --> 00:52:46,050 el que puc fer és, el mètode més ingènua seria la creació de tot el 987 00:52:46,050 --> 00:52:49,720 permutacions possibles d' paraules, de posicions. 988 00:52:49,720 --> 00:52:53,300 I després veure quin té el probabilitat més alta d'acord 989 00:52:53,300 --> 00:52:54,970 al meu model de llenguatge. 990 00:52:54,970 --> 00:52:58,390 I després, quan em trobo amb el qual té la probabilitat més alta, la qual cosa és 991 00:52:58,390 --> 00:53:01,910 probablement "la gata blanca es va escapar" aquest és el meu traducció. 992 00:53:01,910 --> 00:53:06,710 >> I aquesta és una manera senzilla d'explicar com una gran quantitat de la traducció automàtica 993 00:53:06,710 --> 00:53:07,910 algoritmes funcionen. 994 00:53:07,910 --> 00:53:08,920 Això té sentit? 995 00:53:08,920 --> 00:53:12,735 Això també és una cosa realment emocionant que vostès potser pot explorar una 996 00:53:12,735 --> 00:53:13,901 projecte final, no? 997 00:53:13,901 --> 00:53:15,549 >> Estudiant: Bé, vostè va dir que era la manera ingènua, quin és 998 00:53:15,549 --> 00:53:17,200 la forma no ingenu? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: La forma no ingenu? 1000 00:53:18,400 --> 00:53:19,050 D'acord. 1001 00:53:19,050 --> 00:53:22,860 Així que la primera cosa que és dolent sobre aquest mètode és que jo només vaig traduir 1002 00:53:22,860 --> 00:53:24,330 paraules, paraula per paraula. 1003 00:53:24,330 --> 00:53:30,570 Però de vegades hi ha paraules que pot tenir diverses traduccions. 1004 00:53:30,570 --> 00:53:32,210 Vaig a tractar de pensar d'alguna cosa. 1005 00:53:32,210 --> 00:53:37,270 Per exemple, "manga" en llauna Portuguès o bé ser "mangle" o "manga". Així 1006 00:53:37,270 --> 00:53:40,450 quan vostè està tractant de traduir la paraula mitjançant la paraula, podria estar donant 1007 00:53:40,450 --> 00:53:42,050 cosa que no té sentit. 1008 00:53:42,050 --> 00:53:45,770 >> Així que vostè vol realment ens fixem en tots els les possibles traduccions de la 1009 00:53:45,770 --> 00:53:49,840 paraules i veure, en primer lloc, Quin és l'ordre. 1010 00:53:49,840 --> 00:53:52,000 Estàvem parlant de permutació les coses? 1011 00:53:52,000 --> 00:53:54,150 Per veure totes les possibles ordres i triar el que tingui el més alt 1012 00:53:54,150 --> 00:53:54,990 probabilitat? 1013 00:53:54,990 --> 00:53:57,860 També pot triar tot el possible traduccions per 1014 00:53:57,860 --> 00:54:00,510 paraula i després veure - 1015 00:54:00,510 --> 00:54:01,950 combinat amb les permutacions - 1016 00:54:01,950 --> 00:54:03,710 que un té la probabilitat més alta. 1017 00:54:03,710 --> 00:54:08,590 >> A més, vostè també pot veure no només paraules, si les frases. 1018 00:54:08,590 --> 00:54:11,700 perquè pugui analitzar les relacions entre les paraules i després agafar un 1019 00:54:11,700 --> 00:54:13,210 millor traducció. 1020 00:54:13,210 --> 00:54:16,690 També una altra cosa, de manera que aquest semestre De fet, m'estic fent la recerca en 1021 00:54:16,690 --> 00:54:19,430 Xinès-Anglès traducció automàtica, de manera que la traducció del 1022 00:54:19,430 --> 00:54:20,940 Xinès a l'anglès. 1023 00:54:20,940 --> 00:54:26,760 >> I una cosa que fem és, a més d'utilitzar un model estadístic, que és just 1024 00:54:26,760 --> 00:54:30,570 veure les probabilitats de veure alguna posició en una frase, jo sóc 1025 00:54:30,570 --> 00:54:35,360 en realitat també afegir una mica de sintaxi per a mi model, dient: Oh, si jo veig aquest tipus 1026 00:54:35,360 --> 00:54:39,420 de la construcció, això és el que vull per canviar-ho a quan tradueixo. 1027 00:54:39,420 --> 00:54:43,880 Així també es pot afegir algun tipus de element de la sintaxi perquè el 1028 00:54:43,880 --> 00:54:47,970 una traducció més eficaç i més precisa. 1029 00:54:47,970 --> 00:54:48,550 D'acord. 1030 00:54:48,550 --> 00:54:51,010 >> Llavors, com es pot començar, si vols fer alguna cosa en còmput 1031 00:54:51,010 --> 00:54:51,980 la lingüística? 1032 00:54:51,980 --> 00:54:54,560 >> En primer lloc, es tria un projecte que involucra idiomes. 1033 00:54:54,560 --> 00:54:56,310 Així, hi ha molts per aquí. 1034 00:54:56,310 --> 00:54:58,420 Hi ha tantes coses que pots fer. 1035 00:54:58,420 --> 00:55:00,510 I llavors es pot pensar en un model que es pot utilitzar. 1036 00:55:00,510 --> 00:55:04,710 En general, això significa que el pensament de supòsits, segons com, oh, quan jo era 1037 00:55:04,710 --> 00:55:05,770 com el pensament de les lletres. 1038 00:55:05,770 --> 00:55:09,510 Jo estava com, bé, si vull esbrinar 1 que va escriure això, probablement jo vull 1039 00:55:09,510 --> 00:55:15,400 mirar a les paraules que la persona utilitza i veure qui fa servir aquesta paraula molt sovint. 1040 00:55:15,400 --> 00:55:18,470 Així que tracti de fer suposicions i tracti de pensar en models. 1041 00:55:18,470 --> 00:55:21,395 I llavors també pot buscar en línia per el tipus de problema que vostè té, 1042 00:55:21,395 --> 00:55:24,260 i va a suggerir a vostès, els models que potser 1043 00:55:24,260 --> 00:55:26,560 modelat aquesta cosa també. 1044 00:55:26,560 --> 00:55:29,080 >> I també sempre pots enviar-me un correu electrònic. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 I jo només puc ajudar-vos. 1047 00:55:34,940 --> 00:55:38,600 Podem fins i tot podríem reunir-nos de manera que pugui donar suggeriments sobre la forma d' 1048 00:55:38,600 --> 00:55:41,490 la implementació del seu projecte. 1049 00:55:41,490 --> 00:55:45,610 I vull dir que si t'involucres amb lingüística computacional, que va 1050 00:55:45,610 --> 00:55:46,790 per ser gran. 1051 00:55:46,790 --> 00:55:48,370 Vas a veure que hi ha tant potencial. 1052 00:55:48,370 --> 00:55:52,060 I la indústria vol contractar que tan malament per això. 1053 00:55:52,060 --> 00:55:54,720 Així que espero que vostès hagin gaudit això. 1054 00:55:54,720 --> 00:55:57,030 Si vostès tenen alguna pregunta, vostè em pot preguntar per això. 1055 00:55:57,030 --> 00:55:58,280 Però gràcies. 1056 00:55:58,280 --> 00:56:00,150