1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Freitas: Hej. 3 00:00:08,870 --> 00:00:09,980 Dobro došli svi. 4 00:00:09,980 --> 00:00:11,216 Moje ime je Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Ja sam junior na [nečujan] studiranje računalnih znanosti s naglaskom na 6 00:00:15,220 --> 00:00:16,410 računalno jezikoslovlje. 7 00:00:16,410 --> 00:00:19,310 Dakle, moj je sekundarno u jeziku i lingvističke teorije. 8 00:00:19,310 --> 00:00:21,870 Stvarno sam uzbuđen da uče momci malo o terenu. 9 00:00:21,870 --> 00:00:24,300 To je vrlo uzbudljivo područje za proučavanje. 10 00:00:24,300 --> 00:00:27,260 Također, s puno potencijala za budućnost. 11 00:00:27,260 --> 00:00:30,160 Dakle, ja sam stvarno uzbuđen da ti dečki su s obzirom na projekte u 12 00:00:30,160 --> 00:00:31,160 računalno jezikoslovlje. 13 00:00:31,160 --> 00:00:35,460 I ja ću biti više nego rado savjetovati bilo tko od vas, ako ste se odlučili za 14 00:00:35,460 --> 00:00:37,090 nastaviti jedan od tih. 15 00:00:37,090 --> 00:00:40,010 >> Dakle, prije svega što su računalna lingvistika? 16 00:00:40,010 --> 00:00:44,630 Dakle, računalno jezikoslovlje je Raskrižje između lingvistike i 17 00:00:44,630 --> 00:00:46,390 računalnih znanosti. 18 00:00:46,390 --> 00:00:47,415 Dakle, ono što je lingvistika? 19 00:00:47,415 --> 00:00:48,490 Što je računalna znanost? 20 00:00:48,490 --> 00:00:51,580 Pa iz lingvistike, što uzimamo su jezici. 21 00:00:51,580 --> 00:00:54,960 Dakle, lingvistika je zapravo studija prirodnog jezika u cjelini. 22 00:00:54,960 --> 00:00:58,330 Dakle prirodnog jezika - govorimo o jezik koji mi zapravo koristiti za 23 00:00:58,330 --> 00:00:59,770 komuniciraju jedni s drugima. 24 00:00:59,770 --> 00:01:02,200 Pa nismo baš govori o C ili Java. 25 00:01:02,200 --> 00:01:05,900 Govorimo više o engleskom jeziku i Kineski i ostali jezici koji smo 26 00:01:05,900 --> 00:01:07,780 koristiti da komuniciraju jedni s drugima. 27 00:01:07,780 --> 00:01:12,470 >> Zahtjevna stvar o tome je da upravo sada imamo skoro 7.000 28 00:01:12,470 --> 00:01:14,260 jezika u svijetu. 29 00:01:14,260 --> 00:01:19,520 Dakle, tu su prilično visoka sorta jezika koji možemo proučavati. 30 00:01:19,520 --> 00:01:22,600 I onda mislite da je to vjerojatno vrlo teško učiniti, na primjer, 31 00:01:22,600 --> 00:01:26,960 prijevod s jednog jezika na drugo, s obzirom da imaš 32 00:01:26,960 --> 00:01:28,240 Gotovo 7.000 njih. 33 00:01:28,240 --> 00:01:31,450 Dakle, ako mislite da radiš prijevod s jednog jezika na drugi što 34 00:01:31,450 --> 00:01:35,840 imaju gotovo više od milijun različite kombinacije koje možete 35 00:01:35,840 --> 00:01:37,330 imati od jezika do jezika. 36 00:01:37,330 --> 00:01:40,820 Dakle, to je stvarno izazovan učiniti neke vrsta primjer prevođenje sustava za 37 00:01:40,820 --> 00:01:43,540 svaki jezik. 38 00:01:43,540 --> 00:01:47,120 >> Dakle, lingvistika tretira s sintakse, semantika, pragmatika. 39 00:01:47,120 --> 00:01:49,550 Vi dečki ne točno potrebno znati što su oni. 40 00:01:49,550 --> 00:01:55,090 No, zanimljivo je da kao izvorni govornik, kada uče 41 00:01:55,090 --> 00:01:59,010 jezik kao dijete, što zapravo uče sve te stvari - sintaksa semantika 42 00:01:59,010 --> 00:02:00,500 i pragmatika - 43 00:02:00,500 --> 00:02:01,430 po sebi. 44 00:02:01,430 --> 00:02:04,820 I nitko ne mora vas naučiti sintaksu za da shvatite kako su rečenice 45 00:02:04,820 --> 00:02:05,290 strukturiran. 46 00:02:05,290 --> 00:02:07,980 Dakle, to je jako zanimljivo, jer to je nešto što dolazi vrlo 47 00:02:07,980 --> 00:02:10,389 intuitivno. 48 00:02:10,389 --> 00:02:13,190 >> A što ste odvojili od informatike? 49 00:02:13,190 --> 00:02:16,700 Pa, najvažnija stvar koju smo imati u računalnoj znanosti je prvi od 50 00:02:16,700 --> 00:02:19,340 svega, umjetne inteligencije i strojno učenje. 51 00:02:19,340 --> 00:02:22,610 Dakle, ono što mi pokušavamo raditi računalno jezikoslovlje je teach 52 00:02:22,610 --> 00:02:26,990 vaše računalo kako to učiniti nešto s jezikom. 53 00:02:26,990 --> 00:02:28,630 >> Tako, na primjer, u uređaju prijevod. 54 00:02:28,630 --> 00:02:32,490 Pokušavam učiti moje računalo how znati kako se prijelaz iz jednog 55 00:02:32,490 --> 00:02:33,310 Jezik za druge. 56 00:02:33,310 --> 00:02:35,790 Dakle, u osnovi željeli učenje računalne dva jezika. 57 00:02:35,790 --> 00:02:38,870 Ako sam napraviti obradu prirodnog jezika, što je slučaj na primjer 58 00:02:38,870 --> 00:02:41,810 Facebookov Graf pretrage, vas naučiti računalo kako razumjeti 59 00:02:41,810 --> 00:02:42,730 upite dobro. 60 00:02:42,730 --> 00:02:48,130 >> Dakle, ako ti kažeš "fotografije moga prijatelji. "Facebook ne postupa kako 61 00:02:48,130 --> 00:02:51,130 kao cijeli niz koji ima samo hrpa riječi. 62 00:02:51,130 --> 00:02:56,020 To zapravo razumije odnos između "fotografija" i "moji prijatelji" i 63 00:02:56,020 --> 00:02:59,620 razumije da je "fotografija" su vlasništvo "mojih prijatelja." 64 00:02:59,620 --> 00:03:02,350 >> Dakle, to je dio, na primjer, Obrada prirodnog jezika. 65 00:03:02,350 --> 00:03:04,790 Ona pokušava shvatiti što je odnos između 66 00:03:04,790 --> 00:03:07,520 riječi u rečenici. 67 00:03:07,520 --> 00:03:11,170 A veliko je pitanje, može li naučiti računalo kako govoriti 68 00:03:11,170 --> 00:03:12,650 jezik u cjelini? 69 00:03:12,650 --> 00:03:17,810 Koji je vrlo zanimljivo pitanje mislim, kao da je možda u budućnosti, 70 00:03:17,810 --> 00:03:19,930 ti ćeš biti u mogućnosti razgovarati na mobitel. 71 00:03:19,930 --> 00:03:23,290 Nešto kao što radimo s Siri, ali nešto kao, možete zapravo 72 00:03:23,290 --> 00:03:25,690 reći što god želite i telefon će razumjeti sve. 73 00:03:25,690 --> 00:03:28,350 A to može imati naknadna pitanja i nastaviti razgovor. 74 00:03:28,350 --> 00:03:30,880 To je nešto što je stvarno uzbudljivo, po mom mišljenju. 75 00:03:30,880 --> 00:03:33,070 >> Dakle, nešto o prirodnim jezicima. 76 00:03:33,070 --> 00:03:36,220 Nešto jako interesantno Prirodne jezika koji je, a to 77 00:03:36,220 --> 00:03:38,470 kreditne mom lingvistike profesora, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Ona daje primjer i mislim to je stvarno zanimljivo. 79 00:03:40,830 --> 00:03:47,060 Budući da učimo jezik od kada mi smo rođeni, a zatim naš materinji 80 00:03:47,060 --> 00:03:49,170 Jezik vrsta raste na nas. 81 00:03:49,170 --> 00:03:52,570 >> A zapravo ste naučili jezik s minimalnim ulaz, zar ne? 82 00:03:52,570 --> 00:03:56,700 Vi ste samo dobivanje slike iz Roditelji ono jezik zvuči 83 00:03:56,700 --> 00:03:58,770 volite i samo ga naučiti. 84 00:03:58,770 --> 00:04:02,240 Dakle, to je zanimljivo, jer ako pogledate Na tim rečenicama, primjerice. 85 00:04:02,240 --> 00:04:06,980 Izgledaš, "Marija stavlja na kaputu svakog Vrijeme je ona napušta kuću. " 86 00:04:06,980 --> 00:04:10,650 >> U ovom slučaju, to je moguće imati Riječ "ona" se odnosi na Mariju, zar ne? 87 00:04:10,650 --> 00:04:13,500 Možete reći: "Marija stavlja na kaputu svaki put Marija ostavlja 88 00:04:13,500 --> 00:04:14,960 kuća. ", tako da je u redu. 89 00:04:14,960 --> 00:04:19,370 Ali onda, ako pogledate u rečenici "Ona stavlja na kaput svaki put Mary 90 00:04:19,370 --> 00:04:22,850 napušta kuću. "znaš da je Nemoguće je reći da je "ona" je 91 00:04:22,850 --> 00:04:24,260 koji se odnosi na Mariju. 92 00:04:24,260 --> 00:04:27,070 >> Ne postoji način da se kaže da je "Marija stavlja kaput svaki put Marija ostavlja 93 00:04:27,070 --> 00:04:30,790 kuća. "Pa to je zanimljivo, jer to je vrsta intuicije 94 00:04:30,790 --> 00:04:32,890 da svaki izvorni govornik ima. 95 00:04:32,890 --> 00:04:36,370 I nitko nije učio da je ovo način na koji sintakse radi. 96 00:04:36,370 --> 00:04:41,930 I da možete imati samo ovaj "ona" koji se odnosi na Mariju u ovom prvom slučaju, 97 00:04:41,930 --> 00:04:44,260 i zapravo u ovom drugom previše, ali ne u ovom. 98 00:04:44,260 --> 00:04:46,500 Ali svatko vrsta dobiva do istog odgovora. 99 00:04:46,500 --> 00:04:48,580 Svi se slažu u tome. 100 00:04:48,580 --> 00:04:53,280 Dakle, to je stvarno zanimljivo kako, iako ne znam sva pravila 101 00:04:53,280 --> 00:04:55,575 na hrvatskom jeziku, što vrsta razumiju kako jezik funkcionira. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Dakle zanimljiva stvar o prirodnim jezik je u tome što ne morate 104 00:05:01,530 --> 00:05:06,970 Znam bilo sintaksu znati je li kazna je gramatička ili negramatički za 105 00:05:06,970 --> 00:05:08,810 većini slučajeva. 106 00:05:08,810 --> 00:05:13,220 Koji misliš da je možda ono što događa se da kroz svoj život, što 107 00:05:13,220 --> 00:05:17,410 samo držati uzimajući sve više i više rečenice rekla da se tebi. 108 00:05:17,410 --> 00:05:19,800 I onda bi memoriranje sve rečenice. 109 00:05:19,800 --> 00:05:24,230 I onda kad ti netko kaže nešto, što čujete tu rečenicu i 110 00:05:24,230 --> 00:05:27,040 pogledate svog vokabulara presuda i vidjeti ako 111 00:05:27,040 --> 00:05:28,270 da kazna postoji. 112 00:05:28,270 --> 00:05:29,830 A ako je tamo kažu da je gramatička. 113 00:05:29,830 --> 00:05:31,740 Ako to nije vam reći da je to negramatički. 114 00:05:31,740 --> 00:05:35,150 >> Dakle, u tom slučaju, što bi rekli, oh, tako da imaju ogroman popis svih 115 00:05:35,150 --> 00:05:36,140 moguće presude. 116 00:05:36,140 --> 00:05:38,240 I onda kada čujete rečenicu, znate li da je gramatička ili 117 00:05:38,240 --> 00:05:39,450 ne na temelju toga. 118 00:05:39,450 --> 00:05:42,360 Stvar je u tome da, ako pogledate rečenica, primjerice, " 119 00:05:42,360 --> 00:05:47,540 pet čelu CS50 TFS kuhani slijepima Hobotnica pomoću Dapa šalicu. "To je 120 00:05:47,540 --> 00:05:49,630 definitivno nije kazna da ste čuli. 121 00:05:49,630 --> 00:05:52,380 No, u isto vrijeme znamo da je to prilično puno gramatičkih, zar ne? 122 00:05:52,380 --> 00:05:55,570 Nema gramatičke pogreške i može se reći da 123 00:05:55,570 --> 00:05:57,020 to je moguće kazne. 124 00:05:57,020 --> 00:06:01,300 >> Dakle, to nas čini mislim da zapravo Način na koji smo naučili jezik nije samo 125 00:06:01,300 --> 00:06:07,090 tako da veliku bazu moguće riječi ili rečenice, ali više 126 00:06:07,090 --> 00:06:11,490 razumijevanje odnosa između riječi u tim rečenicama. 127 00:06:11,490 --> 00:06:14,570 Ima li to smisla? 128 00:06:14,570 --> 00:06:19,370 Dakle, onda je pitanje, može Računala učenja jezika? 129 00:06:19,370 --> 00:06:21,490 Možemo li učiti jezik na računalima? 130 00:06:21,490 --> 00:06:24,230 >> Dakle, neka je razmišljati o razlici između izvorni govornik nekog jezika 131 00:06:24,230 --> 00:06:25,460 i računalo. 132 00:06:25,460 --> 00:06:27,340 Dakle, ono što se događa na zvučnik? 133 00:06:27,340 --> 00:06:30,430 Pa, izvorni govornik uči jezik iz izloženosti njega. 134 00:06:30,430 --> 00:06:34,200 Obično svojim ranim godinama djetinjstva. 135 00:06:34,200 --> 00:06:38,570 Dakle, u osnovi, vi samo imati dijete, a ti bi u razgovoru s njom, i to 136 00:06:38,570 --> 00:06:40,540 Samo uči kako govoriti jezik, zar ne? 137 00:06:40,540 --> 00:06:42,660 Dakle, vi zapravo davanje Ulaz na dijete. 138 00:06:42,660 --> 00:06:45,200 Pa, onda možete tvrditi da je računalo možete učiniti istu stvar, zar ne? 139 00:06:45,200 --> 00:06:49,510 Vi samo mogu dati Jezik za kao ulaz na računalu. 140 00:06:49,510 --> 00:06:53,410 >> Kao na primjer hrpa datoteka da imaju knjige na engleskom jeziku. 141 00:06:53,410 --> 00:06:56,190 Možda je to jedan od načina da vam eventualno mogao naučiti 142 00:06:56,190 --> 00:06:57,850 Računalo engleski, zar ne? 143 00:06:57,850 --> 00:07:01,000 A u stvari, ako mislite o tome, to će vas možda par 144 00:07:01,000 --> 00:07:02,680 dana čitati knjigu. 145 00:07:02,680 --> 00:07:05,760 Na računalu je potrebno za sekundu pogled na sve riječi u knjizi. 146 00:07:05,760 --> 00:07:10,810 Dakle, možete misliti da može biti samo to Argument ulaz od oko vas, 147 00:07:10,810 --> 00:07:15,440 to nije dovoljno reći da je to nešto što se samo čovjek može učiniti. 148 00:07:15,440 --> 00:07:17,680 Možete misliti računala Također možete dobiti ulaz. 149 00:07:17,680 --> 00:07:21,170 >> Druga stvar je da su izvorni govornici također imaju mozak koji ima 150 00:07:21,170 --> 00:07:23,870 Sposobnost učenja jezika. 151 00:07:23,870 --> 00:07:27,020 No, ako mislite o tome, Mozak je čvrsta stvar. 152 00:07:27,020 --> 00:07:30,450 Kada se rodio, već je postavljena - 153 00:07:30,450 --> 00:07:31,320 Ovo je tvoj mozak. 154 00:07:31,320 --> 00:07:34,660 I kao što odrastu, vi samo dobiti više ulaz jeziku i možda nutrijenti 155 00:07:34,660 --> 00:07:35,960 i druge stvari. 156 00:07:35,960 --> 00:07:38,170 No, prilično je vaš mozak je čvrsta stvar. 157 00:07:38,170 --> 00:07:41,290 >> Tako da mogu reći, dobro, možda možete izgraditi računalo koje ima hrpu 158 00:07:41,290 --> 00:07:45,890 funkcije i metode koje samo oponašaju Sposobnost učenja jezika. 159 00:07:45,890 --> 00:07:49,630 Dakle, u tom smislu, moglo bi se reći, dobro, ja može imati računalo koje ima sve 160 00:07:49,630 --> 00:07:52,270 stvari koje moram učiti jezik. 161 00:07:52,270 --> 00:07:56,200 I zadnja stvar je da materinji govornik uči iz pokušaja i pogrešaka. 162 00:07:56,200 --> 00:08:01,090 Tako je u osnovi još jedna važna stvar u učenje jezika je da ste ljubazni 163 00:08:01,090 --> 00:08:05,340 od naučiti stvari čineći generalizacije ono što čujete. 164 00:08:05,340 --> 00:08:10,280 >> Dakle, kao što su odrastanja ste saznali da neke riječi su više kao imenica, 165 00:08:10,280 --> 00:08:11,820 neki drugi one su pridjevi. 166 00:08:11,820 --> 00:08:14,250 I ne morate imati bilo poznavanje lingvistike 167 00:08:14,250 --> 00:08:15,040 razumjeti da. 168 00:08:15,040 --> 00:08:18,560 Ali samo znam da ima nekih riječi pozicionirani u nekom dijelu 169 00:08:18,560 --> 00:08:22,570 rečenica i neki drugi u drugom dijelovi rečenice. 170 00:08:22,570 --> 00:08:26,110 >> I to kad radite nešto što je kao rečenicu koja nije točna - 171 00:08:26,110 --> 00:08:28,770 možda zato što je nad generalizacije na primjer. 172 00:08:28,770 --> 00:08:32,210 Možda kad si odrastao, primijetite da množina je obično 173 00:08:32,210 --> 00:08:35,809 formirana stavljajući S po kraj riječi. 174 00:08:35,809 --> 00:08:40,042 I onda pokušati napraviti množini "Jelen" kao "jeleni" ili "zub" što 175 00:08:40,042 --> 00:08:44,780 "tooths." Pa onda vaši roditelji ili vas netko ispravlja i kaže, nema, 176 00:08:44,780 --> 00:08:49,020 množina "jelena" je "Jelen" i množina od "zuba" je "zube". A onda 177 00:08:49,020 --> 00:08:50,060 učite te stvari. 178 00:08:50,060 --> 00:08:51,520 Dakle, što ste naučili iz pokušaja i pogrešaka. 179 00:08:51,520 --> 00:08:53,100 >> Ali, također možete to učiniti s računalom. 180 00:08:53,100 --> 00:08:55,310 Možete imati nešto što se zove učenje pojačanje. 181 00:08:55,310 --> 00:08:58,560 Koja je u osnovi kao što je davanje Računalo nagrada kad god to radi 182 00:08:58,560 --> 00:08:59,410 točno tako nešto. 183 00:08:59,410 --> 00:09:04,710 A čime je suprotno od nagrada a kad se dogodi nešto loše. 184 00:09:04,710 --> 00:09:07,410 Vi zapravo možete vidjeti da, ako idete na Google Translate i pokušate 185 00:09:07,410 --> 00:09:10,220 prevesti rečenicu, to pita za povratne informacije. 186 00:09:10,220 --> 00:09:13,240 Dakle, ako vam kažu, oh, ima bolje prijevod ove rečenice. 187 00:09:13,240 --> 00:09:18,140 Možete ga upisati i onda ako je puno ljudi stalno govore da je bolje 188 00:09:18,140 --> 00:09:21,560 prijevod, to samo uči da je treba koristiti taj prijevod umjesto 189 00:09:21,560 --> 00:09:22,960 jedan je davanje. 190 00:09:22,960 --> 00:09:28,830 >> Dakle, to je vrlo filozofsko pitanje da li su računala će biti 191 00:09:28,830 --> 00:09:30,340 u mogućnosti razgovarati ili ne u budućnosti. 192 00:09:30,340 --> 00:09:34,440 No, ja imam velike nade da mogu Upravo na temelju tih argumenata. 193 00:09:34,440 --> 00:09:38,570 No, to je samo više filozofska pitanje. 194 00:09:38,570 --> 00:09:43,460 >> Dakle, dok su računala još uvijek se ne može govoriti, što su stvari koje možemo učiniti? 195 00:09:43,460 --> 00:09:47,070 Neki stvarno cool stvari tajnosti podataka. 196 00:09:47,070 --> 00:09:53,210 Tako, na primjer, ti dečki znaju taj e-mail usluge učiniti, za 197 00:09:53,210 --> 00:09:55,580 Na primjer, za filtriranje spam. 198 00:09:55,580 --> 00:09:59,070 Dakle, svaki put kad primite spam, što pokušava filtrirati u drugu kutiju. 199 00:09:59,070 --> 00:10:00,270 Pa kako to učiniti? 200 00:10:00,270 --> 00:10:06,080 To nije kao računalo samo zna ono e-mail adrese se slanje spama. 201 00:10:06,080 --> 00:10:09,130 Dakle, to je više temeljen na sadržaj poruka, ili možda naslov, ili 202 00:10:09,130 --> 00:10:11,310 možda neki uzorak koji imate. 203 00:10:11,310 --> 00:10:15,690 >> Dakle, u osnovi, ono što možete učiniti je dobiti puno podataka o e-mailove koji su spam, 204 00:10:15,690 --> 00:10:19,980 e-mailove koji nisu spam, a nisu znali što je vrsta obrasce imate u 205 00:10:19,980 --> 00:10:21,000 one koje su spam. 206 00:10:21,000 --> 00:10:23,260 I to je dio računalne jezikoslovlje. 207 00:10:23,260 --> 00:10:24,720 To se zove tajnosti podataka. 208 00:10:24,720 --> 00:10:28,100 I mi smo zapravo ide vidjeti Primjer da se u idućih slajdovima. 209 00:10:28,100 --> 00:10:32,910 >> Druga stvar je prirodnog jezika obrada koja je stvar koja 210 00:10:32,910 --> 00:10:36,580 Graf Traži se radi prepuštanja ti napisati kaznu. 211 00:10:36,580 --> 00:10:38,690 I vjeruje da razumijete što je značenje i daje 212 00:10:38,690 --> 00:10:39,940 što bolji rezultat. 213 00:10:39,940 --> 00:10:43,880 Zapravo, ako idete na Google ili Bing i da traži nešto poput Gospe 214 00:10:43,880 --> 00:10:47,060 Gaga je visina, što zapravo ide dobiti 5 '1 "umjesto informacija 215 00:10:47,060 --> 00:10:50,170 od nje, jer to zapravo ne razumije što pričaš. 216 00:10:50,170 --> 00:10:52,140 Dakle, to je dio prirodnog Obrada jezik. 217 00:10:52,140 --> 00:10:57,000 >> Ili i kada koristite Siri, prvi imate algoritam koji pokušava 218 00:10:57,000 --> 00:11:01,130 prevesti što govoriš u riječi, u tekstu. 219 00:11:01,130 --> 00:11:03,690 I onda se pokušava prevesti da u smislu. 220 00:11:03,690 --> 00:11:06,570 Dakle, to je sve dio prirodnog Obrada jezik. 221 00:11:06,570 --> 00:11:08,320 >> Tada imate strojno prevođenje - 222 00:11:08,320 --> 00:11:10,300 koja je zapravo jedan od mojih favorita - 223 00:11:10,300 --> 00:11:14,060 koji je samo prevodio s jezika na drugi. 224 00:11:14,060 --> 00:11:17,950 Dakle, možete misliti da kada radite strojno prevođenje, imate 225 00:11:17,950 --> 00:11:19,750 beskonačne mogućnosti rečenica. 226 00:11:19,750 --> 00:11:22,960 Dakle, ne postoji način da samo pohranjivanje svaki prijevod. 227 00:11:22,960 --> 00:11:27,440 Dakle, morate se s zanimljiva Algoritmi se moći 228 00:11:27,440 --> 00:11:30,110 prevesti svaki rečenica na neki način. 229 00:11:30,110 --> 00:11:32,483 >> Vi dečki imate bilo kakvih pitanja do sada? 230 00:11:32,483 --> 00:11:34,450 Ne? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Pa što ćemo danas vidjeti? 233 00:11:36,900 --> 00:11:39,300 Prije svega, ja ću govoriti o Problem klasifikacije. 234 00:11:39,300 --> 00:11:41,440 Dakle, onaj koji sam bio govore o spama. 235 00:11:41,440 --> 00:11:46,820 Ono što ću učiniti je, s obzirom lyrics neku pjesmu, možeš pokušati shvatiti 236 00:11:46,820 --> 00:11:49,810 s velikom vjerojatnošću koji je pjevačica? 237 00:11:49,810 --> 00:11:53,590 Recimo da imam pjesme od Lady Gaga i Katy Perry, ako ti dam 238 00:11:53,590 --> 00:11:58,130 nova pjesma, možete shvatiti ako to je Katy Perry i Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Drugi, ja samo idem razgovarati o problemu segmentacije. 240 00:12:01,490 --> 00:12:05,780 Pa ja ne znam da li ste vi znali, ali Kineski, japanski, druge istočnoazijske 241 00:12:05,780 --> 00:12:08,090 jezika, ostali jezici u cjelini, nemaju 242 00:12:08,090 --> 00:12:09,830 razmaci između riječi. 243 00:12:09,830 --> 00:12:13,540 A onda, ako mislite o načinu na toj računalo vrsta napad 244 00:12:13,540 --> 00:12:18,600 Razumijem obradu prirodnog jezika, to izgleda na riječima i 245 00:12:18,600 --> 00:12:21,500 pokušava razumjeti odnose između njih, zar ne? 246 00:12:21,500 --> 00:12:25,440 Ali onda, ako imate Kineze, a vi nula prostore, to je stvarno teško 247 00:12:25,440 --> 00:12:28,360 saznati što je odnos između riječi, jer oni nemaju bilo 248 00:12:28,360 --> 00:12:29,530 Riječi na prvi. 249 00:12:29,530 --> 00:12:32,600 Dakle, morate napraviti nešto što se zove segmentacije koji samo znači stavljanje 250 00:12:32,600 --> 00:12:36,490 Prostor između onoga što bismo nazvati riječi u tim jezicima. 251 00:12:36,490 --> 00:12:37,740 Smisla? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> A onda ćemo govoriti o sintaksi. 254 00:12:41,540 --> 00:12:44,050 Dakle, samo malo o prirodnim Obrada jezik. 255 00:12:44,050 --> 00:12:45,420 To će biti samo pregled. 256 00:12:45,420 --> 00:12:50,700 Tako je danas, u osnovi ono što želim napraviti se ti dečki malo 257 00:12:50,700 --> 00:12:53,930 unutar koje su mogućnosti koje možete učiniti s Computational 258 00:12:53,930 --> 00:12:54,960 jezikoslovlje. 259 00:12:54,960 --> 00:13:00,410 A onda možete vidjeti što mislite je cool među tim stvarima. 260 00:13:00,410 --> 00:13:02,270 A možda možete sjetiti projekta i došli razgovarati sa mnom. 261 00:13:02,270 --> 00:13:05,260 I mogu vam dati savjet o tome kako to provesti. 262 00:13:05,260 --> 00:13:09,060 >> Dakle, sintaksa će biti malo O Graf Traži i stroja 263 00:13:09,060 --> 00:13:09,670 prijevod. 264 00:13:09,670 --> 00:13:13,650 Samo ću dati primjer kako što bi, na primjer, prevesti 265 00:13:13,650 --> 00:13:16,020 nešto od portugalski na engleski. 266 00:13:16,020 --> 00:13:17,830 Zvuči dobro? 267 00:13:17,830 --> 00:13:19,293 >> Dakle, prvo, problem klasifikacija. 268 00:13:19,293 --> 00:13:23,590 Ja ću reći da je taj dio seminara će biti najveći izazov 269 00:13:23,590 --> 00:13:27,560 jedna samo zato što se događa biti neki kodiranje. 270 00:13:27,560 --> 00:13:29,470 No, to će biti Python. 271 00:13:29,470 --> 00:13:34,380 Znam da dečki ne znaju Python, pa Samo ću objasniti na high 272 00:13:34,380 --> 00:13:35,750 razini što radim. 273 00:13:35,750 --> 00:13:40,900 I ne morate se jako stalo previše toliko o sintaksi, jer to je 274 00:13:40,900 --> 00:13:42,140 nešto što ti dečki mogu učiti. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Zvuči dobro. 277 00:13:43,580 --> 00:13:46,020 >> Dakle, ono što je problem klasifikacija? 278 00:13:46,020 --> 00:13:49,140 Dakle, ti si dao neke tekstove Pjesma, i želite pogoditi 279 00:13:49,140 --> 00:13:50,620 tko to pjeva. 280 00:13:50,620 --> 00:13:54,045 A to može biti za bilo koju vrstu drugih problema. 281 00:13:54,045 --> 00:13:59,980 Dakle, to može biti, primjerice, imate predsjedničkoj kampanji i imate 282 00:13:59,980 --> 00:14:02,610 govor, a vi želite pronaći da li je to, na primjer, 283 00:14:02,610 --> 00:14:04,470 Obama ili Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Ili možete imati hrpu poruke e-pošte i želiš shvatiti, ako su 285 00:14:07,700 --> 00:14:08,890 spam ili ne. 286 00:14:08,890 --> 00:14:11,440 Dakle, to je samo klasificiranje neke Podaci se temelje na riječima 287 00:14:11,440 --> 00:14:13,790 da li postoji. 288 00:14:13,790 --> 00:14:16,295 >> Pa to učiniti, morate napraviti neke pretpostavke. 289 00:14:16,295 --> 00:14:20,570 Dakle puno o računalno jezikoslovlje je stvaranje pretpostavki, 290 00:14:20,570 --> 00:14:24,100 obično pametne pretpostavke, da možete dobiti dobre rezultate. 291 00:14:24,100 --> 00:14:26,670 Pokušavamo stvoriti model za njega. 292 00:14:26,670 --> 00:14:31,290 I onda ga isprobati i vidjeti ako to radi, ako ti daje dobru preciznost. 293 00:14:31,290 --> 00:14:33,940 A ako se to dogodi, onda pokušati poboljšati. 294 00:14:33,940 --> 00:14:37,640 Ako se to ne dogodi, ti si kao, OK, možda sam treba napraviti različite pretpostavke. 295 00:14:37,640 --> 00:14:44,030 >> Dakle, pretpostavka da ćemo napraviti je da umjetnik obično pjeva 296 00:14:44,030 --> 00:14:49,220 o temi više puta, a možda i koristi riječi više puta samo 297 00:14:49,220 --> 00:14:50,270 jer su navikli na to. 298 00:14:50,270 --> 00:14:51,890 Možete samo misliti na svog prijatelja. 299 00:14:51,890 --> 00:14:57,350 Siguran sam da ste vi svi imate prijatelje da kažu svoj potpis frazu, 300 00:14:57,350 --> 00:14:59,260 doslovno za svaku osudu - 301 00:14:59,260 --> 00:15:02,660 poput neke određene riječi ili neke specifične izraz koji kažu za 302 00:15:02,660 --> 00:15:04,020 svaka rečenica. 303 00:15:04,020 --> 00:15:07,920 >> I ono što mogu reći je da ako vidite rečenica koja ima potpis 304 00:15:07,920 --> 00:15:11,450 fraza, možete pretpostaviti da je vjerojatno Vaš prijatelj je 305 00:15:11,450 --> 00:15:13,310 jedan je rekao, zar ne? 306 00:15:13,310 --> 00:15:18,410 Znači li to pretpostavljati, a zatim to je kako stvoriti model. 307 00:15:18,410 --> 00:15:24,440 >> Primjer koji ću dati je na kako je Lady Gaga, na primjer, ljudi 308 00:15:24,440 --> 00:15:27,430 kažu da je ona koristi "beba" za svi njezini broj jedan pjesama. 309 00:15:27,430 --> 00:15:32,270 I zapravo to je video koji pokazuje joj govoreći riječ "beba" za 310 00:15:32,270 --> 00:15:33,410 različite pjesme. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO PLAYBACK] 312 00:15:33,860 --> 00:15:34,310 >> - (Pjevanje) bebe. 313 00:15:34,310 --> 00:15:36,220 Beba. 314 00:15:36,220 --> 00:15:37,086 Beba. 315 00:15:37,086 --> 00:15:37,520 Beba. 316 00:15:37,520 --> 00:15:37,770 Beba. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Beba. 319 00:15:39,243 --> 00:15:40,085 Beba. 320 00:15:40,085 --> 00:15:40,510 Beba. 321 00:15:40,510 --> 00:15:40,850 Beba. 322 00:15:40,850 --> 00:15:41,090 >> [END video reprodukcije- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Freitas: Pa postoje, mislim, 40 pjesama ovdje u kojem ona govori 324 00:15:44,020 --> 00:15:48,690 Riječ "dijete". Tako da u osnovi može pogoditi da, ako vidite pjesmu koja ima 325 00:15:48,690 --> 00:15:52,180 Riječ "beba" ima nekih visokih Vjerojatnost da je Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 No, pokušajmo razviti ova još više formalno. 327 00:15:56,450 --> 00:16:00,470 >> Dakle, to su stihovi pjesama koje po Lady Gaga i Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Dakle pogledate Lady Gaga, što oni vide ima puno događaja o "bebi" 329 00:16:04,120 --> 00:16:07,710 Puno pojave "način." A onda Katy Perry ima puno pojavljivanja 330 00:16:07,710 --> 00:16:10,360 "," Puno pojave "vatre". 331 00:16:10,360 --> 00:16:14,560 >> Tako je u osnovi ono što želimo učiniti je, da dobijete lirske. 332 00:16:14,560 --> 00:16:20,480 Recimo da ste dobili lirske za Pjesma koja je "beba" samo "beba". Ako 333 00:16:20,480 --> 00:16:24,750 ste upravo dobili riječ "dijete", i to je sve podatke koje imate od 334 00:16:24,750 --> 00:16:27,880 Lady Gaga i Katy Perry, koja bi li pogoditi je osoba 335 00:16:27,880 --> 00:16:29,370 tko pjeva pjesmu? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga ili Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, zar ne? 338 00:16:33,150 --> 00:16:37,400 Jer ona je jedina koja kaže da "Beba". To zvuči glupo, zar ne? 339 00:16:37,400 --> 00:16:38,760 OK, to je stvarno lako. 340 00:16:38,760 --> 00:16:41,860 Ja sam samo gleda na dvije pjesme i Naravno, ona je jedina koja ima 341 00:16:41,860 --> 00:16:42,660 "Beba". 342 00:16:42,660 --> 00:16:44,740 >> No, što ako imate hrpu riječi? 343 00:16:44,740 --> 00:16:50,900 Ako imate stvarnu lirski, nešto kao, "beba, samo sam 344 00:16:50,900 --> 00:16:51,610 otišao je vidjeti [? CFT?] 345 00:16:51,610 --> 00:16:54,020 Predavanje ", ili nešto slično, a onda zapravo shvatiti - 346 00:16:54,020 --> 00:16:55,780 na temelju svih tih riječi - 347 00:16:55,780 --> 00:16:58,350 tko je umjetnik koji je vjerojatno pjevala ovu pjesmu? 348 00:16:58,350 --> 00:17:01,860 Tako ćemo pokušati razviti ovo malo dalje. 349 00:17:01,860 --> 00:17:05,630 >> U redu, tako da se temelji samo na podacima koje smo dobio, čini se da je Gaga je vjerojatno 350 00:17:05,630 --> 00:17:06,260 pjevačica. 351 00:17:06,260 --> 00:17:07,904 No, kako možemo pisati to službeno? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 I tu će biti malo malo statistike. 354 00:17:13,140 --> 00:17:15,880 Dakle, ako ste se izgubili, samo pokušati razumjeti pojam. 355 00:17:15,880 --> 00:17:18,700 Nije bitno ako ste razumjeli jednadžbe savršeno dobro. 356 00:17:18,700 --> 00:17:22,150 To sve će biti online. 357 00:17:22,150 --> 00:17:25,490 >> Tako je u osnovi ono što sam izračuna je Vjerojatnost da će ova pjesma je od strane 358 00:17:25,490 --> 00:17:28,040 Lady Gaga s obzirom da je - 359 00:17:28,040 --> 00:17:30,660 pa to bar znači s obzirom da je - 360 00:17:30,660 --> 00:17:33,680 Vidio sam riječ "beba". Ima li to smisla? 361 00:17:33,680 --> 00:17:35,540 Dakle, ja pokušavam izračunati da je vjerojatnost. 362 00:17:35,540 --> 00:17:38,540 >> Dakle, postoji taj poučak nazvan Lost teorem koji kaže da 363 00:17:38,540 --> 00:17:43,330 vjerojatnost dano B, je vjerojatnost B dao, puta 364 00:17:43,330 --> 00:17:47,660 vjerojatnost, na vjerojatnost B. To je dugo jednadžba. 365 00:17:47,660 --> 00:17:51,970 No, ono što morate shvatiti iz to je da je to ono što želim 366 00:17:51,970 --> 00:17:52,830 izračunati, zar ne? 367 00:17:52,830 --> 00:17:56,570 Dakle vjerojatnost da ta pjesma je po Lady Gaga s obzirom da sam vidio riječ 368 00:17:56,570 --> 00:17:58,230 "Beba". 369 00:17:58,230 --> 00:18:02,960 >> I sad ono što sam uzimajući je vjerojatnost riječi "beba" s obzirom 370 00:18:02,960 --> 00:18:04,390 da imam Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 A što je to zapravo? 372 00:18:07,220 --> 00:18:10,500 Što to znači, što je Vjerojatnost da vide riječ "beba" 373 00:18:10,500 --> 00:18:12,130 u Gaga stihovima? 374 00:18:12,130 --> 00:18:16,240 Ako želim da se izračunati da je u vrlo jednostavan način, to je samo broj 375 00:18:16,240 --> 00:18:23,640 puta vidim "beba" u odnosu na ukupan broj riječi u tekstovima Gaga, zar ne? 376 00:18:23,640 --> 00:18:27,600 Što je frekvencija da vidim da je riječ Gaga radu? 377 00:18:27,600 --> 00:18:30,530 Smisla? 378 00:18:30,530 --> 00:18:33,420 >> Drugi pojam je vjerojatnost Gaga. 379 00:18:33,420 --> 00:18:34,360 Što to znači? 380 00:18:34,360 --> 00:18:38,550 To u osnovi znači, ono što je vjerojatnost klasificiranje 381 00:18:38,550 --> 00:18:40,690 neke tekstove kao Gaga? 382 00:18:40,690 --> 00:18:45,320 I to je čudno, ali Razmislimo o primjer. 383 00:18:45,320 --> 00:18:49,230 Pa recimo da je vjerojatnost ima "dijete" u pjesmi je ista 384 00:18:49,230 --> 00:18:51,760 za Gaga i Britney Spears. 385 00:18:51,760 --> 00:18:54,950 No, Britney Spears ima dva puta više pjesama nego Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Dakle, ako je netko baš slučajno daje tekstovi "bebu", prva stvar koju 387 00:19:00,570 --> 00:19:04,710 pogledati je, što je vjerojatnost ima "dijete" u Gaga pjesmu, "beba" 388 00:19:04,710 --> 00:19:05,410 Britney u pjesmi? 389 00:19:05,410 --> 00:19:06,460 I to je ista stvar. 390 00:19:06,460 --> 00:19:10,040 >> Dakle, druga stvar koju ćete vidjeti je, dobro, što je vjerojatnost 391 00:19:10,040 --> 00:19:13,770 ova lirska po sebi bude Gaga lirska, i što je vjerojatnost 392 00:19:13,770 --> 00:19:15,380 što Britney lirska? 393 00:19:15,380 --> 00:19:18,950 Dakle, budući da Britney ima toliko više lyrics od Gaga, što bi vjerojatno 394 00:19:18,950 --> 00:19:21,470 recimo, dobro, ovo je vjerojatno Britney lirska. 395 00:19:21,470 --> 00:19:23,340 Dakle, to je razlog zašto imamo ovo termin ovdje. 396 00:19:23,340 --> 00:19:24,670 Vjerojatnost Gaga. 397 00:19:24,670 --> 00:19:26,950 Ima smisla? 398 00:19:26,950 --> 00:19:28,660 Je li? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> I posljednja je samo vjerojatnost "baby" koji ne 401 00:19:33,500 --> 00:19:34,810 stvarno smeta toliko. 402 00:19:34,810 --> 00:19:39,940 No, to je vjerojatnost viđenje "Baby" na engleskom jeziku. 403 00:19:39,940 --> 00:19:42,725 Mi obično nije briga da toliko o tom pojmu. 404 00:19:42,725 --> 00:19:44,490 Ima li to smisla? 405 00:19:44,490 --> 00:19:48,110 Dakle vjerojatnost Gaga je nazvao prije vjerojatnost 406 00:19:48,110 --> 00:19:49,530 klasne Gaga. 407 00:19:49,530 --> 00:19:53,840 Jer to samo znači da je, što je vjerojatnost da taj razred - 408 00:19:53,840 --> 00:19:55,520 što je Gaga - 409 00:19:55,520 --> 00:19:59,350 tek općenito, samo bez ikakvih uvjeta. 410 00:19:59,350 --> 00:20:02,560 >> I onda kad imam vjerojatnost Gaga dao "beba", mi to zovemo plus 411 00:20:02,560 --> 00:20:06,160 teary vjerojatnost jer je vjerojatnost da 412 00:20:06,160 --> 00:20:08,300 Gaga dao neke dokaze. 413 00:20:08,300 --> 00:20:11,050 Dakle Dajem ti dokaze da sam vidio riječ bebu i 414 00:20:11,050 --> 00:20:12,690 Pjesma smisla? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Dakle, ako sam izračunao da za svaku pjesme za Lady Gagu, 418 00:20:22,400 --> 00:20:25,916 što bi to bilo - 419 00:20:25,916 --> 00:20:27,730 očito, ne mogu pomaknuti ovo. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Vjerojatnost Gaga će biti nešto slično, 2 preko 24 puta 1/2, 422 00:20:36,920 --> 00:20:38,260 preko 2 preko 53. 423 00:20:38,260 --> 00:20:40,640 Nije bitno ako znate što ti brojevi dolaze iz. 424 00:20:40,640 --> 00:20:44,750 No, to je samo broj koji se događa biti više od 0, zar ne? 425 00:20:44,750 --> 00:20:48,610 >> I onda kad ja to Katy Perry, vjerojatnost "Baby" dao Katy je 426 00:20:48,610 --> 00:20:49,830 Već 0, zar ne? 427 00:20:49,830 --> 00:20:52,820 Budući da ne postoji "beba" u Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Pa onda to postaje 0, a Gaga pobjeda, što znači da je Gaga 429 00:20:56,360 --> 00:20:57,310 Vjerojatno pjevačica. 430 00:20:57,310 --> 00:20:58,560 Ima li to smisla? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Dakle, ako želim da ovo više službenika, Ja zapravo može napraviti model 435 00:21:11,750 --> 00:21:12,700 više riječi. 436 00:21:12,700 --> 00:21:14,610 Dakle, recimo da imam nešto kao, "beba, ja sam 437 00:21:14,610 --> 00:21:16,030 na vatru ", ili tako nešto. 438 00:21:16,030 --> 00:21:17,760 Tako da ima više riječi. 439 00:21:17,760 --> 00:21:20,880 I u ovom slučaju, možete vidjeti da je "beba" je Gaga, 440 00:21:20,880 --> 00:21:21,710 , ali to nije u Katy. 441 00:21:21,710 --> 00:21:24,940 I "vatra" je u Katy, ali to nije u Gaga, zar ne? 442 00:21:24,940 --> 00:21:27,200 Dakle, to je sve teže, zar ne? 443 00:21:27,200 --> 00:21:31,440 Jer čini se da je gotovo imati vezu između ta dva. 444 00:21:31,440 --> 00:21:36,980 >> Dakle, ono što morate učiniti je preuzeti neovisnost među riječima. 445 00:21:36,980 --> 00:21:41,210 Tako je u osnovi ono što to znači da Ja sam samo izračuna što je 446 00:21:41,210 --> 00:21:44,330 vjerojatnost vidjeti "bebu", što je Vjerojatnost da vide "ja" i 447 00:21:44,330 --> 00:21:46,670 "Ja", i "na" i "vatre" sve odvojeno. 448 00:21:46,670 --> 00:21:48,670 Onda sam množenjem sve njih. 449 00:21:48,670 --> 00:21:52,420 A vidim kolika je vjerojatnost vidjeti cijelu rečenicu. 450 00:21:52,420 --> 00:21:55,210 Smisla? 451 00:21:55,210 --> 00:22:00,270 >> Tako je u osnovi, ako imam samo jednu riječ, ono što želim naći je ARG max, 452 00:22:00,270 --> 00:22:05,385 što znači, ono što je klasa koja je daje mi najveću vjerojatnost? 453 00:22:05,385 --> 00:22:10,010 Dakle, ono što je klasa koja daje ja najveća vjerojatnost za 454 00:22:10,010 --> 00:22:11,940 Vjerojatnost razredu dao riječ. 455 00:22:11,940 --> 00:22:17,610 Dakle, u ovom slučaju, s obzirom Gaga "bebu." Ili Katy dao "bebu." Smisla? 456 00:22:17,610 --> 00:22:21,040 >> I upravo iz Bayes, koji jednadžba da sam pokazao, 457 00:22:21,040 --> 00:22:24,780 smo stvorili ovaj dio. 458 00:22:24,780 --> 00:22:28,750 Jedina stvar je da se vidi da vjerojatnost riječi dao 459 00:22:28,750 --> 00:22:31,370 klase mijenja ovisno o razredu, zar ne? 460 00:22:31,370 --> 00:22:34,260 Broj "Baby" s koje imam u Gaga se razlikuje od Katy. 461 00:22:34,260 --> 00:22:37,640 Vjerojatnost klasi također promjene, jer to je samo broj 462 00:22:37,640 --> 00:22:39,740 pjesama svaki od njih ima. 463 00:22:39,740 --> 00:22:43,980 >> No, vjerojatnost same riječi će biti isti za sve 464 00:22:43,980 --> 00:22:44,740 umjetnika, zar ne? 465 00:22:44,740 --> 00:22:47,150 Dakle vjerojatnost riječ je Samo, što je vjerojatnost 466 00:22:47,150 --> 00:22:49,820 gledajući tu riječ Engleski jezik? 467 00:22:49,820 --> 00:22:51,420 Dakle, to je isti za sve njih. 468 00:22:51,420 --> 00:22:55,790 Dakle, budući da je to konstanta, možemo samo ispadne to i nije stalo do njega. 469 00:22:55,790 --> 00:23:00,230 Dakle, to će biti zapravo Jednadžba tražimo. 470 00:23:00,230 --> 00:23:03,360 >> I ako imam više riječi, ja sam Još uvijek će imati prije 471 00:23:03,360 --> 00:23:04,610 Vjerojatnost ovdje. 472 00:23:04,610 --> 00:23:06,980 Jedina stvar je da sam se množenjem vjerojatnost 473 00:23:06,980 --> 00:23:08,490 sve ostale riječi. 474 00:23:08,490 --> 00:23:10,110 Tako sam množenjem sve njih. 475 00:23:10,110 --> 00:23:12,610 Smisla? 476 00:23:12,610 --> 00:23:18,440 To izgleda čudno, ali u osnovi znači, izračunati prije klase, a 477 00:23:18,440 --> 00:23:22,100 zatim pomnožite vjerojatnosti svakog od riječi koje se nalaze u toj klasi. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> I znate da je vjerojatnost Riječ obzirom klase će biti 480 00:23:29,150 --> 00:23:34,520 koliko puta ste vidjeti da je riječ u da je klasa, podijeljeni po broju 481 00:23:34,520 --> 00:23:37,020 Riječi koje su u tome klase u cjelini. 482 00:23:37,020 --> 00:23:37,990 Smisla? 483 00:23:37,990 --> 00:23:41,680 To je jednostavno tako "beba" je 2 više broj riječi koje se 484 00:23:41,680 --> 00:23:43,020 Imao sam u stihovima. 485 00:23:43,020 --> 00:23:45,130 Dakle, samo frekvencija. 486 00:23:45,130 --> 00:23:46,260 >> No, postoji jedna stvar. 487 00:23:46,260 --> 00:23:51,250 Sjećaš se kako sam se pokazuje da vjerojatnost "baby" Biti lyrics 488 00:23:51,250 --> 00:23:56,350 od Katy Perry bila je 0 samo zato Katy Perry nije imao "dijete" uopće? 489 00:23:56,350 --> 00:24:04,900 Ali to zvuči malo grubo samo jednostavno reći da tekstovi ne mogu biti iz 490 00:24:04,900 --> 00:24:10,040 umjetnik samo zato što nemaju da je riječ posebice u bilo kojem trenutku. 491 00:24:10,040 --> 00:24:13,330 >> Tako bi samo mogla reći, dobro, ako nemaju tu riječ, ja ću 492 00:24:13,330 --> 00:24:15,640 vam dati manju vjerojatnost, ali ja baš neću 493 00:24:15,640 --> 00:24:17,420 dati 0 odmah. 494 00:24:17,420 --> 00:24:21,040 Jer možda je bilo nešto poput, "Vatra, vatra, vatra, vatra", koja je 495 00:24:21,040 --> 00:24:21,990 potpuno Katy Perry. 496 00:24:21,990 --> 00:24:26,060 A onda je "beba", i to samo ide u 0 odmah, jer tamo je bio jedan 497 00:24:26,060 --> 00:24:27,250 "Beba". 498 00:24:27,250 --> 00:24:31,440 >> Tako je u osnovi ono što mi radimo je nešto zove Laplace zaglađivanje. 499 00:24:31,440 --> 00:24:36,260 A to samo znači da ja dajem Neki čak i vjerojatnost da riječi 500 00:24:36,260 --> 00:24:37,850 da ne postoje. 501 00:24:37,850 --> 00:24:43,170 Dakle, ono što radim je da kad sam izračunu to, uvijek sam dodati 1 do 502 00:24:43,170 --> 00:24:44,180 brojnik. 503 00:24:44,180 --> 00:24:48,060 Dakle, čak i ako ne postoji riječ, u U ovom slučaju, ako je to 0, ja sam još uvijek 504 00:24:48,060 --> 00:24:51,250 izračuna to kao jedan preko Ukupan broj riječi. 505 00:24:51,250 --> 00:24:55,060 Inače, sam se koliko je riječi Imam i ja dodati jedan. 506 00:24:55,060 --> 00:24:58,300 Dakle, ja računam za oba slučaja. 507 00:24:58,300 --> 00:25:00,430 Smisla? 508 00:25:00,430 --> 00:25:03,060 >> Dakle, sada idemo napraviti nešto kodiranje. 509 00:25:03,060 --> 00:25:06,440 Ja ću to učiniti vrlo brzo, ali to je samo važno da vam 510 00:25:06,440 --> 00:25:08,600 Dečki razumiju koncepte. 511 00:25:08,600 --> 00:25:13,450 Dakle, ono što mi pokušavamo učiniti je točno provesti ovo 512 00:25:13,450 --> 00:25:14,330 Ono što sam upravo rekao - 513 00:25:14,330 --> 00:25:19,110 Želim staviti tekstove iz Lady Gaga i Katy Perry. 514 00:25:19,110 --> 00:25:22,980 A program će biti u mogućnosti kažem, ako ti novi tekstovi su iz Gaga 515 00:25:22,980 --> 00:25:24,170 ili Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Smisla? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Dakle, imam ovaj program idem nazvati classify.py. 519 00:25:30,710 --> 00:25:31,970 Dakle, ovo je Python. 520 00:25:31,970 --> 00:25:34,210 To je novi programski jezik. 521 00:25:34,210 --> 00:25:38,020 To je vrlo sličan u nekim načina za C i PHP. 522 00:25:38,020 --> 00:25:43,180 To je slično, jer ako želite učiti Python nakon znajući C, to je 523 00:25:43,180 --> 00:25:46,270 stvarno nije toliko izazov samo zato Python je puno lakše 524 00:25:46,270 --> 00:25:47,520 od C, prije svega. 525 00:25:47,520 --> 00:25:49,370 I puno stvari su već provodi za vas. 526 00:25:49,370 --> 00:25:56,820 Dakle, koliko kao PHP ima funkcije koje sortirati popis, ili dodati nešto 527 00:25:56,820 --> 00:25:58,780 na niz, ili bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python ima sve one, kao dobro. 529 00:26:00,690 --> 00:26:05,960 >> Tako ću i objasniti brzo kako bismo mogli napraviti klasifikaciju 530 00:26:05,960 --> 00:26:07,860 problem ovdje. 531 00:26:07,860 --> 00:26:13,230 Dakle, recimo da je u ovom slučaju, ja imam tekstovi iz Gaga i Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Način na koji sam te tekstove je da Prva riječ stihovima je 533 00:26:21,880 --> 00:26:25,250 ime izvođača, a Ostalo je stihove. 534 00:26:25,250 --> 00:26:29,470 Dakle, recimo da imam ovaj popis u koji je prvi je stihovi Gaga. 535 00:26:29,470 --> 00:26:31,930 Dakle, ovdje sam na pravom putu. 536 00:26:31,930 --> 00:26:35,270 A sljedeći je Katy, a Također, ima stihove. 537 00:26:35,270 --> 00:26:38,040 >> Pa to je, kako se proglasiti varijabla u Pythonu. 538 00:26:38,040 --> 00:26:40,200 Vi ne morate dati vrstu podataka. 539 00:26:40,200 --> 00:26:43,150 Vi samo napišite "lyrics" vrsta kao u PHP. 540 00:26:43,150 --> 00:26:44,890 Smisla? 541 00:26:44,890 --> 00:26:47,770 >> Pa što su stvari koje moram izračunali da bi mogli izračunati 542 00:26:47,770 --> 00:26:49,360 vjerojatnosti? 543 00:26:49,360 --> 00:26:55,110 Moram izračunati "Priora" svakog od različitih 544 00:26:55,110 --> 00:26:56,710 Klase koje imam. 545 00:26:56,710 --> 00:27:06,680 Moram izračunati "posteriors", ili prilično mnogo vjerojatnosti 546 00:27:06,680 --> 00:27:12,150 svaki od različitih riječi koje Ja mogu imati za svakog umjetnika. 547 00:27:12,150 --> 00:27:17,210 Dakle, u okviru Gaga, na primjer, idem imati popis koliko puta vidim 548 00:27:17,210 --> 00:27:19,250 svaki od riječi. 549 00:27:19,250 --> 00:27:20,760 Smisla? 550 00:27:20,760 --> 00:27:25,370 >> I na kraju, ja sam samo će imati Popis pod nazivom "riječi" koja samo ide 551 00:27:25,370 --> 00:27:29,780 imati koliko riječi sam imati za svakog umjetnika. 552 00:27:29,780 --> 00:27:33,760 Tako je za Gaga, na primjer, kad pogledam na tekstove, što sam, mislim, 24 553 00:27:33,760 --> 00:27:34,750 Riječi ukupno. 554 00:27:34,750 --> 00:27:38,970 Dakle, ovaj popis samo će se morati Gaga 24, a Katy drugi broj. 555 00:27:38,970 --> 00:27:40,130 Smisla? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Tako sada, zapravo, neka je ići na kodiranje. 558 00:27:42,530 --> 00:27:45,270 Tako je u Pythonu, možete zapravo povratak hrpa različitih 559 00:27:45,270 --> 00:27:46,630 stvari iz funkcije. 560 00:27:46,630 --> 00:27:50,810 Tako ću napraviti ovu funkciju pod nazivom "uvjetna", koji se događa 561 00:27:50,810 --> 00:27:53,890 da se vrati sve te stvari, "priori" i "vjerojatnosti" i 562 00:27:53,890 --> 00:28:05,690 "riječi." Dakle "uvjetna", a to je će se zvati u "stihovima." 563 00:28:05,690 --> 00:28:11,510 >> Dakle, sada želim da se zapravo napisati ovu funkciju. 564 00:28:11,510 --> 00:28:17,750 Dakle, način na koji ja mogu napisati ovo Funkcija se ja samo definirali 565 00:28:17,750 --> 00:28:20,620 djelovati s "def." Tako sam učinio "def uvjetna, "a to je uzimanje 566 00:28:20,620 --> 00:28:28,700 "Lyrics." A što to će učiniti je, prije svega, imam Priori 567 00:28:28,700 --> 00:28:31,030 da želim izračunati. 568 00:28:31,030 --> 00:28:34,330 >> Dakle, način na koji ja mogu učiniti je stvoriti rječnik u Pythonu, koji 569 00:28:34,330 --> 00:28:37,320 je skoro ista stvar kao mljeveno meso tablica, ili je to iterativan 570 00:28:37,320 --> 00:28:40,480 polje u PHP. 571 00:28:40,480 --> 00:28:44,150 To je, kako sam proglasiti rječnika. 572 00:28:44,150 --> 00:28:53,580 A u osnovi ono što to znači je da priori od Gage je 0,5, na primjer, ako 573 00:28:53,580 --> 00:28:57,200 50% od pjesama su iz Gaga, 50% su od Katy. 574 00:28:57,200 --> 00:28:58,450 Smisla? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Dakle, moram smisliti kako izračunati Priori. 577 00:29:03,680 --> 00:29:07,120 >> Sljedećih one koje moram napraviti, također, su vjerojatnosti i riječi. 578 00:29:07,120 --> 00:29:17,100 Dakle vjerojatnosti Gaga je popis svih vjerojatnosti da sam 579 00:29:17,100 --> 00:29:19,160 imati za svaki od riječi za Gaga. 580 00:29:19,160 --> 00:29:23,880 Dakle, ako idem na vjerojatnosti Gaga "Beba", na primjer, to će mi dati 581 00:29:23,880 --> 00:29:28,750 nešto kao 2 preko 24, u tom slučaju. 582 00:29:28,750 --> 00:29:30,070 Smisla? 583 00:29:30,070 --> 00:29:36,120 Tako sam ići na "vjerojatnosti", idite na "Gaga" kantu koja ima popis svih 584 00:29:36,120 --> 00:29:40,550 Gaga se riječi, onda idem na "bebe" i vidim vjerojatnost. 585 00:29:40,550 --> 00:29:45,940 >> I na kraju sam to "Riječi" rječnik. 586 00:29:45,940 --> 00:29:53,620 Dakle, ovdje, "vjerojatnosti." A onda "riječi." Dakle, ako mi je činiti "riječi", "Gaga" 587 00:29:53,620 --> 00:29:58,330 što će se dogoditi je da je će mi dati 24, rekavši da je sam 588 00:29:58,330 --> 00:30:01,990 ima 24 riječi u tekstovima iz Gaga. 589 00:30:01,990 --> 00:30:04,110 Ima smisla? 590 00:30:04,110 --> 00:30:07,070 Pa evo, "riječi" jednako Dah-Dah-Dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Dakle, ono što ću učiniti je da ću ponoviti tijekom svake od pjesama, pa 593 00:30:12,210 --> 00:30:14,490 svaki od nizova koji Imam na popisu. 594 00:30:14,490 --> 00:30:18,040 A ja ću izračunati one stvari za svakog od kandidata. 595 00:30:18,040 --> 00:30:19,950 Ima smisla? 596 00:30:19,950 --> 00:30:21,700 Pa moram učiniti za petlju. 597 00:30:21,700 --> 00:30:26,300 >> Tako je u Pythonu što mogu učiniti je "za liniju u stihovima. "ista stvar kao i 598 00:30:26,300 --> 00:30:28,000 "Za svaki" izjavu u PHP-u. 599 00:30:28,000 --> 00:30:33,420 Sjeti se kako je, ako je to PHP sam mogao kažu "za svaki tekstove kao 600 00:30:33,420 --> 00:30:35,220 linije. "Ima smisla? 601 00:30:35,220 --> 00:30:38,900 Dakle, uzimam svaki od linije, u to slučaj, ovaj niz i iduće 602 00:30:38,900 --> 00:30:44,540 string tako da za svaku od linije što sam ću učiniti je prvo, ja ću 603 00:30:44,540 --> 00:30:49,150 podijeliti ovu liniju u popis Riječi odvojene prostore. 604 00:30:49,150 --> 00:30:53,730 >> Pa super stvar o Pythonu je da mogli bi samo Google kao "kako mogu 605 00:30:53,730 --> 00:30:58,220 Split niz u riječi? "I to je će vam reći kako to učiniti. 606 00:30:58,220 --> 00:31:04,890 I način kako to učiniti, to je samo "linija = Line.split () "i to je u osnovi 607 00:31:04,890 --> 00:31:08,640 će vam dati popis s svaka riječ ovdje. 608 00:31:08,640 --> 00:31:09,620 Ima smisla? 609 00:31:09,620 --> 00:31:15,870 Dakle, sada kada sam to učinio ja želim znati koji je pjevačica te pjesme. 610 00:31:15,870 --> 00:31:20,130 I za to sam se samo moraju dobiti Prvi element polja, zar ne? 611 00:31:20,130 --> 00:31:26,390 Dakle, ja mogu samo reći da sam "pjevačica = Linija (0) "Ima smisla? 612 00:31:26,390 --> 00:31:32,010 >> A ono što trebam učiniti onda je, prije sve, ja ću ažurirati koliko 613 00:31:32,010 --> 00:31:36,130 Riječi imam pod "Gaga". pa ja sam samo će izračunati koliko riječi sam 614 00:31:36,130 --> 00:31:38,690 ima na ovom popisu, zar ne? 615 00:31:38,690 --> 00:31:41,910 Budući da je ovo koliko riječi moram u stihovima, a ja sam samo ide 616 00:31:41,910 --> 00:31:44,120 dodajte ga u "Gaga" polja. 617 00:31:44,120 --> 00:31:47,090 Ima li to smisla? 618 00:31:47,090 --> 00:31:49,010 Nemojte previše usredotočena na sintakse. 619 00:31:49,010 --> 00:31:50,430 Više razmišljati o konceptima. 620 00:31:50,430 --> 00:31:52,400 To je najvažniji dio. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Dakle, ono što ja mogu učiniti je da je "Gaga" je Već na tom popisu, pa "ako se pjevačica u 623 00:32:00,260 --> 00:32:03,190 riječi "što znači da sam već ima riječi Gaga. 624 00:32:03,190 --> 00:32:06,640 Ja samo želim dodati dodatni Riječi i tome. 625 00:32:06,640 --> 00:32:15,810 Dakle, ono što radim ", riječi (pjevačica) + = Len (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 I onda ja samo mogu učiniti duljina linije. 627 00:32:18,250 --> 00:32:21,860 Pa kako su mnogi elementi I imaju u nizu. 628 00:32:21,860 --> 00:32:27,060 I ja imam minus 1 samo zato Prvi element polja je samo 629 00:32:27,060 --> 00:32:29,180 Pjevač i one nisu lyrics. 630 00:32:29,180 --> 00:32:31,420 Ima smisla? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Inače," to znači da želim da se zapravo umetnite Gaga u popisu. 633 00:32:35,820 --> 00:32:45,990 Pa sam to "riječi (pjevačica) = Len (line) - 1, "Oprosti. 634 00:32:45,990 --> 00:32:49,200 Dakle, jedina razlika između ta dva linija je da je ovaj jedan, to ne 635 00:32:49,200 --> 00:32:51,080 postoje još, pa sam samo ga pokreće. 636 00:32:51,080 --> 00:32:53,820 Ovaj sam zapravo dodao. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Dakle, ovo je dodajući da riječima. 639 00:32:59,480 --> 00:33:03,040 >> Sada želim dodati na Priora. 640 00:33:03,040 --> 00:33:05,480 Pa kako sam izračunati Priori? 641 00:33:05,480 --> 00:33:11,580 U priori može se izračunati po koliko puta. 642 00:33:11,580 --> 00:33:15,340 Pa koliko puta ste vidjeli da je pjevačica među svim pjevačima koji vas 643 00:33:15,340 --> 00:33:16,380 ima, zar ne? 644 00:33:16,380 --> 00:33:18,810 Tako je za Gaga i Katy Perry, u tom slučaju, ne vidim Gaga 645 00:33:18,810 --> 00:33:20,570 Jednom, Katy Perry jednom. 646 00:33:20,570 --> 00:33:23,320 >> Tako je u osnovi su priori za Gaga a za Katy Perry bi 647 00:33:23,320 --> 00:33:24,390 biti samo jedan, zar ne? 648 00:33:24,390 --> 00:33:26,500 Vi samo koliko puta Vidim umjetnik. 649 00:33:26,500 --> 00:33:28,740 Dakle, to je vrlo lako izračunati. 650 00:33:28,740 --> 00:33:34,100 Ja mogu samo nešto slično kao poput "ako Pjevačica je u Priora, "Samo ću 651 00:33:34,100 --> 00:33:38,970 dodati 1 do njihovog Priori kutiji. 652 00:33:38,970 --> 00:33:51,000 Dakle, "priori (pjeva)" + = 1 ", a zatim" drugi " Ja ću učiniti "Priori (pjevač) 653 00:33:51,000 --> 00:33:55,000 = 1. "Ima smisla? 654 00:33:55,000 --> 00:34:00,080 >> Dakle, ako to ne postoji samo sam stavio kao 1, inače sam samo dodati jedan. 655 00:34:00,080 --> 00:34:11,280 U redu, tako da sada sve što mi je ostalo za napraviti je također dodati svaki od riječi 656 00:34:11,280 --> 00:34:12,290 vjerojatnosti. 657 00:34:12,290 --> 00:34:14,889 Pa moram računati koliko puta Vidim da svaki od riječi. 658 00:34:14,889 --> 00:34:18,780 Dakle, samo moram napraviti još jedan for petlja u liniji. 659 00:34:18,780 --> 00:34:25,190 >> Dakle, prva stvar koju ću učiniti je provjerite je li pjevačica već ima 660 00:34:25,190 --> 00:34:26,969 vjerojatnosti polje. 661 00:34:26,969 --> 00:34:31,739 Tako da provjeravam ako pjevač ne imaju vjerojatnosti niz, ja sam samo 662 00:34:31,739 --> 00:34:34,480 će započeti jedan za njih. 663 00:34:34,480 --> 00:34:36,400 To nije ni niz, ispričavam se, to je rječnik. 664 00:34:36,400 --> 00:34:43,080 Dakle vjerojatnosti pjevač ide biti otvoren rječnik, pa sam 665 00:34:43,080 --> 00:34:45,830 Samo inicijalizacije riječnik za to. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> I sad sam zapravo može učiniti za petlju izračunati svaki od riječi ' 668 00:34:58,330 --> 00:35:00,604 vjerojatnosti. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Dakle, ono što ja mogu učiniti je za petlju. 671 00:35:04,160 --> 00:35:06,590 Tako ću i to ponoviti preko polja. 672 00:35:06,590 --> 00:35:15,320 Dakle, način na koji to mogu učiniti u Pythonu je "Jer ja u rasponu." Od 1. 673 00:35:15,320 --> 00:35:19,200 jer želim početi u sekundi elementa, jer prvi je 674 00:35:19,200 --> 00:35:20,260 Naziv pjevačica. 675 00:35:20,260 --> 00:35:24,990 Dakle, s jedne do duljina linije. 676 00:35:24,990 --> 00:35:29,760 I kad ja to u rasponu zapravo ići od kao što je ovdje od 1 do LEN-u 677 00:35:29,760 --> 00:35:30,740 crta minus 1. 678 00:35:30,740 --> 00:35:33,810 Tako je to već radi tu stvar radiš n minus 1 za polja koja je vrlo 679 00:35:33,810 --> 00:35:35,500 zgodan. 680 00:35:35,500 --> 00:35:37,850 Ima smisla? 681 00:35:37,850 --> 00:35:42,770 >> Dakle, za svaku od njih, ono što ću to je, baš kao iu onom drugom, 682 00:35:42,770 --> 00:35:50,320 Idem provjeriti da li je riječ u ovom položaj u liniji je već u 683 00:35:50,320 --> 00:35:51,570 vjerojatnosti. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 A onda, kao što sam rekao ovdje, vjerojatnosti riječi, kao u sam stavio 686 00:35:57,260 --> 00:35:58,400 "vjerojatnosti (pjevačica)". 687 00:35:58,400 --> 00:35:59,390 Dakle ime pjevača. 688 00:35:59,390 --> 00:36:03,450 Dakle, ako je već u "Probabilit (pjevačica)", to znači da sam 689 00:36:03,450 --> 00:36:11,960 želite dodati 1 do njega, pa ću se učiniti "vjerojatnosti (pjevač)", a 690 00:36:11,960 --> 00:36:14,100 Riječ je nazvan "linija (I)". 691 00:36:14,100 --> 00:36:22,630 Ja ću dodati jedan i "drugo" ja sam samo će ga započeti do 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Ima smisla? 695 00:36:28,420 --> 00:36:30,180 >> Dakle, sam izračunao sve polja. 696 00:36:30,180 --> 00:36:36,580 Dakle, sada sve to moram učiniti za ovo je samo "vratiti Priori, 697 00:36:36,580 --> 00:36:43,230 vjerojatnosti i riječi. "Idemo vidjeti ako postoje bilo, u redu. 698 00:36:43,230 --> 00:36:45,690 Čini se sve radi do sada. 699 00:36:45,690 --> 00:36:46,900 Dakle, to ima smisla? 700 00:36:46,900 --> 00:36:47,750 Na neki način? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Tako da sada imam sve vjerojatnosti. 703 00:36:51,980 --> 00:36:55,100 Tako sada jedino što mi je preostalo je samo da ima tu stvar da 704 00:36:55,100 --> 00:36:58,650 izračunava produkt svih vjerojatnosti kad dobijem stihove. 705 00:36:58,650 --> 00:37:06,270 >> Dakle, recimo da želim danas nazivamo ova funkcija "klasificiraju ()" i 706 00:37:06,270 --> 00:37:08,880 Ono što je funkcija traje je samo argument. 707 00:37:08,880 --> 00:37:13,170 Recimo da "Baby, ja sam na vatru", a to je će shvatiti što je 708 00:37:13,170 --> 00:37:14,490 Vjerojatnost da je to Gaga? 709 00:37:14,490 --> 00:37:16,405 Kolika je vjerojatnost da je ovo Katie? 710 00:37:16,405 --> 00:37:19,690 Zvuči dobro? 711 00:37:19,690 --> 00:37:25,750 Tako ću i to morati napraviti Nova funkcija pod nazivom "klasificiraju ()" i 712 00:37:25,750 --> 00:37:29,180 to će potrajati neko lyrics kao dobro. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 A osim toga stihovima i ja moraju poslati Priori, 715 00:37:36,160 --> 00:37:37,700 vjerojatnosti i riječi. 716 00:37:37,700 --> 00:37:44,000 Tako da ću poslati lyrics, priori, vjerojatnosti, riječi. 717 00:37:44,000 --> 00:37:51,840 >> Dakle, ovo je uzimanje lyrics, priori, vjerojatnosti, riječi. 718 00:37:51,840 --> 00:37:53,530 Dakle, što učiniti? 719 00:37:53,530 --> 00:37:57,180 To je u osnovi će proći kroz sve su mogući kandidati koji 720 00:37:57,180 --> 00:37:58,510 imaju kao pjevač. 721 00:37:58,510 --> 00:37:59,425 A gdje su oni kandidati? 722 00:37:59,425 --> 00:38:01,020 Oni su u Priora, zar ne? 723 00:38:01,020 --> 00:38:02,710 Dakle, imam sve one postoje. 724 00:38:02,710 --> 00:38:07,870 Tako da ću imati rječnik od svih mogućih kandidata. 725 00:38:07,870 --> 00:38:14,220 A onda za svakog kandidata u priori, pa to znači da će se 726 00:38:14,220 --> 00:38:17,740 biti Gaga, Katie, ako sam imao više to će biti više. 727 00:38:17,740 --> 00:38:20,410 Ja ću početi izračuna ta vjerojatnost. 728 00:38:20,410 --> 00:38:28,310 Vjerojatnost kao što smo vidjeli u PowerPoint je prijašnji puta 729 00:38:28,310 --> 00:38:30,800 Produkt svake ostale vjerojatnosti. 730 00:38:30,800 --> 00:38:32,520 >> Dakle, ja mogu učiniti isto ovdje. 731 00:38:32,520 --> 00:38:36,330 Ja samo mogu učiniti je vjerojatnost u početku samo prije. 732 00:38:36,330 --> 00:38:40,340 Tako priori kandidata. 733 00:38:40,340 --> 00:38:40,870 Zar ne? 734 00:38:40,870 --> 00:38:45,360 A sada moram ponoviti preko svega Riječi koje sam u stihovima se 735 00:38:45,360 --> 00:38:48,820 mogućnosti dodati vjerojatnost za svaku od njih, u redu? 736 00:38:48,820 --> 00:38:57,900 Dakle, "za riječ u stihovima" što ću učiniti je, ako je riječ u 737 00:38:57,900 --> 00:39:01,640 "vjerojatnosti (kandidat)", koji je znači da je riječ koja 738 00:39:01,640 --> 00:39:03,640 kandidat ima u svojim stihovima - 739 00:39:03,640 --> 00:39:05,940 primjerice, "beba" za Gaga - 740 00:39:05,940 --> 00:39:11,710 ono što ću učiniti je da Vjerojatnost će se multiplicirati 741 00:39:11,710 --> 00:39:22,420 za 1 plus vjerojatnosti kandidat za tu riječ. 742 00:39:22,420 --> 00:39:25,710 I to se zove "Riječ". 743 00:39:25,710 --> 00:39:32,440 To podijeljena broju riječi da imam za tog kandidata. 744 00:39:32,440 --> 00:39:37,450 Ukupan broj riječi koje imam za pjevača da gledam. 745 00:39:37,450 --> 00:39:40,290 >> "Else". to znači da je nova riječ pa to bi bilo kao na primjer 746 00:39:40,290 --> 00:39:41,860 "Požar" za Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Dakle, ja samo želim napraviti jedan više "Riječ (kandidata)". 748 00:39:45,760 --> 00:39:47,710 Dakle, ja ne želim da se taj pojam ovdje. 749 00:39:47,710 --> 00:39:50,010 >> Dakle, to će biti u osnovi kopiranje i lijepljenje. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Ali ja ću izbrisati taj dio. 752 00:39:56,000 --> 00:39:57,610 Pa to samo će biti 1. preko toga. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Zvuči dobro? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 I sad na kraju, samo ću ispisati ime kandidata i 757 00:40:09,700 --> 00:40:15,750 vjerojatnost da imate od ima S na svojim stihovima. 758 00:40:15,750 --> 00:40:16,200 Ima smisla? 759 00:40:16,200 --> 00:40:18,390 I ja zapravo uopće ne potrebno rječnika. 760 00:40:18,390 --> 00:40:19,510 Ima smisla? 761 00:40:19,510 --> 00:40:21,810 >> Dakle, da vidimo je li to zapravo radi. 762 00:40:21,810 --> 00:40:24,880 Dakle, ako sam pokrenuti ovaj, to nije posao. 763 00:40:24,880 --> 00:40:26,130 Čekaj jednu sekundu. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Riječi (kandidat)", "riječi (kandidat)", to je 766 00:40:31,720 --> 00:40:33,750 Ime polja. 767 00:40:33,750 --> 00:40:41,435 OK Dakle, ona kaže da je neki bug za kandidata u Priora. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Dopustite mi samo odmarati malo. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Pokušajmo. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Dakle, to daje Katy Perry ove je vjerojatnost da se to puta 10 na 774 00:40:58,710 --> 00:41:02,200 minus 7, a Gaga je to puta 10 na minus 6. 775 00:41:02,200 --> 00:41:05,610 Pa vidite što pokazuje da je Gaga ima veću vjerojatnost. 776 00:41:05,610 --> 00:41:09,260 Dakle, "Baby, ja sam na Fire" je Vjerojatno Gaga pjesmu. 777 00:41:09,260 --> 00:41:10,580 Ima smisla? 778 00:41:10,580 --> 00:41:12,030 Dakle, to je ono što smo učinili. 779 00:41:12,030 --> 00:41:16,010 >> Ovaj broj će biti objavljena na internetu, tako da dečki mogu to provjeriti. 780 00:41:16,010 --> 00:41:20,720 Možda koristite neki od nje jer ako želite napraviti projekt ili nešto slično. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 To je bio samo pokazati ono računalna 783 00:41:25,930 --> 00:41:27,230 lingvistika kod izgleda. 784 00:41:27,230 --> 00:41:33,040 Ali, sad idemo na više visoka razina stvari. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Tako su drugi problemi I govori o - 787 00:41:35,150 --> 00:41:37,550 Problem segmentacije je prvi od njih. 788 00:41:37,550 --> 00:41:40,820 Pa imate ovdje Japance. 789 00:41:40,820 --> 00:41:43,420 I onda vidite da je nema mjesta. 790 00:41:43,420 --> 00:41:49,110 Dakle, to je u osnovi znači da je Vrh stolici, zar ne? 791 00:41:49,110 --> 00:41:50,550 Govoriš japanski? 792 00:41:50,550 --> 00:41:52,840 To je vrh stolici, zar ne? 793 00:41:52,840 --> 00:41:54,480 >> STUDENT: Ne znam što se kanji više ne postoji. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Freitas: Prošlo [SPEAKING japanskih] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Dakle, to u osnovi znači stolica vrhu. 797 00:42:00,960 --> 00:42:03,620 Dakle, ako ste morali staviti razmak to će biti ovdje. 798 00:42:03,620 --> 00:42:05,970 I onda imate [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Koji u osnovi znači da je gospodin Ueda. 800 00:42:09,040 --> 00:42:13,180 A vidiš da je "Ueda" i imate prostor i onda "San". Pa vidite da je 801 00:42:13,180 --> 00:42:15,470 Ovdje ste "Ue" je kao i sama po sebi. 802 00:42:15,470 --> 00:42:17,750 I ovdje ima karakter pokraj njega. 803 00:42:17,750 --> 00:42:21,720 >> Dakle, to nije kao u tim jezicima likovi što znači riječ je tako da 804 00:42:21,720 --> 00:42:23,980 samo staviti puno prostora. 805 00:42:23,980 --> 00:42:25,500 Likovi odnose jedni prema drugima. 806 00:42:25,500 --> 00:42:28,680 I oni mogu biti zajedno kao dvije, tri, jedan. 807 00:42:28,680 --> 00:42:34,520 Tako da zapravo stvoriti nekakav o način stavljanja tih prostora. 808 00:42:34,520 --> 00:42:38,850 >> A to je da kad god se Podaci iz tih azijskih jezika, 809 00:42:38,850 --> 00:42:40,580 sve dolazi unsegmented. 810 00:42:40,580 --> 00:42:45,940 Zato što nitko tko piše japanski ili kineski piše razmacima. 811 00:42:45,940 --> 00:42:48,200 Uvijek kada pišete kineski, Japanski li samo napisati sve 812 00:42:48,200 --> 00:42:48,710 bez razmaka. 813 00:42:48,710 --> 00:42:52,060 To nema ni smisla staviti prostore. 814 00:42:52,060 --> 00:42:57,960 Dakle, kada ste dobili podatke iz neke Istočnoazijske jezik, ako želite 815 00:42:57,960 --> 00:43:00,760 zapravo učiniti nešto s tim morate segmentu prvi. 816 00:43:00,760 --> 00:43:05,130 >> Pomišljati na primjeru stihovi bez razmaka. 817 00:43:05,130 --> 00:43:07,950 Dakle, jedini tekstovi koje imate će biti kazne, zar ne? 818 00:43:07,950 --> 00:43:09,470 Odvojene razdobljima. 819 00:43:09,470 --> 00:43:13,930 No, tada ima samo kazna ne stvarno pomoći na davanje informacija 820 00:43:13,930 --> 00:43:17,760 tko su ti tekstovi su strane. 821 00:43:17,760 --> 00:43:18,120 Zar ne? 822 00:43:18,120 --> 00:43:20,010 Tako da bi trebao stavlja prostore na prvom mjestu. 823 00:43:20,010 --> 00:43:21,990 Pa kako si to mogao učiniti? 824 00:43:21,990 --> 00:43:24,920 >> Pa onda dolazi ideja o jeziku Model koji je nešto stvarno 825 00:43:24,920 --> 00:43:26,870 važno za računalstvo jezikoslovlje. 826 00:43:26,870 --> 00:43:32,790 Dakle Model jezik je u osnovi tablica vjerojatnosti da predstave 827 00:43:32,790 --> 00:43:36,260 Prije svega što je vjerojatnost vlasništvo riječ u jeziku? 828 00:43:36,260 --> 00:43:39,590 Tako pokazuje koliko često riječ. 829 00:43:39,590 --> 00:43:43,130 I onda se također pokazuje odnos između riječi u rečenici. 830 00:43:43,130 --> 00:43:51,500 >> Dakle, glavna ideja je, ako je stranac došao tebi i rekao rečenicu za 831 00:43:51,500 --> 00:43:55,600 li, kolika je vjerojatnost da je, za Na primjer, "ovo je moja sestra [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 je rečenica koja osoba rekla? 833 00:43:57,480 --> 00:44:00,380 Dakle, očito neke rečenice su češći od drugih. 834 00:44:00,380 --> 00:44:04,450 Na primjer, "dobro jutro", ili "dobar noć "ili" hej tamo "je mnogo više 835 00:44:04,450 --> 00:44:08,260 zajedničkog nego većina rečenica da imamo engleski. 836 00:44:08,260 --> 00:44:11,060 Pa zašto su one rečenice češće? 837 00:44:11,060 --> 00:44:14,060 >> Prije svega, to je zato što imate Riječi koje su češće. 838 00:44:14,060 --> 00:44:20,180 Tako, na primjer, ako kažem, pas velika, a pas je ogroman, što 839 00:44:20,180 --> 00:44:23,880 obično se vjerojatno čuti pas je velika češće jer je "velika" je više 840 00:44:23,880 --> 00:44:27,260 česta na engleskom nego "ogroman." Dakle, jedan od 841 00:44:27,260 --> 00:44:30,100 stvari je riječ frekvencije. 842 00:44:30,100 --> 00:44:34,490 >> Druga stvar koja je jako važno je samo 843 00:44:34,490 --> 00:44:35,490 redoslijed riječi. 844 00:44:35,490 --> 00:44:39,500 Dakle, to je uobičajeno reći "mačka je unutar okvira. ", ali obično ne 845 00:44:39,500 --> 00:44:44,250 pogledajte u "kutiju iznutra je mačka." tako vidiš da postoji neki značaj 846 00:44:44,250 --> 00:44:46,030 u redoslijedu riječi. 847 00:44:46,030 --> 00:44:50,160 Vi ne možete samo reći da su ta dva rečenice imaju istu vjerojatnost 848 00:44:50,160 --> 00:44:53,010 samo zato što imaju iste riječi. 849 00:44:53,010 --> 00:44:55,550 Vi zapravo morati brinuti o bi kao dobro. 850 00:44:55,550 --> 00:44:57,650 Smisla? 851 00:44:57,650 --> 00:44:59,490 >> Dakle, što nam je činiti? 852 00:44:59,490 --> 00:45:01,550 Dakle, ono što ja mogu pokušati doći? 853 00:45:01,550 --> 00:45:04,400 Pokušavam dobiti ono što smo zvati n-gram modela. 854 00:45:04,400 --> 00:45:09,095 Dakle, n-gram modeli osnovi pretpostavljaju da za svaku riječ koja 855 00:45:09,095 --> 00:45:10,960 imate u rečenici. 856 00:45:10,960 --> 00:45:15,020 To je vjerojatnost da ima Riječ tamo ne ovisi samo o 857 00:45:15,020 --> 00:45:18,395 frekvencija te riječi u jeziku, ali i na riječi koje 858 00:45:18,395 --> 00:45:19,860 su ga okružuje. 859 00:45:19,860 --> 00:45:25,810 >> Tako na primjer, obično kad vidite nešto slično ili na si 860 00:45:25,810 --> 00:45:28,040 Vjerojatno će se vidjeti imenica, nakon njega, zar ne? 861 00:45:28,040 --> 00:45:31,750 Jer kada imate prijedloga Obično to traje imenicu nakon njega. 862 00:45:31,750 --> 00:45:35,540 Ili, ako imate glagol koji je prijelazni što se obično događa da 863 00:45:35,540 --> 00:45:36,630 imaju imenicu izraz. 864 00:45:36,630 --> 00:45:38,780 Dakle, to će imati imenicu negdje oko njega. 865 00:45:38,780 --> 00:45:44,950 >> Dakle, u osnovi, što to je da je razmatra mogućnost da se pojave 866 00:45:44,950 --> 00:45:47,960 riječi jedni pored drugih, kada ti si izračuna 867 00:45:47,960 --> 00:45:49,050 vjerojatnost kazne. 868 00:45:49,050 --> 00:45:50,960 I to je ono jezik Model je u osnovi. 869 00:45:50,960 --> 00:45:54,620 Samo kažem ono što je vjerojatnost da ima određenu 870 00:45:54,620 --> 00:45:57,120 rečenica u jeziku? 871 00:45:57,120 --> 00:45:59,110 Pa zašto je to korisno, zapravo? 872 00:45:59,110 --> 00:46:02,390 A prije svega, ono što je N-gram model, a zatim? 873 00:46:02,390 --> 00:46:08,850 >> Tako N-gram model koji znači svaka riječ ovisi o 874 00:46:08,850 --> 00:46:12,700 Sljedeći N minus 1 riječi. 875 00:46:12,700 --> 00:46:18,150 Dakle, u osnovi, to znači da ako gledam, Na primjer, u CS50 TF kada 876 00:46:18,150 --> 00:46:21,500 Ja sam izračuna vjerojatnost rečenica, vi ćete biti kao " 877 00:46:21,500 --> 00:46:25,280 vjerojatnost da je riječ "" puta vjerojatnost da " 878 00:46:25,280 --> 00:46:31,720 CS50 "puta vjerojatnost da "CS50 TF." Dakle, u osnovi, ja brojati 879 00:46:31,720 --> 00:46:35,720 sve moguće načine to istezanje. 880 00:46:35,720 --> 00:46:41,870 >> I onda obično kad to radite, kao u projektu, stavite N da bude 881 00:46:41,870 --> 00:46:42,600 niska vrijednost. 882 00:46:42,600 --> 00:46:45,930 Dakle, obično imaju bigrams ili trigrame. 883 00:46:45,930 --> 00:46:51,090 Tako da samo brojati dva riječima, Skupina od dvije riječi, ili tri riječi, 884 00:46:51,090 --> 00:46:52,620 Samo za poteškoće u izvedbi. 885 00:46:52,620 --> 00:46:56,395 A i zato što možda ako imate nešto poput "The CS50 TF." Kada 886 00:46:56,395 --> 00:47:00,510 imaju "TF", to je vrlo važno da "CS50" je pored njega, zar ne? 887 00:47:00,510 --> 00:47:04,050 Te dvije stvari su obično jedna pored druge. 888 00:47:04,050 --> 00:47:06,410 >> Ako mislite da "TF", to je vjerojatno će imati ono što 889 00:47:06,410 --> 00:47:07,890 Klasa to TF'ing za. 890 00:47:07,890 --> 00:47:11,330 Također "" je stvarno važno za CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Ali, ako imate nešto poput "The CS50 TF otišao u razred i dali svoje 892 00:47:14,570 --> 00:47:20,060 studenti malo slatkiša. "" Candy "i" " nemaju veze stvarno, zar ne? 893 00:47:20,060 --> 00:47:23,670 Oni su tako daleko jedni od drugih da to zapravo ne smeta što 894 00:47:23,670 --> 00:47:25,050 Riječi imate. 895 00:47:25,050 --> 00:47:31,210 >> Dakle, obavljajući Bigram ili TRIGRAM, to samo znači da ste ograničavajući 896 00:47:31,210 --> 00:47:33,430 sebi da nekim riječima koji su oko. 897 00:47:33,430 --> 00:47:35,810 Smisla? 898 00:47:35,810 --> 00:47:40,630 Dakle, ako želite napraviti segmentaciju, Uglavnom, ono što želite učiniti je vidjeti 899 00:47:40,630 --> 00:47:44,850 ono što su svi mogući načini da se možete segment rečenicu. 900 00:47:44,850 --> 00:47:49,090 >> Tako da vidite što je vjerojatnost svaki od tih rečenica 901 00:47:49,090 --> 00:47:50,880 postoje u jeziku? 902 00:47:50,880 --> 00:47:53,410 Dakle, ono što trebate učiniti je kao, dobro, neka ja pokušati staviti prostor ovdje. 903 00:47:53,410 --> 00:47:55,570 Dakle stavite prostor postoji a vi vidite što je 904 00:47:55,570 --> 00:47:57,590 Vjerojatnost toj rečenici? 905 00:47:57,590 --> 00:48:00,240 Onda ste kao, u redu, možda koji nije bio tako dobar. 906 00:48:00,240 --> 00:48:03,420 Zato sam stavio prostor postoji i prostor postoji, a vi izračunajte 907 00:48:03,420 --> 00:48:06,240 Vjerojatnost sad, i vidjet ćete da to je veća vjerojatnost. 908 00:48:06,240 --> 00:48:12,160 >> Dakle, to je algoritam zove TANGO segmentacija algoritam, koji je 909 00:48:12,160 --> 00:48:14,990 zapravo nešto što bi bilo stvarno super za projekt, koji je 910 00:48:14,990 --> 00:48:20,860 osnovi traje unsegmented tekst koji može biti japanski ili kineski ili možda 911 00:48:20,860 --> 00:48:26,080 Engleski bez razmaka i pokušava staviti razmaci između riječi i to ne 912 00:48:26,080 --> 00:48:29,120 da je korištenje jezičnog modela i pokušavajući vidjeti što je najviša 913 00:48:29,120 --> 00:48:31,270 Vjerojatnost možete dobiti. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Dakle, ovo je segmentacije. 916 00:48:33,800 --> 00:48:35,450 >> Sada sintakse. 917 00:48:35,450 --> 00:48:40,940 Dakle, sintaksa se koristi za toliko stvari upravo sada. 918 00:48:40,940 --> 00:48:44,880 Tako je za Graf Traži, za Siri za skoro sve vrste prirodnih 919 00:48:44,880 --> 00:48:46,490 Jezična obrada imate. 920 00:48:46,490 --> 00:48:49,140 Pa što su važni stvari o sintaksi? 921 00:48:49,140 --> 00:48:52,390 Dakle, rečenica općenito imaju ono što mi zovemo sastojke. 922 00:48:52,390 --> 00:48:57,080 Koje su vrste poput skupine riječi koje imaju funkciju u rečenici. 923 00:48:57,080 --> 00:49:02,220 I doista ne mogu biti jedan od drugoga. 924 00:49:02,220 --> 00:49:07,380 >> Dakle, ako kažem, na primjer, "Lauren voli Milo. "Znam da je" Lauren "je 925 00:49:07,380 --> 00:49:10,180 sastavni i zatim "ljubavi Milo "je također još jedan. 926 00:49:10,180 --> 00:49:16,860 Zato što se ne može reći kao što su "Lauren Milo voli "imaju isto značenje. 927 00:49:16,860 --> 00:49:18,020 To neće imati isto značenje. 928 00:49:18,020 --> 00:49:22,500 Ili ja ne mogu reći kao "Mila Lauren voli. "Nije sve ima ista 929 00:49:22,500 --> 00:49:25,890 što znači da radi. 930 00:49:25,890 --> 00:49:31,940 >> Tako su dvije važnije stvari u vezi sintaksa su leksičke vrste koja je 931 00:49:31,940 --> 00:49:35,390 osnovi funkcija vam da ima za riječi po sebi. 932 00:49:35,390 --> 00:49:39,180 Dakle, morate znati da je "Lauren" i "Milo" su imenice. 933 00:49:39,180 --> 00:49:41,040 "Ljubav" je glagol. 934 00:49:41,040 --> 00:49:45,660 I druga važna stvar je da su oni Izrazi kojima vrste. 935 00:49:45,660 --> 00:49:48,990 Pa znate da "voli Milo" je zapravo verbalni izraz. 936 00:49:48,990 --> 00:49:52,390 Dakle, kad kažem "Lauren" Znam da Lauren se nešto radi. 937 00:49:52,390 --> 00:49:53,620 Što ona radi? 938 00:49:53,620 --> 00:49:54,570 Ona uživa u Milo. 939 00:49:54,570 --> 00:49:56,440 Dakle, to je cijela stvar. 940 00:49:56,440 --> 00:50:01,640 No, njegovi sastavni dijelovi imenica i glagol. 941 00:50:01,640 --> 00:50:04,210 Ali zajedno, oni čine glagol izraz. 942 00:50:04,210 --> 00:50:08,680 >> Dakle, što možemo zapravo učiniti s računalno jezikoslovlje? 943 00:50:08,680 --> 00:50:13,810 Dakle, ako imam nešto za primjer "prijatelji Allison." Vidim li ja samo 944 00:50:13,810 --> 00:50:17,440 nije sintaktička stablo bih znati da "Prijatelji" je imenica izraz je 945 00:50:17,440 --> 00:50:21,480 imenica, a zatim "od Allison" je prijedložni izraz u kojem se "za" je 946 00:50:21,480 --> 00:50:24,810 prijedlog i "Allison" je imenica. 947 00:50:24,810 --> 00:50:30,910 Što sam mogao učiniti je naučiti moje računalo da kad imam imenske jedan i 948 00:50:30,910 --> 00:50:33,080 onda prijedložni izraz. 949 00:50:33,080 --> 00:50:39,020 Dakle, u ovom slučaju, "prijatelji", a zatim "od Milo "Znam da to znači da 950 00:50:39,020 --> 00:50:43,110 NP2, druga, posjeduje NP1. 951 00:50:43,110 --> 00:50:47,680 >> Dakle, ja mogu stvoriti nekakav odnos, neka vrsta funkcije za to. 952 00:50:47,680 --> 00:50:52,370 Dakle, kad god vidim tu strukturu, koja podudara se točno s "prijateljima 953 00:50:52,370 --> 00:50:56,030 Allison, "Znam da je Allison posjeduje prijatelje. 954 00:50:56,030 --> 00:50:58,830 Pa prijatelji su nešto da Allison ima. 955 00:50:58,830 --> 00:50:59,610 Ima smisla? 956 00:50:59,610 --> 00:51:01,770 Dakle, to je u osnovi ono što Graf pretrage radi. 957 00:51:01,770 --> 00:51:04,360 To samo stvara pravila za puno stvari. 958 00:51:04,360 --> 00:51:08,190 Tako "prijatelji Allison", "Moji prijatelji koji žive u Cambridgeu "," Moji prijatelji 959 00:51:08,190 --> 00:51:12,970 tko ide na Harvard. "To stvara pravila za sve te stvari. 960 00:51:12,970 --> 00:51:14,930 >> Sada strojno prevođenje. 961 00:51:14,930 --> 00:51:18,850 Dakle, strojno prevođenje je također nešto statistički. 962 00:51:18,850 --> 00:51:21,340 I doista, ako se uključe u računalno jezikoslovlje, puno 963 00:51:21,340 --> 00:51:23,580 Vaše stvari će biti statistike. 964 00:51:23,580 --> 00:51:26,670 Dakle, kao što sam bio događaj primjer s puno vjerojatnosti da sam bio 965 00:51:26,670 --> 00:51:30,540 obračuna, a zatim ste dobili na to Vrlo mali broj da je konačna 966 00:51:30,540 --> 00:51:33,180 vjerojatnost, a to je ono što daje odgovor. 967 00:51:33,180 --> 00:51:37,540 Stroj za prijevod također koristi Statistički model. 968 00:51:37,540 --> 00:51:44,790 A ako želite da razmišljaju o stroju prijevod na najjednostavniji mogući 969 00:51:44,790 --> 00:51:48,970 način, što možete misliti samo prevesti riječ po riječ, zar ne? 970 00:51:48,970 --> 00:51:52,150 >> Kada ste učenje jezika za prvi put, to je ono što se obično 971 00:51:52,150 --> 00:51:52,910 što učiniti, zar ne? 972 00:51:52,910 --> 00:51:57,050 Ukoliko želite li prevesti rečenicu na hrvatskom jeziku, na jeziku 973 00:51:57,050 --> 00:52:00,060 učite, obično prvi put, što prevesti svaki od riječi 974 00:52:00,060 --> 00:52:03,180 pojedinačno, a potom pokušate staviti riječi na svoje mjesto. 975 00:52:03,180 --> 00:52:07,100 >> Dakle, ako sam htio prevesti ovo, [SPEAKING PORTUGALSKI] 976 00:52:07,100 --> 00:52:10,430 što znači "bijela mačka je pobjegao." Ako sam htjela da ga prevesti iz 977 00:52:10,430 --> 00:52:13,650 Portugalski na engleski, što sam mogao učiniti je, prvi put, samo sam 978 00:52:13,650 --> 00:52:14,800 prevesti riječ po riječ. 979 00:52:14,800 --> 00:52:20,570 Dakle, "o" je "," "Gata", "Mačka" "Branco", "bijeli", a zatim "fugio" je 980 00:52:20,570 --> 00:52:21,650 "Pobjegao." 981 00:52:21,650 --> 00:52:26,130 >> Pa onda moram sve riječi ovdje, , ali oni nisu u redu. 982 00:52:26,130 --> 00:52:29,590 To je kao "mačka bijela pobjegla" što je negramatički. 983 00:52:29,590 --> 00:52:34,490 Pa, onda ja mogu imati drugi korak, koji će biti pronalaženje idealne 984 00:52:34,490 --> 00:52:36,610 položaj za svaku od riječi. 985 00:52:36,610 --> 00:52:40,240 Dakle, ja znam da sam zapravo žele imati "Bijela mačka" umjesto "mačka bijela." Tako 986 00:52:40,240 --> 00:52:46,050 ono što ja mogu učiniti je, većina klasičnog algoritma će biti stvoriti sve 987 00:52:46,050 --> 00:52:49,720 moguće permutacije Riječi, pozicija. 988 00:52:49,720 --> 00:52:53,300 A onda vidjeti koje ima Najveća vjerojatnost prema 989 00:52:53,300 --> 00:52:54,970 mom jeziku modela. 990 00:52:54,970 --> 00:52:58,390 I onda kad ne mogu naći onaj koji ima najviša je vjerojatnost koja je 991 00:52:58,390 --> 00:53:01,910 Vjerojatno "bijela mačka pobjegla" to je moj prijevod. 992 00:53:01,910 --> 00:53:06,710 >> A to je jednostavan način objašnjavanja Kako puno strojnog prevođenja 993 00:53:06,710 --> 00:53:07,910 algoritmi rade. 994 00:53:07,910 --> 00:53:08,920 Ima li to smisla? 995 00:53:08,920 --> 00:53:12,735 To je također nešto što je stvarno uzbudljivo da ti dečki se možda istražiti za 996 00:53:12,735 --> 00:53:13,901 Završni projekt, je li? 997 00:53:13,901 --> 00:53:15,549 >> UČENIK: Pa, rekao si da je naivan način, tako što je 998 00:53:15,549 --> 00:53:17,200 ne-naivni način? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Freitas: ne naivan način? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Dakle, prva stvar koja je loše ova metoda je da sam samo preveo 1002 00:53:22,860 --> 00:53:24,330 Riječi, riječ po riječ. 1003 00:53:24,330 --> 00:53:30,570 Ali ponekad imate riječi koje može imati više prijevoda. 1004 00:53:30,570 --> 00:53:32,210 Ja ću pokušati razmišljati nečega. 1005 00:53:32,210 --> 00:53:37,270 Na primjer, "manga" u portugalskom konzervi ili biti "break" ili "grlo." Tako 1006 00:53:37,270 --> 00:53:40,450 kada pokušavate prevesti riječ riječju, to bi moglo biti dajući vam 1007 00:53:40,450 --> 00:53:42,050 nešto što nema smisla. 1008 00:53:42,050 --> 00:53:45,770 >> Tako da zapravo žele pogledate sve mogući prijevodi 1009 00:53:45,770 --> 00:53:49,840 riječi i vidjeti, prije svega, ono što je red. 1010 00:53:49,840 --> 00:53:52,000 Razgovarali smo o permutating stvari? 1011 00:53:52,000 --> 00:53:54,150 Da biste vidjeli sve moguće zapovijedi i odaberite onaj s najviše 1012 00:53:54,150 --> 00:53:54,990 Vjerojatnost? 1013 00:53:54,990 --> 00:53:57,860 Također možete odabrati sve je moguće prijevodi za svaki 1014 00:53:57,860 --> 00:54:00,510 Riječ i onda vidjeti - 1015 00:54:00,510 --> 00:54:01,950 u kombinaciji s permutacija - 1016 00:54:01,950 --> 00:54:03,710 koji ima najveću vjerojatnost. 1017 00:54:03,710 --> 00:54:08,590 >> Osim toga, također možete pogledati ne samo riječi, ali fraza. 1018 00:54:08,590 --> 00:54:11,700 tako da možete analizirati odnose između riječi i zatim se 1019 00:54:11,700 --> 00:54:13,210 bolji prijevod. 1020 00:54:13,210 --> 00:54:16,690 I nešto drugo, tako da ovaj semestar Ja zapravo radi istraživanja u 1021 00:54:16,690 --> 00:54:19,430 Kineski-Engleski strojno prevođenje, pa prevođenja s 1022 00:54:19,430 --> 00:54:20,940 Kineski na engleski. 1023 00:54:20,940 --> 00:54:26,760 >> I nešto što činimo je, osim pomoću Statistički model, što je samo 1024 00:54:26,760 --> 00:54:30,570 gledajući vjerojatnosti gledanja neki položaj u rečenici, ja sam 1025 00:54:30,570 --> 00:54:35,360 zapravo je također dodao neke sintaksu mom Model, kaže, oh, ako vidim ovakvu 1026 00:54:35,360 --> 00:54:39,420 gradnje, to je ono što želim to promijeniti kada sam prevesti. 1027 00:54:39,420 --> 00:54:43,880 Dakle, možete dodati i neku vrstu element sintakse napraviti 1028 00:54:43,880 --> 00:54:47,970 prijevod učinkovitiji i preciznije. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Pa kako možeš početi, ako želite učiniti nešto u Computational 1031 00:54:51,010 --> 00:54:51,980 lingvistika? 1032 00:54:51,980 --> 00:54:54,560 >> Prvo, možete odabrati projekt koji uključuje jezika. 1033 00:54:54,560 --> 00:54:56,310 Dakle, postoji toliko vani. 1034 00:54:56,310 --> 00:54:58,420 Ima toliko stvari koje možete učiniti. 1035 00:54:58,420 --> 00:55:00,510 A onda možete misliti model koje možete koristiti. 1036 00:55:00,510 --> 00:55:04,710 Obično to znači razmišljanje pretpostavke, kao kao što je, oh, kad sam bio 1037 00:55:04,710 --> 00:55:05,770 kao razmišljanje o stihovima. 1038 00:55:05,770 --> 00:55:09,510 Bio sam poput, dobro, ako želim shvatiti out koji je ovo napisao, ja vjerojatno želite 1039 00:55:09,510 --> 00:55:15,400 da pogledate riječima osoba koristi i vidjeti tko koristi tu riječ vrlo često. 1040 00:55:15,400 --> 00:55:18,470 Na taj način pokušati napraviti pretpostavke i pokušati sjetiti modela. 1041 00:55:18,470 --> 00:55:21,395 I onda također možete pretraživati ​​online za vrsta problema koje imate, 1042 00:55:21,395 --> 00:55:24,260 i da će to predložiti vama modela koji možda 1043 00:55:24,260 --> 00:55:26,560 dobro modelira tu stvar. 1044 00:55:26,560 --> 00:55:29,080 >> I također uvijek možete mi e-mail. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 A ja mogu samo odgovoriti na vaša pitanja. 1047 00:55:34,940 --> 00:55:38,600 Možemo čak mogli susresti, tako da mogu daju prijedloge o načinima 1048 00:55:38,600 --> 00:55:41,490 provedbu vašeg projekta. 1049 00:55:41,490 --> 00:55:45,610 I mislim ako se uključe u računalno jezikoslovlje, to se događa 1050 00:55:45,610 --> 00:55:46,790 to bi bilo super. 1051 00:55:46,790 --> 00:55:48,370 Ti ćeš vidjeti tamo toliko potencijala. 1052 00:55:48,370 --> 00:55:52,060 A industrija želi zaposliti ti tako loše zbog toga. 1053 00:55:52,060 --> 00:55:54,720 Tako Nadam se da dečki uživali to. 1054 00:55:54,720 --> 00:55:57,030 Ako vi imate bilo kakvih pitanja, možete me pitati nakon toga. 1055 00:55:57,030 --> 00:55:58,280 No, hvala ti. 1056 00:55:58,280 --> 00:56:00,150