1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Ahoj. 3 00:00:08,870 --> 00:00:09,980 Vítame každého. 4 00:00:09,980 --> 00:00:11,216 Moje meno je Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Som junior na [nepočuteľný] štúdium výpočtová technika so zameraním na 6 00:00:15,220 --> 00:00:16,410 počítačová lingvistika. 7 00:00:16,410 --> 00:00:19,310 Takže moje sekundárne je v jazyku a lingvistické teórie. 8 00:00:19,310 --> 00:00:21,870 Som naozaj nadšený, že učiť vás chlapci niečo málo o tejto oblasti. 9 00:00:21,870 --> 00:00:24,300 Je to veľmi vzrušujúce priestor k štúdiu. 10 00:00:24,300 --> 00:00:27,260 Tiež s veľkým potenciálom pre budúcnosť. 11 00:00:27,260 --> 00:00:30,160 Takže som naozaj nadšená, že vy uvažujete o projekty v 12 00:00:30,160 --> 00:00:31,160 počítačová lingvistika. 13 00:00:31,160 --> 00:00:35,460 A ja budem viac než rád poradí niekto z vás, či sa rozhodnete 14 00:00:35,460 --> 00:00:37,090 sledujú jeden z nich. 15 00:00:37,090 --> 00:00:40,010 >> Takže v prvom rade to, čo je výpočtový lingvistika? 16 00:00:40,010 --> 00:00:44,630 Takže počítačová lingvistika je Priesečník medzi lingvistiky a 17 00:00:44,630 --> 00:00:46,390 počítačová veda. 18 00:00:46,390 --> 00:00:47,415 Takže, čo je lingvistika? 19 00:00:47,415 --> 00:00:48,490 Čo je to počítačová veda? 20 00:00:48,490 --> 00:00:51,580 No z lingvistiky, čo Vezmeme sú jazyky. 21 00:00:51,580 --> 00:00:54,960 Takže lingvistika je vlastne štúdium prirodzeného jazyka všeobecne. 22 00:00:54,960 --> 00:00:58,330 Takže prirodzený jazyk - hovoríme o jazyk, ktorý sme vlastne použiť na 23 00:00:58,330 --> 00:00:59,770 vzájomne komunikovať. 24 00:00:59,770 --> 00:01:02,200 Takže sme zrovna hovorí o C alebo Java. 25 00:01:02,200 --> 00:01:05,900 Hovoríme viac o angličtine a Číňania a ďalšie jazyky, ktoré sme 26 00:01:05,900 --> 00:01:07,780 používajú na komunikáciu medzi sebou navzájom. 27 00:01:07,780 --> 00:01:12,470 >> Náročná vec, o to je to, že teraz máme takmer 7000 28 00:01:12,470 --> 00:01:14,260 jazykov na svete. 29 00:01:14,260 --> 00:01:19,520 Takže existuje pomerne vysoká odroda jazykov, ktoré môžeme študovať. 30 00:01:19,520 --> 00:01:22,600 A potom si myslím, že je to pravdepodobne veľmi ťažké urobiť, napríklad, 31 00:01:22,600 --> 00:01:26,960 preklad z jedného jazyka do iné, za to, že máte 32 00:01:26,960 --> 00:01:28,240 takmer 7000 z nich. 33 00:01:28,240 --> 00:01:31,450 Takže, ak si myslíte, že robíte preklad z jedného jazyka do druhého si 34 00:01:31,450 --> 00:01:35,840 majú takmer viac ako milión rôzne kombinácie, ktoré môžete 35 00:01:35,840 --> 00:01:37,330 sa od jazyka k jazyku. 36 00:01:37,330 --> 00:01:40,820 Takže je to naozaj náročné urobiť nejaké druh príklad preklade systému 37 00:01:40,820 --> 00:01:43,540 každý jazyk. 38 00:01:43,540 --> 00:01:47,120 >> Takže, lingvistika zaobchádza s syntaxou, sémantika, pragmatika. 39 00:01:47,120 --> 00:01:49,550 Vy nie práve potrebujete vedieť, čo sú. 40 00:01:49,550 --> 00:01:55,090 Ale veľmi zaujímavá vec je, že ako rodený hovorca, keď sa naučíte 41 00:01:55,090 --> 00:01:59,010 jazyk ako dieťa, vlastne učiť všetky tie veci - syntax sémantiky 42 00:01:59,010 --> 00:02:00,500 a pragmatika - 43 00:02:00,500 --> 00:02:01,430 sami. 44 00:02:01,430 --> 00:02:04,820 A nikto sa naučiť syntax pre aby ste pochopili, ako vety sú 45 00:02:04,820 --> 00:02:05,290 štruktúrované. 46 00:02:05,290 --> 00:02:07,980 Takže, je to naozaj zaujímavé, pretože je to niečo, čo je veľmi 47 00:02:07,980 --> 00:02:10,389 intuitívne. 48 00:02:10,389 --> 00:02:13,190 >> A čo berieš od počítačová veda? 49 00:02:13,190 --> 00:02:16,700 No, najdôležitejšia vec, ktorú by sme majú v informatike je prvá 50 00:02:16,700 --> 00:02:19,340 všetko, umelá inteligencia a strojové učenie. 51 00:02:19,340 --> 00:02:22,610 Takže to, čo sa snažíme robiť výpočtovej lingvistika je vyučovať 52 00:02:22,610 --> 00:02:26,990 váš počítač, ako niečo urobiť s jazykom. 53 00:02:26,990 --> 00:02:28,630 >> Tak, napríklad, v prístroji preklad. 54 00:02:28,630 --> 00:02:32,490 Snažím sa učiť môj počítač how vedieť, ako prejsť z jedného 55 00:02:32,490 --> 00:02:33,310 jazyka do druhého. 56 00:02:33,310 --> 00:02:35,790 Takže, v podstate rád učení počítačové dva jazyky. 57 00:02:35,790 --> 00:02:38,870 Ak sa mi spracovanie prirodzeného jazyka, čo je prípad napríklad 58 00:02:38,870 --> 00:02:41,810 Facebook je graf Vyhľadávanie, učíte počítač, ako porozumieť 59 00:02:41,810 --> 00:02:42,730 otázky dobre. 60 00:02:42,730 --> 00:02:48,130 >> Takže, keď poviete "fotografie z môjho priatelia. "Facebook nelieči, že 61 00:02:48,130 --> 00:02:51,130 ako celý reťazec, ktorý má len banda slov. 62 00:02:51,130 --> 00:02:56,020 Je to vlastne chápe vzťah medzi "fotky" a "moji priatelia" a 63 00:02:56,020 --> 00:02:59,620 chápe, že "fotky" sú vlastnosť "mojich priateľov." 64 00:02:59,620 --> 00:03:02,350 >> Tak, to je časť, napríklad, spracovanie prirodzeného jazyka. 65 00:03:02,350 --> 00:03:04,790 Snaží sa porozumieť tomu, čo je vzťah medzi 66 00:03:04,790 --> 00:03:07,520 slová vo vete. 67 00:03:07,520 --> 00:03:11,170 A veľká otázka je, môžete naučiť počítač, ako hovoriť 68 00:03:11,170 --> 00:03:12,650 jazyka všeobecne? 69 00:03:12,650 --> 00:03:17,810 Čo je veľmi zaujímavá otázka, myslím, ako by snáď v budúcnosti, 70 00:03:17,810 --> 00:03:19,930 budete mať možnosť poraďte sa so svojim mobilným telefónom. 71 00:03:19,930 --> 00:03:23,290 Niečo ako to, čo robíme s Siri, ale niečo ako, môžete skutočne 72 00:03:23,290 --> 00:03:25,690 hovoriť, čo chcete, a telefón bude rozumieť všetkému. 73 00:03:25,690 --> 00:03:28,350 A to môže mať nadväzujúce otázky a ďalej hovoriť. 74 00:03:28,350 --> 00:03:30,880 To je niečo, čo naozaj vzrušujúce, podľa môjho názoru. 75 00:03:30,880 --> 00:03:33,070 >> Takže, niečo o prirodzených jazykov. 76 00:03:33,070 --> 00:03:36,220 Niečo naozaj zaujímavé prirodzené jazyky je to, že, a to je 77 00:03:36,220 --> 00:03:38,470 úver na môj profesor lingvistiky, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Dáva príklad a myslím, že je to naozaj zaujímavé. 79 00:03:40,830 --> 00:03:47,060 Vzhľadom k tomu, učíme jazyk od okamihu, kedy sa narodíme a potom náš rodák 80 00:03:47,060 --> 00:03:49,170 Jazyk druh rastie na nás. 81 00:03:49,170 --> 00:03:52,570 >> A v podstate sa naučíte jazyk od minimálnej vstup, nie? 82 00:03:52,570 --> 00:03:56,700 Vy ste len dostať vstup z vášho rodičia o tom, čo váš jazyk zvuky 83 00:03:56,700 --> 00:03:58,770 páči a proste sa to naučiť. 84 00:03:58,770 --> 00:04:02,240 Takže, je to zaujímavé, pretože keď sa pozriete v týchto vetách, napríklad. 85 00:04:02,240 --> 00:04:06,980 Môžete sa pozrieť, "Mary stavia na kabát každej čas odíde z domu. " 86 00:04:06,980 --> 00:04:10,650 >> V tomto prípade je možné mať Slovo "to" sa vzťahujú k Márii, že jo? 87 00:04:10,650 --> 00:04:13,500 Môžete povedať: "Mary stavia na kabát zakaždým, keď opúšťa Mary 88 00:04:13,500 --> 00:04:14,960 dom. "tak, že je v poriadku. 89 00:04:14,960 --> 00:04:19,370 Ale potom keď sa pozriete na vete "Ona si vezme kabát zakaždým Mary 90 00:04:19,370 --> 00:04:22,850 opustí dom. "Vieš, že je to možné povedať, že "ona" je 91 00:04:22,850 --> 00:04:24,260 s odkazom na Máriu. 92 00:04:24,260 --> 00:04:27,070 >> Neexistuje žiadny spôsob, ako povedať, že "Mary kladie na kabát zakaždým Mary listy 93 00:04:27,070 --> 00:04:30,790 dom. "Tak to je zaujímavé, pretože toto je ten druh intuície 94 00:04:30,790 --> 00:04:32,890 že každý rodený hovorca má. 95 00:04:32,890 --> 00:04:36,370 A nikto sa učili, že je to tak, že syntaxe funguje. 96 00:04:36,370 --> 00:04:41,930 A to môžete mať len túto "ona" s odkazom na Máriu v tomto prvom prípade, 97 00:04:41,930 --> 00:04:44,260 a v skutočnosti v tejto inej taky, ale nie v tomto. 98 00:04:44,260 --> 00:04:46,500 Ale každý druh dostane na rovnakú odpoveď. 99 00:04:46,500 --> 00:04:48,580 Všetci sa zhodujú na tom. 100 00:04:48,580 --> 00:04:53,280 Tak to je naozaj zaujímavé, ako aj nepoznáte všetky pravidlá 101 00:04:53,280 --> 00:04:55,575 vo vašom jazyku tak nejako pochopiť, ako jazyk funguje. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Takže zaujímavá vec, o prírodné jazyk, je, že nemusíte 104 00:05:01,530 --> 00:05:06,970 nepoznám syntax vedieť, či veta je gramatická alebo ungrammatical pre 105 00:05:06,970 --> 00:05:08,810 vo väčšine prípadov. 106 00:05:08,810 --> 00:05:13,220 Čo si myslím, že možno to, čo sa stane, je, že cez svojho života, budete 107 00:05:13,220 --> 00:05:17,410 len držať stále viac a viac vety povedal pre vás. 108 00:05:17,410 --> 00:05:19,800 A potom budete mať zapamätanie všetky viet. 109 00:05:19,800 --> 00:05:24,230 A potom, keď vám niekto povie, niečo, počujete vetu a 110 00:05:24,230 --> 00:05:27,040 sa pozeráte na svojho slovníka viet a zistiť, či 111 00:05:27,040 --> 00:05:28,270 že veta je tam. 112 00:05:28,270 --> 00:05:29,830 A ak je tam máte hovoria, že je to gramatický. 113 00:05:29,830 --> 00:05:31,740 Ak to nie je poviete, že je to ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Takže v tomto prípade, by ste povedali, oh, takže máte obrovský zoznam všetkých 115 00:05:35,150 --> 00:05:36,140 Možné tresty. 116 00:05:36,140 --> 00:05:38,240 A potom, keď počujete vetu, Viete, či je to gramatický alebo 117 00:05:38,240 --> 00:05:39,450 nie je založený na tom. 118 00:05:39,450 --> 00:05:42,360 Vec je, že keď sa pozriete na vety, napríklad " 119 00:05:42,360 --> 00:05:47,540 päť v čele CS50 TFS varené slepého chobotnice pomocou daPa hrnček. "Je to 120 00:05:47,540 --> 00:05:49,630 rozhodne nie trest že ste počuli predtým. 121 00:05:49,630 --> 00:05:52,380 Ale zároveň viete, že je to skoro gramatické, že jo? 122 00:05:52,380 --> 00:05:55,570 Nie sú žiadne gramatické chyby a možno povedať, že 123 00:05:55,570 --> 00:05:57,020 je to možné trest. 124 00:05:57,020 --> 00:06:01,300 >> Tak to z nás robí si myslia, že v skutočnosti tak, že sa učíme jazyk nie je len 125 00:06:01,300 --> 00:06:07,090 tým, že má obrovskú databázu možný slová alebo vety, ale viac 126 00:06:07,090 --> 00:06:11,490 pochopenie vzťahu medzi Slová v týchto vetách. 127 00:06:11,490 --> 00:06:14,570 Má to zmysel? 128 00:06:14,570 --> 00:06:19,370 Takže potom je otázka, môže Počítače sa učia jazyky? 129 00:06:19,370 --> 00:06:21,490 Môžeme učiť jazyk počítača? 130 00:06:21,490 --> 00:06:24,230 >> Takže, poďme premýšľať o rozdiele medzi rodeným hovorcom jazyka 131 00:06:24,230 --> 00:06:25,460 a počítač. 132 00:06:25,460 --> 00:06:27,340 Takže, čo sa stane s reproduktora? 133 00:06:27,340 --> 00:06:30,430 No, rodený hovorca učí jazyk z expozície k nej. 134 00:06:30,430 --> 00:06:34,200 Obvykle jeho rané detstvo. 135 00:06:34,200 --> 00:06:38,570 Takže, v podstate, stačí mať dieťa, a stále hovoriť k nemu, a to 136 00:06:38,570 --> 00:06:40,540 len učia, ako hovoriť jazyk, nie? 137 00:06:40,540 --> 00:06:42,660 Takže, ste v podstate dáva vstup pre dieťa. 138 00:06:42,660 --> 00:06:45,200 Takže, potom môžete tvrdiť, že počítač môžete urobiť to isté, nie? 139 00:06:45,200 --> 00:06:49,510 Stačí si len dať JAZYKA ako vstup do počítača. 140 00:06:49,510 --> 00:06:53,410 >> Ako napríklad banda súborov ktoré majú knihy v angličtine. 141 00:06:53,410 --> 00:06:56,190 Možno, že je to jeden zo spôsobov, ktoré vám by sa mohla učiť 142 00:06:56,190 --> 00:06:57,850 počítač English, jo? 143 00:06:57,850 --> 00:07:01,000 A v skutočnosti, ak si myslíte, že o tom, to sa ti možno pár 144 00:07:01,000 --> 00:07:02,680 dni, čítať knihu. 145 00:07:02,680 --> 00:07:05,760 Na počítači to trvá sekundu pozrite sa na všetky slová v knihe. 146 00:07:05,760 --> 00:07:10,810 Takže si môžete myslieť, že môže byť len to Argument vstup z okolo vás, 147 00:07:10,810 --> 00:07:15,440 to nestačí povedať, že je to niečo, čo len človek môže robiť. 148 00:07:15,440 --> 00:07:17,680 Môžete si myslieť počítača môžu tiež získať vstup. 149 00:07:17,680 --> 00:07:21,170 >> Druhá vec je, že rodení hovorcovia tiež mozog, ktorý má 150 00:07:21,170 --> 00:07:23,870 schopnosť učenia sa jazyka. 151 00:07:23,870 --> 00:07:27,020 Ale ak si myslíte, že o tom, Mozog je solídny vec. 152 00:07:27,020 --> 00:07:30,450 Keď ste sa narodili, je to už nastavený - 153 00:07:30,450 --> 00:07:31,320 To je váš mozog. 154 00:07:31,320 --> 00:07:34,660 A ako vyrastieš, stačí si viac Vstup jazyka a možno živiny 155 00:07:34,660 --> 00:07:35,960 a ďalšie veci. 156 00:07:35,960 --> 00:07:38,170 Ale do značnej miery sa váš mozog je pevná vec. 157 00:07:38,170 --> 00:07:41,290 >> Takže môžete povedať, dobre, možno môžete postaviť počítač, ktorý má veľa 158 00:07:41,290 --> 00:07:45,890 funkcie a metódy, ktoré len napodobňujú schopnosť učenia sa jazyka. 159 00:07:45,890 --> 00:07:49,630 Takže v tomto zmysle, dalo by sa povedať, dobre, ja môže mať počítač, ktorý má všetky 160 00:07:49,630 --> 00:07:52,270 veci, ktoré som sa potrebujú naučiť jazyk. 161 00:07:52,270 --> 00:07:56,200 A posledná vec je, že natívny hovorca učia od pokusov a omylov. 162 00:07:56,200 --> 00:08:01,090 Takže v podstate ďalšia dôležitá vec jazykového vzdelávania je, že druh 163 00:08:01,090 --> 00:08:05,340 z naučiť veci tým, že zovšeobecnenie toho, čo počujete. 164 00:08:05,340 --> 00:08:10,280 >> Takže, ako ste vyrastal ste sa dozvedeli, že niektoré slová sú ako podstatné mená, 165 00:08:10,280 --> 00:08:11,820 niektoré ďalšie z nich sú adjektíva. 166 00:08:11,820 --> 00:08:14,250 A nemusíte mať akýkoľvek znalosť lingvistiky 167 00:08:14,250 --> 00:08:15,040 pochopiť, že. 168 00:08:15,040 --> 00:08:18,560 Ale jednoducho viem, že je niektorá slová sú umiestnené v určitej časti 169 00:08:18,560 --> 00:08:22,570 veta a niektoré ďalšie v iných časti vety. 170 00:08:22,570 --> 00:08:26,110 >> A že keď robíte niečo, čo je ako veta, že nie je správne - 171 00:08:26,110 --> 00:08:28,770 možno preto, že z viac ako generalizácie napríklad. 172 00:08:28,770 --> 00:08:32,210 Možno, keď ste vyrastal, si všimnete že množné číslo je zvyčajne 173 00:08:32,210 --> 00:08:35,809 tvoril tým, že by s pri koniec slova. 174 00:08:35,809 --> 00:08:40,042 A potom sa pokúsite urobiť množné "Jeleň" ako "jelene" alebo "zub" je 175 00:08:40,042 --> 00:08:44,780 "Zuba." Takže potom sa vaše rodičia, alebo niekto opraví a povie, nie, 176 00:08:44,780 --> 00:08:49,020 množné číslo "jeleň" je "jeleň", a množné "zub" je "zuby". A potom 177 00:08:49,020 --> 00:08:50,060 naučíte tie veci. 178 00:08:50,060 --> 00:08:51,520 Takže ste sa dozvedeli od pokusov a omylov. 179 00:08:51,520 --> 00:08:53,100 >> Ale môžete si tiež urobiť, že s počítačom. 180 00:08:53,100 --> 00:08:55,310 Môžete mať niečo, čo nazýva posilňované učenie. 181 00:08:55,310 --> 00:08:58,560 Čo je v podstate ako dávať Počítač odmena kedykoľvek to robí 182 00:08:58,560 --> 00:08:59,410 niečo správne. 183 00:08:59,410 --> 00:09:04,710 A dávať to opak odmenu a keď sa robí niečo zlé. 184 00:09:04,710 --> 00:09:07,410 Môžete skutočne vidieť, že keď idete do Google Translate a skúste 185 00:09:07,410 --> 00:09:10,220 preložiť vetu, že spýta sa vás, pre spätnú väzbu. 186 00:09:10,220 --> 00:09:13,240 Takže keď hovoríte, ach, tam je lepšie preklad pre túto vetu. 187 00:09:13,240 --> 00:09:18,140 Môžete zadajte ho a potom, ak veľa ľudia stále hovoria, že je lepšie 188 00:09:18,140 --> 00:09:21,560 preklad, to jednoducho zistí, že je to by sa namiesto použiť tento preklad 189 00:09:21,560 --> 00:09:22,960 kto to dával. 190 00:09:22,960 --> 00:09:28,830 >> Takže, je to veľmi filozofická otázka zistiť, či počítače sa bude 191 00:09:28,830 --> 00:09:30,340 schopný hovoriť, alebo nie v budúcnosti. 192 00:09:30,340 --> 00:09:34,440 Ale ja som si veľké nádeje, že môžu práve na základe týchto argumentov. 193 00:09:34,440 --> 00:09:38,570 Ale je to len viac filozofický otázka. 194 00:09:38,570 --> 00:09:43,460 >> Takže aj keď počítače stále nemôže hovoriť, aké sú veci, ktoré môžeme robiť? 195 00:09:43,460 --> 00:09:47,070 Niektoré naozaj cool veci sú klasifikácia dát. 196 00:09:47,070 --> 00:09:53,210 Tak, napríklad, vy viete, že e-mailové služby, áno, pre 197 00:09:53,210 --> 00:09:55,580 príklad, filtrovanie spamu. 198 00:09:55,580 --> 00:09:59,070 Takže zakaždým, keď dostanete spam, to sa snaží filtrovať na iné pole. 199 00:09:59,070 --> 00:10:00,270 Tak ako to robí, že? 200 00:10:00,270 --> 00:10:06,080 Nie je to tak, že počítač jednoducho vie, aké e-mailové adresy sú odosielanie spamu. 201 00:10:06,080 --> 00:10:09,130 Takže je to viac na základe obsahu správy, alebo možno titulu, alebo 202 00:10:09,130 --> 00:10:11,310 možno nejaký vzor, ​​ktorý máte. 203 00:10:11,310 --> 00:10:15,690 >> Takže, v podstate, čo môžete urobiť, je dostať Mnoho údajov o e-maily, ktoré sú spam, 204 00:10:15,690 --> 00:10:19,980 e-maily, ktoré nie sú spam, a dozvedieť sa, čo druh vzorov máte v 205 00:10:19,980 --> 00:10:21,000 tie, ktoré sú spam. 206 00:10:21,000 --> 00:10:23,260 A toto je časť výpočtových lingvistika. 207 00:10:23,260 --> 00:10:24,720 Hovorí sa klasifikácie dát. 208 00:10:24,720 --> 00:10:28,100 A my vlastne uvidí príklad, že v najbližších snímok. 209 00:10:28,100 --> 00:10:32,910 >> Druhá vec je prirodzený jazyk spracovanie, čo je vec, ktorá sa 210 00:10:32,910 --> 00:10:36,580 Graf Hľadanie robí z nájmu môžete napísať vetu. 211 00:10:36,580 --> 00:10:38,690 A verí, že chápete, čo je zmysel a dáva 212 00:10:38,690 --> 00:10:39,940 Ste lepší výsledok. 213 00:10:39,940 --> 00:10:43,880 V skutočnosti, ak idete na Google alebo Bing a hľadať niečo ako dáma 214 00:10:43,880 --> 00:10:47,060 Výška Gaga, ste vlastne deje získať 5 '1 "namiesto informácií 215 00:10:47,060 --> 00:10:50,170 od nej, pretože to vlastne chápe čo hovoríš. 216 00:10:50,170 --> 00:10:52,140 Takže to je súčasťou prírodného spracovanie jazyka. 217 00:10:52,140 --> 00:10:57,000 >> Alebo tiež v prípade, že používate Siri, prvý Máte algoritmus, ktorý sa snaží 218 00:10:57,000 --> 00:11:01,130 prekladať, čo hovoríš do slov v texte. 219 00:11:01,130 --> 00:11:03,690 A potom sa snaží prekladať že na význame. 220 00:11:03,690 --> 00:11:06,570 Takže to všetko je súčasťou prírodnej spracovanie jazyka. 221 00:11:06,570 --> 00:11:08,320 >> Potom máte strojového prekladu - 222 00:11:08,320 --> 00:11:10,300 , Ktorý je v skutočnosti jedna z mojich obľúbených - 223 00:11:10,300 --> 00:11:14,060 ktorý je len preklad z jazyka do druhého. 224 00:11:14,060 --> 00:11:17,950 Takže si môžete myslieť, že keď robíte strojový preklad, máte 225 00:11:17,950 --> 00:11:19,750 nekonečné možnosti viet. 226 00:11:19,750 --> 00:11:22,960 Takže neexistuje žiadny spôsob, ako len ukladanie každý preklad. 227 00:11:22,960 --> 00:11:27,440 Takže budete musieť prísť s zaujímavý algoritmy, aby bolo možné 228 00:11:27,440 --> 00:11:30,110 prekladať každý veta nejakým spôsobom. 229 00:11:30,110 --> 00:11:32,483 >> Vy máte nejaké otázky tak ďaleko? 230 00:11:32,483 --> 00:11:34,450 Nie? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Takže to, čo budeme dnes vidieť? 233 00:11:36,900 --> 00:11:39,300 Po prvé, budem hovoriť o tom, Problém klasifikácie. 234 00:11:39,300 --> 00:11:41,440 Takže ten, že som bola hovorí o spamu. 235 00:11:41,440 --> 00:11:46,820 Čo budem robiť, je vzhľadom k tomu, Text skladby skladbu, môžete sa pokúsiť prísť na to, 236 00:11:46,820 --> 00:11:49,810 s vysokou pravdepodobnosťou kto je speváčka? 237 00:11:49,810 --> 00:11:53,590 Povedzme, že mám pesničky od Lady Gaga a Katy Perry, keby som vám 238 00:11:53,590 --> 00:11:58,130 nový song, môžete zistiť, či to je Katy Perry alebo Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Druhý, ja som len hovoriť o probléme segmentácie. 240 00:12:01,490 --> 00:12:05,780 Tak neviem, či vy viete, ale Čínština, japončina, ďalšie východnej Ázie 241 00:12:05,780 --> 00:12:08,090 jazyky a ďalšie jazyky všeobecne, nemajú 242 00:12:08,090 --> 00:12:09,830 medzery medzi slovami. 243 00:12:09,830 --> 00:12:13,540 A potom, ak si myslíte, že o tom, ako tejto počítač druhu pokusov na 244 00:12:13,540 --> 00:12:18,600 pochopiť, spracovanie prirodzeného jazyka, to vyzerá na slová a 245 00:12:18,600 --> 00:12:21,500 sa snaží pochopiť vzťahy medzi nimi, nie? 246 00:12:21,500 --> 00:12:25,440 Ale potom, ak máte čínsky, a majú nulové medzery, je to naozaj ťažké 247 00:12:25,440 --> 00:12:28,360 zistiť, aký je vzťah medzi slová, pretože nemajú žiadne 248 00:12:28,360 --> 00:12:29,530 slová na prvom mieste. 249 00:12:29,530 --> 00:12:32,600 Takže budete musieť urobiť niečo, čo nazýva segmentácia, ktorá jednoducho znamená uvedenie 250 00:12:32,600 --> 00:12:36,490 medzery medzi tým, čo by sme nazvali slová v týchto jazykoch. 251 00:12:36,490 --> 00:12:37,740 Zmysel? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> A potom budeme hovoriť o syntax. 254 00:12:41,540 --> 00:12:44,050 Takže len trochu o prírodné spracovanie jazyka. 255 00:12:44,050 --> 00:12:45,420 Bude to mať len prehľad. 256 00:12:45,420 --> 00:12:50,700 Takže dnes, v podstate to, čo chcem robiť, sa vám chlapci trochu 257 00:12:50,700 --> 00:12:53,930 vnútri, aké sú možnosti ktoré môžete robiť s výpočtových 258 00:12:53,930 --> 00:12:54,960 lingvistika. 259 00:12:54,960 --> 00:13:00,410 A potom vidíte, čo si myslíte je v pohode medzi týmito vecami. 260 00:13:00,410 --> 00:13:02,270 A možno, že si môžete myslieť o projekte a prísť so mnou hovoriť. 261 00:13:02,270 --> 00:13:05,260 A môžem vám poradiť o tom, ako to urobiť. 262 00:13:05,260 --> 00:13:09,060 >> Takže syntaxe bude trochu o Graf vyhľadávanie a stroje 263 00:13:09,060 --> 00:13:09,670 preklad. 264 00:13:09,670 --> 00:13:13,650 Idem dať príklad toho, ako môžete napríklad prekladať 265 00:13:13,650 --> 00:13:16,020 niečo z portugalčiny do angličtiny. 266 00:13:16,020 --> 00:13:17,830 Znie to dobre? 267 00:13:17,830 --> 00:13:19,293 >> Tak za prvé, problém klasifikácie. 268 00:13:19,293 --> 00:13:23,590 Poviem, že táto časť seminára bude najnáročnejšie 269 00:13:23,590 --> 00:13:27,560 jeden len preto, že sa deje byť niektoré kódovanie. 270 00:13:27,560 --> 00:13:29,470 Ale to bude Python. 271 00:13:29,470 --> 00:13:34,380 Viem, že vy neviete, Python, takže Idem vysvetliť na vysokej 272 00:13:34,380 --> 00:13:35,750 úrovni to, čo robím. 273 00:13:35,750 --> 00:13:40,900 A nemusíte sa naozaj záleží tiež veľa o syntax, pretože to je 274 00:13:40,900 --> 00:13:42,140 niečo, čo vy môžete naučiť. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 To znie dobre. 277 00:13:43,580 --> 00:13:46,020 >> Tak v čom je problém klasifikácie? 278 00:13:46,020 --> 00:13:49,140 Takže vzhľadom k niektorej texty na pieseň, a chcete hádať 279 00:13:49,140 --> 00:13:50,620 ktorý je spievať. 280 00:13:50,620 --> 00:13:54,045 A to môže byť pre akýkoľvek druh ďalších problémov. 281 00:13:54,045 --> 00:13:59,980 Takže to môže byť, napríklad, máte prezidentská kampaň a máte 282 00:13:59,980 --> 00:14:02,610 reč, a chcete nájsť , Či je to, napríklad, 283 00:14:02,610 --> 00:14:04,470 Obama a Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Alebo môžete mať veľa e-mailov a Ak chcete zistiť, či sú 285 00:14:07,700 --> 00:14:08,890 spam alebo nie. 286 00:14:08,890 --> 00:14:11,440 Takže je to len klasifikácii niektorých Údaje založené na slová 287 00:14:11,440 --> 00:14:13,790 že ste tam. 288 00:14:13,790 --> 00:14:16,295 >> Takže to, že budete musieť vykonať niektoré predpoklady. 289 00:14:16,295 --> 00:14:20,570 Takže veľa o počítačovej lingvistiky robí predpokladov, 290 00:14:20,570 --> 00:14:24,100 zvyčajne inteligentný predpoklady, aby môžete získať dobré výsledky. 291 00:14:24,100 --> 00:14:26,670 Snažím sa vytvoriť model pre ňu. 292 00:14:26,670 --> 00:14:31,290 A potom sa to vyskúšať a zistiť, či to funguje, v prípade, že vám dáva dobrú presnosť. 293 00:14:31,290 --> 00:14:33,940 A ak áno, potom ste pokúsiť sa zlepšiť. 294 00:14:33,940 --> 00:14:37,640 Ak tomu tak nie je, budete rád, OK, možno som by mal iný predpoklad. 295 00:14:37,640 --> 00:14:44,030 >> Takže predpoklad, že budeme je to, že umelec sa zvyčajne spieva 296 00:14:44,030 --> 00:14:49,220 o téme niekoľkokrát, a možno používa slová niekoľkokrát len 297 00:14:49,220 --> 00:14:50,270 pretože sú na to zvyknutí. 298 00:14:50,270 --> 00:14:51,890 Stačí si len myslieť na svojho priateľa. 299 00:14:51,890 --> 00:14:57,350 Som si istý, chalani majú priateľov ktoré hovoria, ich podpis frázu, 300 00:14:57,350 --> 00:14:59,260 doslova pre každú vetu - 301 00:14:59,260 --> 00:15:02,660 ako nejaká konkrétne slová alebo niektorých špecifických frázy, ktoré hovoria, že pre 302 00:15:02,660 --> 00:15:04,020 každý trest. 303 00:15:04,020 --> 00:15:07,920 >> A to, čo môžem povedať, je, že keď vidíte vetu, ktorá má podpis 304 00:15:07,920 --> 00:15:11,450 frázy, môžete hádať, že pravdepodobne Váš priateľ je 305 00:15:11,450 --> 00:15:13,310 kto hovorí, že jo? 306 00:15:13,310 --> 00:15:18,410 Tak urobíte tento predpoklad a potom to, ako vytvoriť model. 307 00:15:18,410 --> 00:15:24,440 >> Príklad, že budem dávať je na ako Lady Gaga, napríklad, ľudia 308 00:15:24,440 --> 00:15:27,430 hovoria, že ona používa "dieťa" na všetky jej číslo jedna piesne. 309 00:15:27,430 --> 00:15:32,270 A v skutočnosti je to video, ktoré ukazuje, jej hovoriť slovo "dieťa" pre 310 00:15:32,270 --> 00:15:33,410 rôzne piesne. 311 00:15:33,410 --> 00:15:33,860 >> [PLAYBACK] 312 00:15:33,860 --> 00:15:34,310 >> - (SINGING) Detská. 313 00:15:34,310 --> 00:15:36,220 Dieťa. 314 00:15:36,220 --> 00:15:37,086 Dieťa. 315 00:15:37,086 --> 00:15:37,520 Dieťa. 316 00:15:37,520 --> 00:15:37,770 Dieťa. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Dieťa. 319 00:15:39,243 --> 00:15:40,085 Dieťa. 320 00:15:40,085 --> 00:15:40,510 Dieťa. 321 00:15:40,510 --> 00:15:40,850 Dieťa. 322 00:15:40,850 --> 00:15:41,090 >> [END Videoprehrávanie- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Takže tam sú, myslím, 40 piesní tu v ktorom ona hovorí 324 00:15:44,020 --> 00:15:48,690 Slovo "dieťa." Takže si môžete v podstate hádať že keď vidíte skladbu, ktorá má 325 00:15:48,690 --> 00:15:52,180 slovo "dieťa", tam je nejaký vysoký pravdepodobnosť, že je to Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Ale skúsme sa na rozvoji tejto ďalej potom formálne. 327 00:15:56,450 --> 00:16:00,470 >> Takže sa jedná o texty k piesňam od Lady Gaga a Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Takže sa pozriete na Lady Gaga, môžete vidia majú veľa výskytov "dieťa," 329 00:16:04,120 --> 00:16:07,710 Mnoho výskytov "spôsobom." A potom Katy Perry má mnoho výskytov 330 00:16:07,710 --> 00:16:10,360 "," Mnoho výskytov "ohňa." 331 00:16:10,360 --> 00:16:14,560 >> Takže v podstate to, čo chceme to znamená, že dostanete lyriku. 332 00:16:14,560 --> 00:16:20,480 Povedzme, že budete mať lyriku pre pieseň, ktorá je "dieťa" len "dieťa." Ak 333 00:16:20,480 --> 00:16:24,750 stačí si slovo "dieťa", a to je všetky dáta, ktoré ste od 334 00:16:24,750 --> 00:16:27,880 Lady Gaga a Katy Perry, ktorá by môžete hádať, je osoba, 335 00:16:27,880 --> 00:16:29,370 kto spieva pesničku? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga alebo Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, že jo? 338 00:16:33,150 --> 00:16:37,400 Vzhľadom k tomu, že je jediný, kto hovorí, že "Dieťa." Znie to hlúpo, že jo? 339 00:16:37,400 --> 00:16:38,760 OK, je to naozaj jednoduché. 340 00:16:38,760 --> 00:16:41,860 Len sa pozerám na dvoch piesňach a Samozrejme, ona je jediná, kto má 341 00:16:41,860 --> 00:16:42,660 "Dieťa." 342 00:16:42,660 --> 00:16:44,740 >> Ale čo keď máte veľa slov? 343 00:16:44,740 --> 00:16:50,900 Ak máte skutočný lyrická, niečo ako "dieťa, ja len 344 00:16:50,900 --> 00:16:51,610 šiel vidieť [? CFT?] 345 00:16:51,610 --> 00:16:54,020 prednáška, "alebo niečo také, a potom ste skutočne zistiť, - 346 00:16:54,020 --> 00:16:55,780 na základe všetkých týchto slov - 347 00:16:55,780 --> 00:16:58,350 kto je umelec, ktorý pravdepodobne spieval túto pieseň? 348 00:16:58,350 --> 00:17:01,860 Takže poďme sa snaží rozvíjať Tento kúsok ďalej. 349 00:17:01,860 --> 00:17:05,630 >> OK, takže na základe len na dáta, ktoré sa má, zdá sa, že Gaga je pravdepodobne 350 00:17:05,630 --> 00:17:06,260 spevák. 351 00:17:06,260 --> 00:17:07,904 Ale ako môžeme písať to viac formálne? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 A tam to bude trochu Trochu štatistiky. 354 00:17:13,140 --> 00:17:15,880 Takže ak ste sa stratili, nech to skúsi pochopiť pojem. 355 00:17:15,880 --> 00:17:18,700 Nezáleží na tom, či mi rozumiete rovnice dobre. 356 00:17:18,700 --> 00:17:22,150 To všetko bude on-line. 357 00:17:22,150 --> 00:17:25,490 >> Takže v podstate to, čo som výpočet je pravdepodobnosť, že táto pieseň je o 358 00:17:25,490 --> 00:17:28,040 Lady Gaga za predpokladu, že - 359 00:17:28,040 --> 00:17:30,660 takže to znamená, bar za predpokladu, že - 360 00:17:30,660 --> 00:17:33,680 Videl som slovo "dieťa". Má to zmysel? 361 00:17:33,680 --> 00:17:35,540 Takže sa snažím vypočítať že pravdepodobnosť. 362 00:17:35,540 --> 00:17:38,540 >> Takže tam je to veta nazýva Bayesův teorém, ktorý hovorí, že 363 00:17:38,540 --> 00:17:43,330 pravdepodobnosť daného B, je pravdepodobnosť B vzhľadom k A, čas 364 00:17:43,330 --> 00:17:47,660 pravdepodobnosť, než pravdepodobnosť B. Jedná sa o dlhý rovnice. 365 00:17:47,660 --> 00:17:51,970 Ale to, čo musíte pochopiť, zo to je, že to je to, čo chcem 366 00:17:51,970 --> 00:17:52,830 vypočítať, že jo? 367 00:17:52,830 --> 00:17:56,570 Takže pravdepodobnosť, že pieseň je o Lady Gaga za predpokladu, že som videl slovo 368 00:17:56,570 --> 00:17:58,230 "Dieťa." 369 00:17:58,230 --> 00:18:02,960 >> A teraz, čo som dostať je pravdepodobnosť, že sa slovo "dieťa" vzhľadom 370 00:18:02,960 --> 00:18:04,390 že mám Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 A čo je to v podstate? 372 00:18:07,220 --> 00:18:10,500 Čo to znamená je to, čo je pravdepodobnosť vidieť slovo "dieťa" 373 00:18:10,500 --> 00:18:12,130 V Gaga texty? 374 00:18:12,130 --> 00:18:16,240 Ak chcem, aby vypočítali, že vo veľmi Jednoduchý spôsob, je to len číslo 375 00:18:16,240 --> 00:18:23,640 Časy vidím "dieťa" na celkovom počte slov v Gaga texty, nie? 376 00:18:23,640 --> 00:18:27,600 Aká je frekvencia, ktorú vidím že slovo Gaga prácu? 377 00:18:27,600 --> 00:18:30,530 Zmysel? 378 00:18:30,530 --> 00:18:33,420 >> Druhý termín je pravdepodobnosť Gaga. 379 00:18:33,420 --> 00:18:34,360 Čo to znamená? 380 00:18:34,360 --> 00:18:38,550 To v podstate znamená, že to, čo je pravdepodobnosť zaradenia 381 00:18:38,550 --> 00:18:40,690 Niektoré texty sú Gaga? 382 00:18:40,690 --> 00:18:45,320 A to je trochu divné, ale poďme myslieť na príklade. 383 00:18:45,320 --> 00:18:49,230 Takže povedzme, že pravdepodobnosť s "dieťa" v piesni je rovnaký 384 00:18:49,230 --> 00:18:51,760 pre Gaga a Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Ale Britney Spears má dvakrát viac piesní, než Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Takže ak vám niekto len náhodne dáva Slová "dieťa", prvá vec, ktorú 387 00:19:00,570 --> 00:19:04,710 pozrieť sa na to, čo je pravdepodobnosť s "dieťa" vo Gaga pieseň, "dieťa" 388 00:19:04,710 --> 00:19:05,410 vo Britney piesni? 389 00:19:05,410 --> 00:19:06,460 A to je to isté. 390 00:19:06,460 --> 00:19:10,040 >> Takže druhá vec, ktorú uvidíte, je, dobre, čo je pravdepodobnosť 391 00:19:10,040 --> 00:19:13,770 Tento lyrický samo o sebe, že Gaga lyric, a aká je pravdepodobnosť, že 392 00:19:13,770 --> 00:19:15,380 že Britney lyrický? 393 00:19:15,380 --> 00:19:18,950 Takže od Britney má toľko viac texty než Gaga, by pravdepodobne 394 00:19:18,950 --> 00:19:21,470 povedzme, no, to je asi Britney lyrický. 395 00:19:21,470 --> 00:19:23,340 Takže to je dôvod, prečo máme tento nazvať priamo tu. 396 00:19:23,340 --> 00:19:24,670 Pravdepodobnosť Gaga. 397 00:19:24,670 --> 00:19:26,950 Dáva to zmysel? 398 00:19:26,950 --> 00:19:28,660 Má to? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> A posledná je len pravdepodobnosť o "dieťa", ktoré nie je 401 00:19:33,500 --> 00:19:34,810 naozaj záležitosť, ktorá veľa. 402 00:19:34,810 --> 00:19:39,940 Ale je to pravdepodobnosť vidieť "dieťa" v angličtine. 403 00:19:39,940 --> 00:19:42,725 Zvyčajne je to jedno, že veľa o tom termíne. 404 00:19:42,725 --> 00:19:44,490 Má to zmysel? 405 00:19:44,490 --> 00:19:48,110 Takže pravdepodobnosť Gaga je volal pred pravdepodobnosti 406 00:19:48,110 --> 00:19:49,530 triedneho Gaga. 407 00:19:49,530 --> 00:19:53,840 Vzhľadom k tomu, to len znamená, že to, čo je pravdepodobnosť, že bude túto triedu - 408 00:19:53,840 --> 00:19:55,520 ktorý je Gaga - 409 00:19:55,520 --> 00:19:59,350 len všeobecne, len bez podmienok. 410 00:19:59,350 --> 00:20:02,560 >> A potom, keď som sa pravdepodobnosť Gaga vzhľadom k "dieťa," hovoríme a 411 00:20:02,560 --> 00:20:06,160 uslzené pravdepodobnosti, pretože je to pravdepodobnosť, že bude 412 00:20:06,160 --> 00:20:08,300 Gaga uvedený nejaký dôkaz. 413 00:20:08,300 --> 00:20:11,050 Takže dávam vám dôkazy že som videl slovo dieťa a 414 00:20:11,050 --> 00:20:12,690 Pieseň zmysel? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Takže keď som spočítal, že pre každý z piesní pre Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 čo by to bolo - 419 00:20:25,916 --> 00:20:27,730 Zdá sa, že nemôžem pohnúť to. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Pravdepodobnosť, že Gaga bude niečo podobné, 2 cez 24, časy 1/2, 422 00:20:36,920 --> 00:20:38,260 viac ako 2 po 53. 423 00:20:38,260 --> 00:20:40,640 Nezáleží na tom, či viete, čo tieto čísla sú zasielané z 424 00:20:40,640 --> 00:20:44,750 Ale je to len číslo, ktoré sa bude byť väčšia ako 0, nie? 425 00:20:44,750 --> 00:20:48,610 >> A potom, keď som to Katy Perry, pravdepodobnosť "dieťa", vzhľadom Katy je 426 00:20:48,610 --> 00:20:49,830 Už 0, nie? 427 00:20:49,830 --> 00:20:52,820 Pretože neexistuje žiadny "dieťa" Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Takže potom to bude 0, a Gaga víťazstvo, čo znamená, že Gaga je 429 00:20:56,360 --> 00:20:57,310 pravdepodobne spevák. 430 00:20:57,310 --> 00:20:58,560 Má to zmysel? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Takže ak chcem, aby to viac úradníka, Môžem skutočne urobiť model 435 00:21:11,750 --> 00:21:12,700 Pre viac slov. 436 00:21:12,700 --> 00:21:14,610 Takže povedzme, že mám niečo, čo ako "baby, ja som 437 00:21:14,610 --> 00:21:16,030 v ohni, "alebo tak niečo. 438 00:21:16,030 --> 00:21:17,760 Tak to má viac slov. 439 00:21:17,760 --> 00:21:20,880 A v tomto prípade, môžete vidieť že "dieťa" je Gaga, 440 00:21:20,880 --> 00:21:21,710 ale to nie je v Katy. 441 00:21:21,710 --> 00:21:24,940 A "oheň" je v Katy, ale to nie je v Gaga, že jo? 442 00:21:24,940 --> 00:21:27,200 Takže je to čím ďalej zložitejšie, že jo? 443 00:21:27,200 --> 00:21:31,440 Vzhľadom k tomu, zdá sa, že takmer mať kravatu medzi nimi. 444 00:21:31,440 --> 00:21:36,980 >> Takže to, čo musíte urobiť, je predpokladať, nezávislosť medzi slová. 445 00:21:36,980 --> 00:21:41,210 Takže v podstate to, čo to znamená, že Ja len výpočet toho, aká je 446 00:21:41,210 --> 00:21:44,330 pravdepodobnosť vidieť "dieťa," to, čo je pravdepodobnosť vidieť "ja", a 447 00:21:44,330 --> 00:21:46,670 "Ja", a "o" a "oheň," všetky samostatne. 448 00:21:46,670 --> 00:21:48,670 Potom som vynásobením všetky z nich. 449 00:21:48,670 --> 00:21:52,420 A ja som videl, čo je pravdepodobnosť, vidieť celú vetu. 450 00:21:52,420 --> 00:21:55,210 Zmysel? 451 00:21:55,210 --> 00:22:00,270 >> Takže v podstate, keď mám len jedno slovo, to, čo chcem nájsť, je arg max, 452 00:22:00,270 --> 00:22:05,385 čo znamená, že to, čo je trieda, ktorá je mi dáva najväčšiu pravdepodobnosť? 453 00:22:05,385 --> 00:22:10,010 Takže to, čo je trieda, ktorá dáva ma najvyššiu pravdepodobnosť 454 00:22:10,010 --> 00:22:11,940 pravdepodobnosť triedy daného slova. 455 00:22:11,940 --> 00:22:17,610 Takže v tomto prípade, vzhľadom k tomu Gaga "dieťa." Rovnako Katy "dieťa." Zmysel? 456 00:22:17,610 --> 00:22:21,040 >> A práve z Bayes, že rovnica, že som ukázal, 457 00:22:21,040 --> 00:22:24,780 sme sa vytvoriť tento zlomok. 458 00:22:24,780 --> 00:22:28,750 Jediná vec je, že vidíte, že pravdepodobnosť slová vzhľadom 459 00:22:28,750 --> 00:22:31,370 zmeny triedy v závislosti na triede, že jo? 460 00:22:31,370 --> 00:22:34,260 Počet "Baby" s, ktoré som V Gaga sa líši od Katy. 461 00:22:34,260 --> 00:22:37,640 Pravdepodobnosť triedy tiež zmeny, pretože je to len číslo 462 00:22:37,640 --> 00:22:39,740 piesní každý z nich má. 463 00:22:39,740 --> 00:22:43,980 >> Ale pravdepodobnosť, že sa slová sám bude rovnaká pre všetky 464 00:22:43,980 --> 00:22:44,740 umelci, že jo? 465 00:22:44,740 --> 00:22:47,150 Takže pravdepodobnosť, že slovo je Len to, čo je pravdepodobnosť 466 00:22:47,150 --> 00:22:49,820 vidieť, že slovo Anglický jazyk? 467 00:22:49,820 --> 00:22:51,420 Takže je to rovnaké pre všetky z nich. 468 00:22:51,420 --> 00:22:55,790 Takže, pretože to je konštanta, môžeme len pokles to a nezaujíma o to. 469 00:22:55,790 --> 00:23:00,230 Takže to bude skutočne rovnice hľadáme. 470 00:23:00,230 --> 00:23:03,360 >> A ak mám viac slov, som ešte bude mať pred 471 00:23:03,360 --> 00:23:04,610 pravdepodobnosť tu. 472 00:23:04,610 --> 00:23:06,980 Jediná vec je, že som násobenie pravdepodobnosť 473 00:23:06,980 --> 00:23:08,490 všetky ostatné slová. 474 00:23:08,490 --> 00:23:10,110 Takže som vynásobením všetky z nich. 475 00:23:10,110 --> 00:23:12,610 Zmysel? 476 00:23:12,610 --> 00:23:18,440 Vyzerá to divne, ale v podstate znamená, výpočet predchádzajúcej triedy, a 477 00:23:18,440 --> 00:23:22,100 potom násobiť pravdepodobnosťou každého slov je v tejto triede. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> A viete, že pravdepodobnosť Slovo vzhľadom trieda bude 480 00:23:29,150 --> 00:23:34,520 koľkokrát vidíte, že slovo že trieda, delená počtom 481 00:23:34,520 --> 00:23:37,020 slová, máte v tom, že trieda všeobecne. 482 00:23:37,020 --> 00:23:37,990 Zmysel? 483 00:23:37,990 --> 00:23:41,680 It to, ako "Baby" bola 2 Použite počet slov, ktoré 484 00:23:41,680 --> 00:23:43,020 Mal som v texte. 485 00:23:43,020 --> 00:23:45,130 Takže len frekvencie. 486 00:23:45,130 --> 00:23:46,260 >> Ale je tu jedna vec. 487 00:23:46,260 --> 00:23:51,250 Spomínam si, ako som sa o tom, že pravdepodobnosť "Baby" bytia texty 488 00:23:51,250 --> 00:23:56,350 od Katy Perry 0. len preto, že Katy Perry nemal "dieťa" vôbec? 489 00:23:56,350 --> 00:24:04,900 Ale znie to trochu krutý len jednoducho povedať, že texty nemôžu byť z 490 00:24:04,900 --> 00:24:10,040 umelec len preto, že nemajú tento výraz najmä kedykoľvek. 491 00:24:10,040 --> 00:24:13,330 >> Takže ste mohli len povedať, dobre, ak nemajú slovo, budem 492 00:24:13,330 --> 00:24:15,640 vám nižšia pravdepodobnosť, ale ja jednoducho nebude 493 00:24:15,640 --> 00:24:17,420 vám 0. hneď. 494 00:24:17,420 --> 00:24:21,040 Vzhľadom k tomu, možno to bolo niečo ako, "Oheň, oheň, oheň, oheň," ktorý je 495 00:24:21,040 --> 00:24:21,990 úplne Katy Perry. 496 00:24:21,990 --> 00:24:26,060 A potom "dieťa", a to len dokazuje, 0 hneď, pretože tam bol jeden 497 00:24:26,060 --> 00:24:27,250 "Dieťa." 498 00:24:27,250 --> 00:24:31,440 >> Takže v podstate to, čo robíme, je niečo, čo tzv Laplace vyhladzovania. 499 00:24:31,440 --> 00:24:36,260 A to len znamená, že dávam určitou pravdepodobnosťou aj slov 500 00:24:36,260 --> 00:24:37,850 že neexistujú. 501 00:24:37,850 --> 00:24:43,170 Takže to, čo robím, je, že keď som výpočte to, vždy som pridať 1 až 502 00:24:43,170 --> 00:24:44,180 čitateľ. 503 00:24:44,180 --> 00:24:48,060 Takže aj keď slovo neexistuje, v V tomto prípade, ak je to 0, som stále 504 00:24:48,060 --> 00:24:51,250 výpočet toto ako jeden cez Celkový počet slov. 505 00:24:51,250 --> 00:24:55,060 Inak som si, koľko slov Mám a som pridať 1 ks. 506 00:24:55,060 --> 00:24:58,300 Takže som počítal pre oba prípady. 507 00:24:58,300 --> 00:25:00,430 Zmysel? 508 00:25:00,430 --> 00:25:03,060 >> Takže teraz poďme urobiť nejaké kódovanie. 509 00:25:03,060 --> 00:25:06,440 Budem musieť urobiť to celkom rýchlo, ale to je len dôležité, aby vám 510 00:25:06,440 --> 00:25:08,600 chlapci pochopiť koncepty. 511 00:25:08,600 --> 00:25:13,450 Takže to, čo sa snažíme robiť je presne realizovať tento 512 00:25:13,450 --> 00:25:14,330 vec, ktorú som práve povedal - 513 00:25:14,330 --> 00:25:19,110 Chcem vám dať texty od Lady Gaga a Katy Perry. 514 00:25:19,110 --> 00:25:22,980 A program sa bude môcť povedať, či tieto nové texty sú od Gaga 515 00:25:22,980 --> 00:25:24,170 alebo Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Zmysel? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Tak som si tento program Idem volať classify.py. 519 00:25:30,710 --> 00:25:31,970 Tak toto je Python. 520 00:25:31,970 --> 00:25:34,210 Je to nový programovací jazyk. 521 00:25:34,210 --> 00:25:38,020 To je veľmi podobné v niektorých spôsoby, ako C a PHP. 522 00:25:38,020 --> 00:25:43,180 Je to podobné, pretože ak chcete učiť Python po poznať C, je to 523 00:25:43,180 --> 00:25:46,270 naozaj nie je, že veľkú výzvu len preto, že Python je oveľa jednoduchšie 524 00:25:46,270 --> 00:25:47,520 ako C, v prvom rade. 525 00:25:47,520 --> 00:25:49,370 A veľa vecí sa už implementovaný pre vás. 526 00:25:49,370 --> 00:25:56,820 Tak, ako ako PHP má funkcie, ktoré zoradiť zoznam, alebo pridať niečo 527 00:25:56,820 --> 00:25:58,780 na pole, alebo bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python má všetky tie, ktoré sú dobre. 529 00:26:00,690 --> 00:26:05,960 >> Tak som len tak vysvetliť rýchlo ako by sme mohli urobiť klasifikáciu 530 00:26:05,960 --> 00:26:07,860 problém tu. 531 00:26:07,860 --> 00:26:13,230 Takže povedzme, že v tomto prípade mám texty z Gaga a Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Spôsobom, že mám tie texty, je, že prvé slovo texte je 533 00:26:21,880 --> 00:26:25,250 meno umelca, a zvyšok je text. 534 00:26:25,250 --> 00:26:29,470 Takže povedzme, že mám tento zoznam v ktorých prvý je text od Gaga. 535 00:26:29,470 --> 00:26:31,930 Tak tu som na správnej ceste. 536 00:26:31,930 --> 00:26:35,270 A ďalší je Katy, a má tiež texty. 537 00:26:35,270 --> 00:26:38,040 >> Tak to je, ako deklarovať premenná v Pythone. 538 00:26:38,040 --> 00:26:40,200 Nemusíte dávať dátový typ. 539 00:26:40,200 --> 00:26:43,150 Stačí napísať "texty" Niečo ako v PHP. 540 00:26:43,150 --> 00:26:44,890 Zmysel? 541 00:26:44,890 --> 00:26:47,770 >> Takže aké sú veci, ktoré som sa vypočítať, aby bolo možné vypočítať 542 00:26:47,770 --> 00:26:49,360 pravdepodobnosti? 543 00:26:49,360 --> 00:26:55,110 Musím vypočítať "priors" každého iný 544 00:26:55,110 --> 00:26:56,710 triedy, ktoré mám. 545 00:26:56,710 --> 00:27:06,680 Musím vypočítať "distálny", alebo do značnej miery pravdepodobnosti 546 00:27:06,680 --> 00:27:12,150 každého z rôznych slov, ktoré Môžem mať pre každého umelca. 547 00:27:12,150 --> 00:27:17,210 Takže v rámci Gaga, napríklad, ja idem mať zoznam koľkokrát vidím 548 00:27:17,210 --> 00:27:19,250 každý zo slov. 549 00:27:19,250 --> 00:27:20,760 Zmysel? 550 00:27:20,760 --> 00:27:25,370 >> A nakoniec, ja len budem musieť Zoznam s názvom "slová", ktorá sa práve chystá 551 00:27:25,370 --> 00:27:29,780 mať, koľko slov som mať pre každého umelca. 552 00:27:29,780 --> 00:27:33,760 Takže pre Gaga, napríklad, keď sa pozriem k textu, som, myslím, 24 553 00:27:33,760 --> 00:27:34,750 Slová celkom. 554 00:27:34,750 --> 00:27:38,970 Takže tento zoznam je len bude mať Gaga 24, a Katy iné číslo. 555 00:27:38,970 --> 00:27:40,130 Zmysel? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Takže teraz, vlastne, poďme ísť na kódovanie. 558 00:27:42,530 --> 00:27:45,270 Takže v Pythone, môžete skutočne návrat na veľa rôznych 559 00:27:45,270 --> 00:27:46,630 veci z funkcie. 560 00:27:46,630 --> 00:27:50,810 Takže idem vytvoriť túto funkciu tzv "podmienené", ktorý sa bude 561 00:27:50,810 --> 00:27:53,890 vrátiť všetky tie veci, "Priors," že "pravdepodobnosť", a 562 00:27:53,890 --> 00:28:05,690 "Slová." Takže "podmienené", a to je bude volať do "texty." 563 00:28:05,690 --> 00:28:11,510 >> Takže teraz chcem, aby ste skutočne napísať túto funkciu. 564 00:28:11,510 --> 00:28:17,750 Takže spôsob, že môžem napísať tento funkcie som definovala 565 00:28:17,750 --> 00:28:20,620 fungovať s "def." Tak som to urobil "def podmienené ", a to pri 566 00:28:20,620 --> 00:28:28,700 "Texty." A čo to bude robiť je, v prvom rade, mám priors 567 00:28:28,700 --> 00:28:31,030 že chcem počítať. 568 00:28:31,030 --> 00:28:34,330 >> Takže spôsob, ako to môžem urobiť, je vytvoriť slovník v jazyku Python, ktorý 569 00:28:34,330 --> 00:28:37,320 je skoro to isté ako hash stôl, alebo je to ako iteratívny 570 00:28:37,320 --> 00:28:40,480 polia v PHP. 571 00:28:40,480 --> 00:28:44,150 To je, ako Prehlasujem slovník. 572 00:28:44,150 --> 00:28:53,580 A v podstate to, čo to znamená, že priors Gaga je 0,5, napríklad v prípade, 573 00:28:53,580 --> 00:28:57,200 50% z textov sú z Gaga, 50% sú od Katy. 574 00:28:57,200 --> 00:28:58,450 Zmysel? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Tak som sa prísť na to, ako pre výpočet priors. 577 00:29:03,680 --> 00:29:07,120 >> Budúci tie, ktoré musím urobiť, i, sú pravdepodobnosti a slová. 578 00:29:07,120 --> 00:29:17,100 Takže pravdepodobnosť Gaga je zoznam zo všetkých pravdepodobnosťou, že som 579 00:29:17,100 --> 00:29:19,160 sa pre každý zo slov pre Gaga. 580 00:29:19,160 --> 00:29:23,880 Takže keď idem na pravdepodobnosti Gaga "Dieťa", napríklad, že to mi 581 00:29:23,880 --> 00:29:28,750 niečo ako 2 v priebehu 24 v tomto prípade. 582 00:29:28,750 --> 00:29:30,070 Zmysel? 583 00:29:30,070 --> 00:29:36,120 Tak ja idem na "pravdepodobnosť", prejdite ku "Gaga" vedierko, ktorý má zoznam všetkých 584 00:29:36,120 --> 00:29:40,550 slová Gaga, potom idem na "dieťa," a vidím pravdepodobnosť. 585 00:29:40,550 --> 00:29:45,940 >> A nakoniec som si to "Slová" slovník. 586 00:29:45,940 --> 00:29:53,620 Tu teda, "pravdepodobnosti." A potom "Slová." Takže keď som to "slovo", "Gaga", 587 00:29:53,620 --> 00:29:58,330 čo sa stane, je, že je to mi dáš 24, hovorí, že som 588 00:29:58,330 --> 00:30:01,990 má 24 slov v textoch z Gaga. 589 00:30:01,990 --> 00:30:04,110 Dáva to zmysel? 590 00:30:04,110 --> 00:30:07,070 Tak tu, "slová" rovná Dah-Dah-DAH. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Takže, čo budem robiť, je budem iterácii každý z textov, tak 593 00:30:12,210 --> 00:30:14,490 každý z reťazcov, ktoré Mám v zozname. 594 00:30:14,490 --> 00:30:18,040 A budem počítať tie veci pre každý z kandidátov. 595 00:30:18,040 --> 00:30:19,950 Dáva to zmysel? 596 00:30:19,950 --> 00:30:21,700 Takže musím urobiť pre sláčiky. 597 00:30:21,700 --> 00:30:26,300 >> Takže v Pythone, čo môžem urobiť, je "pre linku v textoch. "to isté ako 598 00:30:26,300 --> 00:30:28,000 "Pre každý" vyhlásenie v PHP. 599 00:30:28,000 --> 00:30:33,420 Spomínam si, ako keby to bolo PHP som mohol povedať: "pre každý text ako 600 00:30:33,420 --> 00:30:35,220 linka. "Dáva to zmysel? 601 00:30:35,220 --> 00:30:38,900 Takže beriem každý z riadkov, v tomto prípad, tento reťazec a ďalšie 602 00:30:38,900 --> 00:30:44,540 reťazec, takže pre každú z liniek, čo som robiť, je prvý, budem 603 00:30:44,540 --> 00:30:49,150 rozdeliť tento riadok v zozname slov oddelených medzerami. 604 00:30:49,150 --> 00:30:53,730 >> Takže super vec o Pythone je, že môžete len Google, ako je "Ako môžem 605 00:30:53,730 --> 00:30:58,220 rozdeliť reťazec do slov? "A je to ti povedať, ako to urobiť. 606 00:30:58,220 --> 00:31:04,890 A spôsob, ako to urobiť, je to len "linka = Line.split () "a je to v podstate 607 00:31:04,890 --> 00:31:08,640 dám vám zoznam s každý zo slov tu. 608 00:31:08,640 --> 00:31:09,620 Dáva to zmysel? 609 00:31:09,620 --> 00:31:15,870 Takže teraz, že som to urobil, že chcem vedieť, kto je speváčka tejto piesne. 610 00:31:15,870 --> 00:31:20,130 A k tomu, že som sa dostať Prvý prvok poľa, nie? 611 00:31:20,130 --> 00:31:26,390 Takže môžem len povedať, že som "spevák = Linka (0) "Dáva to zmysel? 612 00:31:26,390 --> 00:31:32,010 >> A to, čo musím urobiť, potom je prvá všetci, budem aktualizovať, koľko 613 00:31:32,010 --> 00:31:36,130 slová, ktoré som si pod "Gaga". takže som len bude počítať, koľko slov som 614 00:31:36,130 --> 00:31:38,690 majú v tomto zozname, nie? 615 00:31:38,690 --> 00:31:41,910 Pretože to je to, koľko slov mám v slovách a ja len tak 616 00:31:41,910 --> 00:31:44,120 pridať do "Gaga" pole. 617 00:31:44,120 --> 00:31:47,090 Má to zmysel? 618 00:31:47,090 --> 00:31:49,010 Nepoužívajte príliš sústredí na syntax. 619 00:31:49,010 --> 00:31:50,430 Premýšľajte viac o pojmy. 620 00:31:50,430 --> 00:31:52,400 To je tá najdôležitejšia časť. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Takže to, čo som si to, ak je "Gaga" je Už v tomto zozname, tak "ak spevák 623 00:32:00,260 --> 00:32:03,190 slová ", čo znamená, že som sa už majú slová by Gaga. 624 00:32:03,190 --> 00:32:06,640 Chcem len pridať ďalšie slová, že. 625 00:32:06,640 --> 00:32:15,810 Takže to, čo robím, je "slová (spevák) + = Ľan (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 A potom som si len urobiť dĺžka vedenia. 627 00:32:18,250 --> 00:32:21,860 Tak koľko prvkov Aj sa v poli. 628 00:32:21,860 --> 00:32:27,060 A musím urobiť mínus 1 len preto, že Prvý prvok poľa je len 629 00:32:27,060 --> 00:32:29,180 spevák a tie nie sú texty. 630 00:32:29,180 --> 00:32:31,420 Dáva to zmysel? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Inak," znamená to, že chcem, aby skutočne vložiť Gaga do zoznamu. 633 00:32:35,820 --> 00:32:45,990 Tak som jednoducho "slová (spevák) = Ľan (line) - 1, "Ospravedlňujem sa. 634 00:32:45,990 --> 00:32:49,200 Takže jediný rozdiel medzi týmito dvoma vedenia je, že táto jedna, to nie je 635 00:32:49,200 --> 00:32:51,080 doteraz neexistujú, a tak som len inicializáciu. 636 00:32:51,080 --> 00:32:53,820 Tenhle som vlastne pridať. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Takže to bolo pridaním slov. 639 00:32:59,480 --> 00:33:03,040 >> Teraz chcem pridať Vierozvestcov. 640 00:33:03,040 --> 00:33:05,480 Tak ako to mám vypočítať priors? 641 00:33:05,480 --> 00:33:11,580 Vierozvestci možno vypočítať podľa toho, ako koľkokrát. 642 00:33:11,580 --> 00:33:15,340 Takže koľkokrát vidíte, že spevák medzi všetkými, ktoré ste spevákov 643 00:33:15,340 --> 00:33:16,380 mať, že jo? 644 00:33:16,380 --> 00:33:18,810 Takže pre Gaga a Katy Perry, v tomto prípade vidím Gaga 645 00:33:18,810 --> 00:33:20,570 raz, Katy Perry raz. 646 00:33:20,570 --> 00:33:23,320 >> Takže v podstate sa priors pre Gaga a pre Katy Perry by 647 00:33:23,320 --> 00:33:24,390 byť len jeden, nie? 648 00:33:24,390 --> 00:33:26,500 Práve ste koľkokrát Vidím umelca. 649 00:33:26,500 --> 00:33:28,740 Tak to je veľmi ľahké vypočítať. 650 00:33:28,740 --> 00:33:34,100 Môžem len niečo podobné ako ako "ak spevák v priors, "Idem 651 00:33:34,100 --> 00:33:38,970 pridať 1 až ich Priors poľa. 652 00:33:38,970 --> 00:33:51,000 Takže, "priors (spievať)" + = 1 "a potom" iný " Budem robiť, "priors (spevák) 653 00:33:51,000 --> 00:33:55,000 = 1. "Dáva to zmysel? 654 00:33:55,000 --> 00:34:00,080 >> Takže ak to neexistuje, len som dal ako 1, inak som len pridať 1 ks. 655 00:34:00,080 --> 00:34:11,280 OK, tak teraz všetko, čo som odišiel robiť je tiež pridať každý z slov 656 00:34:11,280 --> 00:34:12,290 pravdepodobnosti. 657 00:34:12,290 --> 00:34:14,889 Takže mám počítať, koľkokrát Vidím každý zo slov. 658 00:34:14,889 --> 00:34:18,780 Tak som jednoducho musel urobiť ďalšie pre slučku v rade. 659 00:34:18,780 --> 00:34:25,190 >> Takže prvá vec, ktorú budem robiť, je skontrolujte, či speváčka už má 660 00:34:25,190 --> 00:34:26,969 pravdepodobnosti poľa. 661 00:34:26,969 --> 00:34:31,739 Takže som kontrolovať, či spevák nie je majú pravdepodobnosti pole, ja som len 662 00:34:31,739 --> 00:34:34,480 bude inicializovať jeden pre nich. 663 00:34:34,480 --> 00:34:36,400 Nie je to ani poľa, je mi ľúto, je to slovník. 664 00:34:36,400 --> 00:34:43,080 Takže pravdepodobnosť speváka sa deje byť otvorený slovník, takže som 665 00:34:43,080 --> 00:34:45,830 len inicializácii slovník neho. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> A teraz môže skutočne urobiť pre sláčiky pre výpočet každej zo slov " 668 00:34:58,330 --> 00:35:00,604 pravdepodobnosti. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Takže to, čo môžem urobiť, je pre sláčiky. 671 00:35:04,160 --> 00:35:06,590 Tak som len tak iterácii cez pole. 672 00:35:06,590 --> 00:35:15,320 Takže tak, že to môžem urobiť v Pythone je "for i in range." Od 1. 673 00:35:15,320 --> 00:35:19,200 pretože chcem začať v druhej element, pretože prvý z nich je 674 00:35:19,200 --> 00:35:20,260 Názov spevák. 675 00:35:20,260 --> 00:35:24,990 Takže z jedného do dĺžka vedenia. 676 00:35:24,990 --> 00:35:29,760 A keď som sa pohybujú v skutočnosti ísť od ako tu od 1 do ľan z 677 00:35:29,760 --> 00:35:30,740 linka mínus 1. 678 00:35:30,740 --> 00:35:33,810 Tak to už robí tú vec robiť n mínus 1 pre pole, ktoré je veľmi 679 00:35:33,810 --> 00:35:35,500 pohodlné. 680 00:35:35,500 --> 00:35:37,850 Dáva to zmysel? 681 00:35:37,850 --> 00:35:42,770 >> Takže pre každého z nich, čo budem urobiť, je, rovnako ako v druhej, 682 00:35:42,770 --> 00:35:50,320 Idem zistiť, či slovo v tomto pozície v rade je už v 683 00:35:50,320 --> 00:35:51,570 pravdepodobnosti. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 A potom, keď som povedal tu, pravdepodobnosti slová, ako v dal som 686 00:35:57,260 --> 00:35:58,400 "Pravdepodobnosti (spevák)". 687 00:35:58,400 --> 00:35:59,390 Takže meno speváka. 688 00:35:59,390 --> 00:36:03,450 Takže ak je to už v roku "Probability (spevák)", znamená to, že som 689 00:36:03,450 --> 00:36:11,960 Chcete pridať 1 k nemu, takže budem robiť, "pravdepodobnosti (spevák)" a 690 00:36:11,960 --> 00:36:14,100 Slovo sa nazýva "linka (i)". 691 00:36:14,100 --> 00:36:22,630 Chystám sa pridať 1 a "iný" Som len bude inicializovať na hodnotu 1. 692 00:36:22,630 --> 00:36:23,880 "Linka (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Dáva to zmysel? 695 00:36:28,420 --> 00:36:30,180 >> Tak, Aj vypočítaná všetkých polí. 696 00:36:30,180 --> 00:36:36,580 Takže teraz všetko, čo mám urobiť pre toto je jednoducho "vrátiť priors, 697 00:36:36,580 --> 00:36:43,230 pravdepodobnosti a slová. "Poďme zistiť, či existujú nejaké, OK. 698 00:36:43,230 --> 00:36:45,690 Zdá sa, že všetko funguje tak ďaleko. 699 00:36:45,690 --> 00:36:46,900 Tak, to dáva zmysel? 700 00:36:46,900 --> 00:36:47,750 V nejakým spôsobom? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Takže teraz mám všetky pravdepodobnosti. 703 00:36:51,980 --> 00:36:55,100 Takže teraz to jediné, čo mi zostalo je len mať tú vec, že 704 00:36:55,100 --> 00:36:58,650 vypočíta súčin všetkých Pravdepodobnosti, keď som si texty. 705 00:36:58,650 --> 00:37:06,270 >> Takže povedzme, že chcem, aby sa zavolať Táto funkcia "klasifikácia ()" a 706 00:37:06,270 --> 00:37:08,880 vec, ktorá funkcia má je len argumentom. 707 00:37:08,880 --> 00:37:13,170 Povedzme, že "Baby, som na oheň" a je to bude zistiť, čo je 708 00:37:13,170 --> 00:37:14,490 pravdepodobnosť, že je to Gaga? 709 00:37:14,490 --> 00:37:16,405 Aká je pravdepodobnosť, že je to Katie? 710 00:37:16,405 --> 00:37:19,690 Znie to dobre? 711 00:37:19,690 --> 00:37:25,750 Takže som jednoducho musieť vytvoriť nová funkcia s názvom "klasifikácie ()" a 712 00:37:25,750 --> 00:37:29,180 že to bude trvať nejaký texty rovnako. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 A okrem textov aj ja musieť poslať priors, 715 00:37:36,160 --> 00:37:37,700 pravdepodobnosti a slová. 716 00:37:37,700 --> 00:37:44,000 Takže budem posielať texty, priors, pravdepodobnosť, slová. 717 00:37:44,000 --> 00:37:51,840 >> Takže je to s textami, priors, pravdepodobnosť, slová. 718 00:37:51,840 --> 00:37:53,530 Takže, čo to robí? 719 00:37:53,530 --> 00:37:57,180 Je to v podstate sa chystá prejsť všetky možných kandidátov, ktoré ste 720 00:37:57,180 --> 00:37:58,510 mať ako spevák. 721 00:37:58,510 --> 00:37:59,425 A kde sú tie kandidátmi? 722 00:37:59,425 --> 00:38:01,020 Sú v priors, že jo? 723 00:38:01,020 --> 00:38:02,710 Tak som si všetky tie tam. 724 00:38:02,710 --> 00:38:07,870 Takže budem mať slovník zo všetkých možných kandidátov. 725 00:38:07,870 --> 00:38:14,220 A potom pre každého kandidáta v priors, tak to znamená, že to bude 726 00:38:14,220 --> 00:38:17,740 bude Gaga, Katie, keby som mal viac, že ​​to bude viac. 727 00:38:17,740 --> 00:38:20,410 Chystám sa začať výpočtu táto pravdepodobnosť. 728 00:38:20,410 --> 00:38:28,310 Pravdepodobnosť, ako sme videli v PowerPoint je skoršie časy 729 00:38:28,310 --> 00:38:30,800 produkt každého ďalšie pravdepodobnosti. 730 00:38:30,800 --> 00:38:32,520 >> Tak som si to tu isté. 731 00:38:32,520 --> 00:38:36,330 Môžem len to, pravdepodobnosť je spočiatku len pred. 732 00:38:36,330 --> 00:38:40,340 Takže priors kandidáta. 733 00:38:40,340 --> 00:38:40,870 Je to tak? 734 00:38:40,870 --> 00:38:45,360 A teraz mám pre iteráciu cez všetky slová, ktoré mám v texte sa 735 00:38:45,360 --> 00:38:48,820 možné pridať pravdepodobnosť pre každú z nich, OK? 736 00:38:48,820 --> 00:38:57,900 Takže, "slová v textoch" čo budem k tomu je, ak je slovo v 737 00:38:57,900 --> 00:39:01,640 "Pravdepodobnosti (kandidátskych)", ktoré Znamená to, že je to slovo, ktoré 738 00:39:01,640 --> 00:39:03,640 kandidát má vo svojich textoch - 739 00:39:03,640 --> 00:39:05,940 Napríklad, "dieťa" pre Gaga - 740 00:39:05,940 --> 00:39:11,710 čo budem robiť, je to, že pravdepodobnosť sa bude násobiť 741 00:39:11,710 --> 00:39:22,420 o 1 a pravdepodobnosti na kandidát na toto slovo. 742 00:39:22,420 --> 00:39:25,710 A volá sa "slovo". 743 00:39:25,710 --> 00:39:32,440 Tento delený počtom slov že mám pre tohto kandidáta. 744 00:39:32,440 --> 00:39:37,450 Celkový počet slov, ktoré mám pre speváka, ktorý som pri pohľade na. 745 00:39:37,450 --> 00:39:40,290 >> "Else". to znamená, že je nové slovo tak to by bolo, ako napríklad 746 00:39:40,290 --> 00:39:41,860 "Oheň" pre Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Takže chcem len urobiť jeden cez "Slovo (kandidát)". 748 00:39:45,760 --> 00:39:47,710 Takže nechcem, aby tento termín tu. 749 00:39:47,710 --> 00:39:50,010 >> Takže to bude v podstate kopírovanie a vkladanie toto. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Ale ja idem zmazať túto časť. 752 00:39:56,000 --> 00:39:57,610 Takže je to len bude 1 cez to. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Znie to dobre? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 A teraz na konci, ja len tak vytlačiť meno kandidáta a 757 00:40:09,700 --> 00:40:15,750 pravdepodobnosť, že budete mať z má S na svojich textoch. 758 00:40:15,750 --> 00:40:16,200 Dáva to zmysel? 759 00:40:16,200 --> 00:40:18,390 A ja vlastne ani nemám je potrebné tento slovník. 760 00:40:18,390 --> 00:40:19,510 Dáva to zmysel? 761 00:40:19,510 --> 00:40:21,810 >> Takže, poďme zistiť, či to skutočne funguje. 762 00:40:21,810 --> 00:40:24,880 Takže keď som spustiť to, sa to nebude fungovať. 763 00:40:24,880 --> 00:40:26,130 Počkajte jednu sekundu. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Slová (kandidátskych)", "slová (kandidátskych)", to je 766 00:40:31,720 --> 00:40:33,750 názov poľa. 767 00:40:33,750 --> 00:40:41,435 OK Tak, to hovorí, že je to nejaký bug pre kandidáta na priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Dovoľte mi len chill trochu. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Poďme to skúsiť. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Tak to dáva Katy Perry má tento pravdepodobnosť, že tento násobok 10 na 774 00:40:58,710 --> 00:41:02,200 mínus 7, a Gaga má tento krát 10 na mínus 6. 775 00:41:02,200 --> 00:41:05,610 Takže vidíte, že ukazuje, že Gaga má vyššiu pravdepodobnosť. 776 00:41:05,610 --> 00:41:09,260 Takže "Miláčik, ja som na Fire" je pravdepodobne Gaga pieseň. 777 00:41:09,260 --> 00:41:10,580 Dáva to zmysel? 778 00:41:10,580 --> 00:41:12,030 Takže to je to, čo sme urobili. 779 00:41:12,030 --> 00:41:16,010 >> Tento kód sa bude vyslaný on-line, takže vy môžete pozrieť. 780 00:41:16,010 --> 00:41:20,720 Možno, že použitie niektoré z nich, ak si chcete urobiť projekt, alebo niečo podobné. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 To bolo len ukázať, Čo výpočtovej 783 00:41:25,930 --> 00:41:27,230 lingvistika kód vyzerá. 784 00:41:27,230 --> 00:41:33,040 Ale teraz poďme k ďalšej Vysoká úroveň veci. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Takže ďalšie problémy som hovoril o - 787 00:41:35,150 --> 00:41:37,550 problém segmentácia je prvá z nich. 788 00:41:37,550 --> 00:41:40,820 Takže máte tú japončinu. 789 00:41:40,820 --> 00:41:43,420 A potom vidíte, že nie sú tam žiadne medzery. 790 00:41:43,420 --> 00:41:49,110 Takže je to v podstate znamená, že je horné stoličky, nie? 791 00:41:49,110 --> 00:41:50,550 Môžete hovoriť japonsky? 792 00:41:50,550 --> 00:41:52,840 Je to najvyššia zo stoličky, že jo? 793 00:41:52,840 --> 00:41:54,480 >> STUDENT: Neviem, čo kanji tam je. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: Je to [HOVORIACI japonský] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Takže to v podstate znamená, že predsedníctvo vrchole. 797 00:42:00,960 --> 00:42:03,620 Takže ak by ste mali dať priestor to bude tu. 798 00:42:03,620 --> 00:42:05,970 A potom máte [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Čo v podstate znamená, že pán Ueda. 800 00:42:09,040 --> 00:42:13,180 A vidíte, že "Ueda" a máte priestor a potom sa "san". Takže vidíte, že 801 00:42:13,180 --> 00:42:15,470 tu "Ue" je ako sama o sebe. 802 00:42:15,470 --> 00:42:17,750 A tu je má charakter vedľa nej. 803 00:42:17,750 --> 00:42:21,720 >> Takže to nie je ako v tých jazykoch znaky, čo znamená slovo to, aby vám 804 00:42:21,720 --> 00:42:23,980 stačí dať veľa priestoru. 805 00:42:23,980 --> 00:42:25,500 Postavy sa vzťahujú ku každému iný. 806 00:42:25,500 --> 00:42:28,680 A môžu byť spolu ako dve, tri, jeden. 807 00:42:28,680 --> 00:42:34,520 Takže ste skutočne vytvoriť nejaký o spôsob, ako dať tieto priestory. 808 00:42:34,520 --> 00:42:38,850 >> A to je to, že vždy, keď sa dostanete Údaje z týchto ázijských jazykov, 809 00:42:38,850 --> 00:42:40,580 všetko, čo príde unsegmented. 810 00:42:40,580 --> 00:42:45,940 Pretože nikto, kto píše japonsky alebo čínske píše s medzerami. 811 00:42:45,940 --> 00:42:48,200 Kedykoľvek budete písať čínsky, Japonská stačí napísať všetko 812 00:42:48,200 --> 00:42:48,710 bez medzier. 813 00:42:48,710 --> 00:42:52,060 To nemá ani zmysel dať priestor. 814 00:42:52,060 --> 00:42:57,960 Takže, keď sa dostanete dáta z niektorej Východnej Ázie jazyk, ak chcete 815 00:42:57,960 --> 00:43:00,760 skutočne niečo urobiť s tým musíte segmente ako prvý. 816 00:43:00,760 --> 00:43:05,130 >> Zamyslite sa nad tým na príklad texty bez medzier. 817 00:43:05,130 --> 00:43:07,950 Takže iba texty, ktoré majú Bude vety, nie? 818 00:43:07,950 --> 00:43:09,470 Oddelených bodkami. 819 00:43:09,470 --> 00:43:13,930 Ale potom majú len trest bude nie je naozaj pomôcť na to, aby informácie 820 00:43:13,930 --> 00:43:17,760 kto tie texty sú o 821 00:43:17,760 --> 00:43:18,120 Je to tak? 822 00:43:18,120 --> 00:43:20,010 Takže by ste mali stavia prvej medzery. 823 00:43:20,010 --> 00:43:21,990 Tak ako môžete robiť, že? 824 00:43:21,990 --> 00:43:24,920 >> Takže potom príde myšlienka jazyka model, ktorý je niečo, čo naozaj 825 00:43:24,920 --> 00:43:26,870 dôležité pre výpočtovú lingvistika. 826 00:43:26,870 --> 00:43:32,790 Takže jazykový model je v podstate tabuľka pravdepodobnosťou, že ukazuje 827 00:43:32,790 --> 00:43:36,260 v prvom rade to, čo je pravdepodobnosť mať slovo v jazyku? 828 00:43:36,260 --> 00:43:39,590 Tak ukazuje, ako často je slovo. 829 00:43:39,590 --> 00:43:43,130 A potom tiež ukazuje vzťah medzi slovami vo vete. 830 00:43:43,130 --> 00:43:51,500 >> Takže hlavnou myšlienkou je, že ak cudzinec prišiel pre vás a povedal vetu 831 00:43:51,500 --> 00:43:55,600 si, aká je pravdepodobnosť, že pre napríklad, "toto je moja sestra [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 bola veta, že človek hovorí? 833 00:43:57,480 --> 00:44:00,380 Takže samozrejme niektoré vety sú častejšie ako iné. 834 00:44:00,380 --> 00:44:04,450 Napríklad, "dobré ráno" alebo "dobrý noc, "alebo" hej tam, "je oveľa viac 835 00:44:04,450 --> 00:44:08,260 časté než väčšina viet že máme angličtinu. 836 00:44:08,260 --> 00:44:11,060 Tak prečo sú tie tresty častejšie? 837 00:44:11,060 --> 00:44:14,060 >> Po prvé, je to preto, že máte slová, ktoré sú častejšie. 838 00:44:14,060 --> 00:44:20,180 Tak, napríklad, keď poviete, že pes je veľký, a pes je obrovský, môžete 839 00:44:20,180 --> 00:44:23,880 zvyčajne asi počuť pes je veľký častejšie, pretože "veľká" je viac 840 00:44:23,880 --> 00:44:27,260 často v angličtine, ako "gigantický". Takže jeden z 841 00:44:27,260 --> 00:44:30,100 čo je slovo frekvencie. 842 00:44:30,100 --> 00:44:34,490 >> Druhá vec, ktorá je naozaj Dôležitá je len 843 00:44:34,490 --> 00:44:35,490 Poradie slov. 844 00:44:35,490 --> 00:44:39,500 Tak, to je bežné hovoriť "mačka je vnútri škatule. ", ale tie nie sú obvykle 845 00:44:39,500 --> 00:44:44,250 pozri v "krabici vo vnútri je mačka." tak Vidíte, že tam je nejaký význam 846 00:44:44,250 --> 00:44:46,030 v poradí slov. 847 00:44:46,030 --> 00:44:50,160 Nemôžete len tak povedať, že tí dvaja vety majú rovnakú pravdepodobnosť 848 00:44:50,160 --> 00:44:53,010 len preto, že majú rovnaké slová. 849 00:44:53,010 --> 00:44:55,550 V skutočnosti musíte starať o poradí rovnako. 850 00:44:55,550 --> 00:44:57,650 Zmysel? 851 00:44:57,650 --> 00:44:59,490 >> Tak čo budeme robiť? 852 00:44:59,490 --> 00:45:01,550 Takže to, čo som mohol pokúsiť dostať vás? 853 00:45:01,550 --> 00:45:04,400 Snažím sa vám to, čo sme zavolajte modely n-gram. 854 00:45:04,400 --> 00:45:09,095 Takže n-gramové modely v podstate predpokladá, že pre každé slovo, ktoré 855 00:45:09,095 --> 00:45:10,960 máte vo vete. 856 00:45:10,960 --> 00:45:15,020 Je to pravdepodobnosť, že mať Slovo tu závisí nielen na 857 00:45:15,020 --> 00:45:18,395 Frekvencia tohto slova v jazyku, ale tiež na slová, ktoré 858 00:45:18,395 --> 00:45:19,860 sa ho obklopuje. 859 00:45:19,860 --> 00:45:25,810 >> Tak napríklad, zvyčajne, keď vidíte, niečo ako na, alebo na ty si 860 00:45:25,810 --> 00:45:28,040 pravdepodobne bude vidieť podstatné meno po ňom, nie? 861 00:45:28,040 --> 00:45:31,750 Vzhľadom k tomu, keď máte predložku Zvyčajne to trvá podstatné meno po ňom. 862 00:45:31,750 --> 00:45:35,540 Alebo ak máte sloveso, ktoré je tranzitívne zvyčajne sa chystáte 863 00:45:35,540 --> 00:45:36,630 majú mennú frázu. 864 00:45:36,630 --> 00:45:38,780 Takže to bude mať podstatné meno niekde okolo neho. 865 00:45:38,780 --> 00:45:44,950 >> Takže, v podstate, čo to urobí, je, že sa domnieva, že pravdepodobnosť, že bude 866 00:45:44,950 --> 00:45:47,960 slová vedľa seba, keď ste výpočtu 867 00:45:47,960 --> 00:45:49,050 pravdepodobnosť vety. 868 00:45:49,050 --> 00:45:50,960 A to je to, čo o jazyk, model je v podstate. 869 00:45:50,960 --> 00:45:54,620 Len hovorím, čo je pravdepodobnosť, mať špecifický 870 00:45:54,620 --> 00:45:57,120 veta v jazyku? 871 00:45:57,120 --> 00:45:59,110 Tak prečo je to užitočné, v podstate? 872 00:45:59,110 --> 00:46:02,390 A v prvom rade to, čo je Model n-gram, potom? 873 00:46:02,390 --> 00:46:08,850 >> Takže modelu n-gram znamená, že každé slovo je závislá na 874 00:46:08,850 --> 00:46:12,700 ďalšie N mínus 1 slov. 875 00:46:12,700 --> 00:46:18,150 Takže, v podstate, to znamená, že ak sa pozriem, napríklad na CS50 TF pri 876 00:46:18,150 --> 00:46:21,500 Ja výpočet pravdepodobnosti veta, budete mať ako " 877 00:46:21,500 --> 00:46:25,280 pravdepodobnosť, že bude slovo "" krát pravdepodobnosť, že bude " 878 00:46:25,280 --> 00:46:31,720 CS50 "krát pravdepodobnosť, že bude "CS50 TF." Takže v podstate som počítať 879 00:46:31,720 --> 00:46:35,720 všetky možné spôsoby naťahovať to. 880 00:46:35,720 --> 00:46:41,870 >> A potom sa zvyčajne, keď robíte to, ako v projekte, dáte N sa 881 00:46:41,870 --> 00:46:42,600 nízka hodnota. 882 00:46:42,600 --> 00:46:45,930 Takže, zvyčajne bigrams alebo trigramov. 883 00:46:45,930 --> 00:46:51,090 Takže stačí počítať dve slovami, skupina dvoch slov, alebo troch slov, 884 00:46:51,090 --> 00:46:52,620 len za funkčné problémy. 885 00:46:52,620 --> 00:46:56,395 A tiež preto, že možno máte ak niečo ako "The CS50 TF." Keď 886 00:46:56,395 --> 00:47:00,510 majú "TF", to je veľmi dôležité, aby "CS50" je vedľa nej, že jo? 887 00:47:00,510 --> 00:47:04,050 Tieto dve veci sú zvyčajne vedľa seba. 888 00:47:04,050 --> 00:47:06,410 >> Ak si myslíte, že "TF", to je asi bude mať to, čo 889 00:47:06,410 --> 00:47:07,890 Trieda je to TF'ing pre. 890 00:47:07,890 --> 00:47:11,330 Tiež "" je veľmi dôležité, pre CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Ale ak máte niečo ako "The CS50 TF šiel do triedy a dal ich 892 00:47:14,570 --> 00:47:20,060 Študenti nejaký cukrík. "" Candy "a" " nemajú žiadny vzťah naozaj, že jo? 893 00:47:20,060 --> 00:47:23,670 Sú tak ďaleko od seba, že to nie je naozaj jedno, čo 894 00:47:23,670 --> 00:47:25,050 Slová máte. 895 00:47:25,050 --> 00:47:31,210 >> Takže tým, že robí bigram alebo trigram, že jednoducho znamená, že ste obmedzení 896 00:47:31,210 --> 00:47:33,430 sami na niektorých slov ktoré sú v okolí. 897 00:47:33,430 --> 00:47:35,810 Zmysel? 898 00:47:35,810 --> 00:47:40,630 Takže ak chcete urobiť segmentácie, v podstate, čo chcete urobiť, je vidieť 899 00:47:40,630 --> 00:47:44,850 aké sú všetky možné spôsoby, ako môžete segmentu vetu. 900 00:47:44,850 --> 00:47:49,090 >> Taký, že vidíte, čo je pravdepodobnosť, že každé z týchto viet 901 00:47:49,090 --> 00:47:50,880 existujúce v jazyku? 902 00:47:50,880 --> 00:47:53,410 Takže to, čo robíte, je rád, dobre, nech me sa snaží dať priestor tu. 903 00:47:53,410 --> 00:47:55,570 Tak si dal priestor tu a uvidíte, čo je 904 00:47:55,570 --> 00:47:57,590 pravdepodobnosť tejto vety? 905 00:47:57,590 --> 00:48:00,240 Potom ste ako, OK, možno že to nie je tak dobré. 906 00:48:00,240 --> 00:48:03,420 Tak som dal priestor tam a priestor tam, a vypočítať 907 00:48:03,420 --> 00:48:06,240 pravdepodobnosť teraz, a uvidíte, že je vyššia pravdepodobnosť. 908 00:48:06,240 --> 00:48:12,160 >> Tak toto je algoritmus s názvom TANGO segmentácia algoritmus, ktorý je 909 00:48:12,160 --> 00:48:14,990 vlastne niečo, čo by bolo naozaj v pohode pre projekt, ktorý 910 00:48:14,990 --> 00:48:20,860 v podstate sa unsegmented text, ktorý môžu byť japonskej alebo čínskej, alebo možno 911 00:48:20,860 --> 00:48:26,080 Anglicky bez medzier a snaží sa dať medzery medzi slovami a to robí 912 00:48:26,080 --> 00:48:29,120 že pomocou jazyka modelu a sa snažia zistiť, čo je najvyššia 913 00:48:29,120 --> 00:48:31,270 Pravdepodobnosť môžete dostať. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Tak toto je segmentácia. 916 00:48:33,800 --> 00:48:35,450 >> Teraz syntaxe. 917 00:48:35,450 --> 00:48:40,940 Takže, syntax je používaný pre toľko vecí, práve teraz. 918 00:48:40,940 --> 00:48:44,880 Takže Graf vyhľadávania, pre Siri pre skoro akýkoľvek druh prírodnej 919 00:48:44,880 --> 00:48:46,490 spracovanie jazyka, ktorý máte. 920 00:48:46,490 --> 00:48:49,140 Takže to, čo je dôležité veci, o syntax? 921 00:48:49,140 --> 00:48:52,390 Takže, vety majú všeobecne čo nazývame zložky. 922 00:48:52,390 --> 00:48:57,080 Aké sú niečo ako skupiny slov ktoré majú funkciu vo vete. 923 00:48:57,080 --> 00:49:02,220 A nemôžu byť naozaj od seba. 924 00:49:02,220 --> 00:49:07,380 >> Takže, keď poviem, napríklad, "Lauren miluje Milo. "Ja viem, že" Lauren "je 925 00:49:07,380 --> 00:49:10,180 zložka a potom "lásky Milo "je tiež iný. 926 00:49:10,180 --> 00:49:16,860 Vzhľadom k tomu, nemôžete povedať, ako "Lauren Milo miluje "majú rovnaký význam. 927 00:49:16,860 --> 00:49:18,020 Nebude to mať rovnaký význam. 928 00:49:18,020 --> 00:49:22,500 Alebo Nemôžem povedať, že ako "Milo Lauren miluje. "Nie všetko, čo má rovnaký 929 00:49:22,500 --> 00:49:25,890 čo znamená, robiť, že. 930 00:49:25,890 --> 00:49:31,940 >> Takže dve ďalšie dôležité veci, o Syntax sú lexikálne typy, ktoré je 931 00:49:31,940 --> 00:49:35,390 v podstate funkcia, ktorá vám majú slová sami. 932 00:49:35,390 --> 00:49:39,180 Takže musíte vedieť, že "Lauren" a "Milo" sú podstatné mená. 933 00:49:39,180 --> 00:49:41,040 "Láska" je sloveso. 934 00:49:41,040 --> 00:49:45,660 A druhá dôležitá vec je, že sú frázové typy. 935 00:49:45,660 --> 00:49:48,990 Takže viete, že "miluje Milo" je vlastne slovné frázy. 936 00:49:48,990 --> 00:49:52,390 Takže keď hovorím "Lauren," ja viem, že Lauren sa niečo robiť. 937 00:49:52,390 --> 00:49:53,620 Čo to robí? 938 00:49:53,620 --> 00:49:54,570 Ona je milujúci Milo. 939 00:49:54,570 --> 00:49:56,440 Tak to je celá vec. 940 00:49:56,440 --> 00:50:01,640 Ale jeho komponenty sú podstatné meno a sloveso. 941 00:50:01,640 --> 00:50:04,210 Ale dohromady, robia sloveso frázu. 942 00:50:04,210 --> 00:50:08,680 >> Takže, čo môžeme skutočne urobiť s počítačová lingvistika? 943 00:50:08,680 --> 00:50:13,810 Takže, keď mám niečo, čo napríklad "Priatelia Allison." Vidím, či som 944 00:50:13,810 --> 00:50:17,440 sa syntaktický strom by som vedieť, že "Priatelia" je vzťahujú údaje frázy je 945 00:50:17,440 --> 00:50:21,480 podstatné meno a potom "Allison" je predložkové frázy, v ktorých "z" je 946 00:50:21,480 --> 00:50:24,810 návrh a "Allison" je podstatné meno. 947 00:50:24,810 --> 00:50:30,910 To, čo som mohol urobiť, je naučiť počítač že keď mám vzťahujú údaje frázy jedno a 948 00:50:30,910 --> 00:50:33,080 potom predložkové frázy. 949 00:50:33,080 --> 00:50:39,020 Takže v tomto prípade, "priatelia" a potom "z Milo "Ja viem, že to znamená, že 950 00:50:39,020 --> 00:50:43,110 NP2, druhá, vlastné NP1. 951 00:50:43,110 --> 00:50:47,680 >> Tak som sa vytvoriť nejaký vzťah, nejaká funkcia pre ňu. 952 00:50:47,680 --> 00:50:52,370 Takže keď vidím túto štruktúru, ktorá zodpovedá presne s "priateľmi 953 00:50:52,370 --> 00:50:56,030 Allison, "ja viem, že Allison vlastné priateľov. 954 00:50:56,030 --> 00:50:58,830 Takže priatelia sú niečo, že Allison má. 955 00:50:58,830 --> 00:50:59,610 Dáva to zmysel? 956 00:50:59,610 --> 00:51:01,770 Tak to je v podstate to, čo Graf Search robí. 957 00:51:01,770 --> 00:51:04,360 Je to len vytvára pravidlá na veľa vecí. 958 00:51:04,360 --> 00:51:08,190 Takže "priatelia Allison", "moji priatelia ktorí žijú v Cambridge, "" svojim priateľom 959 00:51:08,190 --> 00:51:12,970 ktorí idú na Harvarde. "Vytvára pravidlá pre všetky tie veci. 960 00:51:12,970 --> 00:51:14,930 >> Teraz strojový preklad. 961 00:51:14,930 --> 00:51:18,850 Takže, strojový preklad, je tiež niečo štatistické. 962 00:51:18,850 --> 00:51:21,340 A skutočne, ak ste sa zapojili do počítačová lingvistika, veľa 963 00:51:21,340 --> 00:51:23,580 vaše veci bude štatistika. 964 00:51:23,580 --> 00:51:26,670 Takže ako som robil príklad s veľa pravdepodobnosťou, že som bol 965 00:51:26,670 --> 00:51:30,540 výpočtu, a potom sa dostanete k tomu veľmi malé číslo, ktoré je konečné 966 00:51:30,540 --> 00:51:33,180 pravdepodobnosť, a to je to, čo vám dáva odpoveď. 967 00:51:33,180 --> 00:51:37,540 Strojový preklad tiež používa štatistický model. 968 00:51:37,540 --> 00:51:44,790 A ak chcete myslieť na stroji preklad v najjednoduchšie 969 00:51:44,790 --> 00:51:48,970 Mimochodom, čo si môžete myslieť, je len prekladať slovo od slova, že jo? 970 00:51:48,970 --> 00:51:52,150 >> Keď sa učíte jazyk pre Prvýkrát, to je zvyčajne to, čo 971 00:51:52,150 --> 00:51:52,910 vy, že jo? 972 00:51:52,910 --> 00:51:57,050 Ak chcete, môžete preložiť vetu vo vašom jazyku do jazyka 973 00:51:57,050 --> 00:52:00,060 učíte, zvyčajne ako prvé, preložiť každý zo slov 974 00:52:00,060 --> 00:52:03,180 individuálne, a potom skúste dať slová na miesto. 975 00:52:03,180 --> 00:52:07,100 >> Takže keď som chcel, aby to preložiť, [HOVORIACI portugalský] 976 00:52:07,100 --> 00:52:10,430 , Čo znamená "biela mačka utiekla." Ak by som to chcel preložiť z 977 00:52:10,430 --> 00:52:13,650 Portugalčina do angličtiny, to, čo som mohol urobiť, je, ako prvá, len som 978 00:52:13,650 --> 00:52:14,800 prekladať slovo od slova. 979 00:52:14,800 --> 00:52:20,570 Takže "o" je "," "gato", "mačka", "Branco", "biela", a potom "Fugi" je 980 00:52:20,570 --> 00:52:21,650 "Utiekol." 981 00:52:21,650 --> 00:52:26,130 >> Tak som si všetky slová tu, ale to nie je v poriadku. 982 00:52:26,130 --> 00:52:29,590 Je to ako "mačka biela utiekol" ktorý je ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Takže, potom môžem mať druhý krok, ktorý sa bude nájsť ideálne 984 00:52:34,490 --> 00:52:36,610 pozície pre každý zo slov. 985 00:52:36,610 --> 00:52:40,240 Takže viem, že som vlastne chcem mať "Biely kocúr" namiesto "mačka biely." Tak 986 00:52:40,240 --> 00:52:46,050 čo môžem urobiť, je, najviac naivný metódu by bolo vytvoriť všetky 987 00:52:46,050 --> 00:52:49,720 možné permutácie slová, pozícií. 988 00:52:49,720 --> 00:52:53,300 A potom zistiť, ktorý z nich má Najvyššia pravdepodobnosť podľa 989 00:52:53,300 --> 00:52:54,970 do môjho jazyka modelu. 990 00:52:54,970 --> 00:52:58,390 A potom, keď som sa nájsť ten, ktorý má najvyššiu pravdepodobnosť, že, ktorý je 991 00:52:58,390 --> 00:53:01,910 pravdepodobne "biely kocúr utiekol," to je môj preklad. 992 00:53:01,910 --> 00:53:06,710 >> A to je jednoduchý spôsob, ako vysvetliť ako veľa strojového prekladu 993 00:53:06,710 --> 00:53:07,910 algoritmy pracujú. 994 00:53:07,910 --> 00:53:08,920 Má to zmysel? 995 00:53:08,920 --> 00:53:12,735 To je tiež niečo, čo naozaj vzrušujúce že vy môžete možná prieskum 996 00:53:12,735 --> 00:53:13,901 Konečný projekt, jo? 997 00:53:13,901 --> 00:53:15,549 >> STUDENT: No, hovoril, že to bolo naivný spôsob, takže to, čo je 998 00:53:15,549 --> 00:53:17,200 non-naivný cesta? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: non-naivný cesta? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Takže prvá vec, ktorá je zlé na tom, táto metóda je, že som preložil 1002 00:53:22,860 --> 00:53:24,330 slová, slovo od slova. 1003 00:53:24,330 --> 00:53:30,570 Ale niekedy budete musieť slová, ktoré môže mať viac prekladov. 1004 00:53:30,570 --> 00:53:32,210 Budem sa snažiť myslieť niečo. 1005 00:53:32,210 --> 00:53:37,270 Napríklad, "manga" v portugalskej plechovke buď "mangeľ" alebo "rukáv". Tak 1006 00:53:37,270 --> 00:53:40,450 keď sa snažíte preložiť slovo slovom, to by mohlo byť, že vám 1007 00:53:40,450 --> 00:53:42,050 niečo, čo nedáva zmysel. 1008 00:53:42,050 --> 00:53:45,770 >> Takže vy vlastne chcete, aby sa pozriete na všetky možné preklady 1009 00:53:45,770 --> 00:53:49,840 slová a vidieť, v prvom rade, čo je rozkaz. 1010 00:53:49,840 --> 00:53:52,000 Rozprávali sme si o permutating veci? 1011 00:53:52,000 --> 00:53:54,150 Ak chcete zobraziť všetky možné príkazy a vybrať ten s najvyššou 1012 00:53:54,150 --> 00:53:54,990 pravdepodobnosť? 1013 00:53:54,990 --> 00:53:57,860 Môžete si tiež vybrať všetky možné preklady pre každého 1014 00:53:57,860 --> 00:54:00,510 slovo a potom uvidíme - 1015 00:54:00,510 --> 00:54:01,950 v kombinácii s permutácií - 1016 00:54:01,950 --> 00:54:03,710 , Ktorý z nich má najvyššiu pravdepodobnosť. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, môžete sa tiež pozrieť na to len slová, ale vety. 1018 00:54:08,590 --> 00:54:11,700 takže môžete analyzovať vzťahy medzi slová a potom sa 1019 00:54:11,700 --> 00:54:13,210 lepší preklad. 1020 00:54:13,210 --> 00:54:16,690 Tiež niečo iné, tak tento semester Ja som vlastne robil výskum v 1021 00:54:16,690 --> 00:54:19,430 Čínsko-anglický strojový preklad, takže prekladanie z 1022 00:54:19,430 --> 00:54:20,940 Čínska do angličtiny. 1023 00:54:20,940 --> 00:54:26,760 >> A niečo, čo robíme, je, okrem použitia štatistický model, ktorý je práve 1024 00:54:26,760 --> 00:54:30,570 vidieť pravdepodobnosťou vidieť niektoré pozície vo vete, že som 1025 00:54:30,570 --> 00:54:35,360 vlastne tiež pridať nejakú syntax my Model, riekol: Ach, keď vidím tento druh 1026 00:54:35,360 --> 00:54:39,420 výstavby, to je to, čo chcem to zmeniť, keď som sa prekladať. 1027 00:54:39,420 --> 00:54:43,880 Takže môžete tiež pridať nejaký prvok syntaxe, aby 1028 00:54:43,880 --> 00:54:47,970 Preklad účinnejšie a presnejšie. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Tak ako môžete začať, ak chcete robiť niečo vo výpočtovej 1031 00:54:51,010 --> 00:54:51,980 lingvistika? 1032 00:54:51,980 --> 00:54:54,560 >> Najprv si vyberiete projekt , Ktorá sa týka jazykov. 1033 00:54:54,560 --> 00:54:56,310 Takže, tam je tak veľa tam vonku. 1034 00:54:56,310 --> 00:54:58,420 Je tu toľko vecí, ktoré môžete urobiť. 1035 00:54:58,420 --> 00:55:00,510 A potom môžete premýšľať o modeli ktoré môžete použiť. 1036 00:55:00,510 --> 00:55:04,710 Zvyčajne to znamená, že myslenie predpoklady, as ako, oh, keď som bol 1037 00:55:04,710 --> 00:55:05,770 ako myslenie textu. 1038 00:55:05,770 --> 00:55:09,510 Bol som rád, dobre, či chcem prísť out, ktorý to napísal, asi chcem 1039 00:55:09,510 --> 00:55:15,400 pozrieť sa na slová, osoba používa a zistiť, kto používa toto slovo veľmi často. 1040 00:55:15,400 --> 00:55:18,470 Takže sa snažia, aby predpoklady a skúste sa zamyslieť modelov. 1041 00:55:18,470 --> 00:55:21,395 A potom sa môžete tiež vyhľadať online druh problému, ktorý máte, 1042 00:55:21,395 --> 00:55:24,260 a bude to o tom, aby vás modely, ktoré možno 1043 00:55:24,260 --> 00:55:26,560 modelovať tú vec dobre. 1044 00:55:26,560 --> 00:55:29,080 >> A tiež môžete vždy napíšte mi. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 A môžem len odpovedať na vaše otázky. 1047 00:55:34,940 --> 00:55:38,600 Môžeme dokonca mohli stretnúť, takže môžem dávať návrhy na spôsoby 1048 00:55:38,600 --> 00:55:41,490 realizáciu projektu. 1049 00:55:41,490 --> 00:55:45,610 A mám na mysli, keď sa zapojiť do počítačová lingvistika, že to bude 1050 00:55:45,610 --> 00:55:46,790 byť skvelý. 1051 00:55:46,790 --> 00:55:48,370 Budeš vidieť, že je tak veľký potenciál. 1052 00:55:48,370 --> 00:55:52,060 A priemysel chce najať ste tak zlé, pretože to. 1053 00:55:52,060 --> 00:55:54,720 Takže dúfam, že vy užil toto. 1054 00:55:54,720 --> 00:55:57,030 Ak vy máte nejaké otázky, môžete ma požiadať po tomto. 1055 00:55:57,030 --> 00:55:58,280 Ale ďakujem. 1056 00:55:58,280 --> 00:56:00,150