1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Ahoj. 3 00:00:08,870 --> 00:00:09,980 Vítáme každého. 4 00:00:09,980 --> 00:00:11,216 Mé jméno je Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Jsem junior na [neslyšitelný] studium výpočetní technika se zaměřením na 6 00:00:15,220 --> 00:00:16,410 počítačová lingvistika. 7 00:00:16,410 --> 00:00:19,310 Takže moje sekundární je v jazyce a lingvistické teorie. 8 00:00:19,310 --> 00:00:21,870 Jsem opravdu nadšený, že učit vás kluci něco málo o této oblasti. 9 00:00:21,870 --> 00:00:24,300 Je to velmi vzrušující prostor ke studiu. 10 00:00:24,300 --> 00:00:27,260 Rovněž s velkým potenciálem pro budoucnost. 11 00:00:27,260 --> 00:00:30,160 Takže jsem opravdu nadšená, že vy uvažujete o projekty v 12 00:00:30,160 --> 00:00:31,160 počítačová lingvistika. 13 00:00:31,160 --> 00:00:35,460 A já budu více než rád poradí někdo z vás, zda se rozhodnete 14 00:00:35,460 --> 00:00:37,090 sledují jeden z nich. 15 00:00:37,090 --> 00:00:40,010 >> Takže v první řadě to, co je výpočetní lingvistika? 16 00:00:40,010 --> 00:00:44,630 Takže počítačová lingvistika je Průsečík mezi lingvistiky a 17 00:00:44,630 --> 00:00:46,390 počítačová věda. 18 00:00:46,390 --> 00:00:47,415 Takže, co je lingvistika? 19 00:00:47,415 --> 00:00:48,490 Co je to počítačová věda? 20 00:00:48,490 --> 00:00:51,580 No z lingvistiky, co Vezmeme jsou jazyky. 21 00:00:51,580 --> 00:00:54,960 Takže lingvistika je vlastně studium přirozeného jazyka obecně. 22 00:00:54,960 --> 00:00:58,330 Takže přirozený jazyk - hovoříme o jazyk, který jsme vlastně použít k 23 00:00:58,330 --> 00:00:59,770 vzájemně komunikovat. 24 00:00:59,770 --> 00:01:02,200 Takže jsme zrovna mluví o C nebo Java. 25 00:01:02,200 --> 00:01:05,900 Mluvíme více o angličtině a Číňané a další jazyky, které jsme 26 00:01:05,900 --> 00:01:07,780 používají ke komunikaci mezi sebou navzájem. 27 00:01:07,780 --> 00:01:12,470 >> Náročná věc, o to je to, že teď máme téměř 7000 28 00:01:12,470 --> 00:01:14,260 jazyků na světě. 29 00:01:14,260 --> 00:01:19,520 Takže existuje poměrně vysoká odrůda jazyků, které můžeme studovat. 30 00:01:19,520 --> 00:01:22,600 A pak si myslím, že je to pravděpodobně velmi těžké udělat, například, 31 00:01:22,600 --> 00:01:26,960 překlad z jednoho jazyka do jiné, za to, že máte 32 00:01:26,960 --> 00:01:28,240 téměř 7000 z nich. 33 00:01:28,240 --> 00:01:31,450 Takže, pokud si myslíte, že děláte překlad z jednoho jazyka do druhého si 34 00:01:31,450 --> 00:01:35,840 mají téměř více než milion různé kombinace, které můžete 35 00:01:35,840 --> 00:01:37,330 se od jazyka k jazyku. 36 00:01:37,330 --> 00:01:40,820 Takže je to opravdu náročné udělat nějaké druh příklad překladu systému 37 00:01:40,820 --> 00:01:43,540 každý jazyk. 38 00:01:43,540 --> 00:01:47,120 >> Takže, lingvistika zachází s syntaxí, sémantika, pragmatika. 39 00:01:47,120 --> 00:01:49,550 Vy ne zrovna potřebujete vědět, co jsou. 40 00:01:49,550 --> 00:01:55,090 Ale velmi zajímavá věc je, že jako rodilý mluvčí, když se naučíte 41 00:01:55,090 --> 00:01:59,010 jazyk jako dítě, vlastně učit všechny ty věci - syntaxe sémantika 42 00:01:59,010 --> 00:02:00,500 a pragmatika - 43 00:02:00,500 --> 00:02:01,430 sami. 44 00:02:01,430 --> 00:02:04,820 A nikdo se naučit syntaxi pro abyste pochopili, jak věty jsou 45 00:02:04,820 --> 00:02:05,290 strukturované. 46 00:02:05,290 --> 00:02:07,980 Takže, je to opravdu zajímavé, protože je to něco, co je velmi 47 00:02:07,980 --> 00:02:10,389 intuitivně. 48 00:02:10,389 --> 00:02:13,190 >> A co bereš od počítačová věda? 49 00:02:13,190 --> 00:02:16,700 No, nejdůležitější věc, kterou bychom mají v informatice je první 50 00:02:16,700 --> 00:02:19,340 vše, umělá inteligence a strojové učení. 51 00:02:19,340 --> 00:02:22,610 Takže to, co se snažíme dělat výpočetní lingvistika je vyučovat 52 00:02:22,610 --> 00:02:26,990 váš počítač, jak něco udělat s jazykem. 53 00:02:26,990 --> 00:02:28,630 >> Tak, například, v přístroji překlad. 54 00:02:28,630 --> 00:02:32,490 Snažím se učit můj počítač how vědět, jak přejít z jednoho 55 00:02:32,490 --> 00:02:33,310 jazyka do druhého. 56 00:02:33,310 --> 00:02:35,790 Takže, v podstatě rád učení počítačové dva jazyky. 57 00:02:35,790 --> 00:02:38,870 Pokud se mi zpracování přirozeného jazyka, což je případ například 58 00:02:38,870 --> 00:02:41,810 Facebook je graf Vyhledávání, učíte počítač, jak porozumět 59 00:02:41,810 --> 00:02:42,730 dotazy dobře. 60 00:02:42,730 --> 00:02:48,130 >> Takže, když řeknete "fotografie z mého přátelé. "Facebook neléčí, že 61 00:02:48,130 --> 00:02:51,130 jako celý řetězec, který má jen banda slov. 62 00:02:51,130 --> 00:02:56,020 Je to vlastně chápe vztah mezi "fotky" a "moji přátelé" a 63 00:02:56,020 --> 00:02:59,620 chápe, že "fotky" jsou vlastnost "mých přátel." 64 00:02:59,620 --> 00:03:02,350 >> Tak, to je část, například, zpracování přirozeného jazyka. 65 00:03:02,350 --> 00:03:04,790 Snaží se porozumět tomu, co je vztah mezi 66 00:03:04,790 --> 00:03:07,520 slova ve větě. 67 00:03:07,520 --> 00:03:11,170 A velká otázka je, můžete naučit počítač, jak mluvit 68 00:03:11,170 --> 00:03:12,650 jazyka obecně? 69 00:03:12,650 --> 00:03:17,810 Což je velmi zajímavá otázka, myslím, jako by snad v budoucnu, 70 00:03:17,810 --> 00:03:19,930 budete mít možnost poraďte se se svým mobilním telefonem. 71 00:03:19,930 --> 00:03:23,290 Něco jako to, co děláme s Siri, ale něco jako, můžete skutečně 72 00:03:23,290 --> 00:03:25,690 říkat, co chcete, a telefon bude rozumět všemu. 73 00:03:25,690 --> 00:03:28,350 A to může mít navazující otázky a dál mluvit. 74 00:03:28,350 --> 00:03:30,880 To je něco, co opravdu vzrušující, podle mého názoru. 75 00:03:30,880 --> 00:03:33,070 >> Takže, něco o přirozených jazyků. 76 00:03:33,070 --> 00:03:36,220 Něco opravdu zajímavé přirozené jazyky je to, že, a to je 77 00:03:36,220 --> 00:03:38,470 úvěr na můj profesor lingvistiky, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Dává příklad a myslím, že je to opravdu zajímavé. 79 00:03:40,830 --> 00:03:47,060 Vzhledem k tomu, učíme jazyk od okamžiku, kdy se narodíme a pak náš rodák 80 00:03:47,060 --> 00:03:49,170 Jazyk druh roste na nás. 81 00:03:49,170 --> 00:03:52,570 >> A v podstatě se naučíte jazyk od minimální vstup, ne? 82 00:03:52,570 --> 00:03:56,700 Vy jste jen dostat vstup z vašeho rodiče o tom, co váš jazyk zvuky 83 00:03:56,700 --> 00:03:58,770 líbí a prostě se to naučit. 84 00:03:58,770 --> 00:04:02,240 Takže, je to zajímavé, protože když se podíváte v těchto větách, například. 85 00:04:02,240 --> 00:04:06,980 Můžete se podívat, "Mary staví na kabát každé čas odejde z domu. " 86 00:04:06,980 --> 00:04:10,650 >> V tomto případě je možné mít Slovo "to" se vztahují k Marii, že jo? 87 00:04:10,650 --> 00:04:13,500 Můžete říci: "Mary staví na kabát pokaždé, když opouští Mary 88 00:04:13,500 --> 00:04:14,960 dům. "tak, že je v pořádku. 89 00:04:14,960 --> 00:04:19,370 Ale pak když se podíváte na věty "Ona si vezme kabát pokaždé Mary 90 00:04:19,370 --> 00:04:22,850 opustí dům. "Víš, že je to možné říci, že "ona" je 91 00:04:22,850 --> 00:04:24,260 s odkazem na Marii. 92 00:04:24,260 --> 00:04:27,070 >> Neexistuje žádný způsob, jak říct, že "Mary klade na kabát pokaždé Mary listy 93 00:04:27,070 --> 00:04:30,790 dům. "Tak to je zajímavé, protože toto je ten druh intuice 94 00:04:30,790 --> 00:04:32,890 že každý rodilý mluvčí má. 95 00:04:32,890 --> 00:04:36,370 A nikdo se učili, že je to tak, že syntaxe funguje. 96 00:04:36,370 --> 00:04:41,930 A to můžete mít jen tuto "ona" s odkazem na Marii v tomto prvním případě, 97 00:04:41,930 --> 00:04:44,260 a ve skutečnosti v této jiné taky, ale ne v tomhle. 98 00:04:44,260 --> 00:04:46,500 Ale každý druh dostane na stejnou odpověď. 99 00:04:46,500 --> 00:04:48,580 Všichni se shodují na tom. 100 00:04:48,580 --> 00:04:53,280 Tak to je opravdu zajímavé, jak i neznáte všechna pravidla 101 00:04:53,280 --> 00:04:55,575 ve vašem jazyce tak nějak pochopit, jak jazyk funguje. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Takže zajímavá věc, o přírodní jazyk, je, že nemusíte 104 00:05:01,530 --> 00:05:06,970 neznám syntaxi vědět, zda věta je gramatická nebo ungrammatical pro 105 00:05:06,970 --> 00:05:08,810 ve většině případů. 106 00:05:08,810 --> 00:05:13,220 Což si myslím, že možná to, co se stane, je, že přes svého života, budete 107 00:05:13,220 --> 00:05:17,410 jen držet stále více a více věty řekl pro vás. 108 00:05:17,410 --> 00:05:19,800 A pak budete mít zapamatování všechny vět. 109 00:05:19,800 --> 00:05:24,230 A pak, když vám někdo řekne, něco, uslyšíte větu a 110 00:05:24,230 --> 00:05:27,040 se díváte na svého slovníku vět a zjistit, zda 111 00:05:27,040 --> 00:05:28,270 že věta je tam. 112 00:05:28,270 --> 00:05:29,830 A pokud je tam máte říkají, že je to gramatický. 113 00:05:29,830 --> 00:05:31,740 Pokud to není řeknete, že je to ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Takže v tomto případě, byste řekli, oh, takže máte obrovský seznam všech 115 00:05:35,150 --> 00:05:36,140 Možné tresty. 116 00:05:36,140 --> 00:05:38,240 A pak, když uslyšíte větu, Víte, jestli je to gramatický nebo 117 00:05:38,240 --> 00:05:39,450 není založen na tom. 118 00:05:39,450 --> 00:05:42,360 Věc je, že když se podíváte na věty, například " 119 00:05:42,360 --> 00:05:47,540 pět v čele CS50 TFS vařené slepého chobotnice pomocí daPa hrnek. "Je to 120 00:05:47,540 --> 00:05:49,630 rozhodně ne trest že jste slyšeli předtím. 121 00:05:49,630 --> 00:05:52,380 Ale zároveň víte, že je to skoro gramatické, že jo? 122 00:05:52,380 --> 00:05:55,570 Nejsou žádné gramatické chyby a lze říci, že 123 00:05:55,570 --> 00:05:57,020 je to možné trest. 124 00:05:57,020 --> 00:06:01,300 >> Tak to z nás dělá si myslí, že ve skutečnosti tak, že se učíme jazyk není jen 125 00:06:01,300 --> 00:06:07,090 tím, že má obrovskou databázi možný slova nebo věty, ale více 126 00:06:07,090 --> 00:06:11,490 pochopení vztahu mezi Slova v těchto větách. 127 00:06:11,490 --> 00:06:14,570 Má to smysl? 128 00:06:14,570 --> 00:06:19,370 Takže pak je otázka, může Počítače se učí jazyky? 129 00:06:19,370 --> 00:06:21,490 Můžeme učit jazyk počítače? 130 00:06:21,490 --> 00:06:24,230 >> Takže, pojďme přemýšlet o rozdílu mezi rodilým mluvčím jazyka 131 00:06:24,230 --> 00:06:25,460 a počítač. 132 00:06:25,460 --> 00:06:27,340 Takže, co se stane s reproduktoru? 133 00:06:27,340 --> 00:06:30,430 No, rodilý mluvčí učí jazyk z expozice k ní. 134 00:06:30,430 --> 00:06:34,200 Obvykle jeho rané dětství. 135 00:06:34,200 --> 00:06:38,570 Takže, v podstatě, stačí mít dítě, a pořád mluvit k němu, a to 136 00:06:38,570 --> 00:06:40,540 jen učí, jak mluvit jazyk, ne? 137 00:06:40,540 --> 00:06:42,660 Takže, jste v podstatě dává vstup pro dítě. 138 00:06:42,660 --> 00:06:45,200 Takže, pak můžete tvrdit, že počítač můžete udělat totéž, ne? 139 00:06:45,200 --> 00:06:49,510 Stačí si jen dát JAZYKA jako vstup do počítače. 140 00:06:49,510 --> 00:06:53,410 >> Jako například banda souborů které mají knihy v angličtině. 141 00:06:53,410 --> 00:06:56,190 Možná, že je to jeden ze způsobů, které vám by se mohla učit 142 00:06:56,190 --> 00:06:57,850 počítač English, jo? 143 00:06:57,850 --> 00:07:01,000 A ve skutečnosti, pokud si myslíte, že o tom, to se ti možná pár 144 00:07:01,000 --> 00:07:02,680 dny, číst knihu. 145 00:07:02,680 --> 00:07:05,760 Na počítači to trvá sekundu podívejte se na všechny slova v knize. 146 00:07:05,760 --> 00:07:10,810 Takže si můžete myslet, že může být jen to Argument vstup z kolem vás, 147 00:07:10,810 --> 00:07:15,440 to nestačí říci, že je to něco, co jen člověk může dělat. 148 00:07:15,440 --> 00:07:17,680 Můžete si myslet počítače mohou také získat vstup. 149 00:07:17,680 --> 00:07:21,170 >> Druhá věc je, že rodilí mluvčí také mozek, který má 150 00:07:21,170 --> 00:07:23,870 schopnost učení se jazyka. 151 00:07:23,870 --> 00:07:27,020 Ale pokud si myslíte, že o tom, Mozek je solidní věc. 152 00:07:27,020 --> 00:07:30,450 Když jste se narodili, je to již nastaven - 153 00:07:30,450 --> 00:07:31,320 To je váš mozek. 154 00:07:31,320 --> 00:07:34,660 A jak vyrosteš, stačí si více Vstup jazyka a možná živiny 155 00:07:34,660 --> 00:07:35,960 a další věci. 156 00:07:35,960 --> 00:07:38,170 Ale do značné míry se váš mozek je pevná věc. 157 00:07:38,170 --> 00:07:41,290 >> Takže můžete říct, dobře, možná můžete postavit počítač, který má spoustu 158 00:07:41,290 --> 00:07:45,890 funkce a metody, které jen napodobují schopnost učení se jazyka. 159 00:07:45,890 --> 00:07:49,630 Takže v tomto smyslu, dalo by se říct, dobře, já může mít počítač, který má všechny 160 00:07:49,630 --> 00:07:52,270 věci, které jsem se potřebují naučit jazyk. 161 00:07:52,270 --> 00:07:56,200 A poslední věc je, že nativní mluvčí učí od pokusů a omylů. 162 00:07:56,200 --> 00:08:01,090 Takže v podstatě další důležitá věc jazykového vzdělávání je, že druh 163 00:08:01,090 --> 00:08:05,340 z naučit věci tím, že zobecnění toho, co slyšíte. 164 00:08:05,340 --> 00:08:10,280 >> Takže, jak jste vyrůstal jste se dozvěděli, že některá slova jsou jako podstatná jména, 165 00:08:10,280 --> 00:08:11,820 některé další z nich jsou adjektiva. 166 00:08:11,820 --> 00:08:14,250 A nemusíte mít jakýkoli znalost lingvistiky 167 00:08:14,250 --> 00:08:15,040 pochopit, že. 168 00:08:15,040 --> 00:08:18,560 Ale prostě vím, že je některá slova jsou umístěny v určité části 169 00:08:18,560 --> 00:08:22,570 věta a některé další v jiných části věty. 170 00:08:22,570 --> 00:08:26,110 >> A že když děláte něco, co je jako věta, že není správné - 171 00:08:26,110 --> 00:08:28,770 možná proto, že z více než generalizace například. 172 00:08:28,770 --> 00:08:32,210 Možná, když jste vyrůstal, si všimnete že množné číslo je obvykle 173 00:08:32,210 --> 00:08:35,809 tvořil tím, že by s při konec slova. 174 00:08:35,809 --> 00:08:40,042 A pak se pokusíte udělat množný "jelen" jako "jeleni" nebo "zub" je 175 00:08:40,042 --> 00:08:44,780 "zubu." Takže pak se vaše rodiče, nebo někdo opraví a řekne, ne, 176 00:08:44,780 --> 00:08:49,020 množné číslo "jelen" je "jelen", a množný "zub" je "zuby". A pak 177 00:08:49,020 --> 00:08:50,060 naučíte ty věci. 178 00:08:50,060 --> 00:08:51,520 Takže jste se dozvěděli od pokusů a omylů. 179 00:08:51,520 --> 00:08:53,100 >> Ale můžete si také udělat, že s počítačem. 180 00:08:53,100 --> 00:08:55,310 Můžete mít něco, co nazývá posilované učení. 181 00:08:55,310 --> 00:08:58,560 Což je v podstatě jako dávat Počítač odměna kdykoli to dělá 182 00:08:58,560 --> 00:08:59,410 něco správně. 183 00:08:59,410 --> 00:09:04,710 A dávat to opak odměnu a když se dělá něco špatného. 184 00:09:04,710 --> 00:09:07,410 Můžete skutečně vidět, že když jdete do Google Translate a zkuste 185 00:09:07,410 --> 00:09:10,220 přeložit větu, že zeptá se vás, pro zpětnou vazbu. 186 00:09:10,220 --> 00:09:13,240 Takže když říkáte, ach, tam je lepší překlad pro tuto větu. 187 00:09:13,240 --> 00:09:18,140 Můžete zadejte jej a pak, pokud hodně lidé stále říkají, že je lepší 188 00:09:18,140 --> 00:09:21,560 překlad, to prostě zjistí, že je to by se namísto použít tento překlad 189 00:09:21,560 --> 00:09:22,960 kdo to dával. 190 00:09:22,960 --> 00:09:28,830 >> Takže, je to velmi filozofická otázka zjistit, zda počítače se bude 191 00:09:28,830 --> 00:09:30,340 schopen mluvit, nebo ne v budoucnosti. 192 00:09:30,340 --> 00:09:34,440 Ale já jsem si velké naděje, že mohou právě na základě těchto argumentů. 193 00:09:34,440 --> 00:09:38,570 Ale je to jen více filozofický otázka. 194 00:09:38,570 --> 00:09:43,460 >> Takže i když počítače stále nemůže mluvit, jaké jsou věci, které můžeme dělat? 195 00:09:43,460 --> 00:09:47,070 Některé opravdu cool věci jsou klasifikace dat. 196 00:09:47,070 --> 00:09:53,210 Tak, například, vy víte, že e-mailové služby, ano, pro 197 00:09:53,210 --> 00:09:55,580 příklad, filtrování spamu. 198 00:09:55,580 --> 00:09:59,070 Takže pokaždé, když obdržíte spam, to se snaží filtrovat na jiné pole. 199 00:09:59,070 --> 00:10:00,270 Tak jak to dělá, že? 200 00:10:00,270 --> 00:10:06,080 Není to tak, že počítač prostě ví, jaké e-mailové adresy jsou odesílání spamu. 201 00:10:06,080 --> 00:10:09,130 Takže je to víc na základě obsahu zprávy, nebo možná titulu, nebo 202 00:10:09,130 --> 00:10:11,310 možná nějaký vzor, ​​který máte. 203 00:10:11,310 --> 00:10:15,690 >> Takže, v podstatě, co můžete udělat, je dostat Mnoho údajů o e-maily, které jsou spam, 204 00:10:15,690 --> 00:10:19,980 e-maily, které nejsou spam, a dozvědět se, co druh vzorů máte v 205 00:10:19,980 --> 00:10:21,000 ty, které jsou spam. 206 00:10:21,000 --> 00:10:23,260 A toto je část výpočetních lingvistika. 207 00:10:23,260 --> 00:10:24,720 Říká se klasifikace dat. 208 00:10:24,720 --> 00:10:28,100 A my vlastně uvidí příklad, že v příštích snímků. 209 00:10:28,100 --> 00:10:32,910 >> Druhá věc je přirozený jazyk zpracování, což je věc, která se 210 00:10:32,910 --> 00:10:36,580 Graf Hledání dělá z nájmu můžete napsat větu. 211 00:10:36,580 --> 00:10:38,690 A věří, že chápete, co je smysl a dává 212 00:10:38,690 --> 00:10:39,940 Jste lepší výsledek. 213 00:10:39,940 --> 00:10:43,880 Ve skutečnosti, pokud jdete na Google nebo Bing a hledat něco jako dáma 214 00:10:43,880 --> 00:10:47,060 Výška Gaga, jste vlastně děje získat 5 '1 "namísto informací 215 00:10:47,060 --> 00:10:50,170 od ní, protože to vlastně chápe co mluvíš. 216 00:10:50,170 --> 00:10:52,140 Takže to je součástí přírodního zpracování jazyka. 217 00:10:52,140 --> 00:10:57,000 >> Nebo také v případě, že používáte Siri, první Máte algoritmus, který se snaží 218 00:10:57,000 --> 00:11:01,130 překládat, co říkáš do slov v textu. 219 00:11:01,130 --> 00:11:03,690 A pak se snaží překládat že na významu. 220 00:11:03,690 --> 00:11:06,570 Takže to vše je součástí přírodní zpracování jazyka. 221 00:11:06,570 --> 00:11:08,320 >> Pak máte strojového překladu - 222 00:11:08,320 --> 00:11:10,300 , který je ve skutečnosti jedna z mých oblíbených - 223 00:11:10,300 --> 00:11:14,060 který je jen překlad z jazyka do druhého. 224 00:11:14,060 --> 00:11:17,950 Takže si můžete myslet, že když děláte strojový překlad, máte 225 00:11:17,950 --> 00:11:19,750 nekonečné možnosti vět. 226 00:11:19,750 --> 00:11:22,960 Takže neexistuje žádný způsob, jak jen ukládání každý překlad. 227 00:11:22,960 --> 00:11:27,440 Takže budete muset přijít s zajímavý algoritmy, aby bylo možné 228 00:11:27,440 --> 00:11:30,110 překládat každý věta nějakým způsobem. 229 00:11:30,110 --> 00:11:32,483 >> Vy máte nějaké otázky tak daleko? 230 00:11:32,483 --> 00:11:34,450 Ne? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Takže to, co budeme dnes vidět? 233 00:11:36,900 --> 00:11:39,300 Za prvé, budu mluvit o tom, Problém klasifikace. 234 00:11:39,300 --> 00:11:41,440 Takže ten, že jsem byl říká o spamu. 235 00:11:41,440 --> 00:11:46,820 Co budu dělat, je vzhledem k tomu, Text skladby skladbu, můžete se pokusit přijít na to, 236 00:11:46,820 --> 00:11:49,810 s vysokou pravděpodobností kdo je zpěvačka? 237 00:11:49,810 --> 00:11:53,590 Řekněme, že mám písničky od Lady Gaga a Katy Perry, kdybych vám 238 00:11:53,590 --> 00:11:58,130 nový song, můžete zjistit, zda to je Katy Perry nebo Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Druhý, já jsem jen mluvit o problému segmentace. 240 00:12:01,490 --> 00:12:05,780 Tak nevím, jestli vy víte, ale Čínština, japonština, další východní Asie 241 00:12:05,780 --> 00:12:08,090 jazyky a další jazyky obecně, nemají 242 00:12:08,090 --> 00:12:09,830 mezery mezi slovy. 243 00:12:09,830 --> 00:12:13,540 A pak, pokud si myslíte, že o tom, jak této počítač druhu pokusů na 244 00:12:13,540 --> 00:12:18,600 pochopit, zpracování přirozeného jazyka, to vypadá na slova a 245 00:12:18,600 --> 00:12:21,500 se snaží pochopit vztahy mezi nimi, ne? 246 00:12:21,500 --> 00:12:25,440 Ale pak, pokud máte čínsky, a mají nulové mezery, je to opravdu těžké 247 00:12:25,440 --> 00:12:28,360 zjistit, jaký je vztah mezi slova, protože nemají žádné 248 00:12:28,360 --> 00:12:29,530 slova na prvním místě. 249 00:12:29,530 --> 00:12:32,600 Takže budete muset udělat něco, co nazývá segmentace, která prostě znamená uvedení 250 00:12:32,600 --> 00:12:36,490 mezery mezi tím, co bychom nazvali slova v těchto jazycích. 251 00:12:36,490 --> 00:12:37,740 Smysl? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> A pak budeme mluvit o syntaxi. 254 00:12:41,540 --> 00:12:44,050 Takže jen trochu o přírodní zpracování jazyka. 255 00:12:44,050 --> 00:12:45,420 Bude to mít jen přehled. 256 00:12:45,420 --> 00:12:50,700 Takže dnes, v podstatě to, co chci dělat, se vám kluci trochu 257 00:12:50,700 --> 00:12:53,930 uvnitř, jaké jsou možnosti které můžete dělat s výpočetních 258 00:12:53,930 --> 00:12:54,960 lingvistika. 259 00:12:54,960 --> 00:13:00,410 A pak vidíte, co si myslíte je v pohodě mezi těmito věcmi. 260 00:13:00,410 --> 00:13:02,270 A možná, že si můžete myslet o projektu a přijít se mnou mluvit. 261 00:13:02,270 --> 00:13:05,260 A mohu vám poradit o tom, jak to provést. 262 00:13:05,260 --> 00:13:09,060 >> Takže syntaxe bude trochu o Graf vyhledávání a stroje 263 00:13:09,060 --> 00:13:09,670 překlad. 264 00:13:09,670 --> 00:13:13,650 Jdu dát příklad toho, jak můžete například překládat 265 00:13:13,650 --> 00:13:16,020 něco z portugalštiny do angličtiny. 266 00:13:16,020 --> 00:13:17,830 Zní to dobře? 267 00:13:17,830 --> 00:13:19,293 >> Tak za prvé, problém klasifikace. 268 00:13:19,293 --> 00:13:23,590 Řeknu, že tato část semináře bude nejnáročnější 269 00:13:23,590 --> 00:13:27,560 jeden jen proto, že se děje být některé kódování. 270 00:13:27,560 --> 00:13:29,470 Ale to bude Python. 271 00:13:29,470 --> 00:13:34,380 Vím, že vy nevíte, Python, takže Jdu vysvětlit na vysoké 272 00:13:34,380 --> 00:13:35,750 úrovni to, co dělám. 273 00:13:35,750 --> 00:13:40,900 A nemusíte se opravdu záleží také hodně o syntaxi, protože to je 274 00:13:40,900 --> 00:13:42,140 něco, co vy můžete naučit. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 To zní dobře. 277 00:13:43,580 --> 00:13:46,020 >> Tak v čem je problém klasifikace? 278 00:13:46,020 --> 00:13:49,140 Takže vzhledem k některé texty na píseň, a chcete hádat 279 00:13:49,140 --> 00:13:50,620 který je zpívat. 280 00:13:50,620 --> 00:13:54,045 A to může být pro jakýkoli druh dalších problémů. 281 00:13:54,045 --> 00:13:59,980 Takže to může být, například, máte prezidentská kampaň a máte 282 00:13:59,980 --> 00:14:02,610 řeč, a chcete najít , jestli je to, například, 283 00:14:02,610 --> 00:14:04,470 Obama a Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Nebo můžete mít spoustu e-mailů a Chcete-li zjistit, zda jsou 285 00:14:07,700 --> 00:14:08,890 spam nebo ne. 286 00:14:08,890 --> 00:14:11,440 Takže je to jen klasifikaci některých Údaje založené na slova 287 00:14:11,440 --> 00:14:13,790 že jste tam. 288 00:14:13,790 --> 00:14:16,295 >> Takže to, že budete muset provést některé předpoklady. 289 00:14:16,295 --> 00:14:20,570 Takže hodně o počítačové lingvistiky dělá předpokladů, 290 00:14:20,570 --> 00:14:24,100 obvykle inteligentní předpoklady, aby můžete získat dobré výsledky. 291 00:14:24,100 --> 00:14:26,670 Snažím se vytvořit model pro ni. 292 00:14:26,670 --> 00:14:31,290 A pak se to vyzkoušet a zjistit, jestli to funguje, v případě, že vám dává dobrou přesnost. 293 00:14:31,290 --> 00:14:33,940 A pokud ano, pak jste pokusit se zlepšit. 294 00:14:33,940 --> 00:14:37,640 Pokud tomu tak není, budete rád, OK, možná jsem by měl jiný předpoklad. 295 00:14:37,640 --> 00:14:44,030 >> Takže předpoklad, že budeme je to, že umělec se obvykle zpívá 296 00:14:44,030 --> 00:14:49,220 o tématu několikrát, a možná používá slova několikrát jen 297 00:14:49,220 --> 00:14:50,270 protože jsou na to zvyklí. 298 00:14:50,270 --> 00:14:51,890 Stačí si jen myslet na svého přítele. 299 00:14:51,890 --> 00:14:57,350 Jsem si jistý, kluci mají přátele které říkají, jejich podpis frázi, 300 00:14:57,350 --> 00:14:59,260 doslova pro každou větu - 301 00:14:59,260 --> 00:15:02,660 jako nějaká konkrétní slova nebo některých specifických fráze, které říkají, že pro 302 00:15:02,660 --> 00:15:04,020 každý trest. 303 00:15:04,020 --> 00:15:07,920 >> A to, co mohu říci, je, že když vidíte větu, která má podpis 304 00:15:07,920 --> 00:15:11,450 fráze, můžete hádat, že pravděpodobně Váš přítel je 305 00:15:11,450 --> 00:15:13,310 kdo říká, že jo? 306 00:15:13,310 --> 00:15:18,410 Tak uděláte tento předpoklad a pak to, jak vytvořit model. 307 00:15:18,410 --> 00:15:24,440 >> Příklad, že budu dávat je na jak Lady Gaga, například, lidé 308 00:15:24,440 --> 00:15:27,430 říkají, že ona používá "dítě" na všechny její číslo jedna písně. 309 00:15:27,430 --> 00:15:32,270 A ve skutečnosti je to video, které ukazuje, jí říkat slovo "dítě" pro 310 00:15:32,270 --> 00:15:33,410 různé písně. 311 00:15:33,410 --> 00:15:33,860 >> [PŘEHRÁVÁNÍ] 312 00:15:33,860 --> 00:15:34,310 >> - (SINGING) Dětská. 313 00:15:34,310 --> 00:15:36,220 Dítě. 314 00:15:36,220 --> 00:15:37,086 Dítě. 315 00:15:37,086 --> 00:15:37,520 Dítě. 316 00:15:37,520 --> 00:15:37,770 Dítě. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Dítě. 319 00:15:39,243 --> 00:15:40,085 Dítě. 320 00:15:40,085 --> 00:15:40,510 Dítě. 321 00:15:40,510 --> 00:15:40,850 Dítě. 322 00:15:40,850 --> 00:15:41,090 >> [END VIDEOPŘEHRÁVÁNÍ- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Takže tam jsou, myslím, 40 písní zde ve kterém ona říká 324 00:15:44,020 --> 00:15:48,690 Slovo "dítě." Takže si můžete v podstatě hádat že když vidíte skladbu, která má 325 00:15:48,690 --> 00:15:52,180 slovo "dítě", tam je nějaký vysoký pravděpodobnost, že je to Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Ale zkusme se na rozvoji této dále pak formálně. 327 00:15:56,450 --> 00:16:00,470 >> Takže se jedná o texty k písním od Lady Gaga a Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Takže se podíváte na Lady Gaga, můžete vidí mají mnoho výskytů "dítě," 329 00:16:04,120 --> 00:16:07,710 Mnoho výskytů "způsobem." A pak Katy Perry má mnoho výskytů 330 00:16:07,710 --> 00:16:10,360 "," Mnoho výskytů "ohně." 331 00:16:10,360 --> 00:16:14,560 >> Takže v podstatě to, co chceme to znamená, že dostanete lyriku. 332 00:16:14,560 --> 00:16:20,480 Řekněme, že budete mít lyriku pro píseň, která je "dítě" jen "dítě." Jestliže 333 00:16:20,480 --> 00:16:24,750 stačí si slovo "dítě", a to je všechna data, která jste od 334 00:16:24,750 --> 00:16:27,880 Lady Gaga a Katy Perry, která by můžete hádat, je osoba, 335 00:16:27,880 --> 00:16:29,370 kdo zpívá písničku? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga nebo Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, že jo? 338 00:16:33,150 --> 00:16:37,400 Vzhledem k tomu, že je jediný, kdo říká, že "Dítě." Zní to hloupě, že jo? 339 00:16:37,400 --> 00:16:38,760 OK, je to opravdu snadné. 340 00:16:38,760 --> 00:16:41,860 Jen se dívám na dvou písních a Samozřejmě, ona je jediná, kdo má 341 00:16:41,860 --> 00:16:42,660 "Dítě." 342 00:16:42,660 --> 00:16:44,740 >> Ale co když máte spoustu slov? 343 00:16:44,740 --> 00:16:50,900 Máte-li skutečný lyrická, něco jako "dítě, já jen 344 00:16:50,900 --> 00:16:51,610 šel vidět [? CFT?] 345 00:16:51,610 --> 00:16:54,020 přednáška, "nebo něco takového, a pak jste skutečně zjistit, - 346 00:16:54,020 --> 00:16:55,780 na základě všech těchto slov - 347 00:16:55,780 --> 00:16:58,350 kdo je umělec, který pravděpodobně zpíval tuto píseň? 348 00:16:58,350 --> 00:17:01,860 Takže pojďme se snaží rozvíjet Tento kousek dál. 349 00:17:01,860 --> 00:17:05,630 >> OK, takže na základě jen na data, která se má, zdá se, že Gaga je pravděpodobně 350 00:17:05,630 --> 00:17:06,260 zpěvák. 351 00:17:06,260 --> 00:17:07,904 Ale jak můžeme psát to více formálně? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 A tam to bude trochu Trochu statistiky. 354 00:17:13,140 --> 00:17:15,880 Takže pokud jste se ztratili, ať to zkusí pochopit pojem. 355 00:17:15,880 --> 00:17:18,700 Nezáleží na tom, jestli mi rozumíte rovnice dobře. 356 00:17:18,700 --> 00:17:22,150 To vše bude on-line. 357 00:17:22,150 --> 00:17:25,490 >> Takže v podstatě to, co jsem výpočet je pravděpodobnost, že tato píseň je o 358 00:17:25,490 --> 00:17:28,040 Lady Gaga za předpokladu, že - 359 00:17:28,040 --> 00:17:30,660 takže to znamená, bar za předpokladu, že - 360 00:17:30,660 --> 00:17:33,680 Viděl jsem slovo "dítě". Má to smysl? 361 00:17:33,680 --> 00:17:35,540 Takže se snažím vypočítat že pravděpodobnost. 362 00:17:35,540 --> 00:17:38,540 >> Takže tam je to věta nazývá Bayesův teorém, který říká, že 363 00:17:38,540 --> 00:17:43,330 pravděpodobnost daného B, je pravděpodobnost B vzhledem k A, doba 364 00:17:43,330 --> 00:17:47,660 pravděpodobnost, než pravděpodobnost B. Jedná se o dlouhý rovnice. 365 00:17:47,660 --> 00:17:51,970 Ale to, co musíte pochopit, ze to je, že to je to, co chci 366 00:17:51,970 --> 00:17:52,830 vypočítat, že jo? 367 00:17:52,830 --> 00:17:56,570 Takže pravděpodobnost, že píseň je o Lady Gaga za předpokladu, že jsem viděl slovo 368 00:17:56,570 --> 00:17:58,230 "Dítě." 369 00:17:58,230 --> 00:18:02,960 >> A teď, co jsem dostat je pravděpodobnost, že se slovo "dítě" vzhledem 370 00:18:02,960 --> 00:18:04,390 že mám Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 A co je to v podstatě? 372 00:18:07,220 --> 00:18:10,500 Co to znamená je to, co je pravděpodobnost vidět slovo "dítě" 373 00:18:10,500 --> 00:18:12,130 V Gaga texty? 374 00:18:12,130 --> 00:18:16,240 Pokud chci, aby vypočítali, že ve velmi Jednoduchý způsob, je to jen číslo 375 00:18:16,240 --> 00:18:23,640 Časy vidím "dítě" na celkovém počtu slov v Gaga texty, ne? 376 00:18:23,640 --> 00:18:27,600 Jaká je frekvence, kterou vidím že slovo Gaga práci? 377 00:18:27,600 --> 00:18:30,530 Smysl? 378 00:18:30,530 --> 00:18:33,420 >> Druhý termín je pravděpodobnost Gaga. 379 00:18:33,420 --> 00:18:34,360 Co to znamená? 380 00:18:34,360 --> 00:18:38,550 To v podstatě znamená, že to, co je pravděpodobnost zařazení 381 00:18:38,550 --> 00:18:40,690 Některé texty jsou Gaga? 382 00:18:40,690 --> 00:18:45,320 A to je trochu divné, ale pojďme myslet na příkladu. 383 00:18:45,320 --> 00:18:49,230 Takže řekněme, že pravděpodobnost s "dítě" v písni je stejný 384 00:18:49,230 --> 00:18:51,760 pro Gaga a Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Ale Britney Spears má dvakrát více písní, než Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Takže pokud vám někdo jen náhodně dává Slova "dítě", první věc, kterou 387 00:19:00,570 --> 00:19:04,710 podívat se na to, co je pravděpodobnost s "dítě" ve Gaga píseň, "dítě" 388 00:19:04,710 --> 00:19:05,410 ve Britney písni? 389 00:19:05,410 --> 00:19:06,460 A to je to samé. 390 00:19:06,460 --> 00:19:10,040 >> Takže druhá věc, kterou uvidíte, je, dobře, co je pravděpodobnost 391 00:19:10,040 --> 00:19:13,770 Tento lyrický samo o sobě, že Gaga lyric, a jaká je pravděpodobnost, že 392 00:19:13,770 --> 00:19:15,380 že Britney lyrický? 393 00:19:15,380 --> 00:19:18,950 Takže od Britney má tolik víc texty než Gaga, by pravděpodobně 394 00:19:18,950 --> 00:19:21,470 řekněme, no, to je asi Britney lyrický. 395 00:19:21,470 --> 00:19:23,340 Takže to je důvod, proč máme tento nazvat přímo zde. 396 00:19:23,340 --> 00:19:24,670 Pravděpodobnost Gaga. 397 00:19:24,670 --> 00:19:26,950 Dává to smysl? 398 00:19:26,950 --> 00:19:28,660 Má to? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> A poslední je jen pravděpodobnost o "dítě", které není 401 00:19:33,500 --> 00:19:34,810 opravdu záležitost, která hodně. 402 00:19:34,810 --> 00:19:39,940 Ale je to pravděpodobnost vidět "dítě" v angličtině. 403 00:19:39,940 --> 00:19:42,725 Obvykle je to jedno, že hodně o tom termínu. 404 00:19:42,725 --> 00:19:44,490 Má to smysl? 405 00:19:44,490 --> 00:19:48,110 Takže pravděpodobnost Gaga je volal před pravděpodobnosti 406 00:19:48,110 --> 00:19:49,530 třídního Gaga. 407 00:19:49,530 --> 00:19:53,840 Vzhledem k tomu, to jen znamená, že to, co je pravděpodobnost, že bude tuto třídu - 408 00:19:53,840 --> 00:19:55,520 který je Gaga - 409 00:19:55,520 --> 00:19:59,350 jen obecně, jen bez podmínek. 410 00:19:59,350 --> 00:20:02,560 >> A pak, když jsem se pravděpodobnost Gaga vzhledem k "dítě," říkáme a 411 00:20:02,560 --> 00:20:06,160 uslzené pravděpodobnosti, protože je to pravděpodobnost, že bude 412 00:20:06,160 --> 00:20:08,300 Gaga uveden nějaký důkaz. 413 00:20:08,300 --> 00:20:11,050 Takže dávám vám důkazy že jsem viděl slovo dítě a 414 00:20:11,050 --> 00:20:12,690 Píseň smysl? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Takže když jsem spočítal, že pro každý z písní pro Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 co by to bylo - 419 00:20:25,916 --> 00:20:27,730 Zdá se, že nemůžu pohnout to. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Pravděpodobnost, že Gaga bude něco podobného, ​​2 přes 24, časy 1/2, 422 00:20:36,920 --> 00:20:38,260 více než 2 po 53. 423 00:20:38,260 --> 00:20:40,640 Nezáleží na tom, jestli víte, co tato čísla jsou zasílány z. 424 00:20:40,640 --> 00:20:44,750 Ale je to jen číslo, které se bude být větší než 0, ne? 425 00:20:44,750 --> 00:20:48,610 >> A pak, když jsem to Katy Perry, pravděpodobnost "dítě", vzhledem Katy je 426 00:20:48,610 --> 00:20:49,830 Již 0, ne? 427 00:20:49,830 --> 00:20:52,820 Protože neexistuje žádný "dítě" Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Takže pak to bude 0, a Gaga vítězství, což znamená, že Gaga je 429 00:20:56,360 --> 00:20:57,310 pravděpodobně zpěvák. 430 00:20:57,310 --> 00:20:58,560 Má to smysl? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Takže pokud chci, aby to více úředníka, Mohu skutečně udělat model 435 00:21:11,750 --> 00:21:12,700 Pro více slov. 436 00:21:12,700 --> 00:21:14,610 Takže řekněme, že mám něco, co jako "baby, já jsem 437 00:21:14,610 --> 00:21:16,030 v ohni, "nebo tak něco. 438 00:21:16,030 --> 00:21:17,760 Tak to má více slov. 439 00:21:17,760 --> 00:21:20,880 A v tomto případě, můžete vidět že "dítě" je Gaga, 440 00:21:20,880 --> 00:21:21,710 ale to není v Katy. 441 00:21:21,710 --> 00:21:24,940 A "oheň" je v Katy, ale to není v Gaga, že jo? 442 00:21:24,940 --> 00:21:27,200 Takže je to čím dál složitější, že jo? 443 00:21:27,200 --> 00:21:31,440 Vzhledem k tomu, zdá se, že téměř mít kravatu mezi nimi. 444 00:21:31,440 --> 00:21:36,980 >> Takže to, co musíte udělat, je předpokládat, nezávislost mezi slova. 445 00:21:36,980 --> 00:21:41,210 Takže v podstatě to, co to znamená, že Já jen výpočet toho, jaká je 446 00:21:41,210 --> 00:21:44,330 pravděpodobnost vidět "dítě," to, co je pravděpodobnost vidět "já", a 447 00:21:44,330 --> 00:21:46,670 "Já", a "o" a "oheň," všechny samostatně. 448 00:21:46,670 --> 00:21:48,670 Pak jsem vynásobením všechny z nich. 449 00:21:48,670 --> 00:21:52,420 A já jsem viděl, co je pravděpodobnost, vidět celou větu. 450 00:21:52,420 --> 00:21:55,210 Smysl? 451 00:21:55,210 --> 00:22:00,270 >> Takže v podstatě, když mám jen jedno slovo, to, co chci najít, je arg max, 452 00:22:00,270 --> 00:22:05,385 což znamená, že to, co je třída, která je mi dává největší pravděpodobnost? 453 00:22:05,385 --> 00:22:10,010 Takže to, co je třída, která dává mě nejvyšší pravděpodobnost 454 00:22:10,010 --> 00:22:11,940 pravděpodobnost třídy daného slova. 455 00:22:11,940 --> 00:22:17,610 Takže v tomto případě, vzhledem k tomu Gaga "dítě." Stejně Katy "dítě." Smysl? 456 00:22:17,610 --> 00:22:21,040 >> A právě z Bayes, že rovnice, že jsem ukázal, 457 00:22:21,040 --> 00:22:24,780 jsme se vytvořit tento zlomek. 458 00:22:24,780 --> 00:22:28,750 Jediná věc je, že vidíte, že pravděpodobnost slova vzhledem 459 00:22:28,750 --> 00:22:31,370 změny třídy v závislosti na třídě, že jo? 460 00:22:31,370 --> 00:22:34,260 Počet "Baby" s, které jsem V Gaga se liší od Katy. 461 00:22:34,260 --> 00:22:37,640 Pravděpodobnost třídy také změny, protože je to jen číslo 462 00:22:37,640 --> 00:22:39,740 písní každý z nich má. 463 00:22:39,740 --> 00:22:43,980 >> Ale pravděpodobnost, že se slova sám bude stejná pro všechny 464 00:22:43,980 --> 00:22:44,740 umělci, že jo? 465 00:22:44,740 --> 00:22:47,150 Takže pravděpodobnost, že slovo je Jen to, co je pravděpodobnost 466 00:22:47,150 --> 00:22:49,820 vidět, že slovo Anglický jazyk? 467 00:22:49,820 --> 00:22:51,420 Takže je to stejné pro všechny z nich. 468 00:22:51,420 --> 00:22:55,790 Takže, protože to je konstanta, můžeme jen pokles to a nezajímá o to. 469 00:22:55,790 --> 00:23:00,230 Takže to bude skutečně rovnice hledáme. 470 00:23:00,230 --> 00:23:03,360 >> A pokud mám více slov, jsem ještě bude mít před 471 00:23:03,360 --> 00:23:04,610 pravděpodobnost zde. 472 00:23:04,610 --> 00:23:06,980 Jediná věc je, že jsem násobení pravděpodobnost 473 00:23:06,980 --> 00:23:08,490 všechny ostatní slova. 474 00:23:08,490 --> 00:23:10,110 Takže jsem vynásobením všechny z nich. 475 00:23:10,110 --> 00:23:12,610 Smysl? 476 00:23:12,610 --> 00:23:18,440 Vypadá to divně, ale v podstatě znamená, výpočet předchozí třídy, a 477 00:23:18,440 --> 00:23:22,100 pak násobit pravděpodobností každého slov je v této třídě. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> A víte, že pravděpodobnost Slovo vzhledem třída bude 480 00:23:29,150 --> 00:23:34,520 kolikrát vidíte, že slovo že třída, děleno počtem 481 00:23:34,520 --> 00:23:37,020 slova, máte v tom, že třída obecně. 482 00:23:37,020 --> 00:23:37,990 Smysl? 483 00:23:37,990 --> 00:23:41,680 Je to, jak "dítě" bylo 2 přes počet slov, které 484 00:23:41,680 --> 00:23:43,020 Měl jsem v textu. 485 00:23:43,020 --> 00:23:45,130 Takže jen frekvence. 486 00:23:45,130 --> 00:23:46,260 >> Ale je tu jedna věc. 487 00:23:46,260 --> 00:23:51,250 Vzpomínám si, jak jsem se o tom, že pravděpodobnost "Baby" bytí texty 488 00:23:51,250 --> 00:23:56,350 od Katy Perry 0. jen proto, že Katy Perry neměl "dítě" vůbec? 489 00:23:56,350 --> 00:24:04,900 Ale zní to trochu krutý jen jednoduše říci, že texty nemohou být z 490 00:24:04,900 --> 00:24:10,040 umělec jen proto, že nemají tento výraz zejména kdykoliv. 491 00:24:10,040 --> 00:24:13,330 >> Takže jste mohli jen říct, dobře, pokud nemají slovo, budu 492 00:24:13,330 --> 00:24:15,640 vám nižší pravděpodobnost, ale já prostě nebude 493 00:24:15,640 --> 00:24:17,420 vám 0. hned. 494 00:24:17,420 --> 00:24:21,040 Vzhledem k tomu, možná to bylo něco jako, "Oheň, oheň, oheň, oheň," který je 495 00:24:21,040 --> 00:24:21,990 úplně Katy Perry. 496 00:24:21,990 --> 00:24:26,060 A pak "dítě", a to jen dokazuje, 0 hned, protože tam byl jeden 497 00:24:26,060 --> 00:24:27,250 "Dítě." 498 00:24:27,250 --> 00:24:31,440 >> Takže v podstatě to, co děláme, je něco, co tzv. Laplace vyhlazování. 499 00:24:31,440 --> 00:24:36,260 A to jen znamená, že dávám určitou pravděpodobností i slov 500 00:24:36,260 --> 00:24:37,850 že neexistují. 501 00:24:37,850 --> 00:24:43,170 Takže to, co dělám, je, že když jsem výpočtu to, vždycky jsem přidat 1 až 502 00:24:43,170 --> 00:24:44,180 čitatel. 503 00:24:44,180 --> 00:24:48,060 Takže i když slovo neexistuje, v V tomto případě, pokud je to 0, jsem stále 504 00:24:48,060 --> 00:24:51,250 výpočet toto jako jeden přes Celkový počet slov. 505 00:24:51,250 --> 00:24:55,060 Jinak jsem si, kolik slov Mám a jsem přidat 1 ks. 506 00:24:55,060 --> 00:24:58,300 Takže jsem počítal pro oba případy. 507 00:24:58,300 --> 00:25:00,430 Smysl? 508 00:25:00,430 --> 00:25:03,060 >> Takže teď pojďme udělat nějaké kódování. 509 00:25:03,060 --> 00:25:06,440 Budu muset udělat to docela rychle, ale to je jen důležité, aby vám 510 00:25:06,440 --> 00:25:08,600 kluci pochopit koncepty. 511 00:25:08,600 --> 00:25:13,450 Takže to, co se snažíme dělat je přesně realizovat tento 512 00:25:13,450 --> 00:25:14,330 věc, kterou jsem právě řekl - 513 00:25:14,330 --> 00:25:19,110 Chci vám dát texty od Lady Gaga a Katy Perry. 514 00:25:19,110 --> 00:25:22,980 A program se bude moci říci, zda tyto nové texty jsou od Gaga 515 00:25:22,980 --> 00:25:24,170 nebo Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Smysl? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Tak jsem si tento program Jdu volat classify.py. 519 00:25:30,710 --> 00:25:31,970 Tak tohle je Python. 520 00:25:31,970 --> 00:25:34,210 Je to nový programovací jazyk. 521 00:25:34,210 --> 00:25:38,020 To je velmi podobné v některých způsoby, jak C a PHP. 522 00:25:38,020 --> 00:25:43,180 Je to podobné, protože pokud chcete učit Python po znát C, je to 523 00:25:43,180 --> 00:25:46,270 opravdu není, že velkou výzvu jen proto, že Python je mnohem jednodušší 524 00:25:46,270 --> 00:25:47,520 než C, v první řadě. 525 00:25:47,520 --> 00:25:49,370 A spousta věcí se již implementován pro vás. 526 00:25:49,370 --> 00:25:56,820 Tak, jak jako PHP má funkce, které seřadit seznam, nebo přidat něco 527 00:25:56,820 --> 00:25:58,780 na pole, nebo bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python má všechny ty, které jsou dobře. 529 00:26:00,690 --> 00:26:05,960 >> Tak jsem jen tak vysvětlit rychle jak bychom mohli udělat klasifikaci 530 00:26:05,960 --> 00:26:07,860 problém zde. 531 00:26:07,860 --> 00:26:13,230 Takže řekněme, že v tomto případě mám texty z Gaga a Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Způsobem, že mám ty texty, je, že první slovo textu je 533 00:26:21,880 --> 00:26:25,250 jméno umělce, a zbytek je text. 534 00:26:25,250 --> 00:26:29,470 Takže řekněme, že mám tento seznam v nichž první je text od Gaga. 535 00:26:29,470 --> 00:26:31,930 Tak tady jsem na správné cestě. 536 00:26:31,930 --> 00:26:35,270 A další je Katy, a má také texty. 537 00:26:35,270 --> 00:26:38,040 >> Tak to je, jak deklarovat proměnná v Pythonu. 538 00:26:38,040 --> 00:26:40,200 Nemusíte dávat datový typ. 539 00:26:40,200 --> 00:26:43,150 Stačí napsat "texty" Něco jako v PHP. 540 00:26:43,150 --> 00:26:44,890 Smysl? 541 00:26:44,890 --> 00:26:47,770 >> Takže jaké jsou věci, které jsem se vypočítat, aby bylo možné vypočítat 542 00:26:47,770 --> 00:26:49,360 pravděpodobnosti? 543 00:26:49,360 --> 00:26:55,110 Musím vypočítat "priors" každého jiný 544 00:26:55,110 --> 00:26:56,710 třídy, které mám. 545 00:26:56,710 --> 00:27:06,680 Musím vypočítat "distální", nebo do značné míry pravděpodobnosti 546 00:27:06,680 --> 00:27:12,150 každého z různých slov, která Mohu mít pro každého umělce. 547 00:27:12,150 --> 00:27:17,210 Takže v rámci Gaga, například, já jdu mít seznam kolikrát vidím 548 00:27:17,210 --> 00:27:19,250 každý ze slov. 549 00:27:19,250 --> 00:27:20,760 Smysl? 550 00:27:20,760 --> 00:27:25,370 >> A nakonec, já jen budu muset Seznam s názvem "slova", která se právě chystá 551 00:27:25,370 --> 00:27:29,780 mít, kolik slov jsem mít pro každého umělce. 552 00:27:29,780 --> 00:27:33,760 Takže pro Gaga, například, když se podívám k textu, jsem, myslím, 24 553 00:27:33,760 --> 00:27:34,750 Slova celkem. 554 00:27:34,750 --> 00:27:38,970 Takže tento seznam je jen bude mít Gaga 24, a Katy jiné číslo. 555 00:27:38,970 --> 00:27:40,130 Smysl? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Takže teď, vlastně, pojďme jít na kódování. 558 00:27:42,530 --> 00:27:45,270 Takže v Pythonu, můžete skutečně návrat na spoustu různých 559 00:27:45,270 --> 00:27:46,630 věci z funkce. 560 00:27:46,630 --> 00:27:50,810 Takže jdu vytvořit tuto funkci tzv. "podmíněné", který se bude 561 00:27:50,810 --> 00:27:53,890 vrátit všechny ty věci, "priors," že "pravděpodobnost", a 562 00:27:53,890 --> 00:28:05,690 "slova." Takže "podmíněné", a to je bude volat do "texty." 563 00:28:05,690 --> 00:28:11,510 >> Takže teď chci, abyste skutečně napsat tuto funkci. 564 00:28:11,510 --> 00:28:17,750 Takže způsob, že mohu napsat tento funkce jsem definovala 565 00:28:17,750 --> 00:28:20,620 fungovat s "def." Tak jsem to udělal "def podmíněné ", a to při 566 00:28:20,620 --> 00:28:28,700 "Texty." A co to bude dělat je, v první řadě, mám priors 567 00:28:28,700 --> 00:28:31,030 že chci počítat. 568 00:28:31,030 --> 00:28:34,330 >> Takže způsob, jak to můžu udělat, je vytvořit slovník v jazyce Python, který 569 00:28:34,330 --> 00:28:37,320 je skoro totéž jako hash stůl, nebo je to jako iterativní 570 00:28:37,320 --> 00:28:40,480 pole v PHP. 571 00:28:40,480 --> 00:28:44,150 To je, jak Prohlašuji slovník. 572 00:28:44,150 --> 00:28:53,580 A v podstatě to, co to znamená, že priors Gaga je 0,5, například v případě, 573 00:28:53,580 --> 00:28:57,200 50% z textů jsou z Gaga, 50% jsou od Katy. 574 00:28:57,200 --> 00:28:58,450 Smysl? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Tak jsem se přijít na to, jak pro výpočet priors. 577 00:29:03,680 --> 00:29:07,120 >> Příští ty, které musím udělat, i, jsou pravděpodobnosti a slova. 578 00:29:07,120 --> 00:29:17,100 Takže pravděpodobnost Gaga je seznam ze všech pravděpodobností, že jsem 579 00:29:17,100 --> 00:29:19,160 se pro každý ze slov pro Gaga. 580 00:29:19,160 --> 00:29:23,880 Takže když jdu na pravděpodobnosti Gaga "Dítě", například, že to mi 581 00:29:23,880 --> 00:29:28,750 něco jako 2 v průběhu 24 v tomto případě. 582 00:29:28,750 --> 00:29:30,070 Smysl? 583 00:29:30,070 --> 00:29:36,120 Tak já jdu na "pravděpodobnost", přejděte ke "Gaga" kbelík, který má seznam všech 584 00:29:36,120 --> 00:29:40,550 slova Gaga, pak jdu na "dítě," a vidím pravděpodobnost. 585 00:29:40,550 --> 00:29:45,940 >> A nakonec jsem si to "Slova" slovník. 586 00:29:45,940 --> 00:29:53,620 Zde tedy, "pravděpodobnosti." A pak "slova." Takže když jsem to "slovo", "Gaga", 587 00:29:53,620 --> 00:29:58,330 co se stane, je, že je to mi dáš 24, říká, že jsem 588 00:29:58,330 --> 00:30:01,990 má 24 slov v textech z Gaga. 589 00:30:01,990 --> 00:30:04,110 Dává to smysl? 590 00:30:04,110 --> 00:30:07,070 Tak tady, "slova" rovná Dah-Dah-DAH. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Takže, co budu dělat, je budu iteraci každý z textů, tak 593 00:30:12,210 --> 00:30:14,490 každý z řetězců, které Mám v seznamu. 594 00:30:14,490 --> 00:30:18,040 A budu počítat ty věci pro každý z kandidátů. 595 00:30:18,040 --> 00:30:19,950 Dává to smysl? 596 00:30:19,950 --> 00:30:21,700 Takže musím udělat pro smyčce. 597 00:30:21,700 --> 00:30:26,300 >> Takže v Pythonu, co mohu udělat, je "pro linku v textech. "totéž jako 598 00:30:26,300 --> 00:30:28,000 "Pro každý" prohlášení v PHP. 599 00:30:28,000 --> 00:30:33,420 Vzpomínám si, jak kdyby to bylo PHP jsem mohl říci: "pro každý text jako 600 00:30:33,420 --> 00:30:35,220 linka. "Dává to smysl? 601 00:30:35,220 --> 00:30:38,900 Takže beru každý z řádků, v tomto případ, tento řetězec a další 602 00:30:38,900 --> 00:30:44,540 řetězec, takže pro každou z linek, co jsem dělat, je první, budu 603 00:30:44,540 --> 00:30:49,150 rozdělit tento řádek v seznamu slov oddělených mezerami. 604 00:30:49,150 --> 00:30:53,730 >> Takže super věc o Pythonu je, že můžete jen Google, jako je "Jak mohu 605 00:30:53,730 --> 00:30:58,220 rozdělit řetězec do slov? "A je to ti říct, jak to udělat. 606 00:30:58,220 --> 00:31:04,890 A způsob, jak to udělat, je to jen "linka = Line.split () "a je to v podstatě 607 00:31:04,890 --> 00:31:08,640 dám vám seznam s každý ze slov zde. 608 00:31:08,640 --> 00:31:09,620 Dává to smysl? 609 00:31:09,620 --> 00:31:15,870 Takže teď, že jsem to udělal, že chci vědět, kdo je zpěvačka této písně. 610 00:31:15,870 --> 00:31:20,130 A k tomu, že jsem se dostat První prvek pole, ne? 611 00:31:20,130 --> 00:31:26,390 Takže můžu jen říct, že jsem "zpěvák = Linka (0) "Dává to smysl? 612 00:31:26,390 --> 00:31:32,010 >> A to, co musím udělat, pak je první všichni, budu aktualizovat, kolik 613 00:31:32,010 --> 00:31:36,130 slova, která jsem si pod "Gaga". takže jsem jen bude počítat, kolik slov jsem 614 00:31:36,130 --> 00:31:38,690 mají v tomto seznamu, ne? 615 00:31:38,690 --> 00:31:41,910 Protože to je to, kolik slov mám ve slovech a já jen tak 616 00:31:41,910 --> 00:31:44,120 přidat do "Gaga" pole. 617 00:31:44,120 --> 00:31:47,090 Má to smysl? 618 00:31:47,090 --> 00:31:49,010 Nepoužívejte příliš soustředí na syntaxi. 619 00:31:49,010 --> 00:31:50,430 Přemýšlejte více o pojmy. 620 00:31:50,430 --> 00:31:52,400 To je ta nejdůležitější část. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Takže to, co jsem si to, je-li "Gaga" je Již v tomto seznamu, tak "pokud zpěvák 623 00:32:00,260 --> 00:32:03,190 slova ", což znamená, že jsem se již mají slova by Gaga. 624 00:32:03,190 --> 00:32:06,640 Chci jen přidat další slova, že. 625 00:32:06,640 --> 00:32:15,810 Takže to, co dělám, je "slova (zpěvák) + = Len (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 A pak jsem si jen udělat délka vedení. 627 00:32:18,250 --> 00:32:21,860 Tak kolik prvků I se v poli. 628 00:32:21,860 --> 00:32:27,060 A musím udělat minus 1 jen proto, že První prvek pole je jen 629 00:32:27,060 --> 00:32:29,180 zpěvák a ty nejsou texty. 630 00:32:29,180 --> 00:32:31,420 Dává to smysl? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Jinak," znamená to, že chci, aby skutečně vložit Gaga do seznamu. 633 00:32:35,820 --> 00:32:45,990 Tak jsem prostě "slova (zpěvák) = Len (line) - 1, "Omlouvám se. 634 00:32:45,990 --> 00:32:49,200 Takže jediný rozdíl mezi těmito dvěma vedení je, že tato jedna, to není 635 00:32:49,200 --> 00:32:51,080 dosud neexistují, a tak jsem jen inicializaci. 636 00:32:51,080 --> 00:32:53,820 Tenhle jsem vlastně přidat. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Takže to bylo přidáním slov. 639 00:32:59,480 --> 00:33:03,040 >> Teď chci přidat Převorů. 640 00:33:03,040 --> 00:33:05,480 Tak jak to mám vypočítat priors? 641 00:33:05,480 --> 00:33:11,580 Převorové lze vypočítat podle toho, jak kolikrát. 642 00:33:11,580 --> 00:33:15,340 Takže kolikrát vidíte, že zpěvák mezi všemi, které jste zpěváků 643 00:33:15,340 --> 00:33:16,380 mít, že jo? 644 00:33:16,380 --> 00:33:18,810 Takže pro Gaga a Katy Perry, v tomto případě vidím Gaga 645 00:33:18,810 --> 00:33:20,570 jednou, Katy Perry jednou. 646 00:33:20,570 --> 00:33:23,320 >> Takže v podstatě se priors pro Gaga a pro Katy Perry by 647 00:33:23,320 --> 00:33:24,390 být jen jeden, ne? 648 00:33:24,390 --> 00:33:26,500 Právě jste kolikrát Vidím umělce. 649 00:33:26,500 --> 00:33:28,740 Tak to je velmi snadné vypočítat. 650 00:33:28,740 --> 00:33:34,100 Mohu jen něco podobného jako jako "pokud zpěvák v priors, "Jdu 651 00:33:34,100 --> 00:33:38,970 přidat 1 až jejich Priors pole. 652 00:33:38,970 --> 00:33:51,000 Takže, "priors (zpívat)" + = 1 "a pak" jiný " Budu dělat, "priors (zpěvák) 653 00:33:51,000 --> 00:33:55,000 = 1. "Dává to smysl? 654 00:33:55,000 --> 00:34:00,080 >> Takže pokud to neexistuje, jen jsem dal jako 1, jinak jsem jen přidat 1 ks. 655 00:34:00,080 --> 00:34:11,280 OK, tak teď všechno, co jsem odešel dělat je také přidat každý z slov 656 00:34:11,280 --> 00:34:12,290 pravděpodobnosti. 657 00:34:12,290 --> 00:34:14,889 Takže mám počítat, kolikrát Vidím každý ze slov. 658 00:34:14,889 --> 00:34:18,780 Tak jsem prostě musel udělat další pro smyčku v řadě. 659 00:34:18,780 --> 00:34:25,190 >> Takže první věc, kterou budu dělat, je zkontrolujte, zda zpěvačka už má 660 00:34:25,190 --> 00:34:26,969 pravděpodobnosti pole. 661 00:34:26,969 --> 00:34:31,739 Takže jsem kontrolovat, zda zpěvák není mají pravděpodobnosti pole, já jsem jen 662 00:34:31,739 --> 00:34:34,480 bude inicializovat jeden pro ně. 663 00:34:34,480 --> 00:34:36,400 Není to ani pole, je mi líto, je to slovník. 664 00:34:36,400 --> 00:34:43,080 Takže pravděpodobnost zpěváka se děje být otevřený slovník, takže jsem 665 00:34:43,080 --> 00:34:45,830 jen inicializaci slovník pro něj. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> A teď může skutečně udělat pro smyčce pro výpočet každé ze slov " 668 00:34:58,330 --> 00:35:00,604 pravděpodobnosti. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Takže to, co mohu udělat, je pro smyčce. 671 00:35:04,160 --> 00:35:06,590 Tak jsem jen tak iteraci přes pole. 672 00:35:06,590 --> 00:35:15,320 Takže tak, že to můžu udělat v Pythonu je "for i in range." Od 1. 673 00:35:15,320 --> 00:35:19,200 protože chci začít v druhé element, protože první z nich je 674 00:35:19,200 --> 00:35:20,260 Název zpěvák. 675 00:35:20,260 --> 00:35:24,990 Takže z jednoho do délka vedení. 676 00:35:24,990 --> 00:35:29,760 A když jsem se pohybují ve skutečnosti jít od jako zde od 1 do len z 677 00:35:29,760 --> 00:35:30,740 linka minus 1. 678 00:35:30,740 --> 00:35:33,810 Tak to už dělá tu věc dělat n minus 1 pro pole, které je velmi 679 00:35:33,810 --> 00:35:35,500 pohodlné. 680 00:35:35,500 --> 00:35:37,850 Dává to smysl? 681 00:35:37,850 --> 00:35:42,770 >> Takže pro každého z nich, co budu udělat, je, stejně jako ve druhé, 682 00:35:42,770 --> 00:35:50,320 Jdu zjistit, jestli slovo v tomto pozice v řadě je již v 683 00:35:50,320 --> 00:35:51,570 pravděpodobnosti. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 A pak, když jsem řekl tady, pravděpodobnosti slova, jako v dal jsem 686 00:35:57,260 --> 00:35:58,400 "pravděpodobnosti (zpěvák)". 687 00:35:58,400 --> 00:35:59,390 Takže jméno zpěváka. 688 00:35:59,390 --> 00:36:03,450 Takže pokud je to již v roce "Probabilit (zpěvák)", znamená to, že jsem 689 00:36:03,450 --> 00:36:11,960 Chcete přidat 1 k němu, takže budu dělat, "pravděpodobnosti (zpěvák)" a 690 00:36:11,960 --> 00:36:14,100 Slovo se nazývá "linka (i)". 691 00:36:14,100 --> 00:36:22,630 Chystám se přidat 1 a "jiný" Jsem jen bude inicializovat na hodnotu 1. 692 00:36:22,630 --> 00:36:23,880 "Linka (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Dává to smysl? 695 00:36:28,420 --> 00:36:30,180 >> Tak, I vypočtená všech polí. 696 00:36:30,180 --> 00:36:36,580 Takže teď vše, co mám udělat pro tohle je prostě "vrátit priors, 697 00:36:36,580 --> 00:36:43,230 pravděpodobnosti a slova. "Pojďme zjistit, zda existují nějaké, OK. 698 00:36:43,230 --> 00:36:45,690 Zdá se, že vše funguje tak daleko. 699 00:36:45,690 --> 00:36:46,900 Tak, to dává smysl? 700 00:36:46,900 --> 00:36:47,750 V nějakým způsobem? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Takže teď mám všechny pravděpodobnosti. 703 00:36:51,980 --> 00:36:55,100 Takže teď to jediné, co mi zbylo je jen mít tu věc, že 704 00:36:55,100 --> 00:36:58,650 vypočítá součin všech Pravděpodobnosti, když jsem si texty. 705 00:36:58,650 --> 00:37:06,270 >> Takže řekněme, že chci, aby se zavolat Tato funkce "klasifikace ()" a 706 00:37:06,270 --> 00:37:08,880 věc, která funkce má je jen argumentem. 707 00:37:08,880 --> 00:37:13,170 Řekněme, že "Baby, jsem na oheň" a je to bude zjistit, co je 708 00:37:13,170 --> 00:37:14,490 pravděpodobnost, že je to Gaga? 709 00:37:14,490 --> 00:37:16,405 Jaká je pravděpodobnost, že je to Katie? 710 00:37:16,405 --> 00:37:19,690 Zní to dobře? 711 00:37:19,690 --> 00:37:25,750 Takže jsem prostě muset vytvořit nová funkce s názvem "klasifikace ()" a 712 00:37:25,750 --> 00:37:29,180 že to bude trvat nějaký texty stejně. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 A kromě textů i já muset poslat priors, 715 00:37:36,160 --> 00:37:37,700 pravděpodobnosti a slova. 716 00:37:37,700 --> 00:37:44,000 Takže budu posílat texty, priors, pravděpodobnost, slova. 717 00:37:44,000 --> 00:37:51,840 >> Takže je to s texty, priors, pravděpodobnost, slova. 718 00:37:51,840 --> 00:37:53,530 Takže, co to dělá? 719 00:37:53,530 --> 00:37:57,180 Je to v podstatě se chystá projít všechny možné kandidáty, které jste 720 00:37:57,180 --> 00:37:58,510 mít jako zpěvák. 721 00:37:58,510 --> 00:37:59,425 A kde jsou ty kandidáty? 722 00:37:59,425 --> 00:38:01,020 Jsou v priors, že jo? 723 00:38:01,020 --> 00:38:02,710 Tak jsem si všechny ty tam. 724 00:38:02,710 --> 00:38:07,870 Takže budu mít slovník ze všech možných kandidátů. 725 00:38:07,870 --> 00:38:14,220 A pak pro každého kandidáta v priors, tak to znamená, že to bude 726 00:38:14,220 --> 00:38:17,740 bude Gaga, Katie, kdybych měl více, že to bude víc. 727 00:38:17,740 --> 00:38:20,410 Chystám se začít výpočtu tato pravděpodobnost. 728 00:38:20,410 --> 00:38:28,310 Pravděpodobnost, jak jsme viděli v PowerPoint je dřívější časy 729 00:38:28,310 --> 00:38:30,800 produkt každého další pravděpodobnosti. 730 00:38:30,800 --> 00:38:32,520 >> Tak jsem si to tady samé. 731 00:38:32,520 --> 00:38:36,330 Mohu jen to, pravděpodobnost je zpočátku jen před. 732 00:38:36,330 --> 00:38:40,340 Takže priors kandidáta. 733 00:38:40,340 --> 00:38:40,870 Je to tak? 734 00:38:40,870 --> 00:38:45,360 A teď mám pro iteraci přes všechny slova, která mám v textu se 735 00:38:45,360 --> 00:38:48,820 možné přidat pravděpodobnost pro každou z nich, OK? 736 00:38:48,820 --> 00:38:57,900 Takže, "slova v textech" co budu udělat, je, pokud je slovo v 737 00:38:57,900 --> 00:39:01,640 "pravděpodobnosti (kandidátských)", které Znamená to, že je to slovo, které 738 00:39:01,640 --> 00:39:03,640 kandidát má ve svých textech - 739 00:39:03,640 --> 00:39:05,940 Například, "dítě" pro Gaga - 740 00:39:05,940 --> 00:39:11,710 co budu dělat, je to, že pravděpodobnost se bude násobit 741 00:39:11,710 --> 00:39:22,420 o 1 a pravděpodobnosti na kandidát na toto slovo. 742 00:39:22,420 --> 00:39:25,710 A jmenuje se "slovo". 743 00:39:25,710 --> 00:39:32,440 Tento dělený počtem slov že mám pro tohoto kandidáta. 744 00:39:32,440 --> 00:39:37,450 Celkový počet slov, které mám pro zpěváka, který jsem při pohledu na. 745 00:39:37,450 --> 00:39:40,290 >> "Else". to znamená, že je nové slovo tak to by bylo, jako například 746 00:39:40,290 --> 00:39:41,860 "Oheň" pro Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Takže chci jen udělat jeden přes "Slovo (kandidát)". 748 00:39:45,760 --> 00:39:47,710 Takže nechci, aby tento termín zde. 749 00:39:47,710 --> 00:39:50,010 >> Takže to bude v podstatě kopírování a vkládání toto. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Ale já jdu smazat tuto část. 752 00:39:56,000 --> 00:39:57,610 Takže je to jen bude 1 přes to. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Zní to dobře? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 A teď na konci, já jen tak vytisknout jméno kandidáta a 757 00:40:09,700 --> 00:40:15,750 pravděpodobnost, že budete mít z má S na svých textech. 758 00:40:15,750 --> 00:40:16,200 Dává to smysl? 759 00:40:16,200 --> 00:40:18,390 A já vlastně ani nemám je třeba tento slovník. 760 00:40:18,390 --> 00:40:19,510 Dává to smysl? 761 00:40:19,510 --> 00:40:21,810 >> Takže, pojďme zjistit, jestli to skutečně funguje. 762 00:40:21,810 --> 00:40:24,880 Takže když jsem spustit to, se to nebude fungovat. 763 00:40:24,880 --> 00:40:26,130 Počkejte jednu sekundu. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Slova (kandidátských)", "slova (kandidátských)", to je 766 00:40:31,720 --> 00:40:33,750 název pole. 767 00:40:33,750 --> 00:40:41,435 OK Tak, to říká, že je to nějaký bug pro kandidáta na priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Dovolte mi jen chill trochu. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Pojďme to zkusit. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Tak to dává Katy Perry má tento pravděpodobnost, že tento násobek 10 na 774 00:40:58,710 --> 00:41:02,200 minus 7, a Gaga má tento krát 10 na minus 6. 775 00:41:02,200 --> 00:41:05,610 Takže vidíte, že ukazuje, že Gaga má vyšší pravděpodobnost. 776 00:41:05,610 --> 00:41:09,260 Takže "Miláčku, já jsem na Fire" je pravděpodobně Gaga píseň. 777 00:41:09,260 --> 00:41:10,580 Dává to smysl? 778 00:41:10,580 --> 00:41:12,030 Takže to je to, co jsme udělali. 779 00:41:12,030 --> 00:41:16,010 >> Tento kód se bude vyslán on-line, takže vy můžete podívat. 780 00:41:16,010 --> 00:41:20,720 Možná, že použití některé z nich, pokud si chcete udělat projekt, nebo něco podobného. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 To bylo jen ukázat, Co výpočetní 783 00:41:25,930 --> 00:41:27,230 lingvistika kód vypadá. 784 00:41:27,230 --> 00:41:33,040 Ale teď pojďme k další Vysoká úroveň věci. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Takže další problémy jsem mluvil o - 787 00:41:35,150 --> 00:41:37,550 problém segmentace je první z nich. 788 00:41:37,550 --> 00:41:40,820 Takže máte tu japonštinu. 789 00:41:40,820 --> 00:41:43,420 A pak vidíte, že nejsou tam žádné mezery. 790 00:41:43,420 --> 00:41:49,110 Takže je to v podstatě znamená, že je horní židle, ne? 791 00:41:49,110 --> 00:41:50,550 Můžete mluvit japonsky? 792 00:41:50,550 --> 00:41:52,840 Je to nejvyšší ze židle, že jo? 793 00:41:52,840 --> 00:41:54,480 >> STUDENT: Nevím, co kanji tam je. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: Je to [MLUVÍCÍ japonský] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Takže to v podstatě znamená, že předsednictví vrcholu. 797 00:42:00,960 --> 00:42:03,620 Takže pokud byste měli dát prostor to bude tady. 798 00:42:03,620 --> 00:42:05,970 A pak máte [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Což v podstatě znamená, že pan Ueda. 800 00:42:09,040 --> 00:42:13,180 A vidíte, že "Ueda" a máte prostor a pak se "san". Takže vidíte, že 801 00:42:13,180 --> 00:42:15,470 zde "Ue" je jako sama o sobě. 802 00:42:15,470 --> 00:42:17,750 A tady je má charakter vedle ní. 803 00:42:17,750 --> 00:42:21,720 >> Takže to není jako v těch jazycích znaky, což znamená slovo to, aby vám 804 00:42:21,720 --> 00:42:23,980 stačí dát hodně prostoru. 805 00:42:23,980 --> 00:42:25,500 Postavy se vztahují ke každému jiný. 806 00:42:25,500 --> 00:42:28,680 A mohou být spolu jako dvě, tři, jeden. 807 00:42:28,680 --> 00:42:34,520 Takže jste skutečně vytvořit nějaký o způsob, jak dát tyto prostory. 808 00:42:34,520 --> 00:42:38,850 >> A to je to, že vždy, když se dostanete Údaje z těchto asijských jazyků, 809 00:42:38,850 --> 00:42:40,580 vše, co přijde unsegmented. 810 00:42:40,580 --> 00:42:45,940 Protože nikdo, kdo píše japonsky nebo čínské píše s mezerami. 811 00:42:45,940 --> 00:42:48,200 Kdykoli budete psát čínsky, Japonská stačí napsat vše 812 00:42:48,200 --> 00:42:48,710 bez mezer. 813 00:42:48,710 --> 00:42:52,060 To nemá ani smysl dát prostor. 814 00:42:52,060 --> 00:42:57,960 Takže, když se dostanete data z některé Východní Asie jazyk, pokud chcete 815 00:42:57,960 --> 00:43:00,760 skutečně něco udělat s tím musíte segmentu jako první. 816 00:43:00,760 --> 00:43:05,130 >> Zamyslete se nad tím na příklad texty bez mezer. 817 00:43:05,130 --> 00:43:07,950 Takže pouze texty, které mají Bude věty, ne? 818 00:43:07,950 --> 00:43:09,470 Oddělených tečkami. 819 00:43:09,470 --> 00:43:13,930 Ale pak mají jen trest bude není opravdu pomoci na to, aby informace 820 00:43:13,930 --> 00:43:17,760 kdo ty texty jsou o. 821 00:43:17,760 --> 00:43:18,120 Je to tak? 822 00:43:18,120 --> 00:43:20,010 Takže byste měli staví první mezery. 823 00:43:20,010 --> 00:43:21,990 Tak jak můžete dělat, že? 824 00:43:21,990 --> 00:43:24,920 >> Takže pak přijde myšlenka jazyka model, který je něco, co opravdu 825 00:43:24,920 --> 00:43:26,870 důležité pro výpočetní lingvistika. 826 00:43:26,870 --> 00:43:32,790 Takže jazykový model je v podstatě tabulka pravděpodobností, že ukazuje 827 00:43:32,790 --> 00:43:36,260 v první řadě to, co je pravděpodobnost mít slovo v jazyce? 828 00:43:36,260 --> 00:43:39,590 Tak ukazuje, jak často je slovo. 829 00:43:39,590 --> 00:43:43,130 A pak také ukazuje vztah mezi slovy ve větě. 830 00:43:43,130 --> 00:43:51,500 >> Takže hlavní myšlenkou je, že pokud cizinec přišel pro vás a řekl větu 831 00:43:51,500 --> 00:43:55,600 si, jaká je pravděpodobnost, že pro například, "tohle je moje sestra [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 byla věta, že člověk říká? 833 00:43:57,480 --> 00:44:00,380 Takže samozřejmě některé věty jsou častější než jiné. 834 00:44:00,380 --> 00:44:04,450 Například, "dobré ráno" nebo "dobrý noc, "nebo" hej tam, "je mnohem více 835 00:44:04,450 --> 00:44:08,260 časté než většina vět že máme angličtinu. 836 00:44:08,260 --> 00:44:11,060 Tak proč jsou ty tresty častější? 837 00:44:11,060 --> 00:44:14,060 >> Za prvé, je to proto, že máte slova, která jsou častější. 838 00:44:14,060 --> 00:44:20,180 Tak, například, když řeknete, že pes je velký, a pes je obrovský, můžete 839 00:44:20,180 --> 00:44:23,880 obvykle asi slyšet pes je velký častěji, protože "velká" je více 840 00:44:23,880 --> 00:44:27,260 často v angličtině, než "gigantický". Takže jeden z 841 00:44:27,260 --> 00:44:30,100 co je slovo frekvence. 842 00:44:30,100 --> 00:44:34,490 >> Druhá věc, která je opravdu Důležitá je jen 843 00:44:34,490 --> 00:44:35,490 Pořadí slov. 844 00:44:35,490 --> 00:44:39,500 Tak, to je běžné říkat "kočka je uvnitř krabice. ", ale ty nejsou obvykle 845 00:44:39,500 --> 00:44:44,250 viz v "krabici uvnitř je kočka." tak Vidíte, že tam je nějaký význam 846 00:44:44,250 --> 00:44:46,030 v pořadí slov. 847 00:44:46,030 --> 00:44:50,160 Nemůžete jen tak říct, že ti dva věty mají stejnou pravděpodobnost 848 00:44:50,160 --> 00:44:53,010 jen proto, že mají stejná slova. 849 00:44:53,010 --> 00:44:55,550 Ve skutečnosti musíte starat o pořadí stejně. 850 00:44:55,550 --> 00:44:57,650 Smysl? 851 00:44:57,650 --> 00:44:59,490 >> Tak co budeme dělat? 852 00:44:59,490 --> 00:45:01,550 Takže to, co jsem mohl pokusit dostat vás? 853 00:45:01,550 --> 00:45:04,400 Snažím se vám to, co jsme zavolejte modely n-gram. 854 00:45:04,400 --> 00:45:09,095 Takže n-gramové modely v podstatě předpokládá, že pro každé slovo, které 855 00:45:09,095 --> 00:45:10,960 máte ve větě. 856 00:45:10,960 --> 00:45:15,020 Je to pravděpodobnost, že mít Slovo zde závisí nejen na 857 00:45:15,020 --> 00:45:18,395 Frekvence tohoto slova v jazyce, ale také na slova, která 858 00:45:18,395 --> 00:45:19,860 se jej obklopuje. 859 00:45:19,860 --> 00:45:25,810 >> Tak například, obvykle, když vidíte, něco jako na, nebo na ty jsi 860 00:45:25,810 --> 00:45:28,040 pravděpodobně bude vidět podstatné jméno po něm, ne? 861 00:45:28,040 --> 00:45:31,750 Vzhledem k tomu, když máte předložku Obvykle to trvá podstatné jméno po něm. 862 00:45:31,750 --> 00:45:35,540 Nebo pokud máte sloveso, které je tranzitivní obvykle se chystáte 863 00:45:35,540 --> 00:45:36,630 mají jmennou frázi. 864 00:45:36,630 --> 00:45:38,780 Takže to bude mít podstatné jméno někde kolem něj. 865 00:45:38,780 --> 00:45:44,950 >> Takže, v podstatě, co to udělá, je, že se domnívá, že pravděpodobnost, že bude 866 00:45:44,950 --> 00:45:47,960 slova vedle sebe, když jste výpočtu 867 00:45:47,960 --> 00:45:49,050 pravděpodobnost věty. 868 00:45:49,050 --> 00:45:50,960 A to je to, co o jazyk, model je v podstatě. 869 00:45:50,960 --> 00:45:54,620 Jen říkám, co je pravděpodobnost, mít specifický 870 00:45:54,620 --> 00:45:57,120 věta v jazyce? 871 00:45:57,120 --> 00:45:59,110 Tak proč je to užitečné, v podstatě? 872 00:45:59,110 --> 00:46:02,390 A v první řadě to, co je Model n-gram, pak? 873 00:46:02,390 --> 00:46:08,850 >> Takže modelu n-gram znamená, že každé slovo je závislá na 874 00:46:08,850 --> 00:46:12,700 další N minus 1 slov. 875 00:46:12,700 --> 00:46:18,150 Takže, v podstatě, to znamená, že pokud se podívám, například na CS50 TF při 876 00:46:18,150 --> 00:46:21,500 Já výpočet pravděpodobnosti věta, budete mít jako " 877 00:46:21,500 --> 00:46:25,280 pravděpodobnost, že bude slovo "" krát pravděpodobnost, že bude " 878 00:46:25,280 --> 00:46:31,720 CS50 "krát pravděpodobnost, že bude "CS50 TF." Takže v podstatě jsem počítat 879 00:46:31,720 --> 00:46:35,720 všechny možné způsoby natahovat to. 880 00:46:35,720 --> 00:46:41,870 >> A pak se obvykle, když děláte to, jako v projektu, dáte N se 881 00:46:41,870 --> 00:46:42,600 nízká hodnota. 882 00:46:42,600 --> 00:46:45,930 Takže, obvykle bigrams nebo trigramů. 883 00:46:45,930 --> 00:46:51,090 Takže stačí počítat dvě slovy, skupina dvou slov, nebo tří slov, 884 00:46:51,090 --> 00:46:52,620 jen za funkční problémy. 885 00:46:52,620 --> 00:46:56,395 A také proto, že možná máte-li něco jako "The CS50 TF." Když 886 00:46:56,395 --> 00:47:00,510 mají "TF", to je velmi důležité, aby "CS50" je vedle ní, že jo? 887 00:47:00,510 --> 00:47:04,050 Tyto dvě věci jsou obvykle vedle sebe. 888 00:47:04,050 --> 00:47:06,410 >> Pokud si myslíte, že "TF", to je asi bude mít to, co 889 00:47:06,410 --> 00:47:07,890 Třída je to TF'ing pro. 890 00:47:07,890 --> 00:47:11,330 Také "" je velmi důležité, pro CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Ale pokud máte něco jako "The CS50 TF šel do třídy a dal jejich 892 00:47:14,570 --> 00:47:20,060 Studenti nějaký bonbón. "" Candy "a" " nemají žádný vztah opravdu, že jo? 893 00:47:20,060 --> 00:47:23,670 Jsou tak daleko od sebe, že to není opravdu jedno, co 894 00:47:23,670 --> 00:47:25,050 Slova máte. 895 00:47:25,050 --> 00:47:31,210 >> Takže tím, že dělá bigram nebo trigram, že prostě znamená, že jste omezení 896 00:47:31,210 --> 00:47:33,430 sami na některých slov které jsou v okolí. 897 00:47:33,430 --> 00:47:35,810 Smysl? 898 00:47:35,810 --> 00:47:40,630 Takže pokud chcete udělat segmentace, v podstatě, co chcete udělat, je vidět 899 00:47:40,630 --> 00:47:44,850 jaké jsou všechny možné způsoby, jak můžete segmentu větu. 900 00:47:44,850 --> 00:47:49,090 >> Takový, že vidíte, co je pravděpodobnost, že každé z těchto vět 901 00:47:49,090 --> 00:47:50,880 existující v jazyce? 902 00:47:50,880 --> 00:47:53,410 Takže to, co děláte, je rád, dobře, ať me se snaží dát prostor zde. 903 00:47:53,410 --> 00:47:55,570 Tak jsi dal prostor zde a uvidíte, co je 904 00:47:55,570 --> 00:47:57,590 pravděpodobnost této věty? 905 00:47:57,590 --> 00:48:00,240 Pak jste jako, OK, možná že to není tak dobré. 906 00:48:00,240 --> 00:48:03,420 Tak jsem dal prostor tam a prostor tam, a vypočítat 907 00:48:03,420 --> 00:48:06,240 pravděpodobnost nyní, a uvidíte, že je vyšší pravděpodobnost. 908 00:48:06,240 --> 00:48:12,160 >> Tak tohle je algoritmus s názvem TANGO segmentace algoritmus, který je 909 00:48:12,160 --> 00:48:14,990 vlastně něco, co by bylo opravdu v pohodě pro projekt, který 910 00:48:14,990 --> 00:48:20,860 v podstatě se unsegmented text, který mohou být japonské nebo čínské, nebo možná 911 00:48:20,860 --> 00:48:26,080 Anglicky bez mezer a snaží se dát mezery mezi slovy a to dělá 912 00:48:26,080 --> 00:48:29,120 že pomocí jazyka modelu a se snaží zjistit, co je nejvyšší 913 00:48:29,120 --> 00:48:31,270 Pravděpodobnost můžete dostat. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Tak tohle je segmentace. 916 00:48:33,800 --> 00:48:35,450 >> Nyní syntaxe. 917 00:48:35,450 --> 00:48:40,940 Takže, syntaxe je používán pro tolik věcí, právě teď. 918 00:48:40,940 --> 00:48:44,880 Takže Graf vyhledávání, pro Siri pro skoro jakýkoli druh přírodní 919 00:48:44,880 --> 00:48:46,490 zpracování jazyka, který máte. 920 00:48:46,490 --> 00:48:49,140 Takže to, co je důležité věci, o syntaxi? 921 00:48:49,140 --> 00:48:52,390 Takže, věty mají obecně co nazýváme složky. 922 00:48:52,390 --> 00:48:57,080 Jaké jsou něco jako skupiny slov které mají funkci ve větě. 923 00:48:57,080 --> 00:49:02,220 A nemohou být opravdu od sebe. 924 00:49:02,220 --> 00:49:07,380 >> Takže, když řeknu, například, "Lauren miluje Milo. "Já vím, že" Lauren "je 925 00:49:07,380 --> 00:49:10,180 složka a pak "lásky Milo "je také jiný. 926 00:49:10,180 --> 00:49:16,860 Vzhledem k tomu, nemůžete říct, jako "Lauren Milo miluje "mají stejný význam. 927 00:49:16,860 --> 00:49:18,020 Nebude to mít stejný význam. 928 00:49:18,020 --> 00:49:22,500 Nebo Nemůžu říct, že jako "Milo Lauren miluje. "Ne všechno, co má stejný 929 00:49:22,500 --> 00:49:25,890 což znamená, dělat, že. 930 00:49:25,890 --> 00:49:31,940 >> Takže dvě další důležité věci, o Syntaxe jsou lexikální typy, které je 931 00:49:31,940 --> 00:49:35,390 v podstatě funkce, která vám mají slova sami. 932 00:49:35,390 --> 00:49:39,180 Takže musíte vědět, že "Lauren" a "Milo" jsou podstatná jména. 933 00:49:39,180 --> 00:49:41,040 "Láska" je sloveso. 934 00:49:41,040 --> 00:49:45,660 A druhá důležitá věc je, že jsou frázová typy. 935 00:49:45,660 --> 00:49:48,990 Takže víte, že "miluje Milo" je vlastně slovní fráze. 936 00:49:48,990 --> 00:49:52,390 Takže když říkám "Lauren," já vím, že Lauren se něco dělat. 937 00:49:52,390 --> 00:49:53,620 Co to dělá? 938 00:49:53,620 --> 00:49:54,570 Ona je milující Milo. 939 00:49:54,570 --> 00:49:56,440 Tak to je celá věc. 940 00:49:56,440 --> 00:50:01,640 Ale jeho komponenty jsou podstatné jméno a sloveso. 941 00:50:01,640 --> 00:50:04,210 Ale dohromady, dělají sloveso frázi. 942 00:50:04,210 --> 00:50:08,680 >> Takže, co můžeme skutečně udělat s počítačová lingvistika? 943 00:50:08,680 --> 00:50:13,810 Takže, když mám něco, co například "přátelé Allison." Vidím, jestli jsem 944 00:50:13,810 --> 00:50:17,440 se syntaktický strom bych vědět, že "Přátelé" je jmenná fráze je 945 00:50:17,440 --> 00:50:21,480 podstatné jméno a pak "Allison" je předložkové fráze, v nichž "z" je 946 00:50:21,480 --> 00:50:24,810 návrh a "Allison" je podstatné jméno. 947 00:50:24,810 --> 00:50:30,910 To, co jsem mohl udělat, je naučit počítač že když mám jmenná fráze jedno a 948 00:50:30,910 --> 00:50:33,080 pak předložkové fráze. 949 00:50:33,080 --> 00:50:39,020 Takže v tomto případě, "přátelé" a pak "z Milo "Já vím, že to znamená, že 950 00:50:39,020 --> 00:50:43,110 NP2, druhá, vlastní NP1. 951 00:50:43,110 --> 00:50:47,680 >> Tak jsem se vytvořit nějaký vztah, nějaká funkce pro ni. 952 00:50:47,680 --> 00:50:52,370 Takže když vidím tuto strukturu, která odpovídá přesně s "přáteli 953 00:50:52,370 --> 00:50:56,030 Allison, "já vím, že Allison vlastní přátele. 954 00:50:56,030 --> 00:50:58,830 Takže přátelé jsou něco, že Allison má. 955 00:50:58,830 --> 00:50:59,610 Dává to smysl? 956 00:50:59,610 --> 00:51:01,770 Tak to je v podstatě to, co Graf Search dělá. 957 00:51:01,770 --> 00:51:04,360 Je to jen vytváří pravidla na spoustu věcí. 958 00:51:04,360 --> 00:51:08,190 Takže "přátelé Allison", "moji přátelé kteří žijí v Cambridge, "" svým přátelům 959 00:51:08,190 --> 00:51:12,970 kteří jdou na Harvardu. "Vytváří pravidla pro všechny ty věci. 960 00:51:12,970 --> 00:51:14,930 >> Nyní strojový překlad. 961 00:51:14,930 --> 00:51:18,850 Takže, strojový překlad, je také něco statistické. 962 00:51:18,850 --> 00:51:21,340 A skutečně, pokud jste se zapojili do počítačová lingvistika, hodně 963 00:51:21,340 --> 00:51:23,580 vaše věci bude statistika. 964 00:51:23,580 --> 00:51:26,670 Takže jak jsem dělal příklad s hodně pravděpodobností, že jsem byl 965 00:51:26,670 --> 00:51:30,540 výpočtu, a pak se dostanete k tomu velmi malé číslo, které je konečné 966 00:51:30,540 --> 00:51:33,180 pravděpodobnost, a to je to, co vám dává odpověď. 967 00:51:33,180 --> 00:51:37,540 Strojový překlad také používá statistický model. 968 00:51:37,540 --> 00:51:44,790 A chcete-li myslet na stroji překlad v nejjednodušší 969 00:51:44,790 --> 00:51:48,970 Mimochodem, co si můžete myslet, je jen překládat slovo od slova, že jo? 970 00:51:48,970 --> 00:51:52,150 >> Když se učíte jazyk pro Poprvé, to je obvykle to, co 971 00:51:52,150 --> 00:51:52,910 vy, že jo? 972 00:51:52,910 --> 00:51:57,050 Pokud chcete, můžete přeložit větu ve vašem jazyce do jazyka 973 00:51:57,050 --> 00:52:00,060 učíte, obvykle jako první, přeložit každý ze slov 974 00:52:00,060 --> 00:52:03,180 individuálně, a potom zkuste dát slova na místo. 975 00:52:03,180 --> 00:52:07,100 >> Takže když jsem chtěl, aby to přeložit, [MLUVÍCÍ portugalský] 976 00:52:07,100 --> 00:52:10,430 , což znamená "bílá kočka utekla." Pokud bych to chtěl přeložit z 977 00:52:10,430 --> 00:52:13,650 Portugalština do angličtiny, to, co jsem mohl udělat, je, jako první, jen jsem 978 00:52:13,650 --> 00:52:14,800 překládat slovo od slova. 979 00:52:14,800 --> 00:52:20,570 Takže "o" je "," "gato", "kočka", "Branco", "bílá", a pak "fugio" je 980 00:52:20,570 --> 00:52:21,650 "Utekl." 981 00:52:21,650 --> 00:52:26,130 >> Tak jsem si všechna slova zde, ale to není v pořádku. 982 00:52:26,130 --> 00:52:29,590 Je to jako "kočka bílá utekl" který je ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Takže, pak mohu mít druhý krok, který se bude najít ideální 984 00:52:34,490 --> 00:52:36,610 pozice pro každý ze slov. 985 00:52:36,610 --> 00:52:40,240 Takže vím, že jsem vlastně chci mít "Bílý kocour" místo "kočka bílý." Tak 986 00:52:40,240 --> 00:52:46,050 co mohu udělat, je, nejvíce naivní metodu by bylo vytvořit všechny 987 00:52:46,050 --> 00:52:49,720 možné permutace slova, pozic. 988 00:52:49,720 --> 00:52:53,300 A pak zjistit, který z nich má Nejvyšší pravděpodobnost podle 989 00:52:53,300 --> 00:52:54,970 do mého jazyka modelu. 990 00:52:54,970 --> 00:52:58,390 A pak, když jsem se najít ten, který má nejvyšší pravděpodobnost, že, který je 991 00:52:58,390 --> 00:53:01,910 pravděpodobně "bílý kocour utekl," to je můj překlad. 992 00:53:01,910 --> 00:53:06,710 >> A to je jednoduchý způsob, jak vysvětlit jak hodně strojového překladu 993 00:53:06,710 --> 00:53:07,910 algoritmy pracují. 994 00:53:07,910 --> 00:53:08,920 Má to smysl? 995 00:53:08,920 --> 00:53:12,735 To je také něco, co opravdu vzrušující že vy můžete možná průzkum 996 00:53:12,735 --> 00:53:13,901 Konečný projekt, jo? 997 00:53:13,901 --> 00:53:15,549 >> STUDENT: No, říkal, že to bylo naivní způsob, takže to, co je 998 00:53:15,549 --> 00:53:17,200 non-naivní cesta? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: non-naivní cesta? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Takže první věc, která je špatného na tom, tato metoda je, že jsem přeložil 1002 00:53:22,860 --> 00:53:24,330 slova, slovo od slova. 1003 00:53:24,330 --> 00:53:30,570 Ale někdy budete muset slova, která může mít více překladů. 1004 00:53:30,570 --> 00:53:32,210 Budu se snažit myslet něco. 1005 00:53:32,210 --> 00:53:37,270 Například, "manga" v portugalské plechovce buď "mandl" nebo "rukáv". Tak 1006 00:53:37,270 --> 00:53:40,450 když se snažíte přeložit slovo slovem, to by mohlo být, že vám 1007 00:53:40,450 --> 00:53:42,050 něco, co nedává smysl. 1008 00:53:42,050 --> 00:53:45,770 >> Takže vy vlastně chcete, aby se podíváte na všechny možné překlady 1009 00:53:45,770 --> 00:53:49,840 slova a vidět, v první řadě, co je rozkaz. 1010 00:53:49,840 --> 00:53:52,000 Povídali jsme si o permutating věci? 1011 00:53:52,000 --> 00:53:54,150 Chcete-li zobrazit všechny možné příkazy a vybrat ten s nejvyšší 1012 00:53:54,150 --> 00:53:54,990 pravděpodobnost? 1013 00:53:54,990 --> 00:53:57,860 Můžete si také vybrat všechny možné překlady pro každého 1014 00:53:57,860 --> 00:54:00,510 slovo a pak uvidíme - 1015 00:54:00,510 --> 00:54:01,950 v kombinaci s permutací - 1016 00:54:01,950 --> 00:54:03,710 , který z nich má nejvyšší pravděpodobnost. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, můžete se také podívat na to jen slova, ale věty. 1018 00:54:08,590 --> 00:54:11,700 takže můžete analyzovat vztahy mezi slova a pak se 1019 00:54:11,700 --> 00:54:13,210 lepší překlad. 1020 00:54:13,210 --> 00:54:16,690 Také něco jiného, ​​tak tento semestr Já jsem vlastně dělal výzkum v 1021 00:54:16,690 --> 00:54:19,430 Čínsko-anglický strojový překlad, takže překládání z 1022 00:54:19,430 --> 00:54:20,940 Čínská do angličtiny. 1023 00:54:20,940 --> 00:54:26,760 >> A něco, co děláme, je, kromě použití statistický model, který je právě 1024 00:54:26,760 --> 00:54:30,570 vidět pravděpodobností vidět některé pozice ve větě, že jsem 1025 00:54:30,570 --> 00:54:35,360 vlastně také přidat nějakou syntaxi my Model, řka: Ach, když vidím tento druh 1026 00:54:35,360 --> 00:54:39,420 výstavby, to je to, co chci to změnit, když jsem se překládat. 1027 00:54:39,420 --> 00:54:43,880 Takže můžete také přidat nějaký prvek syntaxe, aby 1028 00:54:43,880 --> 00:54:47,970 Překlad účinnější a přesnější. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Tak jak můžete začít, chcete-li dělat něco ve výpočetní 1031 00:54:51,010 --> 00:54:51,980 lingvistika? 1032 00:54:51,980 --> 00:54:54,560 >> Nejprve si vyberete projekt , která se týká jazyků. 1033 00:54:54,560 --> 00:54:56,310 Takže, tam je tak mnoho tam venku. 1034 00:54:56,310 --> 00:54:58,420 Je tu tolik věcí, které můžete udělat. 1035 00:54:58,420 --> 00:55:00,510 A pak můžete přemýšlet o modelu které můžete použít. 1036 00:55:00,510 --> 00:55:04,710 Obvykle to znamená, že myšlení předpoklady, as jako, oh, když jsem byl 1037 00:55:04,710 --> 00:55:05,770 jako myšlení textu. 1038 00:55:05,770 --> 00:55:09,510 Byl jsem rád, dobře, jestli chci přijít out, který to napsal, asi chci 1039 00:55:09,510 --> 00:55:15,400 podívat se na slova, osoba používá a zjistit, kdo používá toto slovo velmi často. 1040 00:55:15,400 --> 00:55:18,470 Takže se snaží, aby předpoklady a zkuste se zamyslet modelů. 1041 00:55:18,470 --> 00:55:21,395 A pak se můžete také vyhledat online druh problému, který máte, 1042 00:55:21,395 --> 00:55:24,260 a bude to o tom, aby vás modely, které možná 1043 00:55:24,260 --> 00:55:26,560 modelovat tu věc dobře. 1044 00:55:26,560 --> 00:55:29,080 >> A také můžete vždy napište mi. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 A mohu jen odpovědět na vaše otázky. 1047 00:55:34,940 --> 00:55:38,600 Můžeme dokonce mohli setkat, takže můžu dávat návrhy na způsoby 1048 00:55:38,600 --> 00:55:41,490 realizaci projektu. 1049 00:55:41,490 --> 00:55:45,610 A mám na mysli, když se zapojit do počítačová lingvistika, že to bude 1050 00:55:45,610 --> 00:55:46,790 být skvělý. 1051 00:55:46,790 --> 00:55:48,370 Budeš vidět, že je tak velký potenciál. 1052 00:55:48,370 --> 00:55:52,060 A průmysl chce najmout jste tak špatné, protože to. 1053 00:55:52,060 --> 00:55:54,720 Takže doufám, že vy užil toto. 1054 00:55:54,720 --> 00:55:57,030 Jestliže vy máte nějaké dotazy, můžete mě požádat po tomto. 1055 00:55:57,030 --> 00:55:58,280 Ale děkuji. 1056 00:55:58,280 --> 00:56:00,150