1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Freitas: Hey. 3 00:00:08,870 --> 00:00:09,980 Velkomin á síðuna mína. 4 00:00:09,980 --> 00:00:11,216 Mitt nafn er Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Ég er yngri í [inaudible] læra tölvunarfræði með áherslu á 6 00:00:15,220 --> 00:00:16,410 tölvumálvísindum. 7 00:00:16,410 --> 00:00:19,310 Svo er annar minn í tungumáli og tungumála kenning. 8 00:00:19,310 --> 00:00:21,870 Ég er virkilega spennt að kenna ykkur svolítið um sviði. 9 00:00:21,870 --> 00:00:24,300 Það er mjög spennandi svæði til að læra. 10 00:00:24,300 --> 00:00:27,260 Einnig með mikla möguleika til framtíðar. 11 00:00:27,260 --> 00:00:30,160 Svo, ég er virkilega spennt að þið eru að íhuga verkefni í 12 00:00:30,160 --> 00:00:31,160 tölvumálvísindum. 13 00:00:31,160 --> 00:00:35,460 Og ég ætla að vera meira en fús til að ráðleggja einhver ykkar ef þú ákveður að 14 00:00:35,460 --> 00:00:37,090 stunda einhverja þá. 15 00:00:37,090 --> 00:00:40,010 >> Svo fyrst af öllu hvað eru computational Málvísindi? 16 00:00:40,010 --> 00:00:44,630 Svo tölvumálvísindum er gatnamótum á milli málvísindum og 17 00:00:44,630 --> 00:00:46,390 tölvunarfræði. 18 00:00:46,390 --> 00:00:47,415 En hvað er Málvísindi? 19 00:00:47,415 --> 00:00:48,490 Hvað er tölvunarfræði? 20 00:00:48,490 --> 00:00:51,580 Vel úr málvísindum, hvað við tökum eru tungumál. 21 00:00:51,580 --> 00:00:54,960 Svo málvísindi er í raun rannsókn náttúrulegra tungumál almennt. 22 00:00:54,960 --> 00:00:58,330 Svo eðlilegt tungumál - við tölum um tungumál sem við notum í raun til 23 00:00:58,330 --> 00:00:59,770 samskipti við hvert annað. 24 00:00:59,770 --> 00:01:02,200 Þannig að við erum ekki nákvæmlega að tala um C eða Java. 25 00:01:02,200 --> 00:01:05,900 Við erum að tala meira um ensku og Kínverji og önnur mál sem við 26 00:01:05,900 --> 00:01:07,780 nota til að hafa samskipti við hvert annað. 27 00:01:07,780 --> 00:01:12,470 >> The krefjandi hlutur óður í það er að Núna höfum við næstum 7000 28 00:01:12,470 --> 00:01:14,260 tungumál í heiminum. 29 00:01:14,260 --> 00:01:19,520 Þannig að það eru alveg hár fjölbreytni af tungumálum sem við getur rannsókn. 30 00:01:19,520 --> 00:01:22,600 Og þá finnst þér að það er sennilega mjög erfitt að gera, til dæmis, 31 00:01:22,600 --> 00:01:26,960 Þýðing frá einu tungumáli til annað, miðað við að þú hefur 32 00:01:26,960 --> 00:01:28,240 tæplega 7.000 þeirra. 33 00:01:28,240 --> 00:01:31,450 Svo, ef þú heldur að gera þýðingar frá einu tungumáli til annars þú 34 00:01:31,450 --> 00:01:35,840 hafa næstum meira en milljón mismunandi samsetningar sem þú getur 35 00:01:35,840 --> 00:01:37,330 hafa frá tungumáli tungumáli. 36 00:01:37,330 --> 00:01:40,820 Svo það er virkilega krefjandi að gera sumir konar dæmi þýðing kerfi fyrir 37 00:01:40,820 --> 00:01:43,540 hvert einasta tungumál. 38 00:01:43,540 --> 00:01:47,120 >> Svo, Málvísindi skemmtun með setningafræði, merkingarfræði, pragmatics. 39 00:01:47,120 --> 00:01:49,550 Þú krakkar gera ekki nákvæmlega þörf að vita hvað eru þeir eru. 40 00:01:49,550 --> 00:01:55,090 En mjög áhugaverður hlutur er að sem móðurmáli, þegar þú lærir 41 00:01:55,090 --> 00:01:59,010 tungumál sem barn lærir í raun alla þá hluti - setningafræði merkingarfræði 42 00:01:59,010 --> 00:02:00,500 og pragmatics - 43 00:02:00,500 --> 00:02:01,430 sjálfur. 44 00:02:01,430 --> 00:02:04,820 Og enginn þarf að kenna þér setningafræði til þér að skilja hvernig setningar eru 45 00:02:04,820 --> 00:02:05,290 uppbyggð. 46 00:02:05,290 --> 00:02:07,980 Svo, það er mjög áhugavert vegna þess að það er eitthvað sem kemur mjög 47 00:02:07,980 --> 00:02:10,389 innsær. 48 00:02:10,389 --> 00:02:13,190 >> Og hvað ert þú að taka frá Tölvunarfræðinámið? 49 00:02:13,190 --> 00:02:16,700 Jæja, það mikilvægasta sem við hafa í tölvunarfræði er fyrsta 50 00:02:16,700 --> 00:02:19,340 allt, gervigreind og vél nám. 51 00:02:19,340 --> 00:02:22,610 Svo, það sem við erum að reyna að gera tölvumálvísindum er kenna 52 00:02:22,610 --> 00:02:26,990 tölvan hvernig á að gera eitthvað með tungumál. 53 00:02:26,990 --> 00:02:28,630 >> Svo, til dæmis, í vél þýðingar. 54 00:02:28,630 --> 00:02:32,490 Ég er að reyna að kenna Tölva Hvernig minn að vita hvernig á að umskipti úr einu 55 00:02:32,490 --> 00:02:33,310 tungumál til annars. 56 00:02:33,310 --> 00:02:35,790 Svo, í grundvallaratriðum eins og kennslu A tölva tvö tungumál. 57 00:02:35,790 --> 00:02:38,870 Ef ég máltækni, en það er raunin td á 58 00:02:38,870 --> 00:02:41,810 Facebook Línurit Leita, kenna þér tölvan hvernig á að skilja 59 00:02:41,810 --> 00:02:42,730 fyrirspurnir vel. 60 00:02:42,730 --> 00:02:48,130 >> Svo, ef þú segir "myndir af mínum vinir. "Facebook er ekki meðhöndla sem 61 00:02:48,130 --> 00:02:51,130 sem öllu band sem hefur bara fullt af orðum. 62 00:02:51,130 --> 00:02:56,020 Það skilur í raun á tengslum milli "Myndir" og "Vinir mínir" og 63 00:02:56,020 --> 00:02:59,620 skilur að "myndir" eru eign "vinum mínum." 64 00:02:59,620 --> 00:03:02,350 >> Svo, það er hluti af, til dæmis, máltækni. 65 00:03:02,350 --> 00:03:04,790 Það er að reyna að skilja hvað er samband 66 00:03:04,790 --> 00:03:07,520 orð í setningu. 67 00:03:07,520 --> 00:03:11,170 Og stóra spurningin er, getur þú kenna tölvunni hvernig á að tala 68 00:03:11,170 --> 00:03:12,650 mál almennt? 69 00:03:12,650 --> 00:03:17,810 Sem er mjög áhugaverð spurning að hugsa, eins og ef til vill í framtíðinni, 70 00:03:17,810 --> 00:03:19,930 þú ert að fara að vera fær um að tala til klefi símanum. 71 00:03:19,930 --> 00:03:23,290 Góður af eins og það sem við gerum við Siri en eitthvað meira eins, getur þú í raun 72 00:03:23,290 --> 00:03:25,690 segðu það sem þú vilt og síminn er að fara að skilja allt. 73 00:03:25,690 --> 00:03:28,350 Og það getur haft eftirfylgni spurningum og halda að tala. 74 00:03:28,350 --> 00:03:30,880 Það er eitthvað mjög spennandi, að mínu mati. 75 00:03:30,880 --> 00:03:33,070 >> Svo eitthvað um náttúrulegum tungumálum. 76 00:03:33,070 --> 00:03:36,220 Eitthvað mjög áhugavert um náttúrulegum tungumálum er þessi, og þetta er 77 00:03:36,220 --> 00:03:38,470 inneign á málvísindum prófessor minn, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Hún gefur dæmi og ég held að það er mjög áhugavert. 79 00:03:40,830 --> 00:03:47,060 Vegna þess að við lærum tungumál frá þegar við erum fædd og þá innfæddur okkar 80 00:03:47,060 --> 00:03:49,170 tungumál konar vex á okkur. 81 00:03:49,170 --> 00:03:52,570 >> Og í rauninni þú lærir tungumál frá lágmarks inntak, ekki satt? 82 00:03:52,570 --> 00:03:56,700 Þú ert bara að fá inntak frá þér foreldrar hvað tungumálið hljómar 83 00:03:56,700 --> 00:03:58,770 eins og þú að læra bara það. 84 00:03:58,770 --> 00:04:02,240 Svo, það er áhugavert vegna þess að ef þú horfir á þau setningar, til dæmis. 85 00:04:02,240 --> 00:04:06,980 Þú horfir, "María setur á kápu hvers skipti sem hún fer í húsið. " 86 00:04:06,980 --> 00:04:10,650 >> Í þessu tilviki er hægt að láta Orðið "hún" er átt við Maríu, ekki satt? 87 00:04:10,650 --> 00:04:13,500 Þú getur sagt "María setur á kápu hvert skipti María skilur 88 00:04:13,500 --> 00:04:14,960 hús. "svo er það allt í lagi. 89 00:04:14,960 --> 00:04:19,370 En svo ef þú horfir á setningu "Hún setur á kápu hvert skipti Mary 90 00:04:19,370 --> 00:04:22,850 yfirgefur húsið. "þú veist það er ómögulegt að segja að "hún" er 91 00:04:22,850 --> 00:04:24,260 vísa til Maríu. 92 00:04:24,260 --> 00:04:27,070 >> Það er engin leið til að segja að "María setur á kápu hvert skipti Mary fer 93 00:04:27,070 --> 00:04:30,790 húsið. "Svo það er áhugavert vegna þess að þetta er eins konar innsæi 94 00:04:30,790 --> 00:04:32,890 að sérhver móðurmáli hefur. 95 00:04:32,890 --> 00:04:36,370 Og enginn var kennt að þetta er Leiðin að setningafræði virkar. 96 00:04:36,370 --> 00:04:41,930 Og að þú getur aðeins hafa þetta "hún" vísa til Maríu í ​​þessari fyrstu tilfelli, 97 00:04:41,930 --> 00:04:44,260 og reyndar í þessu annað líka, en ekki í þessu einn. 98 00:04:44,260 --> 00:04:46,500 En allir góður af fær að sama svar. 99 00:04:46,500 --> 00:04:48,580 Allir sammála um það. 100 00:04:48,580 --> 00:04:53,280 Svo er það mjög áhugavert hvernig þótt þú veist ekki allar reglur 101 00:04:53,280 --> 00:04:55,575 á þínu tungumáli sem þú skilur konar hvernig tungumálið virkar. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Svo áhugaverður hlutur óður í eðlilegt tungumál er að þú þarft ekki að 104 00:05:01,530 --> 00:05:06,970 vita allir setningafræði til að vita hvort setningin er málfræði eða ungrammatical fyrir 105 00:05:06,970 --> 00:05:08,810 flestum tilvikum. 106 00:05:08,810 --> 00:05:13,220 Sem gerir þér held kannski hvað gerist er að með lífi þínu, þú 107 00:05:13,220 --> 00:05:17,410 bara að halda að fá meira og meira setningar sagt við þig. 108 00:05:17,410 --> 00:05:19,800 Og þá þú halda minnið allar setningar. 109 00:05:19,800 --> 00:05:24,230 Og svo þegar einhver segir þér eitthvað heyrist þessi setning og 110 00:05:24,230 --> 00:05:27,040 þú horfir á orðaforða þinn setningar og sjá hvort 111 00:05:27,040 --> 00:05:28,270 þessi setning er þarna. 112 00:05:28,270 --> 00:05:29,830 Og ef það er það sem þú segja að það er málfræði. 113 00:05:29,830 --> 00:05:31,740 Ef það er ekki að segja að það er ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Svo, í því tilfelli, myndir þú segja, ó, svo þú hafa a gríðarstór listi af öllum 115 00:05:35,150 --> 00:05:36,140 mögulegar setningar. 116 00:05:36,140 --> 00:05:38,240 Og svo þegar þú heyrir setningu, veistu hvort það er málfræði eða 117 00:05:38,240 --> 00:05:39,450 ekki byggð á því. 118 00:05:39,450 --> 00:05:42,360 Málið er að ef þú horfir á setning, til dæmis, "The 119 00:05:42,360 --> 00:05:47,540 fimm-headed CS50 TFS eldað blinda kolkrabba notuðu DAPA mál. "Það er 120 00:05:47,540 --> 00:05:49,630 örugglega ekki setning að þú heyrt áður. 121 00:05:49,630 --> 00:05:52,380 En á sama tíma og þú veist það er ansi mikið málfræði, ekki satt? 122 00:05:52,380 --> 00:05:55,570 Það eru engar málfræði mistök og þú getur sagt að 123 00:05:55,570 --> 00:05:57,020 það er hægt setning. 124 00:05:57,020 --> 00:06:01,300 >> Svo það gerir okkur held að í raun og veru leiðin sem við lærum tungumál er ekki aðeins 125 00:06:01,300 --> 00:06:07,090 með því að hafa a gríðarstór gagnagrunnur mögulegt orð eða setningar, en meira um 126 00:06:07,090 --> 00:06:11,490 skilning á tengslum milli orð í þessum setningum. 127 00:06:11,490 --> 00:06:14,570 Er að skynsamleg? 128 00:06:14,570 --> 00:06:19,370 Svo, þá er spurningin, getur Tölvur læra tungumál? 129 00:06:19,370 --> 00:06:21,490 Getum við kennt tungumál við tölvur? 130 00:06:21,490 --> 00:06:24,230 >> Svo, við skulum hugsa um muninn milli móðurmáli á tungumál 131 00:06:24,230 --> 00:06:25,460 og tölva. 132 00:06:25,460 --> 00:06:27,340 Svo, hvað gerist í hátalara? 133 00:06:27,340 --> 00:06:30,430 Vel, móðurmáli lærir tungumál af völdum þess. 134 00:06:30,430 --> 00:06:34,200 Venjulega hennar barnæsku ár. 135 00:06:34,200 --> 00:06:38,570 Svo, í grundvallaratriðum, þú bara barn, og þú halda að tala við hana, og það 136 00:06:38,570 --> 00:06:40,540 bara lærir hvernig á að tala tungumálið, ekki satt? 137 00:06:40,540 --> 00:06:42,660 Svo, þú ert í rauninni að gefa inntak barnið. 138 00:06:42,660 --> 00:06:45,200 Svo, þá er hægt að halda því fram að tölvan getur gert það sama, ekki satt? 139 00:06:45,200 --> 00:06:49,510 Þú getur bara gefa tungumáli sem inntak til the tölva. 140 00:06:49,510 --> 00:06:53,410 >> Eins og til dæmis fullt af skrám sem hafa bækur á ensku. 141 00:06:53,410 --> 00:06:56,190 Kannski er það ein leið sem gæti hugsanlega kenna 142 00:06:56,190 --> 00:06:57,850 tölva English, ekki satt? 143 00:06:57,850 --> 00:07:01,000 Og í raun, ef þú hugsar um það, það tekur þig kannski nokkrar 144 00:07:01,000 --> 00:07:02,680 daga í að lesa bók. 145 00:07:02,680 --> 00:07:05,760 Fyrir tölvu það tekur annað við líta á öll orð í bók. 146 00:07:05,760 --> 00:07:10,810 Svo þú getur held að gæti verið bara þetta rök inntak frá í kringum þig, 147 00:07:10,810 --> 00:07:15,440 það er ekki nóg að segja að það er eitthvað sem aðeins menn geta gert. 148 00:07:15,440 --> 00:07:17,680 Þú getur held að tölvur Einnig er hægt að fá inntak. 149 00:07:17,680 --> 00:07:21,170 >> The second hlutur er að móðurmáli einnig að hafa heila sem hefur 150 00:07:21,170 --> 00:07:23,870 tungumálanám hæfileiki. 151 00:07:23,870 --> 00:07:27,020 En ef þér finnst um það, heila er solid hlutur. 152 00:07:27,020 --> 00:07:30,450 Þegar maður fæðist, það er nú þegar sett - 153 00:07:30,450 --> 00:07:31,320 þetta er heilinn. 154 00:07:31,320 --> 00:07:34,660 Og eins og þú vaxa upp, þú færð bara meira inntak tungumál og kannski næringarefni 155 00:07:34,660 --> 00:07:35,960 og annað efni. 156 00:07:35,960 --> 00:07:38,170 En ansi mikið heilinn er solid hlutur. 157 00:07:38,170 --> 00:07:41,290 >> Svo er hægt að segja, vel, kannski þú getur byggja upp tölvuna sem er með helling af 158 00:07:41,290 --> 00:07:45,890 aðgerðir og aðferðir sem bara líkja tungumálanám hæfileiki. 159 00:07:45,890 --> 00:07:49,630 Svo í þeim skilningi, gætir þú sagt, vel, ég geta hafa a tölva sem hefur alla 160 00:07:49,630 --> 00:07:52,270 hlutir sem ég þarf að læra tungumálið. 161 00:07:52,270 --> 00:07:56,200 Og síðasta er að innfæddur ræðumaður lærir af reynslu og villa. 162 00:07:56,200 --> 00:08:01,090 Svo í rauninni annar mikilvægur hlutur í tungumálanám er að þú góður 163 00:08:01,090 --> 00:08:05,340 af læra hluti með því að gera alhæfingar um það sem þú heyrir. 164 00:08:05,340 --> 00:08:10,280 >> Svo eins og þú ert að alast upp þú lærir að Sum orð eru meira eins og nafnorð, 165 00:08:10,280 --> 00:08:11,820 nokkrar aðrar sjálfur eru lýsingarorð. 166 00:08:11,820 --> 00:08:14,250 Og þú þarft ekki að hafa neitt þekking á málvísindum 167 00:08:14,250 --> 00:08:15,040 að skilja að. 168 00:08:15,040 --> 00:08:18,560 En þú veist að það séu nokkur orð eru staðsettar í sumum hluta af 169 00:08:18,560 --> 00:08:22,570 setningu og sumir aðrir í öðrum hlutar setningarinnar. 170 00:08:22,570 --> 00:08:26,110 >> Og að þegar þú gerir eitthvað sem er eins og setningu sem er ekki rétt - 171 00:08:26,110 --> 00:08:28,770 kannski vegna að yfir alhæfing til dæmis. 172 00:08:28,770 --> 00:08:32,210 Kannski þegar þú ert að alast upp, þú tekur eftir að fleirtölu er yfirleitt 173 00:08:32,210 --> 00:08:35,809 myndast með því að setja S á enda orðsins. 174 00:08:35,809 --> 00:08:40,042 Og þá reyna að gera fleirtölu "dádýr" sem "deers" eða "tönn" sem 175 00:08:40,042 --> 00:08:44,780 "TOOTHS." Svo þá foreldrar þínir eða einhver leiðréttir þig og segir, nei, 176 00:08:44,780 --> 00:08:49,020 fleirtölu af "hjörtur" er "dádýr," og fleirtölu af "tönn" er "tennur." Og þá 177 00:08:49,020 --> 00:08:50,060 þú lærir þá hluti. 178 00:08:50,060 --> 00:08:51,520 Svo að þú lærir af reynslu og villa. 179 00:08:51,520 --> 00:08:53,100 >> En þú getur líka gert það með tölvu. 180 00:08:53,100 --> 00:08:55,310 Hægt er að hafa eitthvað sem heitir styrking nám. 181 00:08:55,310 --> 00:08:58,560 Sem er í grundvallaratriðum eins og að gefa upp tölva laun þegar það gerist 182 00:08:58,560 --> 00:08:59,410 eitthvað rétt. 183 00:08:59,410 --> 00:09:04,710 Og gefa henni hið gagnstæða á laun og þegar það gerir eitthvað af sér. 184 00:09:04,710 --> 00:09:07,410 Þú geta raunverulega sjá að ef þú ferð til Google Translate og þú reynir að 185 00:09:07,410 --> 00:09:10,220 þýða setningu, það biður þig um endurgjöf. 186 00:09:10,220 --> 00:09:13,240 Þannig að ef þú segir, ó, það er betra þýðingar fyrir þessa setningu. 187 00:09:13,240 --> 00:09:18,140 Þú getur slegið það upp og þá ef einhver af fólk halda að segja að er betra 188 00:09:18,140 --> 00:09:21,560 þýðingar, lærir það bara að það ætti að nota þessi þýðingar í stað 189 00:09:21,560 --> 00:09:22,960 sá það var að gefa. 190 00:09:22,960 --> 00:09:28,830 >> Svo, það er mjög heimspekilega spurningu til að sjá hvort tölvur eru að fara að vera 191 00:09:28,830 --> 00:09:30,340 fær um að tala eða ekki í framtíðinni. 192 00:09:30,340 --> 00:09:34,440 En ég hef miklar vonir um að þeir geti bara byggt á þeim rökum. 193 00:09:34,440 --> 00:09:38,570 En það er bara meira af heimspekilegu spurning. 194 00:09:38,570 --> 00:09:43,460 >> Svo á meðan tölvur enn geta ekki talað, hvað er það sem við getum gert? 195 00:09:43,460 --> 00:09:47,070 Sumir raunverulega kaldur hlutur er Flokkun gagna. 196 00:09:47,070 --> 00:09:53,210 Svo, til dæmis, þú krakkar vita að tölvupóstur þjónustu gera fyrir 197 00:09:53,210 --> 00:09:55,580 dæmi, spam sía. 198 00:09:55,580 --> 00:09:59,070 Svo þegar þú færð ruslpóst, það reynir að sía í aðra kassa. 199 00:09:59,070 --> 00:10:00,270 Svo hvernig virkar það að gera það? 200 00:10:00,270 --> 00:10:06,080 Það er ekki eins og tölvan veit bara hvað netföng eru að senda spam. 201 00:10:06,080 --> 00:10:09,130 Svo það er meira byggt á efni skilaboðin, eða kannski titil, eða 202 00:10:09,130 --> 00:10:11,310 kannski sumir mynstur sem þú hefur. 203 00:10:11,310 --> 00:10:15,690 >> Svo, í grundvallaratriðum, hvað þú getur gert er að fá mikið af gögnum tölvupósta sem eru spam, 204 00:10:15,690 --> 00:10:19,980 tölvupóst sem ekki spam, og læra það konar mynstur þú hefur í 205 00:10:19,980 --> 00:10:21,000 þau sem eru spam. 206 00:10:21,000 --> 00:10:23,260 Og þetta er hluti af computational málvísindum. 207 00:10:23,260 --> 00:10:24,720 Það heitir flokkun gagna. 208 00:10:24,720 --> 00:10:28,100 Og við erum í raun að fara að sjá dæmi um að á næstu glærum. 209 00:10:28,100 --> 00:10:32,910 >> The second hlutur er náttúruleg tungumál vinnslu sem er hlutur sem 210 00:10:32,910 --> 00:10:36,580 Línurit Leit er að gera til að láta þú skrifar setningu. 211 00:10:36,580 --> 00:10:38,690 Og það treystir þú skilur hvað er merking og gefur 212 00:10:38,690 --> 00:10:39,940 þér betri niðurstöðu. 213 00:10:39,940 --> 00:10:43,880 Raunverulega, ef þú ferð á Google eða Bing og þú leita eitthvað eins og Lady 214 00:10:43,880 --> 00:10:47,060 Hæð Gaga er, þú ert í raun að fara að fá 5 '1 "í stað upplýsinga 215 00:10:47,060 --> 00:10:50,170 frá henni vegna þess að það skilur í raun hvað þú ert að tala um. 216 00:10:50,170 --> 00:10:52,140 Svo er það hluti af náttúrulegu tungumál vinnslu. 217 00:10:52,140 --> 00:10:57,000 >> Eða einnig þegar þú ert að nota Siri, fyrst þú hefur algrím sem reynir að 218 00:10:57,000 --> 00:11:01,130 þýða það sem þú ert að segja í orðum, í texta. 219 00:11:01,130 --> 00:11:03,690 Og þá reynir hann að þýða að í skilningi. 220 00:11:03,690 --> 00:11:06,570 Svo er það allt hluti af náttúru tungumál vinnslu. 221 00:11:06,570 --> 00:11:08,320 >> Síðan sem þú ert vélþýðingu - 222 00:11:08,320 --> 00:11:10,300 sem er í raun einn af mínum uppáhalds - 223 00:11:10,300 --> 00:11:14,060 sem er bara að þýða frá tungumál til annars. 224 00:11:14,060 --> 00:11:17,950 Svo er hægt að hugsa um að þegar þú ert að gera vél þýðing, hefur þú 225 00:11:17,950 --> 00:11:19,750 óendanlegir möguleikar á setningar. 226 00:11:19,750 --> 00:11:22,960 Þannig að það er engin leið að bara að geyma hvert einasta þýðing. 227 00:11:22,960 --> 00:11:27,440 Svo þú þarft að koma upp með áhugavert reiknirit til að vera fær um að 228 00:11:27,440 --> 00:11:30,110 þýða hvert einasta setning á einhvern hátt. 229 00:11:30,110 --> 00:11:32,483 >> Þið hafið einhverjar spurningar svo langt? 230 00:11:32,483 --> 00:11:34,450 Nei? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Og hvað erum við að fara að sjá í dag? 233 00:11:36,900 --> 00:11:39,300 Fyrst af öllu, ég ætla að tala um flokkun vandamál. 234 00:11:39,300 --> 00:11:41,440 Svo eitt sem ég var segja um spam. 235 00:11:41,440 --> 00:11:46,820 Hvað ég ætla að gera er að, gefið lyrics á lag, þú geta reyna að reikna út 236 00:11:46,820 --> 00:11:49,810 með miklum líkum sem er söngvari? 237 00:11:49,810 --> 00:11:53,590 Skulum segja að ég hef lög frá Lady Gaga og Katy Perry, ef ég gef þér 238 00:11:53,590 --> 00:11:58,130 nýtt lag, getur þú reikna út ef það er Katy Perry eða Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> The second einn, ætla ég bara að fara að tala um skiptingu vandamál. 240 00:12:01,490 --> 00:12:05,780 Svo ég veit ekki hvort þú krakkar vita, en Kínversku, japönsku, önnur Asíu 241 00:12:05,780 --> 00:12:08,090 tungumálum, og önnur tungumál almennt, hafa ekki 242 00:12:08,090 --> 00:12:09,830 bil á milli orða. 243 00:12:09,830 --> 00:12:13,540 Og þá ef þú hugsa um leiðin sem tölva góður þinn reynir að 244 00:12:13,540 --> 00:12:18,600 skilja máltækni, það lítur á orð og 245 00:12:18,600 --> 00:12:21,500 reynir að skilja tengsl milli þeirra, ekki satt? 246 00:12:21,500 --> 00:12:25,440 En svo ef þú ert kínversku, og þú hafa núll rými, það er mjög erfitt að 247 00:12:25,440 --> 00:12:28,360 finna út hvað er samband orð, vegna þess að þeir hafa ekki allir 248 00:12:28,360 --> 00:12:29,530 orð fyrst. 249 00:12:29,530 --> 00:12:32,600 Svo þú ert að gera eitthvað sem kallast skiptingu sem þýðir bara að setja 250 00:12:32,600 --> 00:12:36,490 bil milli hvað við myndum kalla orð í þessum tungumálum. 251 00:12:36,490 --> 00:12:37,740 Skynsamleg? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Og þá erum við að fara að tala um setningafræði. 254 00:12:41,540 --> 00:12:44,050 Svo bara svolítið um náttúrulegt tungumál vinnslu. 255 00:12:44,050 --> 00:12:45,420 Það er að fara að vera bara yfirlit. 256 00:12:45,420 --> 00:12:50,700 Svo í dag, í rauninni það sem ég vil gera er gefa ykkur smá af 257 00:12:50,700 --> 00:12:53,930 inni af því eru möguleikarnir sem þú getur gert með tölvuvæddum 258 00:12:53,930 --> 00:12:54,960 málvísindum. 259 00:12:54,960 --> 00:13:00,410 Og þá er hægt að sjá hvað þér finnst er kaldur meðal þessum hlutum. 260 00:13:00,410 --> 00:13:02,270 Og kannski er hægt að hugsa um verkefni og koma að tala við mig. 261 00:13:02,270 --> 00:13:05,260 Og ég get gefið þér góð ráð um hvernig á að framkvæma það. 262 00:13:05,260 --> 00:13:09,060 >> Svo setningafræði er að fara til vera a lítill hluti um Línurit leit og vél 263 00:13:09,060 --> 00:13:09,670 þýðingar. 264 00:13:09,670 --> 00:13:13,650 Ég ætla bara að fara að gefa dæmi um hvernig Þú gætir til dæmis þýða 265 00:13:13,650 --> 00:13:16,020 eitthvað frá portúgölsku yfir á ensku. 266 00:13:16,020 --> 00:13:17,830 Hljómar vel? 267 00:13:17,830 --> 00:13:19,293 >> Svo fyrst, flokkun vandamál. 268 00:13:19,293 --> 00:13:23,590 Ég segi að þessi hluti af námskeiðinu er að fara að vera mest krefjandi 269 00:13:23,590 --> 00:13:27,560 einn bara vegna þess að það er að fara að vera einhvers erfðaskrá. 270 00:13:27,560 --> 00:13:29,470 En það er að fara að vera Python. 271 00:13:29,470 --> 00:13:34,380 Ég veit að þú krakkar vita ekki Python, svo Ég ætla bara að fara að útskýra á hár 272 00:13:34,380 --> 00:13:35,750 stigi hvað ég er að gera. 273 00:13:35,750 --> 00:13:40,900 Og þú þarft ekki að alveg sama líka mikið um setningafræði því það er 274 00:13:40,900 --> 00:13:42,140 eitthvað sem þú krakkar geta lært. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Hljómar vel. 277 00:13:43,580 --> 00:13:46,020 >> Svo er það flokkun vandamálið? 278 00:13:46,020 --> 00:13:49,140 Svo þú ert að gefa einhverjum lyrics til lag, og þú vilt að giska 279 00:13:49,140 --> 00:13:50,620 sem er að syngja það. 280 00:13:50,620 --> 00:13:54,045 Og þetta getur verið af hvaða tagi annarra vandamála. 281 00:13:54,045 --> 00:13:59,980 Þannig að það getur verið, til dæmis, hefur þú forsetakosningarnar herferð og þú hafa a 282 00:13:59,980 --> 00:14:02,610 ræðu, og þú vilt að finna út ef það var, til dæmis, 283 00:14:02,610 --> 00:14:04,470 Obama eða Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Eða þú getur haft fullt af tölvupósti og þú vilt að reikna út ef þeir eru 285 00:14:07,700 --> 00:14:08,890 spam eða ekki. 286 00:14:08,890 --> 00:14:11,440 Svo það er bara að flokka sum Gögn sem byggjast á orðum 287 00:14:11,440 --> 00:14:13,790 sem þú hefur þar. 288 00:14:13,790 --> 00:14:16,295 >> Svo til að gera það, þarftu að gera nokkrar ályktanir. 289 00:14:16,295 --> 00:14:20,570 Svo mikið um tölvumálvísindum er gerð forsendur, 290 00:14:20,570 --> 00:14:24,100 yfirleitt sviði forsendur, þannig að þú getur fengið góðar niðurstöður. 291 00:14:24,100 --> 00:14:26,670 Reyna að búa til módel. 292 00:14:26,670 --> 00:14:31,290 Og þá reyna það út og sjá hvort það virkar, ef það gefur þér gott nákvæmni. 293 00:14:31,290 --> 00:14:33,940 Og ef það gerist, þá ertu reyna að bæta það. 294 00:14:33,940 --> 00:14:37,640 Ef það virkar ekki, þú ert eins og OK, kannski ég ætti að gera aðra forsendu. 295 00:14:37,640 --> 00:14:44,030 >> Svo þeirri forsendu að við erum að fara að gera er að listamaður yfirleitt syngur 296 00:14:44,030 --> 00:14:49,220 um efni mörgum sinnum, og kannski notar orð mörgum sinnum bara 297 00:14:49,220 --> 00:14:50,270 vegna þess að þeir eru vanir því. 298 00:14:50,270 --> 00:14:51,890 Þú getur bara að hugsa um vin þinn. 299 00:14:51,890 --> 00:14:57,350 Ég er viss um að þú krakkar hafa allir vinir sem segja undirskrift setningu þeirra, 300 00:14:57,350 --> 00:14:59,260 bókstaflega fyrir hvert einasta setning - 301 00:14:59,260 --> 00:15:02,660 eins og sumir sérstakur orð eða einhverjum tilteknum setningu sem þeir segja fyrir 302 00:15:02,660 --> 00:15:04,020 hvert einasta setning. 303 00:15:04,020 --> 00:15:07,920 >> Og hvað er hægt að segja er að ef þú sérð setning sem hefur undirskrift 304 00:15:07,920 --> 00:15:11,450 setningu, getur þú giska á að sennilega vinur þinn er 305 00:15:11,450 --> 00:15:13,310 eitt að segja það, ekki satt? 306 00:15:13,310 --> 00:15:18,410 Svo þú gerir það forsendu og þá það er hvernig þú búa til líkan. 307 00:15:18,410 --> 00:15:24,440 >> Dæmið sem ég ætla að gefa er á hvernig Lady Gaga, til dæmis, fólk 308 00:15:24,440 --> 00:15:27,430 segja að hún notar "barnið" fyrir allar hennar númer eitt lög. 309 00:15:27,430 --> 00:15:32,270 Og í raun er þetta myndband sem sýnir hana að segja orðið "barn" fyrir 310 00:15:32,270 --> 00:15:33,410 mismunandi lög. 311 00:15:33,410 --> 00:15:33,860 >> [Video spilun] 312 00:15:33,860 --> 00:15:34,310 >> - (Söngur) Baby. 313 00:15:34,310 --> 00:15:36,220 Baby. 314 00:15:36,220 --> 00:15:37,086 Baby. 315 00:15:37,086 --> 00:15:37,520 Baby. 316 00:15:37,520 --> 00:15:37,770 Baby. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Baby. 319 00:15:39,243 --> 00:15:40,085 Baby. 320 00:15:40,085 --> 00:15:40,510 Baby. 321 00:15:40,510 --> 00:15:40,850 Baby. 322 00:15:40,850 --> 00:15:41,090 >> [END vídeó spilun- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Freitas: Þannig að það eru, að ég held, 40 lög hér þar sem hún segir 324 00:15:44,020 --> 00:15:48,690 Orðið "barn". Svo þú getur í rauninni giska að ef þú sérð lag sem hefur 325 00:15:48,690 --> 00:15:52,180 orðið "barn," það er einhver hár Líkurnar á að það er Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 En við skulum reyna að þróa þetta frekar meira formlega. 327 00:15:56,450 --> 00:16:00,470 >> Svo að þetta eru lyrics to lög eftir Lady Gaga og Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Svo þú horfir á Lady Gaga, þú sérð þær hafa a einhver fjöldi af tilfelli af "barn," a 329 00:16:04,120 --> 00:16:07,710 fullt af atburðum á "hátt." Og þá Katy Perry hefur fullt af atburðum sem 330 00:16:07,710 --> 00:16:10,360 "The", a einhver fjöldi af tilfelli af "eldi." 331 00:16:10,360 --> 00:16:14,560 >> Svo í rauninni það sem við viljum gera er, þú færð Ljóð. 332 00:16:14,560 --> 00:16:20,480 Segjum að þú færð Ljóð fyrir A lag sem er "barn," bara "barn". Ef 333 00:16:20,480 --> 00:16:24,750 þú færð bara orðið "barn," og þetta er öll gögn sem þú hefur frá 334 00:16:24,750 --> 00:16:27,880 Lady Gaga og Katy Perry, sem myndi þú giska er sá 335 00:16:27,880 --> 00:16:29,370 sem syngur lagið? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga eða Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, ekki satt? 338 00:16:33,150 --> 00:16:37,400 Vegna þess að hún er sú eina sem segir "Barnið." Þetta hljómar heimskur, ekki satt? 339 00:16:37,400 --> 00:16:38,760 OK, þetta er mjög auðvelt. 340 00:16:38,760 --> 00:16:41,860 Ég er bara að horfa á tvö lög og Auðvitað, hún er sú eina sem hefur 341 00:16:41,860 --> 00:16:42,660 "Barnið." 342 00:16:42,660 --> 00:16:44,740 >> En hvað ef þú ert með fullt af orðum? 343 00:16:44,740 --> 00:16:50,900 Ef þú hefur í raun lyric, eitthvað eins, "elskan, ég bara 344 00:16:50,900 --> 00:16:51,610 fór að sjá A [? CFT?] 345 00:16:51,610 --> 00:16:54,020 fyrirlestur, "eða eitthvað svoleiðis, og þá þú ert í raun að reikna út - 346 00:16:54,020 --> 00:16:55,780 byggt á öllum þeim orðum - 347 00:16:55,780 --> 00:16:58,350 sem er listamaður sem líklega söng þetta lag? 348 00:16:58,350 --> 00:17:01,860 Þannig að við skulum reyna að þróa þetta aðeins lengra. 349 00:17:01,860 --> 00:17:05,630 >> OK, svo byggt bara á þeim gögnum sem við fékk, það virðist sem Gaga er sennilega 350 00:17:05,630 --> 00:17:06,260 söngvari. 351 00:17:06,260 --> 00:17:07,904 En hvernig getum við skrifað þetta meira formlega? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Og það er að fara til vera a lítill hluti af tölfræði. 354 00:17:13,140 --> 00:17:15,880 Þannig að ef þú villast, bara að reyna að skilja hugtakið. 355 00:17:15,880 --> 00:17:18,700 Það skiptir ekki máli ef þú skilur jöfnur fullkomlega vel. 356 00:17:18,700 --> 00:17:22,150 Þetta er allt að fara að vera online. 357 00:17:22,150 --> 00:17:25,490 >> Svo í rauninni er það sem ég er að reikna á Líkurnar á að þetta lag er með 358 00:17:25,490 --> 00:17:28,040 Lady Gaga í ljósi þess að - 359 00:17:28,040 --> 00:17:30,660 þannig að þetta barnum þýðir í ljósi þess að - 360 00:17:30,660 --> 00:17:33,680 Ég sá orðið "barn". Er að skynsamleg? 361 00:17:33,680 --> 00:17:35,540 Þannig að ég ætla að reyna að reikna sem líkur. 362 00:17:35,540 --> 00:17:38,540 >> Svo er það þetta setning kallast Bayes setningin sem segir að 363 00:17:38,540 --> 00:17:43,330 líkurnar á tilteknu B, er líkur á B gefið, sinnum 364 00:17:43,330 --> 00:17:47,660 líkur á, yfir líkur af B. Þetta er löng jafna. 365 00:17:47,660 --> 00:17:51,970 En það sem þú verður að skilja frá sem er að þetta er það sem ég vil 366 00:17:51,970 --> 00:17:52,830 reikna, ekki satt? 367 00:17:52,830 --> 00:17:56,570 Svo líkurnar á því að það lag er með Lady Gaga í ljósi þess að ég sá orðið 368 00:17:56,570 --> 00:17:58,230 "Barnið." 369 00:17:58,230 --> 00:18:02,960 >> Og nú er það sem ég er að fá líkur á orðinu "barn" gefið 370 00:18:02,960 --> 00:18:04,390 að ég hef Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Og hvað er að í grundvallaratriðum? 372 00:18:07,220 --> 00:18:10,500 Hvað það þýðir er, hvað er líkur á að sjá orðið "barn" 373 00:18:10,500 --> 00:18:12,130 í Gaga lyrics? 374 00:18:12,130 --> 00:18:16,240 Ef ég vil að reikna út að í mjög einföld leið, það er bara fjöldi 375 00:18:16,240 --> 00:18:23,640 oft ég sjá "barnið" yfir heildarfjölda orða í Gaga lyrics, ekki satt? 376 00:18:23,640 --> 00:18:27,600 Hver er tíðni sem ég sé þessi orð í verki Gaga er? 377 00:18:27,600 --> 00:18:30,530 Skynsamleg? 378 00:18:30,530 --> 00:18:33,420 >> Seinni tíma er líkur á Gaga. 379 00:18:33,420 --> 00:18:34,360 Hvað þýðir það? 380 00:18:34,360 --> 00:18:38,550 Það þýðir í rauninni, hvað er líkur á að flokka 381 00:18:38,550 --> 00:18:40,690 sumir Lyrics sem Gaga? 382 00:18:40,690 --> 00:18:45,320 Og það er góður af furðulegur, en við skulum hugsa um dæmi. 383 00:18:45,320 --> 00:18:49,230 Svo skulum segja að líkurnar á hafa "barnið" í lag er sú sama 384 00:18:49,230 --> 00:18:51,760 for Gaga og Britney Spears. 385 00:18:51,760 --> 00:18:54,950 En Britney Spears hefur tvisvar fleiri lög en Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Þannig að ef einhver gefur bara af handahófi þér Lyrics of "Baby," The fyrstur hlutur þú 387 00:19:00,570 --> 00:19:04,710 líta á er, hvað eru líkurnar á hafa "barnið" í Gaga lagið, "barnið" 388 00:19:04,710 --> 00:19:05,410 í Britney lag? 389 00:19:05,410 --> 00:19:06,460 Og það er sama. 390 00:19:06,460 --> 00:19:10,040 >> Svo annað sem þú munt sjá er, Jæja, hvað eru líkurnar á 391 00:19:10,040 --> 00:19:13,770 þetta Lyric af sjálfu vera Gaga Ljóð, og hvað eru líkurnar á 392 00:19:13,770 --> 00:19:15,380 vera Britney Ljóð? 393 00:19:15,380 --> 00:19:18,950 Svo síðan Britney hefur svo marga fleiri lyrics en Gaga, myndir þú sennilega 394 00:19:18,950 --> 00:19:21,470 segja, vel, þetta er líklega A Britney Lyric. 395 00:19:21,470 --> 00:19:23,340 Svo að hvers vegna við höfum þetta litið hérna. 396 00:19:23,340 --> 00:19:24,670 Líkur á Gaga. 397 00:19:24,670 --> 00:19:26,950 Vit? 398 00:19:26,950 --> 00:19:28,660 Er það? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Og síðasta er bara líkurnar af "barnið" sem gerir ekki 401 00:19:33,500 --> 00:19:34,810 máli það mikið. 402 00:19:34,810 --> 00:19:39,940 En það er líkur á sjá "barnið" í ensku. 403 00:19:39,940 --> 00:19:42,725 Við venjulega ekki passa að mikið um það hugtak. 404 00:19:42,725 --> 00:19:44,490 Er að skynsamleg? 405 00:19:44,490 --> 00:19:48,110 Svo eru líkurnar á Gaga kallað áður líkur 406 00:19:48,110 --> 00:19:49,530 í bekknum Gaga. 407 00:19:49,530 --> 00:19:53,840 Því það þýðir bara að það er líkur á því að þessi tegund - 408 00:19:53,840 --> 00:19:55,520 sem er Gaga - 409 00:19:55,520 --> 00:19:59,350 bara almennt, bara án skilyrða. 410 00:19:59,350 --> 00:20:02,560 >> Og svo þegar ég hef líkur á Gaga gefin "barn," við köllum það plús 411 00:20:02,560 --> 00:20:06,160 teary líkurnar því það er líkurnar á því að hafa 412 00:20:06,160 --> 00:20:08,300 Gaga gefið vísbendingar. 413 00:20:08,300 --> 00:20:11,050 Þannig að ég ætla að gefa þér vísbendingar að ég sá orðið barn og 414 00:20:11,050 --> 00:20:12,690 lagið skynsamleg? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Þannig að ef ég reiknað út að fyrir hvert lögin fyrir Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 hvað það væri - 419 00:20:25,916 --> 00:20:27,730 virðist, get ég ekki hreyft þetta. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Líkurnar á Gaga verður eitthvað eins og 2 yfir 24, sinnum 1/2, 422 00:20:36,920 --> 00:20:38,260 yfir 2 yfir 53. 423 00:20:38,260 --> 00:20:40,640 Það skiptir ekki máli ef þú veist hvað þessar tölur eru að koma frá. 424 00:20:40,640 --> 00:20:44,750 En það er bara tala sem er að fara að vera meira en 0, ekki satt? 425 00:20:44,750 --> 00:20:48,610 >> Og svo þegar ég geri Katy Perry, sem líkur á "barnið" gefið Katy er 426 00:20:48,610 --> 00:20:49,830 þegar 0, ekki satt? 427 00:20:49,830 --> 00:20:52,820 Vegna þess að það er engin "barn" í Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Svo þá verður þetta 0, og Gaga vinnur, sem þýðir að Gaga er 429 00:20:56,360 --> 00:20:57,310 líklega söngvari. 430 00:20:57,310 --> 00:20:58,560 Er að skynsamleg? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Þannig að ef ég vil gera þetta meira opinbert, Ég get í raun gert líkan 435 00:21:11,750 --> 00:21:12,700 fyrir mörgum orðum. 436 00:21:12,700 --> 00:21:14,610 Svo skulum segja að ég hef eitthvað eins, "elskan, ég er 437 00:21:14,610 --> 00:21:16,030 á eldinn, "eða eitthvað. 438 00:21:16,030 --> 00:21:17,760 Svo hefur það mörg orð. 439 00:21:17,760 --> 00:21:20,880 Og í þessu tilfelli er hægt að sjá að "barnið" er í Gaga, 440 00:21:20,880 --> 00:21:21,710 en það er ekki í Katy. 441 00:21:21,710 --> 00:21:24,940 Og "eld" er í Katy, en það er ekki í Gaga, ekki satt? 442 00:21:24,940 --> 00:21:27,200 Svo það er að fá trickier, ekki satt? 443 00:21:27,200 --> 00:21:31,440 Því það virðist sem þú næstum hafa lagst á milli. 444 00:21:31,440 --> 00:21:36,980 >> Svo er það sem þú þarft að gera ráð fyrir independency meðal orðum. 445 00:21:36,980 --> 00:21:41,210 Svo í rauninni hvað það þýðir er að Ég ætla bara að reikna hvað er 446 00:21:41,210 --> 00:21:44,330 líkur á að sjá "barnið," hvað er líkurnar á að sjá "Ég," og 447 00:21:44,330 --> 00:21:46,670 "Am", og "á" og "eldur" allt í sínu lagi. 448 00:21:46,670 --> 00:21:48,670 Þá er ég að margfalda þá alla. 449 00:21:48,670 --> 00:21:52,420 Og ég ætla að sjá hvað eru líkurnar af því að sjá alla setninguna. 450 00:21:52,420 --> 00:21:55,210 Skynsamleg? 451 00:21:55,210 --> 00:22:00,270 >> Svo í rauninni, ef ég hef bara eitt orð, það sem ég vil finna er Arg max, 452 00:22:00,270 --> 00:22:05,385 sem þýðir, hvað er tegund sem er gefa mér hæstu líkur? 453 00:22:05,385 --> 00:22:10,010 Svo er það flokkur sem gefur mig hæsta líkur fyrir 454 00:22:10,010 --> 00:22:11,940 líkur á bekknum gefið orð. 455 00:22:11,940 --> 00:22:17,610 Svo í þessu tilfelli, Gaga gefið "barni." Eða Katy gefið "barni." Skynsamleg? 456 00:22:17,610 --> 00:22:21,040 >> Og bara frá Bayes, sem jöfnu sem ég sýndi, 457 00:22:21,040 --> 00:22:24,780 Við byggjum þessa brot. 458 00:22:24,780 --> 00:22:28,750 Það eina er að þú sérð að líkurnar á orðinu gefið 459 00:22:28,750 --> 00:22:31,370 flokki breytingar eftir á bekknum, ekki satt? 460 00:22:31,370 --> 00:22:34,260 Fjölda "barnið" s sem ég hef í Gaga er frábrugðin Katy. 461 00:22:34,260 --> 00:22:37,640 Líkurnar á bekknum einnig breytingar vegna þess að það er bara tala 462 00:22:37,640 --> 00:22:39,740 af lögum hvert þeirra hefur. 463 00:22:39,740 --> 00:22:43,980 >> En líkurnar á að leggja í orðið er að fara til vera the sami fyrir alla 464 00:22:43,980 --> 00:22:44,740 listamenn, ekki satt? 465 00:22:44,740 --> 00:22:47,150 Svo eru líkurnar á orðinu bara, hvað eru líkurnar á 466 00:22:47,150 --> 00:22:49,820 sjá þessi orð í Enska? 467 00:22:49,820 --> 00:22:51,420 Svo það er sama fyrir alla. 468 00:22:51,420 --> 00:22:55,790 Svo þar sem þetta er fasti, við getum bara lækka á þessu og ekki hugsa um það. 469 00:22:55,790 --> 00:23:00,230 Þannig að þetta verður í raun Jafna við erum að leita að. 470 00:23:00,230 --> 00:23:03,360 >> Og ef ég hef mörg orð, er ég enn að fara að hafa fyrir 471 00:23:03,360 --> 00:23:04,610 Líkur hér. 472 00:23:04,610 --> 00:23:06,980 Það eina er að ég er að margfalda líkurnar á 473 00:23:06,980 --> 00:23:08,490 öll önnur orð. 474 00:23:08,490 --> 00:23:10,110 Þannig að ég ætla að margfalda þá alla. 475 00:23:10,110 --> 00:23:12,610 Skynsamleg? 476 00:23:12,610 --> 00:23:18,440 Það lítur skrítið en í rauninni þýðir, reikna fyrir í bekknum, og 477 00:23:18,440 --> 00:23:22,100 síðan margfalda með því að líkum á hvert þessara orða sé í þeim flokki. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Og þú veist að líkur á Orðið gefið bekknum er að fara að vera 480 00:23:29,150 --> 00:23:34,520 hversu oft þú sérð þessi orð í sem bekknum, deilt með fjölda 481 00:23:34,520 --> 00:23:37,020 orð sem þú hefur í að flokki almennt. 482 00:23:37,020 --> 00:23:37,990 Skynsamleg? 483 00:23:37,990 --> 00:23:41,680 Það er bara hvernig "barnið" var 2 yfir fjöldi orða sem 484 00:23:41,680 --> 00:23:43,020 Ég hafði í textanum. 485 00:23:43,020 --> 00:23:45,130 Svo bara tíðni. 486 00:23:45,130 --> 00:23:46,260 >> En það er einn hlutur. 487 00:23:46,260 --> 00:23:51,250 Man hvernig ég var að sýna að líkur á "barnið" að vera lyrics 488 00:23:51,250 --> 00:23:56,350 frá Katy Perry var 0 bara vegna Katy Perry þurfti ekki "barnið" yfirleitt? 489 00:23:56,350 --> 00:24:04,900 En það hljómar svolítið sterk að bara einfaldlega að segja að Lyrics getur ekki verið frá 490 00:24:04,900 --> 00:24:10,040 listamaður bara vegna þess að þeir hafa ekki að orðið einkum á hverjum tíma. 491 00:24:10,040 --> 00:24:13,330 >> Svo þú gætir bara sagt, vel, ef þú ekki þetta orð, ég ætla að 492 00:24:13,330 --> 00:24:15,640 gefa þér minni líkur, en ég ætla bara ekki að fara að 493 00:24:15,640 --> 00:24:17,420 gefa þér 0 strax. 494 00:24:17,420 --> 00:24:21,040 Því ef til vill það var eitthvað eins og, "Eldur, eldur, eldur, eldur", sem er 495 00:24:21,040 --> 00:24:21,990 algerlega Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Og þá "barnið" og fer það bara að 0 strax því það var eitt 497 00:24:26,060 --> 00:24:27,250 "Barnið." 498 00:24:27,250 --> 00:24:31,440 >> Svo í rauninni það sem við gerum er eitthvað heitir Laplace refur. 499 00:24:31,440 --> 00:24:36,260 Og þetta þýðir bara að ég ætla að gefa Nokkrar líkur jafnvel til orð 500 00:24:36,260 --> 00:24:37,850 sem ekki eru fyrir hendi. 501 00:24:37,850 --> 00:24:43,170 Svo er það sem ég geri það þegar ég er reikna þetta, bæti ég alltaf 1 til 502 00:24:43,170 --> 00:24:44,180 teljara. 503 00:24:44,180 --> 00:24:48,060 Svo jafnvel ef orðið er ekki til staðar, með þetta mál, ef þetta er 0, ég er enn 504 00:24:48,060 --> 00:24:51,250 reikna þetta sem 1 yfir heildarfjölda orða. 505 00:24:51,250 --> 00:24:55,060 Annars, ég fæ hversu mörg orð Ég hef og ég við 1. 506 00:24:55,060 --> 00:24:58,300 Þannig að ég ætla að telja fyrir báðum tilvikum. 507 00:24:58,300 --> 00:25:00,430 Skynsamleg? 508 00:25:00,430 --> 00:25:03,060 >> Svo nú skulum gera sumir kóðun. 509 00:25:03,060 --> 00:25:06,440 Ég ætla að hafa til að gera það nokkuð hratt, en það er bara mikilvægt að þú 510 00:25:06,440 --> 00:25:08,600 krakkar skilja hugtök. 511 00:25:08,600 --> 00:25:13,450 Svo það sem við erum að reyna að gera er einmitt að framkvæma þetta 512 00:25:13,450 --> 00:25:14,330 hlutur sem ég sagði bara - 513 00:25:14,330 --> 00:25:19,110 Ég vil að þú setja lyrics frá Lady Gaga og Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Og the program er að fara að vera fær um að segja ef þessi nýju Lyrics eru frá Gaga 515 00:25:22,980 --> 00:25:24,170 eða Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Skynsamleg? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Þannig að ég hef þetta forrit sem ég ætla að hringja classify.py. 519 00:25:30,710 --> 00:25:31,970 Þannig að þetta er Python. 520 00:25:31,970 --> 00:25:34,210 Það er nýtt forritunarmál. 521 00:25:34,210 --> 00:25:38,020 Það er mjög svipað í sumum Leiðir til C og PHP. 522 00:25:38,020 --> 00:25:43,180 Það er svipað því ef þú vilt að læra Python eftir að vita C, það er 523 00:25:43,180 --> 00:25:46,270 í raun ekki þessi mikill af a áskorun bara vegna þess að Python er mun auðveldara 524 00:25:46,270 --> 00:25:47,520 en C, fyrst af öllu. 525 00:25:47,520 --> 00:25:49,370 Og margt eru nú þegar framkvæmda fyrir þig. 526 00:25:49,370 --> 00:25:56,820 Svo eins og PHP er bara hvernig aðgerðir sem raða lista, eða bæta eitthvað 527 00:25:56,820 --> 00:25:58,780 til fjölda, eða bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python hefur alla þá eins og heilbrigður. 529 00:26:00,690 --> 00:26:05,960 >> Þannig að ég ætla bara að fara að útskýra hratt hvernig við gætum gert flokkun 530 00:26:05,960 --> 00:26:07,860 vandamál fyrir hér. 531 00:26:07,860 --> 00:26:13,230 Svo skulum segja að í þessu tilfelli, ég hef lyrics from Gaga og Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Leiðin sem ég hef þá lyrics er að fyrstu orð textanum er 533 00:26:21,880 --> 00:26:25,250 nafn flytjanda, og restin er the lyrics. 534 00:26:25,250 --> 00:26:29,470 Svo skulum segja að ég hef þennan lista í sem sá fyrsti er lyrics by Gaga. 535 00:26:29,470 --> 00:26:31,930 Svo hér er ég á réttri leið. 536 00:26:31,930 --> 00:26:35,270 Og hið næsta er Katy, og það hefur einnig textana. 537 00:26:35,270 --> 00:26:38,040 >> Svo er þetta hvernig þú lýsa breytu í Python. 538 00:26:38,040 --> 00:26:40,200 Þú þarft ekki að gefa gögn tegund. 539 00:26:40,200 --> 00:26:43,150 Þú skrifar bara "lyrics," konar eins og í PHP. 540 00:26:43,150 --> 00:26:44,890 Skynsamleg? 541 00:26:44,890 --> 00:26:47,770 >> Svo það eru hlutir sem ég þarf að reikna til að vera fær um að reikna út 542 00:26:47,770 --> 00:26:49,360 líkur? 543 00:26:49,360 --> 00:26:55,110 Ég verð að reikna "priors" af hver á mismunandi 544 00:26:55,110 --> 00:26:56,710 flokkar sem ég hef. 545 00:26:56,710 --> 00:27:06,680 Ég verð að reikna "posteriors," eða nánast líkur á 546 00:27:06,680 --> 00:27:12,150 hvert hinna mismunandi orðum sem Ég get haft fyrir hvern tónlistarmann. 547 00:27:12,150 --> 00:27:17,210 Svo innan Gaga, til dæmis, ég er að fara að hafa lista yfir hve oft ég sé 548 00:27:17,210 --> 00:27:19,250 hvert orð. 549 00:27:19,250 --> 00:27:20,760 Skynsamleg? 550 00:27:20,760 --> 00:27:25,370 >> Og að lokum, ég ætla bara að fara að hafa listi sem heitir "orð" sem er bara að fara 551 00:27:25,370 --> 00:27:29,780 að hafa hversu mörg orð ég hafa fyrir hvern tónlistarmann. 552 00:27:29,780 --> 00:27:33,760 Svo for Gaga, til dæmis, þegar ég lít að textanum, sem ég hafði, held ég, 24 553 00:27:33,760 --> 00:27:34,750 orð í aðaleinkunn. 554 00:27:34,750 --> 00:27:38,970 Svo þessi listi er bara að fara að hafa Gaga 24. og Katy annað númer. 555 00:27:38,970 --> 00:27:40,130 Skynsamleg? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Svo nú, í raun, við skulum fara í erfðaskrá. 558 00:27:42,530 --> 00:27:45,270 Svo í Python, getur þú í raun skila fullt af mismunandi 559 00:27:45,270 --> 00:27:46,630 hlutir úr aðgerð. 560 00:27:46,630 --> 00:27:50,810 Þannig að ég ætla að búa til þessa aðgerð kallast "skilyrt", sem er að fara 561 00:27:50,810 --> 00:27:53,890 til að fara aftur alla þá hluti, sem "priors," the "líkur" og 562 00:27:53,890 --> 00:28:05,690 "orð." Svo "skilyrt" og það er að fara að hringja í "lyrics". 563 00:28:05,690 --> 00:28:11,510 >> Svo nú vil ég að þú í raun og veru skrifa þessa aðgerð. 564 00:28:11,510 --> 00:28:17,750 Svo leið að ég get skrifað þetta virka er skilgreint ég bara þetta 565 00:28:17,750 --> 00:28:20,620 virka með "def." Svo ég gerði "def skilyrt, "og það tekur 566 00:28:20,620 --> 00:28:28,700 "Lyrics." Og hvað þetta er að fara að gera er fyrst af öllu, ég hef priors mínar 567 00:28:28,700 --> 00:28:31,030 að ég vil að reikna. 568 00:28:31,030 --> 00:28:34,330 >> Svo leið að ég get gert þetta er búið orðabók í Python, sem 569 00:28:34,330 --> 00:28:37,320 er laglegur mikill the sami hlutur eins og a kjötkássa borð, eða það er eins og endurtekningu 570 00:28:37,320 --> 00:28:40,480 array í PHP. 571 00:28:40,480 --> 00:28:44,150 Þetta er hvernig ég lýsa yfir orðabók. 572 00:28:44,150 --> 00:28:53,580 Og í rauninni hvað þetta þýðir er að priors af Gaga er 0,5, til dæmis, ef 573 00:28:53,580 --> 00:28:57,200 50% af textanum eru frá Gaga, 50% eru frá Katy. 574 00:28:57,200 --> 00:28:58,450 Skynsamleg? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Svo ég verð að reikna út hvernig að reikna priors. 577 00:29:03,680 --> 00:29:07,120 >> Næstu þær sem ég þarf að gera, einnig, eru líkur og orð. 578 00:29:07,120 --> 00:29:17,100 Svo líkur á Gaga er listi af öllum líkum sem ég 579 00:29:17,100 --> 00:29:19,160 hafa fyrir hvert orð fyrir Gaga. 580 00:29:19,160 --> 00:29:23,880 Þannig að ef ég fer til líkur á Gaga "Elskan," til dæmis, það mun gefa mér 581 00:29:23,880 --> 00:29:28,750 eitthvað eins og 2 yfir 24 í því tilfelli. 582 00:29:28,750 --> 00:29:30,070 Skynsamleg? 583 00:29:30,070 --> 00:29:36,120 Svo ég fer að "líkur," fara til "Gaga" fötu sem hefur a listi af öllum 584 00:29:36,120 --> 00:29:40,550 the Gaga orð, þá fer ég til að "barnið" og ég sé líkur. 585 00:29:40,550 --> 00:29:45,940 >> Og að lokum ég hef þetta "Orðin" orðabók. 586 00:29:45,940 --> 00:29:53,620 Svo hér, "líkur." Og þá "orð." Svo ef ég "orð", "Gaga," 587 00:29:53,620 --> 00:29:58,330 hvað er að fara að gerast er að það er að fara að gefa mér 24 og sagði að ég 588 00:29:58,330 --> 00:30:01,990 hafa 24 orð innan lyrics from Gaga. 589 00:30:01,990 --> 00:30:04,110 Vit? 590 00:30:04,110 --> 00:30:07,070 Svo hér, "orð" er jafnt og dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Svo er það sem ég ætla að gera ég ætla að kunnugt er yfir hvert af textanum, svo 593 00:30:12,210 --> 00:30:14,490 hver af strengir sem Ég hef á listanum. 594 00:30:14,490 --> 00:30:18,040 Og ég ætla að reikna þá hluti fyrir hvert frambjóðendur. 595 00:30:18,040 --> 00:30:19,950 Vit? 596 00:30:19,950 --> 00:30:21,700 Svo ég verð að gera á fyrir lykkja. 597 00:30:21,700 --> 00:30:26,300 >> Svo í Python hvað ég get gert er "fyrir línu í texta. "það sama og að 598 00:30:26,300 --> 00:30:28,000 "Fyrir hverja" yfirlýsingu í PHP. 599 00:30:28,000 --> 00:30:33,420 Muna hvernig ef það var PHP ég gat segja "fyrir hverja lögin sem 600 00:30:33,420 --> 00:30:35,220 lína. "Vit? 601 00:30:35,220 --> 00:30:38,900 Þannig að ég ætla að taka hverja af línunum, í þessu tilfelli, þetta band og næsta 602 00:30:38,900 --> 00:30:44,540 band svo fyrir hvert af línunum sem ég er að að fara að gera er fyrst, ég ætla að 603 00:30:44,540 --> 00:30:49,150 kljúfa þessa línu í lista yfir orð eftir í reitinn. 604 00:30:49,150 --> 00:30:53,730 >> Svo er kaldur hlutur óður í Python sem þú gætir bara Google eins og "hvernig get ég 605 00:30:53,730 --> 00:30:58,220 kljúfa streng í orð? "Og það er að fara að segja þér hvernig á að gera það. 606 00:30:58,220 --> 00:31:04,890 Og leið til að gera það, það er bara "lína = Line.split () "og það er í rauninni 607 00:31:04,890 --> 00:31:08,640 að fara að gefa þér lista með hvert orð hér. 608 00:31:08,640 --> 00:31:09,620 Vit? 609 00:31:09,620 --> 00:31:15,870 Svo nú er að ég gerði það sem ég vil vita sem er söngvari það lag. 610 00:31:15,870 --> 00:31:20,130 Og til að gera að ég hef bara til að fá Fyrsti þáttur í fjölbreytta, ekki satt? 611 00:31:20,130 --> 00:31:26,390 Svo ég get bara sagt að ég "söngvari = Lína (0) "Vit? 612 00:31:26,390 --> 00:31:32,010 >> Og þá er það sem ég þarf að gera, fyrst af allt, ég ætla að uppfæra hversu margir 613 00:31:32,010 --> 00:31:36,130 Orðin, sem ég hef undir "Gaga." þannig að ég er bara fara að reikna hversu mörg orð ég 614 00:31:36,130 --> 00:31:38,690 hafa í þessum lista, ekki satt? 615 00:31:38,690 --> 00:31:41,910 Því þetta er hversu mörg orð sem ég hef í textanum og ég ætla bara að fara að 616 00:31:41,910 --> 00:31:44,120 bæta því við "Gaga" fylkisins. 617 00:31:44,120 --> 00:31:47,090 Er að skynsamleg? 618 00:31:47,090 --> 00:31:49,010 Ekki einblína of mikið á setningafræði. 619 00:31:49,010 --> 00:31:50,430 Hugsa meira um þær hugmyndir. 620 00:31:50,430 --> 00:31:52,400 Það er mikilvægur hluti. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Svo er það sem ég get gert það ef "Gaga" er þegar í þeim lista, þannig að "ef söngvari 623 00:32:00,260 --> 00:32:03,190 Orðin "sem þýðir að ég þegar hafa orð með Gaga. 624 00:32:03,190 --> 00:32:06,640 Ég vil bara að bæta frekari orð um það. 625 00:32:06,640 --> 00:32:15,810 Svo það sem ég gera er "orð (söngvara) + = Len (lína) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Og þá get ég bara gert það Lengd línunnar. 627 00:32:18,250 --> 00:32:21,860 Svo hvernig margir þættir I hafa í array. 628 00:32:21,860 --> 00:32:27,060 Og ég verð að gera mínus 1 bara vegna Fyrsti þátturinn í array er bara 629 00:32:27,060 --> 00:32:29,180 söngvari og þeir eru ekki Lyrics. 630 00:32:29,180 --> 00:32:31,420 Vit? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Annars," þá þýðir það að ég vil í raun og veru setja Gaga inn á listann. 633 00:32:35,820 --> 00:32:45,990 Svo ég bara "orð (söngvari) = Len (lína) - 1, "því miður. 634 00:32:45,990 --> 00:32:49,200 Svo að eini munurinn á milli tveggja línum er að þetta, er það ekki 635 00:32:49,200 --> 00:32:51,080 til enn, þannig að ég er bara Frumstilli það. 636 00:32:51,080 --> 00:32:53,820 Þetta eina sem ég er í raun að bæta við. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Þannig að þetta var að bæta við orðum. 639 00:32:59,480 --> 00:33:03,040 >> Nú vil ég að bæta við priors. 640 00:33:03,040 --> 00:33:05,480 Og hvernig fæ ég reikna priors? 641 00:33:05,480 --> 00:33:11,580 The priors má reikna eftir því hversu oft. 642 00:33:11,580 --> 00:33:15,340 Svo hvernig margir sinnum þú sérð þessi söngvari meðal allra söngvaranna sem þú 643 00:33:15,340 --> 00:33:16,380 hafa, ekki satt? 644 00:33:16,380 --> 00:33:18,810 Svo for Gaga og Katy Perry, í þessu tilfelli, ég sé Gaga 645 00:33:18,810 --> 00:33:20,570 einu sinni, Katy Perry einu sinni. 646 00:33:20,570 --> 00:33:23,320 >> Svo í grundvallaratriðum priors for Gaga og Katy Perry vildi 647 00:33:23,320 --> 00:33:24,390 bara vera einn, ekki satt? 648 00:33:24,390 --> 00:33:26,500 Þú bara hversu oft Ég sé listamanninn. 649 00:33:26,500 --> 00:33:28,740 Þannig að þetta er mjög auðvelt að reikna. 650 00:33:28,740 --> 00:33:34,100 Ég get bara eitthvað svipað og eins og "ef söngvari í priors, "Ég ætla bara að fara 651 00:33:34,100 --> 00:33:38,970 að bæta 1 til priors kassann þeirra. 652 00:33:38,970 --> 00:33:51,000 Svo, "priors (syngja)" + = 1 "og síðan" annað " Ég ætla að gera "priors (söngvari) 653 00:33:51,000 --> 00:33:55,000 = 1 ". Vit? 654 00:33:55,000 --> 00:34:00,080 >> Þannig að ef það er ekki til að ég setti bara og 1, annars ég bæta bara 1. 655 00:34:00,080 --> 00:34:11,280 OK, svo nú er allt sem ég hef eftir að gera er einnig bætt við hvert orð til 656 00:34:11,280 --> 00:34:12,290 líkur. 657 00:34:12,290 --> 00:34:14,889 Svo ég verð að telja hversu oft Ég sé hvert orð. 658 00:34:14,889 --> 00:34:18,780 Þannig að ég er bara að gera annað fyrir lykkju í línunni. 659 00:34:18,780 --> 00:34:25,190 >> Svo fyrsta sem ég ætla að gera er að athuga hvort söngvari hefur nú þegar 660 00:34:25,190 --> 00:34:26,969 líkur array. 661 00:34:26,969 --> 00:34:31,739 Þannig að ég ætla að athuga hvort söngvari ekki hafa Líkurnar array, ég er bara 662 00:34:31,739 --> 00:34:34,480 fara að frumstilla einn fyrir þá. 663 00:34:34,480 --> 00:34:36,400 Það er ekki einu fylki, því miður, það er orðabók. 664 00:34:36,400 --> 00:34:43,080 Svo líkur á söngvari er að fara að vera opinn orðabók, svo ég er 665 00:34:43,080 --> 00:34:45,830 bara Frumstilli orðabók fyrir það. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Og nú get ég í raun gert for lykkju til að reikna út hvert orð ' 668 00:34:58,330 --> 00:35:00,604 líkur. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Svo er það sem ég get gert fyrir lykkja. 671 00:35:04,160 --> 00:35:06,590 Þannig að ég ætla bara að fara að iterate yfir fylking. 672 00:35:06,590 --> 00:35:15,320 Svo leið að ég get gert það í Python er "fyrir i í bili." Frá 1 673 00:35:15,320 --> 00:35:19,200 vegna þess að ég vil byrja á sekúndu þáttur þar sem fyrsta er 674 00:35:19,200 --> 00:35:20,260 söngvari nafn. 675 00:35:20,260 --> 00:35:24,990 Svo frá einum upp að Lengd línunnar. 676 00:35:24,990 --> 00:35:29,760 Og þegar ég allt það fara í raun frá eins og hér frá 1. til Len af 677 00:35:29,760 --> 00:35:30,740 lína mínus 1. 678 00:35:30,740 --> 00:35:33,810 Svo er það að þegar þessi hlutur að gera n mínus 1 til fylki sem er mjög 679 00:35:33,810 --> 00:35:35,500 þægilegt. 680 00:35:35,500 --> 00:35:37,850 Vit? 681 00:35:37,850 --> 00:35:42,770 >> Svo fyrir hvert þessara, hvað ég ætla að gera er, rétt eins og í öðrum, 682 00:35:42,770 --> 00:35:50,320 Ég ætla að athuga hvort orðið í þessu stöðu í línu er nú þegar í 683 00:35:50,320 --> 00:35:51,570 líkur. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Og þá eins og ég sagði hér, líkur orð, eins og í ég setti 686 00:35:57,260 --> 00:35:58,400 "líkur (söngvara)". 687 00:35:58,400 --> 00:35:59,390 Svo heiti söngvari. 688 00:35:59,390 --> 00:36:03,450 Þannig að ef það er nú þegar í "Probabilit (söngvari)", þá þýðir það að ég 689 00:36:03,450 --> 00:36:11,960 vilt bæta 1 við það, þannig að ég ætla að gera "líkindi (söngvara)", og 690 00:36:11,960 --> 00:36:14,100 Orðið er kallað "línu (i)". 691 00:36:14,100 --> 00:36:22,630 Ég ætla að bæta 1 og "annað" ég er bara fara að frumstilla hana í 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Vit? 695 00:36:28,420 --> 00:36:30,180 >> Svo, I reiknað allar fylki. 696 00:36:30,180 --> 00:36:36,580 Svo, nú er allt sem ég þarf að gera fyrir þetta er bara "aftur priors, 697 00:36:36,580 --> 00:36:43,230 líkur og orðum. "Við skulum sjá hvort það eru einhverjar, OK. 698 00:36:43,230 --> 00:36:45,690 Það virðist allt er að vinna svo langt. 699 00:36:45,690 --> 00:36:46,900 Svo, það er vit í? 700 00:36:46,900 --> 00:36:47,750 Á einhvern hátt? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Svo nú hef ég allar líkur. 703 00:36:51,980 --> 00:36:55,100 Svo nú það eina sem ég á eftir er bara að hafa þessi hlutur sem 704 00:36:55,100 --> 00:36:58,650 reiknar margfeldi allra sem Líkurnar þegar ég fæ textana. 705 00:36:58,650 --> 00:37:06,270 >> Svo skulum segja að ég vil nú kalla þessi aðgerð "flokka ()" og 706 00:37:06,270 --> 00:37:08,880 hlutur sem virka tekur er bara rök. 707 00:37:08,880 --> 00:37:13,170 Skulum segja "Baby, ég er á eldinn" og það er fara að reikna út hvað er 708 00:37:13,170 --> 00:37:14,490 líkur á því að þetta er Gaga? 709 00:37:14,490 --> 00:37:16,405 Hvaða líkur að þetta er Katie? 710 00:37:16,405 --> 00:37:19,690 Hljómar vel? 711 00:37:19,690 --> 00:37:25,750 Þannig að ég ætla bara að fara að búa til nýtt hlutverk sem kallast "flokka ()" og 712 00:37:25,750 --> 00:37:29,180 það er að fara að taka nokkrar lögin sem vel. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Og að auki textana ég líka verða að senda priors er 715 00:37:36,160 --> 00:37:37,700 líkur og orð. 716 00:37:37,700 --> 00:37:44,000 Þannig að ég ætla að senda ljóð, priors, líkur, orð. 717 00:37:44,000 --> 00:37:51,840 >> Þannig að þetta er að taka lyrics, priors, líkur, orð. 718 00:37:51,840 --> 00:37:53,530 Svo, hvað þýðir það ekki? 719 00:37:53,530 --> 00:37:57,180 Það í rauninni er að fara að fara í gegnum allt mögulegar frambjóðendur sem þú 720 00:37:57,180 --> 00:37:58,510 hafa sem söngvari. 721 00:37:58,510 --> 00:37:59,425 Og hvar eru þessir frambjóðendur? 722 00:37:59,425 --> 00:38:01,020 Þeir eru í priors, ekki satt? 723 00:38:01,020 --> 00:38:02,710 Svo ég hef allar þessar þarna. 724 00:38:02,710 --> 00:38:07,870 Þannig að ég ætla að hafa orðabók allra mögulegra frambjóðenda. 725 00:38:07,870 --> 00:38:14,220 Og þá fyrir hverja frambjóðandi í priors, svo það þýðir að það er að fara að 726 00:38:14,220 --> 00:38:17,740 vera Gaga, Katie ef ég hefði meira sem það væri meira. 727 00:38:17,740 --> 00:38:20,410 Ég ætla að byrja að reikna Þessar líkur. 728 00:38:20,410 --> 00:38:28,310 Líkurnar eins og við sáum í PowerPoint er fyrri sinnum 729 00:38:28,310 --> 00:38:30,800 Afurðin sem hvert af aðrar líkur. 730 00:38:30,800 --> 00:38:32,520 >> Svo ég get gert það sama hérna. 731 00:38:32,520 --> 00:38:36,330 Ég get bara gert líkur er upphaflega bara fyrir. 732 00:38:36,330 --> 00:38:40,340 Svo priors umsækjenda. 733 00:38:40,340 --> 00:38:40,870 Satt? 734 00:38:40,870 --> 00:38:45,360 Og nú þarf ég að iterate yfir alla Orðin sem ég hef á lyrics vera 735 00:38:45,360 --> 00:38:48,820 fær um að bæta líkurnar fyrir hvert þeirra, OK? 736 00:38:48,820 --> 00:38:57,900 Svo, "fyrir orð í lyrics" hvað ég ætla að gera er að, ef orðið er í 737 00:38:57,900 --> 00:39:01,640 "líkur (frambjóðandi)", sem þýðir að það er orð sem 738 00:39:01,640 --> 00:39:03,640 frambjóðandi hefur í textum sínum - 739 00:39:03,640 --> 00:39:05,940 til dæmis, "barnið" for Gaga - 740 00:39:05,940 --> 00:39:11,710 hvað ég ætla að gera er að líkur er að fara að margfalda 741 00:39:11,710 --> 00:39:22,420 um 1 plús líkur á frambjóðandi fyrir þessi orð. 742 00:39:22,420 --> 00:39:25,710 Og það er kallað "orð". 743 00:39:25,710 --> 00:39:32,440 Þetta deilt með fjölda orða sem ég hef fyrir að frambjóðandi. 744 00:39:32,440 --> 00:39:37,450 Heildarfjöldi þeirra orða sem ég hef fyrir söngvari sem ég er að horfa á. 745 00:39:37,450 --> 00:39:40,290 >> "Else". það þýðir að það er nýtt orð svo það væri eins og til dæmis 746 00:39:40,290 --> 00:39:41,860 "Eldur" Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Þannig að ég vil bara að gera 1 yfir "Orð (frambjóðandi)". 748 00:39:45,760 --> 00:39:47,710 Svo ég vil ekki að setja þetta hugtak hér. 749 00:39:47,710 --> 00:39:50,010 >> Svo það er að fara að vera í grundvallaratriðum afritar og límir þetta. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 En ég ætla að eyða þessum hluta. 752 00:39:56,000 --> 00:39:57,610 Svo það er bara að fara að vera 1 á það. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Hljómar vel? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Og nú á enda, ég ætla bara að fara að prenta nafn frambjóðanda og 757 00:40:09,700 --> 00:40:15,750 líkurnar á því að þú hefur af hafa S textunum sínum. 758 00:40:15,750 --> 00:40:16,200 Vit? 759 00:40:16,200 --> 00:40:18,390 Og ég í raun ekki einu sinni þörf á þessari orðabók. 760 00:40:18,390 --> 00:40:19,510 Vit? 761 00:40:19,510 --> 00:40:21,810 >> Svo, við skulum sjá hvort þetta í raun virkar. 762 00:40:21,810 --> 00:40:24,880 Þannig að ef ég keyrt þetta, gerði það ekki vinna. 763 00:40:24,880 --> 00:40:26,130 Bíddu eina sekúndu. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Orð (frambjóðandi)", "orð (frambjóðandi)", það er 766 00:40:31,720 --> 00:40:33,750 nafn fylkisins. 767 00:40:33,750 --> 00:40:41,435 OK Svo segir það að það er einhver padda fyrir frambjóðanda í priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Láta mig slappað bara smá. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Skulum reyna. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Svo það gefur Katy Perry hefur þetta líkur á þessum tímum 10 til 774 00:40:58,710 --> 00:41:02,200 mínus 7, og Gaga hefur þetta sinnum 10 til mínus 6. 775 00:41:02,200 --> 00:41:05,610 Svo þú sérð að það sýnir að Gaga hefur meiri líkur. 776 00:41:05,610 --> 00:41:09,260 Svo "Baby, ég er á Fire" er sennilega Gaga lag. 777 00:41:09,260 --> 00:41:10,580 Vit? 778 00:41:10,580 --> 00:41:12,030 Svo er þetta það sem við gerðum. 779 00:41:12,030 --> 00:41:16,010 >> Þetta númer er að fara að vera staða online, svo þú krakkar geta stöðva það út. 780 00:41:16,010 --> 00:41:20,720 Kannski nota eitthvað af því að ef þú vilt að gera verkefni eða eitthvað sambærilegt. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Þetta var bara til að sýna hvaða computational 783 00:41:25,930 --> 00:41:27,230 Málvísindi kóða lítur út. 784 00:41:27,230 --> 00:41:33,040 En nú skulum við fara í fleiri mikil efni. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Svo önnur vandamál sem ég var að tala um - 787 00:41:35,150 --> 00:41:37,550 skiptingu vandamál er fyrsta af þeim. 788 00:41:37,550 --> 00:41:40,820 Svo þú hefur hér japönsku. 789 00:41:40,820 --> 00:41:43,420 Og svo þú sérð að Það eru engin bil. 790 00:41:43,420 --> 00:41:49,110 Þannig að þetta er í rauninni þýðir að það er efst á stól, ekki satt? 791 00:41:49,110 --> 00:41:50,550 Þú talar japönsku? 792 00:41:50,550 --> 00:41:52,840 Það er efst á stólnum, ekki satt? 793 00:41:52,840 --> 00:41:54,480 >> STUDENT: Ég veit ekki hvað á Kanji yfir er þarna. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Freitas: Það er [Tal Japanska] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Svo þýðir það í rauninni formann ofan. 797 00:42:00,960 --> 00:42:03,620 Þannig að ef þú hefðir til að setja inn bil það væri hér. 798 00:42:03,620 --> 00:42:05,970 Og þá verður þú [? Ueda-San. ?] 799 00:42:05,970 --> 00:42:09,040 Sem í grundvallaratriðum þýðir Mr Ueda. 800 00:42:09,040 --> 00:42:13,180 Og þú sérð að "Ueda" og þú ert með rúm og þá "San". Svo þú sérð að 801 00:42:13,180 --> 00:42:15,470 Hér getur þú "Ue" er eins af sjálfu sér. 802 00:42:15,470 --> 00:42:17,750 Og hér hefur það eðli við hliðina á henni. 803 00:42:17,750 --> 00:42:21,720 >> Svo það er ekki eins og í þeim tungumálum stafir sem þýðir orð það þú svo 804 00:42:21,720 --> 00:42:23,980 bara setja a einhver fjöldi af rýmum. 805 00:42:23,980 --> 00:42:25,500 Stafir tengjast hvert öðru. 806 00:42:25,500 --> 00:42:28,680 Og þeir geta verið saman eins og tveir, þrír, einn. 807 00:42:28,680 --> 00:42:34,520 Svo þú ert í raun að búa til einhvers konar af leið til að setja þau rými. 808 00:42:34,520 --> 00:42:38,850 >> Og þetta er að þegar þú færð gögn frá þessum Asíu tungumálum, 809 00:42:38,850 --> 00:42:40,580 allt kemur unsegmented. 810 00:42:40,580 --> 00:42:45,940 Því að enginn sem skrifar japönsku eða kínversku skrifar með bilum. 811 00:42:45,940 --> 00:42:48,200 Alltaf þegar þú ert að skrifa kínversku, Japanska þú skrifar bara allt 812 00:42:48,200 --> 00:42:48,710 með engin bil. 813 00:42:48,710 --> 00:42:52,060 Það skiptir ekki einu sinni skynsamleg að setja bil. 814 00:42:52,060 --> 00:42:57,960 Svo þá þegar þú fá gögn frá, sumir Austur Asíu tungumál, ef þú vilt að 815 00:42:57,960 --> 00:43:00,760 raunverulega gera eitthvað við það þú þarft að hluti fyrst. 816 00:43:00,760 --> 00:43:05,130 >> Hugsa um að gera fordæmi the lyrics bila. 817 00:43:05,130 --> 00:43:07,950 Þannig að eina ljóð sem þú hefur verður setningar, ekki satt? 818 00:43:07,950 --> 00:43:09,470 Aðskilin með tímabilum. 819 00:43:09,470 --> 00:43:13,930 En þá hafa bara setninguna mun ekki raunverulega hjálpa í að gefa upplýsingar 820 00:43:13,930 --> 00:43:17,760 af hverjir þessir Lyrics eru með. 821 00:43:17,760 --> 00:43:18,120 Satt? 822 00:43:18,120 --> 00:43:20,010 Svo þú ættir setur bil fyrst. 823 00:43:20,010 --> 00:43:21,990 Svo hvernig getur þú gert það? 824 00:43:21,990 --> 00:43:24,920 >> Svo kemur þá hugmyndin um tungumál líkan sem er eitthvað virkilega 825 00:43:24,920 --> 00:43:26,870 mikilvægt fyrir computational málvísindum. 826 00:43:26,870 --> 00:43:32,790 Svo er tungumál líkan grundvallaratriðum a borð af líkum sem sýnir 827 00:43:32,790 --> 00:43:36,260 í fyrsta lagi hvað er líkur af því að hafa orðið á tungumáli? 828 00:43:36,260 --> 00:43:39,590 Svo sýna hvernig tíður orð er. 829 00:43:39,590 --> 00:43:43,130 Og þá einnig að sýna tengsl milli orða í setningu. 830 00:43:43,130 --> 00:43:51,500 >> Svo er helsta hugmynd, ef útlendingur kom til þín og sagði heila setningu til að 831 00:43:51,500 --> 00:43:55,600 þú, hvað eru líkurnar á að, fyrir dæmi, "þetta er systir mín [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 var setning sem maðurinn sagði? 833 00:43:57,480 --> 00:44:00,380 Svo augljóslega sumir setningar eru algengari en aðrir. 834 00:44:00,380 --> 00:44:04,450 Til dæmis, "Góðan daginn," eða "gott nótt, "eða" Hey there, "er miklu meira 835 00:44:04,450 --> 00:44:08,260 sameiginlegt en flest setningar að við höfum ensku. 836 00:44:08,260 --> 00:44:11,060 Svo hvers vegna eru þessir setningar tíðari? 837 00:44:11,060 --> 00:44:14,060 >> Fyrst af öllu, er það vegna þess að þú ert orð sem eru algengari. 838 00:44:14,060 --> 00:44:20,180 Svo, til dæmis, ef þú segir, hundurinn er stór, og hundurinn er risa, þú 839 00:44:20,180 --> 00:44:23,880 yfirleitt sennilega heyra hundurinn er stór oftar vegna "stór" er meira 840 00:44:23,880 --> 00:44:27,260 algengari í ensku en "risa." Svo er einn af 841 00:44:27,260 --> 00:44:30,100 hlutir er orðið tíðni. 842 00:44:30,100 --> 00:44:34,490 >> The second hlutur sem er í raun Mikilvægt er bara 843 00:44:34,490 --> 00:44:35,490 röð af orðum. 844 00:44:35,490 --> 00:44:39,500 Svo, það er algengt að segja "kötturinn er inni í kassanum. "en þú gerir venjulega ekki 845 00:44:39,500 --> 00:44:44,250 sjá í "The kassi er inni köttur." svo þú sérð að það er einhver mikilvægi 846 00:44:44,250 --> 00:44:46,030 í röð af orðum. 847 00:44:46,030 --> 00:44:50,160 Þú getur ekki bara sagt að þeir tveir setningar hafa sömu líkur 848 00:44:50,160 --> 00:44:53,010 bara vegna þess að þeir hafa sömu orð. 849 00:44:53,010 --> 00:44:55,550 Þú ert í raun að kæra um það bil röð eins vel. 850 00:44:55,550 --> 00:44:57,650 Skynsamleg? 851 00:44:57,650 --> 00:44:59,490 >> Svo hvað gerum við? 852 00:44:59,490 --> 00:45:01,550 Svo hvað ég gæti reynt að fá þig? 853 00:45:01,550 --> 00:45:04,400 Ég er að reyna að fá þér það sem við hringja í n-g líkan. 854 00:45:04,400 --> 00:45:09,095 Svo n-g módel grundvallaratriðum ráð að fyrir hvert orð sem 855 00:45:09,095 --> 00:45:10,960 þú ert í setningu. 856 00:45:10,960 --> 00:45:15,020 Það er líkur á því að þessi Orðið það veltur ekki aðeins á 857 00:45:15,020 --> 00:45:18,395 tíðni þessi orð í tungumálinu, heldur einnig á þau orð, sem 858 00:45:18,395 --> 00:45:19,860 eru í kringum hana. 859 00:45:19,860 --> 00:45:25,810 >> Svo til dæmis, oftast þegar þú sérð eitthvað eins og á eða þú ert 860 00:45:25,810 --> 00:45:28,040 líklega að fara að sjá nafnorð eftir það, ekki satt? 861 00:45:28,040 --> 00:45:31,750 Því þegar þú ert með preposition venjulega tekur það nafnorð eftir það. 862 00:45:31,750 --> 00:45:35,540 Eða ef þú ert á sögn sem er gegnvirk þú venjulega ert að fara að 863 00:45:35,540 --> 00:45:36,630 hafa nafnorð setningu. 864 00:45:36,630 --> 00:45:38,780 Svo það er að fara að hafa nafnorð einhvers staðar í kringum hana. 865 00:45:38,780 --> 00:45:44,950 >> Svo, í grundvallaratriðum, hvað það gerir er að það telur líkur á því að hafa 866 00:45:44,950 --> 00:45:47,960 orð við hliðina á hvor aðra, þegar þú ert að reikna út 867 00:45:47,960 --> 00:45:49,050 líkur á setningu. 868 00:45:49,050 --> 00:45:50,960 Og það er það tungumál líkan er í grundvallaratriðum. 869 00:45:50,960 --> 00:45:54,620 Bara að segja hvað er líkur af því að hafa ákveðið 870 00:45:54,620 --> 00:45:57,120 setning á tungumáli? 871 00:45:57,120 --> 00:45:59,110 Svo hvers vegna er það gagnlegt, í grundvallaratriðum? 872 00:45:59,110 --> 00:46:02,390 Og í fyrsta lagi hvað er N-g líkan, þá? 873 00:46:02,390 --> 00:46:08,850 >> Svo er n-grömm merkir að hvert orð veltur á 874 00:46:08,850 --> 00:46:12,700 Næsta N mínus 1 orðum. 875 00:46:12,700 --> 00:46:18,150 Svo, í grundvallaratriðum, það þýðir að ef ég lít, til dæmis, á CS50 TF þegar 876 00:46:18,150 --> 00:46:21,500 Ég reikna líkur á setningin, þú munt vera eins og " 877 00:46:21,500 --> 00:46:25,280 líkur á því að orðið "er" sinnum en líkurnar á að þurfa að " 878 00:46:25,280 --> 00:46:31,720 CS50 "sinnum líkurnar á því að fá "The CS50 TF." Svo, í grundvallaratriðum, telja ég 879 00:46:31,720 --> 00:46:35,720 allar mögulegar leiðir til að teygja það. 880 00:46:35,720 --> 00:46:41,870 >> Og þá oftast þegar þú ert að gera þetta, eins og í verkefni, að setja N til að vera 881 00:46:41,870 --> 00:46:42,600 í lægra gildi. 882 00:46:42,600 --> 00:46:45,930 Svo hafa yfirleitt bigrams eða trigrams. 883 00:46:45,930 --> 00:46:51,090 Þannig að þú telur bara tvo orðum, hópur af tveimur orðum, eða þrjú orðum, 884 00:46:51,090 --> 00:46:52,620 bara fyrir árangur málefni. 885 00:46:52,620 --> 00:46:56,395 Og einnig vegna þess að kannski ef þú ert með eitthvað eins og "The CS50 TF." Þegar þú 886 00:46:56,395 --> 00:47:00,510 hafa "TF", það er mjög mikilvægt að "CS50" er við hliðina á henni, ekki satt? 887 00:47:00,510 --> 00:47:04,050 Þessir tveir hlutir eru yfirleitt við hliðina á hvor aðra. 888 00:47:04,050 --> 00:47:06,410 >> Ef þú hugsa um "TF," það er líklega að fara að hafa það 889 00:47:06,410 --> 00:47:07,890 flokki það er TF'ing fyrir. 890 00:47:07,890 --> 00:47:11,330 Einnig "" er mjög mikilvægt fyrir CS50 TF. 891 00:47:11,330 --> 00:47:14,570 En ef þú ert eitthvað eins og "The CS50 TF fór í nám og gaf sínum 892 00:47:14,570 --> 00:47:20,060 nemendur sumir nammi. "" Candy "og" the " hafa ekki tengslum raun, ekki satt? 893 00:47:20,060 --> 00:47:23,670 Þeir eru svo langt frá hvert öðru að það skiptir ekki máli hvað 894 00:47:23,670 --> 00:47:25,050 orð sem þú hefur. 895 00:47:25,050 --> 00:47:31,210 >> Svo með því að gera bigram eða trigram, það þýðir bara að þú ert að takmarka 896 00:47:31,210 --> 00:47:33,430 sjálfur að nokkur orð sem eru í kring. 897 00:47:33,430 --> 00:47:35,810 Skynsamleg? 898 00:47:35,810 --> 00:47:40,630 Svo þegar þú vilt gera skiptingu, grundvallaratriðum, hvað þú vilt gera er að sjá 899 00:47:40,630 --> 00:47:44,850 hvað eru allar mögulegar leiðir sem þú getur hluti setninguna. 900 00:47:44,850 --> 00:47:49,090 >> Þannig að þú sérð hvað er líkur á hvert þessara setningar 901 00:47:49,090 --> 00:47:50,880 fyrirliggjandi í tungumálinu? 902 00:47:50,880 --> 00:47:53,410 Svo er það sem þú gerir eins vel, láta mér að reyna að setja hér pláss. 903 00:47:53,410 --> 00:47:55,570 Svo þú setja pláss þar og þú sérð hvað er 904 00:47:55,570 --> 00:47:57,590 líkur á þessi setning? 905 00:47:57,590 --> 00:48:00,240 Síðan sem þú ert eins og OK, kannski það var ekki gott. 906 00:48:00,240 --> 00:48:03,420 Þannig að ég setti pláss þar og bili þar, og þú reikna 907 00:48:03,420 --> 00:48:06,240 Líkur nú, og þú sérð að það er meiri líkur. 908 00:48:06,240 --> 00:48:12,160 >> Svo er þetta reiknirit sem kallast TANGO skiptingu reiknirit, sem er 909 00:48:12,160 --> 00:48:14,990 reyndar eitthvað sem væri mjög kaldur til verkefnis, sem 910 00:48:14,990 --> 00:48:20,860 grundvallaratriðum tekur unsegmented texta sem getur verið japanska eða kínverska eða kannski 911 00:48:20,860 --> 00:48:26,080 English án bila og reynir að setja bil milli orða og það gerir 912 00:48:26,080 --> 00:48:29,120 að með því að nota tungumál fyrirmynd og reyna að sjá hvað er hæsta 913 00:48:29,120 --> 00:48:31,270 líkur sem þú getur fengið. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Svo er þetta skiptingu. 916 00:48:33,800 --> 00:48:35,450 >> Nú setningafræði. 917 00:48:35,450 --> 00:48:40,940 Svo, setningafræði er notað fyrir svo margt núna. 918 00:48:40,940 --> 00:48:44,880 Svo fyrir Línurit Search, fyrir Siri fyrir nánast hvers konar náttúruleg 919 00:48:44,880 --> 00:48:46,490 tungumál vinnslu sem þú hefur. 920 00:48:46,490 --> 00:48:49,140 Svo hvaða ert the mikilvægur atriði um Setningafræði? 921 00:48:49,140 --> 00:48:52,390 Svo hafa setningar almennt það sem við köllum efnisþætti. 922 00:48:52,390 --> 00:48:57,080 Sem eru góður af eins hópa af orðum sem hafa hlutverki í setningu. 923 00:48:57,080 --> 00:49:02,220 Og þeir geta í raun ekki verið hvert frá öðru. 924 00:49:02,220 --> 00:49:07,380 >> Svo, ef ég segi, til dæmis, "Lauren elskar Milo. "Ég veit að" Lauren "er 925 00:49:07,380 --> 00:49:10,180 deildir og þá "elskar Milo "er líka annað. 926 00:49:10,180 --> 00:49:16,860 Því þú getur ekki sagt eins og "Lauren Milo elskar "að hafa sömu merkingu. 927 00:49:16,860 --> 00:49:18,020 Það er ekki að fara að hafa sömu merkingu. 928 00:49:18,020 --> 00:49:22,500 Eða ég get ekki sagt eins og "Milo Lauren elskar. "Ekki allt hefur sama 929 00:49:22,500 --> 00:49:25,890 sem þýðir að gera það. 930 00:49:25,890 --> 00:49:31,940 >> Þannig að tvær fleiri mikilvæg atriði um setningafræði eru lexical tegundir sem er 931 00:49:31,940 --> 00:49:35,390 grundvallaratriðum fallið sem þú hafa fyrir orðum við sig. 932 00:49:35,390 --> 00:49:39,180 Svo þú þarft að vita að "Lauren" og "Milo" eru nafnorð. 933 00:49:39,180 --> 00:49:41,040 "Love" er sögn. 934 00:49:41,040 --> 00:49:45,660 Og annað mikilvægt hlutur er að þær séu phrasal tegundir. 935 00:49:45,660 --> 00:49:48,990 Svo þú veist að "elskar Milo" er í raun orða setningu. 936 00:49:48,990 --> 00:49:52,390 Svo þegar ég segi "Lauren," Ég veit að Lauren er að gera eitthvað. 937 00:49:52,390 --> 00:49:53,620 Hvað er hún að gera? 938 00:49:53,620 --> 00:49:54,570 Hún elskandi Milo. 939 00:49:54,570 --> 00:49:56,440 Svo það er allt hlutur. 940 00:49:56,440 --> 00:50:01,640 En hluti þess eru nafnorð og sögn. 941 00:50:01,640 --> 00:50:04,210 En saman, gera þeir sögnin setningu. 942 00:50:04,210 --> 00:50:08,680 >> Svo, hvað getum við gert í raun með tölvumálvísindum? 943 00:50:08,680 --> 00:50:13,810 Svo ef ég hef eitthvað til dæmis "Vinir Allison." Ég sjá hvort ég bara 944 00:50:13,810 --> 00:50:17,440 gerði nokkur dæmi um setningarleg tré ég myndi vita að "Vinir" er nafnorð setningu það er 945 00:50:17,440 --> 00:50:21,480 nafnorð og þá "af Allison" er prepositional setning þar sem "af" er 946 00:50:21,480 --> 00:50:24,810 tillaga og "Allison" er nafnorð. 947 00:50:24,810 --> 00:50:30,910 Hvað ég gæti gert er að kenna tölvuna mína að þegar ég hef nafnorð setningu einu og 948 00:50:30,910 --> 00:50:33,080 þá prepositional setningu. 949 00:50:33,080 --> 00:50:39,020 Þannig að í þessu tilfelli, "vinir" og þá "á Milo "Ég veit að þetta þýðir að 950 00:50:39,020 --> 00:50:43,110 NP2, annað, á NP1. 951 00:50:43,110 --> 00:50:47,680 >> Svo ég get búið til einhvers konar tengslum, einhvers konar virka fyrir það. 952 00:50:47,680 --> 00:50:52,370 Svo þegar ég sé þessa uppbyggingu, sem passar nákvæmlega við "vinum 953 00:50:52,370 --> 00:50:56,030 Allison, "Ég veit að Allison eigandi vinum. 954 00:50:56,030 --> 00:50:58,830 Svo vinir eru eitthvað sem Allison hefur. 955 00:50:58,830 --> 00:50:59,610 Vit? 956 00:50:59,610 --> 00:51:01,770 Svo er þetta í rauninni það Línurit Leit gerir. 957 00:51:01,770 --> 00:51:04,360 Það skapar bara reglur fyrir a einhver fjöldi af hlutur. 958 00:51:04,360 --> 00:51:08,190 Svo "Vinir Allison," "vinir mínir sem búa í Cambridge, "" vinir mínir 959 00:51:08,190 --> 00:51:12,970 sem fara til Harvard. "Það skapar reglur fyrir alla þá hluti. 960 00:51:12,970 --> 00:51:14,930 >> Nú vél þýðingar. 961 00:51:14,930 --> 00:51:18,850 Svo, vél þýðingar er einnig eitthvað tölfræðilegt. 962 00:51:18,850 --> 00:51:21,340 Og í raun ef þú taka þátt í tölvumálvísindum, fullt af 963 00:51:21,340 --> 00:51:23,580 dótið þitt er að fara að vera tölfræði. 964 00:51:23,580 --> 00:51:26,670 Svo eins og ég var að gera dæmi með a einhver fjöldi af líkum sem ég var 965 00:51:26,670 --> 00:51:30,540 útreikning, og þá færðu að þetta mjög lítil tala sem er endanleg 966 00:51:30,540 --> 00:51:33,180 líkur, og það er það gefur þér svar. 967 00:51:33,180 --> 00:51:37,540 Vél þýðing notar einnig tölfræðileg módel. 968 00:51:37,540 --> 00:51:44,790 Og ef þú vilt að hugsa um vél Þýðing á einfaldasta mögulegt 969 00:51:44,790 --> 00:51:48,970 leið, hvað þú getur hugsa er bara þýða orð af orði, ekki satt? 970 00:51:48,970 --> 00:51:52,150 >> Þegar þú ert að læra tungumál fyrir fyrsta skipti, það er yfirleitt það 971 00:51:52,150 --> 00:51:52,910 þú gerir, ekki satt? 972 00:51:52,910 --> 00:51:57,050 Ef þú vilt að þýða setningu á þínu tungumáli yfir á tungumálið 973 00:51:57,050 --> 00:52:00,060 þú ert að læra, oftast fyrst, þú þýða hvert orð 974 00:52:00,060 --> 00:52:03,180 sig, og þá reyna að setja orð í stað. 975 00:52:03,180 --> 00:52:07,100 >> Þannig að ef ég vildi að þýða þetta, [Tal PORTÚGAL] 976 00:52:07,100 --> 00:52:10,430 sem þýðir "hvíti kötturinn hljóp í burtu." Ef ég vildi að þýða það frá 977 00:52:10,430 --> 00:52:13,650 Portúgalska á ensku, það sem ég gæti gert er fyrst, ég bara 978 00:52:13,650 --> 00:52:14,800 þýða orð af orði. 979 00:52:14,800 --> 00:52:20,570 Svo "o" er "," "Gato", "köttur" "Branco," "hvítur" og síðan "fugio" er 980 00:52:20,570 --> 00:52:21,650 "Hljóp í burtu." 981 00:52:21,650 --> 00:52:26,130 >> Svo þá hef ég öll þau orð hér, en þeir eru ekki í röð. 982 00:52:26,130 --> 00:52:29,590 Það er eins og "kötturinn hvítur hljóp í burtu" sem er ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Svo er, þá get ég haft annað skref, sem er að fara að finna hið fullkomna 984 00:52:34,490 --> 00:52:36,610 staða fyrir hvert orð. 985 00:52:36,610 --> 00:52:40,240 Þannig að ég veit að ég vil í raun hafa "Hvítur köttur" í stað "köttur hvítur." Svo 986 00:52:40,240 --> 00:52:46,050 hvað ég get gert er, mest barnalegt Method væri að búa til allar 987 00:52:46,050 --> 00:52:49,720 mögulegar permutations af orð, staða. 988 00:52:49,720 --> 00:52:53,300 Og þá sjá hver einn hefur hæsta líkur samkvæmt 989 00:52:53,300 --> 00:52:54,970 að tungumál módel. 990 00:52:54,970 --> 00:52:58,390 Og svo þegar ég finna einn sem hefur hæsta líkur það, sem er 991 00:52:58,390 --> 00:53:01,910 sennilega "hvíta köttur hljóp í burtu," sem er þýðing mín. 992 00:53:01,910 --> 00:53:06,710 >> Og þetta er einföld leið til að útskýra hversu mikið af þýðingar vél 993 00:53:06,710 --> 00:53:07,910 reiknirit vinna. 994 00:53:07,910 --> 00:53:08,920 Er að skynsamleg? 995 00:53:08,920 --> 00:53:12,735 Þetta er líka eitthvað mjög spennandi að þið getið kannski kanna fyrir 996 00:53:12,735 --> 00:53:13,901 Lokaverkefni, já? 997 00:53:13,901 --> 00:53:15,549 >> STUDENT: Jæja, þú sagðir að það væri barnaleg leið, svo er það 998 00:53:15,549 --> 00:53:17,200 the non-barnaleg leið? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Freitas: The non-barnaleg leið? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Svo það fyrsta sem er slæmt um Þessi aðferð er að ég þýddi bara 1002 00:53:22,860 --> 00:53:24,330 orð, orð af orði. 1003 00:53:24,330 --> 00:53:30,570 En maður þarf stundum orð sem getur haft mörg þýðingar. 1004 00:53:30,570 --> 00:53:32,210 Ég ætla að reyna að hugsa um eitthvað. 1005 00:53:32,210 --> 00:53:37,270 Til dæmis, "Manga" á portúgölsku dós annað hvort að vera "mangle" eða "ermi." Svo 1006 00:53:37,270 --> 00:53:40,450 þegar þú ert að reyna að þýða orð af orði, gæti það verið að gefa þér 1007 00:53:40,450 --> 00:53:42,050 eitthvað sem gerir ekkert vit. 1008 00:53:42,050 --> 00:53:45,770 >> Svo þú vilt í raun að þú horfir á alla mögulegar þýðingar á 1009 00:53:45,770 --> 00:53:49,840 orð og sjá, fyrst af öllu, hvað er til. 1010 00:53:49,840 --> 00:53:52,000 Við vorum að tala um permutating hlutir? 1011 00:53:52,000 --> 00:53:54,150 Til að sjá allar mögulegar pantanir og velja einn með hæsta 1012 00:53:54,150 --> 00:53:54,990 líkur? 1013 00:53:54,990 --> 00:53:57,860 Þú getur einnig valið allar mögulegar þýðingar fyrir hvert 1014 00:53:57,860 --> 00:54:00,510 orð og þá sjá - 1015 00:54:00,510 --> 00:54:01,950 ásamt permutations - 1016 00:54:01,950 --> 00:54:03,710 hver einn hefur hæstu líkur. 1017 00:54:03,710 --> 00:54:08,590 >> Auk þess getur þú líka að líta á ekki aðeins orð en setningar. 1018 00:54:08,590 --> 00:54:11,700 svo þú getur greina tengsl milli orð og þá fá 1019 00:54:11,700 --> 00:54:13,210 betri þýðing. 1020 00:54:13,210 --> 00:54:16,690 Einnig er eitthvað annað, þannig að þetta önn Ég er reyndar að gera rannsóknir á 1021 00:54:16,690 --> 00:54:19,430 Kínverji-ensk vél þýðing, svo að þýða frá 1022 00:54:19,430 --> 00:54:20,940 Kínverji á ensku. 1023 00:54:20,940 --> 00:54:26,760 >> Og eitthvað sem við gerum er, fyrir utan að nota við tölfræðilegar upplýsingar, sem er bara 1024 00:54:26,760 --> 00:54:30,570 sjá líkur á að sjá sumir stöðu í setningu, ég er 1025 00:54:30,570 --> 00:54:35,360 reyndar einnig bæta við nokkrum setningafræði til mín líkan, segja, ó, ef ég sé svona 1026 00:54:35,360 --> 00:54:39,420 byggingar, þetta er það sem ég vil að breyta því að þegar ég þýða. 1027 00:54:39,420 --> 00:54:43,880 Svo þú getur líka bætt einhvers konar þáttur í setningafræði til að gera 1028 00:54:43,880 --> 00:54:47,970 þýðingar skilvirkari og nákvæmari. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Svo hvernig er hægt að byrja, ef þú vilt að gera eitthvað í computational 1031 00:54:51,010 --> 00:54:51,980 Málvísindi? 1032 00:54:51,980 --> 00:54:54,560 >> Fyrst, þú velur verkefni sem felur í sér tungumál. 1033 00:54:54,560 --> 00:54:56,310 Svo, það er svo margt þarna úti. 1034 00:54:56,310 --> 00:54:58,420 Það er svo margir hlutir sem þú getur gert. 1035 00:54:58,420 --> 00:55:00,510 Og þá er að hugsa um fyrirmynd sem þú getur notað. 1036 00:55:00,510 --> 00:55:04,710 Venjulega þýðir að hugsa um forsendur, eins og eins, ó, þegar ég var 1037 00:55:04,710 --> 00:55:05,770 eins hugsa um textana. 1038 00:55:05,770 --> 00:55:09,510 Ég var eins, vel, ef ég vil að reikna út sem skrifaði þetta, vil ég sennilega 1039 00:55:09,510 --> 00:55:15,400 að líta á þau orð sem maður nota og sjá sem notar þessi orð mjög oft. 1040 00:55:15,400 --> 00:55:18,470 Svo reyna að gera ályktanir og reyna að hugsa um líkan. 1041 00:55:18,470 --> 00:55:21,395 Og þá getur þú einnig leitað á netinu fyrir eins konar vandamál sem þú hefur, 1042 00:55:21,395 --> 00:55:24,260 og það er að fara að stinga upp til þín módel sem kannski 1043 00:55:24,260 --> 00:55:26,560 fyrirmynd þessi hlutur vel. 1044 00:55:26,560 --> 00:55:29,080 >> Og einnig er alltaf hægt sendu mér tölvupóst. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Og ég get bara svarað spurningum þínum. 1047 00:55:34,940 --> 00:55:38,600 Við getum jafnvel gæti hittast svo ég get gefa ábendingar um leiðir til að 1048 00:55:38,600 --> 00:55:41,490 við framkvæmd á verkefninu. 1049 00:55:41,490 --> 00:55:45,610 Og ég meina ef þú taka þátt með tölvumálvísindum, það er að fara 1050 00:55:45,610 --> 00:55:46,790 að vera mikill. 1051 00:55:46,790 --> 00:55:48,370 Þú ert að fara að sjá það er svo mikill möguleiki. 1052 00:55:48,370 --> 00:55:52,060 Og iðnaður vill ráða þú svo slæmt af því. 1053 00:55:52,060 --> 00:55:54,720 Svo ég vona að þú krakkar gaman þetta. 1054 00:55:54,720 --> 00:55:57,030 Ef þið hafið einhverjar spurningar, þú getur spurt mig eftir þetta. 1055 00:55:57,030 --> 00:55:58,280 En þakka þér fyrir. 1056 00:55:58,280 --> 00:56:00,150