1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Hei. 3 00:00:08,870 --> 00:00:09,980 Gaidīti visi. 4 00:00:09,980 --> 00:00:11,216 Mans vārds ir Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Es esmu junioru pie [dzirdams] studijām datorzinātnes ar mērķtiecīgi 6 00:00:15,220 --> 00:00:16,410 skaitļošanas lingvistika. 7 00:00:16,410 --> 00:00:19,310 Tātad mans vidusskolas ir valodā un valodu teorija. 8 00:00:19,310 --> 00:00:21,870 Es esmu patiesi satraukti, lai mācītu jums guys mazliet par jomā. 9 00:00:21,870 --> 00:00:24,300 Tas ir ļoti aizraujoša joma mācīties. 10 00:00:24,300 --> 00:00:27,260 Arī ar lielu potenciālu nākotnē. 11 00:00:27,260 --> 00:00:30,160 Tātad, es esmu patiesi satraukti, ka jūs guys apsver projektus 12 00:00:30,160 --> 00:00:31,160 skaitļošanas lingvistika. 13 00:00:31,160 --> 00:00:35,460 Un man būs vairāk nekā laimīgs, lai konsultētu kāds no jums, ja jūs nolemjat 14 00:00:35,460 --> 00:00:37,090 veikt kādu no tiem. 15 00:00:37,090 --> 00:00:40,010 >> Tātad, pirmkārt, kādi ir skaitļošanas lingvistika? 16 00:00:40,010 --> 00:00:44,630 Tāpēc skaitļošanas lingvistika ir krustojas valodniecībā un 17 00:00:44,630 --> 00:00:46,390 datorzinātnes. 18 00:00:46,390 --> 00:00:47,415 Tātad, kas ir lingvistika? 19 00:00:47,415 --> 00:00:48,490 Kas ir datorzinātnes? 20 00:00:48,490 --> 00:00:51,580 Nu no valodniecībā, ko mēs esam valodas. 21 00:00:51,580 --> 00:00:54,960 Tāpēc lingvistika ir faktiski pētījums dabiskā valodu vispār. 22 00:00:54,960 --> 00:00:58,330 Tik dabiski valoda - mēs runājam par valoda, kas mēs faktiski izmantot, lai 23 00:00:58,330 --> 00:00:59,770 komunicēt ar otru. 24 00:00:59,770 --> 00:01:02,200 Tāpēc mēs neesam īsti runā par C vai Java. 25 00:01:02,200 --> 00:01:05,900 Mēs runājam vairāk par angļu un Ķīniešu un citās valodās, ko mēs 26 00:01:05,900 --> 00:01:07,780 izmantot komunicēt ar otru. 27 00:01:07,780 --> 00:01:12,470 >> Grūti lieta par to, ka tagad mums ir gandrīz 7000 28 00:01:12,470 --> 00:01:14,260 valodām pasaulē. 29 00:01:14,260 --> 00:01:19,520 Tāpēc ir diezgan augsts šķirne valodu, ko mēs varam mācīties. 30 00:01:19,520 --> 00:01:22,600 Un tad jūs domājat, ka tas ir iespējams, ir ļoti grūti izdarīt, piemēram, 31 00:01:22,600 --> 00:01:26,960 tulkošana no vienas valodas uz otrkārt, ņemot vērā, ka jums ir 32 00:01:26,960 --> 00:01:28,240 gandrīz 7000 no tiem. 33 00:01:28,240 --> 00:01:31,450 Tātad, ja jūs domājat, kā to tulkojumu no vienas valodas uz otru tu 34 00:01:31,450 --> 00:01:35,840 ir gandrīz vairāk nekā miljons dažādas kombinācijas, ka jūs varat 35 00:01:35,840 --> 00:01:37,330 ir no valodas uz valodu. 36 00:01:37,330 --> 00:01:40,820 Tātad, tas ir tiešām grūti darīt daži veida piemērs tulkošanas sistēmas 37 00:01:40,820 --> 00:01:43,540 katru valoda. 38 00:01:43,540 --> 00:01:47,120 >> Tātad, Valodniecība ārstē ar sintaksi, semantika, pragmatika. 39 00:01:47,120 --> 00:01:49,550 Jūs puiši nav īsti nepieciešams zināt, ko viņi ir. 40 00:01:49,550 --> 00:01:55,090 Bet ļoti interesanta lieta ir tas, ka kā dzimtā valoda, tad, kad jūs mācīties 41 00:01:55,090 --> 00:01:59,010 valoda kā bērns, jūs faktiski mācīties visas šīs lietas - sintakses semantika 42 00:01:59,010 --> 00:02:00,500 un pragmatika - 43 00:02:00,500 --> 00:02:01,430 pats. 44 00:02:01,430 --> 00:02:04,820 Un nevienam nav iemācīt jums sintakse jums saprast, kā teikumus 45 00:02:04,820 --> 00:02:05,290 strukturēta. 46 00:02:05,290 --> 00:02:07,980 Tātad, tas ir patiešām interesanti, jo tas ir kaut kas, kas nāk ļoti 47 00:02:07,980 --> 00:02:10,389 intuitīvi. 48 00:02:10,389 --> 00:02:13,190 >> Un ko jūs lietojat no datorzinātnes? 49 00:02:13,190 --> 00:02:16,700 Nu, vissvarīgākā lieta, ka mēs ir datorzinātnes, ir pirmais 50 00:02:16,700 --> 00:02:19,340 viss, mākslīgais intelekts un mašīnu mācīšanās. 51 00:02:19,340 --> 00:02:22,610 Tātad, ko mēs cenšamies darīt skaitļošanas lingvistika ir mācīt 52 00:02:22,610 --> 00:02:26,990 dators, kā kaut ko darīt ar valodu. 53 00:02:26,990 --> 00:02:28,630 >> Tā, piemēram, mašīnu tulkošana. 54 00:02:28,630 --> 00:02:32,490 Es cenšos mācīt manu datoru how zināt, kā pāreja no viena 55 00:02:32,490 --> 00:02:33,310 valodas uz otru. 56 00:02:33,310 --> 00:02:35,790 Tātad, būtībā, piemēram, mācību dators divas valodas. 57 00:02:35,790 --> 00:02:38,870 Ja man dabiskās valodas apstrāde, kas ir gadījums, piemēram, par 58 00:02:38,870 --> 00:02:41,810 Facebook Graph Search, jūs mācāt dators, kā izprast 59 00:02:41,810 --> 00:02:42,730 vaicājumi labi. 60 00:02:42,730 --> 00:02:48,130 >> Tātad, ja jūs sakāt: "fotogrāfijas no maniem draugi. "Facebook neuzskata, ka 61 00:02:48,130 --> 00:02:51,130 kopumā virkni, kas ir tikai ķekars vārdu. 62 00:02:51,130 --> 00:02:56,020 Tas faktiski saprot attiecības starp "fotogrāfijas" un "draugiem" un 63 00:02:56,020 --> 00:02:59,620 saprot, ka "fotogrāfijas" ir īpašums "maniem draugiem." 64 00:02:59,620 --> 00:03:02,350 >> Tātad, kas ir daļa no, piemēram, dabiskās valodas apstrāde. 65 00:03:02,350 --> 00:03:04,790 Tā cenšas saprast, ko ir attiecība starp 66 00:03:04,790 --> 00:03:07,520 vārdus teikumā. 67 00:03:07,520 --> 00:03:11,170 Un liels jautājums ir, jūs varat mācīt datoru, kā runāt 68 00:03:11,170 --> 00:03:12,650 valodu vispār? 69 00:03:12,650 --> 00:03:17,810 Kas ir ļoti interesants jautājums domā, kā varbūt nākotnē, 70 00:03:17,810 --> 00:03:19,930 jūs gatavojas, lai varētu konsultējieties ar savu mobilo tālruni. 71 00:03:19,930 --> 00:03:23,290 Veida, piemēram, to, ko mēs darām ar Siri, bet kaut ko vairāk, piemēram, jūs faktiski var 72 00:03:23,290 --> 00:03:25,690 saka, ko jūs vēlaties, un tālrunis gatavojas saprast visu. 73 00:03:25,690 --> 00:03:28,350 Un tas var būt sekot jautājumi un turpini runāt. 74 00:03:28,350 --> 00:03:30,880 Tas ir kaut kas aizraujošs, manuprāt. 75 00:03:30,880 --> 00:03:33,070 >> Tātad, kaut ko par dabas valodu. 76 00:03:33,070 --> 00:03:36,220 Kaut kas patiešām interesantu par dabas valodas ir tāds, ka, un tas ir 77 00:03:36,220 --> 00:03:38,470 kredīts uz manu valodniecības profesors, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Viņa dod piemēru, un es domāju, ka tas ir patiešām interesanti. 79 00:03:40,830 --> 00:03:47,060 Tāpēc, ka mēs mācīties valodu no brīža, kad mēs esam dzimuši, un tad mūsu dzimtā 80 00:03:47,060 --> 00:03:49,170 valoda veida aug mums. 81 00:03:49,170 --> 00:03:52,570 >> Un būtībā jūs mācīties valodu No minimālu ieguldījumu, vai ne? 82 00:03:52,570 --> 00:03:56,700 Jūs vienkārši iegūt datus no jūsu vecāki, kas savu valodu izklausās 83 00:03:56,700 --> 00:03:58,770 patīk un jūs vienkārši iemācīties to. 84 00:03:58,770 --> 00:04:02,240 Tātad, tas ir interesanti, jo, ja paskatās šajos teikumos, piemēram,. 85 00:04:02,240 --> 00:04:06,980 Tu izskaties, "Mary liek uz mētelis katrā reizi viņa atstāj māju. " 86 00:04:06,980 --> 00:04:10,650 >> Šajā gadījumā, tas ir iespējams, ka vārds "viņa" attiecas uz Mariju, vai ne? 87 00:04:10,650 --> 00:04:13,500 Jūs varat teikt: "Marija liek uz mētelis Katru reizi, kad Marija atstāj 88 00:04:13,500 --> 00:04:14,960 māja. "tā, ka ir labi. 89 00:04:14,960 --> 00:04:19,370 Bet tad, ja paskatās teikumu "Viņa liek uz mētelis katru reizi Mary 90 00:04:19,370 --> 00:04:22,850 atstāj māju. "Jūs zināt, tas ir iespējams pateikt, ka "viņa" ir 91 00:04:22,850 --> 00:04:24,260 atsaucoties uz Marijas. 92 00:04:24,260 --> 00:04:27,070 >> Nav veids, kā pateikt, ka "Marija liek uz mētelis katru reizi Marija atstāj 93 00:04:27,070 --> 00:04:30,790 māja. "Tātad, tas ir interesanti, jo tas ir sava veida intuīcija 94 00:04:30,790 --> 00:04:32,890 ka katram dzimtā valoda ir. 95 00:04:32,890 --> 00:04:36,370 Un neviens tika mācīts, ka tas ir tā, ka sintakse darbojas. 96 00:04:36,370 --> 00:04:41,930 Un ka jums var būt tikai šo "viņa" atsaucoties uz Marijas šajā pirmajā gadījumā, 97 00:04:41,930 --> 00:04:44,260 un faktiski šo citu pārāk, bet ne šīs. 98 00:04:44,260 --> 00:04:46,500 Bet visi veida izpaužas ar tādu pašu atbildi. 99 00:04:46,500 --> 00:04:48,580 Visi piekrīt, ka. 100 00:04:48,580 --> 00:04:53,280 Tātad, tas ir patiešām interesanti, kā gan jūs nezināt visus noteikumus 101 00:04:53,280 --> 00:04:55,575 savā valodā jūs veida saprotat kā valoda darbojas. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Tik interesanta lieta par dabīgā valoda, ir tas, ka jums nav 104 00:05:01,530 --> 00:05:06,970 zināt kādu sintaksi zināt, ja sods ir gramatikas vai ungrammatical par 105 00:05:06,970 --> 00:05:08,810 vairumā gadījumu. 106 00:05:08,810 --> 00:05:13,220 Kas padara Jūs domājat, ka varbūt tas, ko notiek, ir tas, ka ar savu dzīvi, jums 107 00:05:13,220 --> 00:05:17,410 tikai glabāt kļūst arvien vairāk un vairāk teikumi teicis jums. 108 00:05:17,410 --> 00:05:19,800 Un tad jūs saglabāt iegaumēšanas visas sodu. 109 00:05:19,800 --> 00:05:24,230 Un tad, kad kāds stāsta jums kaut kas, jūs dzirdat šo teikumu un 110 00:05:24,230 --> 00:05:27,040 paskatās savu vārdu krājumu teikumus un redzēt, ja 111 00:05:27,040 --> 00:05:28,270 šis teikums ir tur. 112 00:05:28,270 --> 00:05:29,830 Un, ja tas ir tur jums teic, ka tas ir gramatikas. 113 00:05:29,830 --> 00:05:31,740 Ja tas nav jums teikt, tas ir ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Tātad, šajā gadījumā, jūs varētu teikt, ak, tāpēc jums ir milzīgs saraksts ar visiem 115 00:05:35,150 --> 00:05:36,140 iespējamie sodi. 116 00:05:36,140 --> 00:05:38,240 Un tad, kad jūs dzirdat kādu teikumu, jūs zināt, ja tas ir gramatikas vai 117 00:05:38,240 --> 00:05:39,450 nav balstīta uz to. 118 00:05:39,450 --> 00:05:42,360 Lieta ir tāda, ka, ja paskatās teikums, piemēram, " 119 00:05:42,360 --> 00:05:47,540 Piecu vada CS50 TFS vārīti neredzīgajiem astoņkājis izmantojot DAPA krūze. "Tas ir 120 00:05:47,540 --> 00:05:49,630 noteikti nav sods ka esat dzirdējuši iepriekš. 121 00:05:49,630 --> 00:05:52,380 Bet tajā pašā laikā jūs zināt, tas ir diezgan daudz gramatikas, vai ne? 122 00:05:52,380 --> 00:05:55,570 Nav gramatiskās kļūdas un jūs varat teikt, ka 123 00:05:55,570 --> 00:05:57,020 tas ir iespējams teikums. 124 00:05:57,020 --> 00:06:01,300 >> Tāpēc tas liek mums domāt, ka faktiski veids, kā mēs mācīties valodu, ir ne tikai 125 00:06:01,300 --> 00:06:07,090 , ņemot milzīgu datu bāzi ar iespēju vārdus vai teikumus, bet vairāk 126 00:06:07,090 --> 00:06:11,490 izprast sakarību starp vārdi šajos teikumos. 127 00:06:11,490 --> 00:06:14,570 Vai tas ir jēga? 128 00:06:14,570 --> 00:06:19,370 Tā, tad jautājums ir, var datori mācīties valodas? 129 00:06:19,370 --> 00:06:21,490 Mēs varam iemācīt valodu ar datoriem? 130 00:06:21,490 --> 00:06:24,230 >> Tātad, pieņemsim domāt par starpību starp dzimtā valoda 131 00:06:24,230 --> 00:06:25,460 un dators. 132 00:06:25,460 --> 00:06:27,340 Tātad, kas notiek ar skaļruni? 133 00:06:27,340 --> 00:06:30,430 Nu, dzimtā valoda, mācās valodas iedarbības uz to. 134 00:06:30,430 --> 00:06:34,200 Parasti tās agrīnās bērnības gadiem. 135 00:06:34,200 --> 00:06:38,570 Tātad, būtībā, jums vienkārši ir bērns, un tu turpini runāt to, un tas 136 00:06:38,570 --> 00:06:40,540 tikai mācās, kā runāt valoda, vai ne? 137 00:06:40,540 --> 00:06:42,660 Tātad, jūs būtībā dodot ieguldījums bērnu. 138 00:06:42,660 --> 00:06:45,200 Tātad, tad jūs varat apgalvot, ka dators var darīt to pašu, vai ne? 139 00:06:45,200 --> 00:06:49,510 Jūs varat dot valoda kā ievade datorā. 140 00:06:49,510 --> 00:06:53,410 >> Kā, piemēram, ķekars failus ka ir grāmatas angļu valodā. 141 00:06:53,410 --> 00:06:56,190 Varbūt tas ir viens no veidiem, ka jūs iespējams, varētu mācīt 142 00:06:56,190 --> 00:06:57,850 dators angļu, vai ne? 143 00:06:57,850 --> 00:07:01,000 Un patiesībā, ja jūs domājat par to, tas aizņem jums varbūt pāris 144 00:07:01,000 --> 00:07:02,680 dienas, lai lasītu grāmatu. 145 00:07:02,680 --> 00:07:05,760 Par datoru, tas aizņem sekundi, lai apskatīt visus vārdus grāmatā. 146 00:07:05,760 --> 00:07:10,810 Tātad jūs varat iedomāties, ka varētu būt tikai to arguments ieejas no jums apkārt, 147 00:07:10,810 --> 00:07:15,440 tas nav pietiekami, lai pateikt, ka tas ir kaut ko, ka tikai cilvēki var darīt. 148 00:07:15,440 --> 00:07:17,680 Jūs varat domāt datorus arī var saņemt informāciju. 149 00:07:17,680 --> 00:07:21,170 >> Otra lieta ir tā, ka dzimtā valoda ir arī smadzenes, kas ir 150 00:07:21,170 --> 00:07:23,870 valodu mācīšanās iespējas. 151 00:07:23,870 --> 00:07:27,020 Bet, ja jūs domājat par to, smadzenes ir cieta lieta. 152 00:07:27,020 --> 00:07:30,450 Kad jūs esat dzimis, tas jau noteikti - 153 00:07:30,450 --> 00:07:31,320 Tas ir jūsu smadzenes. 154 00:07:31,320 --> 00:07:34,660 Un, kā jūs augt uz augšu, jūs tikai iegūt vairāk valodas ievades un varbūt uzturvielas 155 00:07:34,660 --> 00:07:35,960 un citi sīkumi. 156 00:07:35,960 --> 00:07:38,170 Bet diezgan daudz jūsu smadzenes ir cieta lieta. 157 00:07:38,170 --> 00:07:41,290 >> Tātad jūs varat teikt, labi, varbūt varat veidot datoru, kas ir ķekars 158 00:07:41,290 --> 00:07:45,890 funkcijas un metodes, kas vienkārši atdarina valodu mācīšanās iespējas. 159 00:07:45,890 --> 00:07:49,630 Tātad šajā ziņā, jūs varētu teikt, labi, es var būt dators, kas ir visas 160 00:07:49,630 --> 00:07:52,270 lietas, kas man ir nepieciešams mācīties valodu. 161 00:07:52,270 --> 00:07:56,200 Un pēdējā lieta ir tā, ka dzimtā runātājs mācās no izmēģinājumu un kļūdu. 162 00:07:56,200 --> 00:08:01,090 Vārdu sakot, vēl viena svarīga lieta valodu apguve ir tas, ka jūs veida 163 00:08:01,090 --> 00:08:05,340 un iemācīties lietas, padarot vispārinājumi par to, ko jūs dzirdat. 164 00:08:05,340 --> 00:08:10,280 >> Tātad, kā jūs aug jūs uzzināt, ka daži vārdi ir vairāk kā lietvārdi, 165 00:08:10,280 --> 00:08:11,820 daži citi tiem ir īpašības vārdi. 166 00:08:11,820 --> 00:08:14,250 Un jums nav nekādu zināšanas valodniecībā 167 00:08:14,250 --> 00:08:15,040 saprast, ka. 168 00:08:15,040 --> 00:08:18,560 Bet jūs tikai zināt, ka ir daži vārdi ir novietota kādu daļu no 169 00:08:18,560 --> 00:08:22,570 teikumu un daži citi citās daļas teikuma. 170 00:08:22,570 --> 00:08:26,110 >> Un, ka, ja jūs kaut ko darīt, kas ir kā teikums, kas nav pareizs - 171 00:08:26,110 --> 00:08:28,770 varbūt tāpēc, ka pār vispārinājums piemēram. 172 00:08:28,770 --> 00:08:32,210 Varbūt, ja jūs aug, jūs ievērosiet, ka plural parasti 173 00:08:32,210 --> 00:08:35,809 veido liekot S at vārda beigām. 174 00:08:35,809 --> 00:08:40,042 Un tad jūs mēģināt darīt daudzskaitļa "briedis", kā "briežus" vai "zobs", kā 175 00:08:40,042 --> 00:08:44,780 "zobi." Tātad jūsu vecāki vai kāds labo jums un saka, nē, 176 00:08:44,780 --> 00:08:49,020 daudzskaitļa "briedis" ir "briedis", un daudzskaitļa "zobu" ir "zobi." Un tad 177 00:08:49,020 --> 00:08:50,060 Jūs uzzināsiet šīs lietas. 178 00:08:50,060 --> 00:08:51,520 Tātad jūs mācīties no izmēģinājumu un kļūdu. 179 00:08:51,520 --> 00:08:53,100 >> Bet jūs varat darīt, ka ar datoru. 180 00:08:53,100 --> 00:08:55,310 Jums var būt kaut kas ko sauc stiprināšana mācīšanās. 181 00:08:55,310 --> 00:08:58,560 Kas būtībā ir kā dodot Datoru atlīdzība, ja tas 182 00:08:58,560 --> 00:08:59,410 kaut ko pareizi. 183 00:08:59,410 --> 00:09:04,710 Un piešķirot tai pretējs atlīdzību un, kad tas kaut ko nepareizi. 184 00:09:04,710 --> 00:09:07,410 Jūs faktiski var redzēt, ka, ja jums iet uz Google Translate un jūs mēģināt 185 00:09:07,410 --> 00:09:10,220 tulkot teikumu, tā lūdz jums atsauksmes. 186 00:09:10,220 --> 00:09:13,240 Tātad, ja jūs sakāt, ak, tur ir labāks tulkojumu šajā teikumā. 187 00:09:13,240 --> 00:09:18,140 Jūs varat ierakstīt to uz augšu, un tad, ja daudz cilvēki turpina sakot, ka ir labāks 188 00:09:18,140 --> 00:09:21,560 tulkojums, tas tikai uzzina, ka tā vajadzētu nevis izmantot šo tulkojumu 189 00:09:21,560 --> 00:09:22,960 viens tas dod. 190 00:09:22,960 --> 00:09:28,830 >> Tātad, tas ir ļoti filozofisks jautājums lai redzētu, vai datori būs 191 00:09:28,830 --> 00:09:30,340 spēj runāt vai ne nākotnē. 192 00:09:30,340 --> 00:09:34,440 Bet man ir lielas cerības, ka viņi var tikai, pamatojoties uz šiem argumentiem. 193 00:09:34,440 --> 00:09:38,570 Bet tas ir tikai vairāk filozofiska jautājums. 194 00:09:38,570 --> 00:09:43,460 >> Tāpēc, kamēr datori joprojām nevar runāt, kādi ir lietas, ko mēs varam darīt? 195 00:09:43,460 --> 00:09:47,070 Daži patiešām atdzist lietas ir datu klasifikācija. 196 00:09:47,070 --> 00:09:53,210 Tātad, piemēram, jūs guys zināt ka e-pasta pakalpojumus darīt, lai 197 00:09:53,210 --> 00:09:55,580 Piemēram, surogātpasta filtrēšana. 198 00:09:55,580 --> 00:09:59,070 Tātad, ja jūs saņemat surogātpastu, tas cenšas, lai filtrētu uz citu lodziņu. 199 00:09:59,070 --> 00:10:00,270 Tātad, kā tas dara, ka? 200 00:10:00,270 --> 00:10:06,080 Tas nav, piemēram, dators vienkārši zina kādi e-pasta adreses surogātpasta. 201 00:10:06,080 --> 00:10:09,130 Tāpēc tas ir vairāk balstīta uz saturu ziņu, vai varbūt nosaukumu, vai 202 00:10:09,130 --> 00:10:11,310 varbūt kāds raksts, kas jums ir. 203 00:10:11,310 --> 00:10:15,690 >> Tātad, būtībā, ko jūs varat darīt, ir iegūt Datu e-pastiem, kas ir surogātpasta partijas, 204 00:10:15,690 --> 00:10:19,980 e-pasta vēstules, kas nav surogātpasts, un uzzināt, ko veida modeļiem jums ir 205 00:10:19,980 --> 00:10:21,000 Tiem, kas ir surogātpasts. 206 00:10:21,000 --> 00:10:23,260 Un tas ir daļa no skaitļošanas lingvistika. 207 00:10:23,260 --> 00:10:24,720 To sauc par datu klasifikācija. 208 00:10:24,720 --> 00:10:28,100 Un mēs patiešām redzēsim piemērs, ka nākamo slaidu. 209 00:10:28,100 --> 00:10:32,910 >> Otrā lieta ir dabiskās valodas pārstrādi, kas ir tas, kas 210 00:10:32,910 --> 00:10:36,580 Graph Meklēt dara, ļaujot rakstīt teikumu. 211 00:10:36,580 --> 00:10:38,690 Un tas uzticas jūs saprotat, ko ir nozīme, un sniedz 212 00:10:38,690 --> 00:10:39,940 jums rezultāts labāks. 213 00:10:39,940 --> 00:10:43,880 Patiesībā, ja jūs doties uz Google vai Bing un jūs meklēt kaut ko līdzīgu Lady 214 00:10:43,880 --> 00:10:47,060 Gaga augstums, jūs faktiski iet iegūt 5 '1 ", nevis informācijas 215 00:10:47,060 --> 00:10:50,170 no viņas, jo tas tiešām saprot ko jūs runājat par. 216 00:10:50,170 --> 00:10:52,140 Tātad, kas ir daļa no dabiska valodas apstrāde. 217 00:10:52,140 --> 00:10:57,000 >> Vai arī, ja jūs izmantojat Siri, vispirms Jums ir algoritmu, kas mēģina 218 00:10:57,000 --> 00:11:01,130 tulkot to, ko jūs sakāt vārdos, tekstā. 219 00:11:01,130 --> 00:11:03,690 Un tad mēģina tulkot kas stājas nozīmi. 220 00:11:03,690 --> 00:11:06,570 Tātad tas viss ir daļa no dabiskā valodas apstrāde. 221 00:11:06,570 --> 00:11:08,320 >> Tad jums ir mašīntulkošanu - 222 00:11:08,320 --> 00:11:10,300 kas faktiski ir viens no maniem favorītiem - 223 00:11:10,300 --> 00:11:14,060 kas ir tikai tulkojot no valodas uz citu. 224 00:11:14,060 --> 00:11:17,950 Tātad jūs varat iedomāties, ka tad, kad jūs darāt mašīntulkošana, jums ir 225 00:11:17,950 --> 00:11:19,750 bezgalīgās iespējas sodu. 226 00:11:19,750 --> 00:11:22,960 Tāpēc nav veids, kā vienkārši uzglabāt katru tulkojumu. 227 00:11:22,960 --> 00:11:27,440 Tātad jums ir jānāk klajā ar interesantu algoritmu, lai spētu 228 00:11:27,440 --> 00:11:30,110 tulkot katru teikums kaut kādā veidā. 229 00:11:30,110 --> 00:11:32,483 >> Jūs guys ir kādi jautājumi līdz šim? 230 00:11:32,483 --> 00:11:34,450 Nē? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Tātad, ko mēs redzēsim šodien? 233 00:11:36,900 --> 00:11:39,300 Pirmkārt, es esmu gatavojas runāt par klasifikācijas problēmas. 234 00:11:39,300 --> 00:11:41,440 Tik viens, ka es biju saka par surogātpastu. 235 00:11:41,440 --> 00:11:46,820 Ko es esmu gatavojas darīt, ir, ņemot vērā lyrics dziesmu, jūs varat mēģināt izdomāt 236 00:11:46,820 --> 00:11:49,810 ar lielu varbūtību kurš ir dziedātājs? 237 00:11:49,810 --> 00:11:53,590 Pieņemsim, ka man ir dziesmas no Lady Gaga un Katy Perry, ja es jums 238 00:11:53,590 --> 00:11:58,130 jauna dziesma, jūs varat izrēķināt, ja tas ir Katy Perry vai Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Otrs, es esmu tikai gatavojas runāt par segmentācijas problēmu. 240 00:12:01,490 --> 00:12:05,780 Tāpēc es nezinu, ja jūs guys zināt, bet Ķīniešu, japāņu, citas Austrumāzijas 241 00:12:05,780 --> 00:12:08,090 valodas un citas valodas vispār nav 242 00:12:08,090 --> 00:12:09,830 atstarpes starp vārdiem. 243 00:12:09,830 --> 00:12:13,540 Un tad, ja jūs domājat par to, kā šo dators veida mēģina 244 00:12:13,540 --> 00:12:18,600 saprast dabiskās valodas apstrāde, tas izskatās pēc vārdiem un 245 00:12:18,600 --> 00:12:21,500 mēģina saprast attiecības starp tām, vai ne? 246 00:12:21,500 --> 00:12:25,440 Bet tad, ja jums ir ķīniešu, un jūs ir nulle telpas, tas ir tiešām grūti 247 00:12:25,440 --> 00:12:28,360 uzzināt, kāda ir saistība starp Citiem vārdiem sakot, jo viņiem nav nekādu 248 00:12:28,360 --> 00:12:29,530 Vārdi sākumā. 249 00:12:29,530 --> 00:12:32,600 Tātad jums ir kaut ko darīt ar nosaukumu segmentēšana, kas nozīmē tikai to, liekot 250 00:12:32,600 --> 00:12:36,490 atstarpes starp to, ko mēs gribētu zvans vārdus šīm valodām. 251 00:12:36,490 --> 00:12:37,740 Jēga? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Un tad mēs ejam runāt par sintaksi. 254 00:12:41,540 --> 00:12:44,050 Tāpēc tikai mazliet par dabīgā valodas apstrāde. 255 00:12:44,050 --> 00:12:45,420 Tas būs tikai pārskats. 256 00:12:45,420 --> 00:12:50,700 Tātad šodien, būtībā to, ko es gribu darīt ir sniegt jums guys mazliet 257 00:12:50,700 --> 00:12:53,930 iekšpusē, kādas ir iespējas ka jūs varat darīt ar skaitļošanas 258 00:12:53,930 --> 00:12:54,960 lingvistika. 259 00:12:54,960 --> 00:13:00,410 Un tad jūs varat redzēt, ko jūs domājat ir forši starp šīm lietām. 260 00:13:00,410 --> 00:13:02,270 Un varbūt jūs varat domāt par projektu un nāk runāt ar mani. 261 00:13:02,270 --> 00:13:05,260 Un es varu dot jums padomu par to, kā to īstenot. 262 00:13:05,260 --> 00:13:09,060 >> Tātad sintakse būs mazliet par Graph meklēšana un mašīnu 263 00:13:09,060 --> 00:13:09,670 tulkošana. 264 00:13:09,670 --> 00:13:13,650 Es esmu tikai gatavojas sniegt piemēru, kā Jūs varētu, piemēram, tulkot 265 00:13:13,650 --> 00:13:16,020 kaut ko no portugāļu valodā. 266 00:13:16,020 --> 00:13:17,830 Izklausās labi? 267 00:13:17,830 --> 00:13:19,293 >> Tātad, pirmkārt, klasifikācija problēma. 268 00:13:19,293 --> 00:13:23,590 Es saku, ka tas ir daļa no semināra būs ļoti grūti 269 00:13:23,590 --> 00:13:27,560 viens tikai tāpēc, ka notiek būt dažas kodēšana. 270 00:13:27,560 --> 00:13:29,470 Bet tas būs Python. 271 00:13:29,470 --> 00:13:34,380 Es zinu, ka jūs guys nezinu Python, tāpēc Es esmu tikai gatavojas izskaidrot par augstu 272 00:13:34,380 --> 00:13:35,750 līmenis, ko es daru. 273 00:13:35,750 --> 00:13:40,900 Un jums nav īsti aprūpi, pārāk daudz par sintaksi, jo tas ir 274 00:13:40,900 --> 00:13:42,140 kaut ko jūs guys var mācīties. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Izklausās labi. 277 00:13:43,580 --> 00:13:46,020 >> Tātad, kas ir klasifikācijas problēma? 278 00:13:46,020 --> 00:13:49,140 Tātad jūs esat dota dažas lyrics dziesmu, un jūs vēlaties, lai uzminēt 279 00:13:49,140 --> 00:13:50,620 kurš dzied to. 280 00:13:50,620 --> 00:13:54,045 Un tas var būt jebkāda veida citas problēmas. 281 00:13:54,045 --> 00:13:59,980 Lai tā var būt, piemēram, jums prezidenta kampaņa un jums ir 282 00:13:59,980 --> 00:14:02,610 runas, un jūs vēlaties, lai atrastu , ja tas ir, piemēram, 283 00:14:02,610 --> 00:14:04,470 Obama un Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Vai arī jums var būt ķekars e-pastu un Jūs vēlaties, lai noskaidrotu, vai tās ir 285 00:14:07,700 --> 00:14:08,890 surogātpasts vai ne. 286 00:14:08,890 --> 00:14:11,440 Tāpēc tas ir tikai klasificētu dažas dati, kas balstīti uz vārdiem 287 00:14:11,440 --> 00:14:13,790 ka jums ir tur. 288 00:14:13,790 --> 00:14:16,295 >> Tātad, lai to izdarītu, jums ir veikt dažus pieņēmumus. 289 00:14:16,295 --> 00:14:20,570 Tik daudz par skaitļošanas valodniecībā ir izdarīt pieņēmumus, 290 00:14:20,570 --> 00:14:24,100 Parasti smart pieņēmumi, lai Jūs varat iegūt labus rezultātus. 291 00:14:24,100 --> 00:14:26,670 Mēģinot radīt modeli to. 292 00:14:26,670 --> 00:14:31,290 Un tad mēģināt to, un redzēt, ja tā darbojas, ja tas dod jums labu precizitāti. 293 00:14:31,290 --> 00:14:33,940 Un, ja tas tā ir, tad jūs mēģināt to uzlabot. 294 00:14:33,940 --> 00:14:37,640 Ja tā nav, jūs, piemēram, OK, varbūt es būtu atšķirīgs pieņēmumu. 295 00:14:37,640 --> 00:14:44,030 >> Tāpēc pieņēmums, ka mēs ejam ir, ka mākslinieks parasti dzied 296 00:14:44,030 --> 00:14:49,220 par tēmu vairākas reizes, un varbūt izmanto vārdus vairākas reizes tikai 297 00:14:49,220 --> 00:14:50,270 jo tie ir izmantoti, lai to. 298 00:14:50,270 --> 00:14:51,890 Jūs varat domāt par savu draugu. 299 00:14:51,890 --> 00:14:57,350 Es esmu pārliecināts, ka jums puiši visi ir draugi kas saka savu parakstu frāzi 300 00:14:57,350 --> 00:14:59,260 burtiski par katru teikumu - 301 00:14:59,260 --> 00:15:02,660 piemēram, kādu konkrētu vārdu vai dažiem īpašiem frāze, ka viņi saka, lai 302 00:15:02,660 --> 00:15:04,020 katru teikumu. 303 00:15:04,020 --> 00:15:07,920 >> Un ko jūs varat teikt, ka, ja jūs redzat teikums, kas ir paraksts 304 00:15:07,920 --> 00:15:11,450 frāze, jūs varat uzminēt, ka, iespējams, Jūsu draugs ir 305 00:15:11,450 --> 00:15:13,310 viens sakot, ka tas, vai ne? 306 00:15:13,310 --> 00:15:18,410 Tātad jums padarīt šo pieņēmumu, un pēc tam tas, kā jūs izveidot modeli. 307 00:15:18,410 --> 00:15:24,440 >> Piemēram, ka es esmu gatavojas sniegt, ir par kā Lady Gaga, piemēram, cilvēku 308 00:15:24,440 --> 00:15:27,430 saka, ka viņa izmanto "Baby", lai visi viņas numur viens dziesmas. 309 00:15:27,430 --> 00:15:32,270 Un faktiski tas ir video, kas rāda viņas pasakot vārdu "baby", lai 310 00:15:32,270 --> 00:15:33,410 dažādas dziesmas. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO PLAYBACK] 312 00:15:33,860 --> 00:15:34,310 >> - (Dzied) Baby. 313 00:15:34,310 --> 00:15:36,220 Baby. 314 00:15:36,220 --> 00:15:37,086 Baby. 315 00:15:37,086 --> 00:15:37,520 Baby. 316 00:15:37,520 --> 00:15:37,770 Baby. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Baby. 319 00:15:39,243 --> 00:15:40,085 Baby. 320 00:15:40,085 --> 00:15:40,510 Baby. 321 00:15:40,510 --> 00:15:40,850 Baby. 322 00:15:40,850 --> 00:15:41,090 >> [END Video atskaņošana- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Tātad tur ir, es domāju, 40 dziesmas šeit, kur viņa saka 324 00:15:44,020 --> 00:15:48,690 vārdu "baby". Tātad jūs varat būtībā uzminēt ka, ja jūs redzat kādu dziesmu, kurai ir 325 00:15:48,690 --> 00:15:52,180 vārdu "baby", tur ir dažas liels varbūtība, ka tā ir Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Bet pieņemsim mēģināt attīstīt šo vēl vairāk formāli. 327 00:15:56,450 --> 00:16:00,470 >> Tātad šie ir vārdi, lai dziesmas Lady Gaga un Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Tā paskatās Lady Gaga, jūs redzat tās ir daudz notikumu ar "bērnu" 329 00:16:04,120 --> 00:16:07,710 par gadījumiem, partija "veidā." Un tad Katy Perry ir daudz atkārtojumu 330 00:16:07,710 --> 00:16:10,360 "," Daudz gadījumiem, "uguns". 331 00:16:10,360 --> 00:16:14,560 >> Vārdu sakot, tas, ko mēs vēlamies, lai darīt, ir, jums lirisks. 332 00:16:14,560 --> 00:16:20,480 Pieņemsim, ka jums ir lirisks par dziesma, kas ir "bērns", tikai "baby". Ja 333 00:16:20,480 --> 00:16:24,750 Jums tikai iegūt vārdu "bērnu", un tas ir visi dati, kas jums ir no 334 00:16:24,750 --> 00:16:27,880 Lady Gaga un Katy Perry, kurš būtu jūs uzminēt ir cilvēks 335 00:16:27,880 --> 00:16:29,370 kas dzied dziesmu? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga un Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, vai ne? 338 00:16:33,150 --> 00:16:37,400 Jo viņa ir vienīgā, kas saka: "Baby". Tas izklausās muļķīgi, vai ne? 339 00:16:37,400 --> 00:16:38,760 OK, tas ir patiešām viegli. 340 00:16:38,760 --> 00:16:41,860 Es esmu tikai apskatot divas dziesmas un Protams, viņa ir vienīgā, kas ir 341 00:16:41,860 --> 00:16:42,660 "Baby". 342 00:16:42,660 --> 00:16:44,740 >> Bet ko tad, ja jums ir ķekars vārdu? 343 00:16:44,740 --> 00:16:50,900 Ja jums ir faktiskā lirisks, kaut piemēram, "baby, es tikko 344 00:16:50,900 --> 00:16:51,610 devās redzēt [? CFT?] 345 00:16:51,610 --> 00:16:54,020 lekcija "vai kaut kas tamlīdzīgs, un tad jums tiešām ir izdomāt - 346 00:16:54,020 --> 00:16:55,780 pamatojoties uz visiem šiem vārdiem - 347 00:16:55,780 --> 00:16:58,350 kurš ir mākslinieks, kurš, iespējams, dziedāja šo dziesmu? 348 00:16:58,350 --> 00:17:01,860 Tāpēc pieņemsim mēģināt attīstīt Tas mazliet tālāk. 349 00:17:01,860 --> 00:17:05,630 >> Labi, tā balstās tikai uz datiem, kas mums got, šķiet, ka Gaga ir iespējams 350 00:17:05,630 --> 00:17:06,260 dziedātājs. 351 00:17:06,260 --> 00:17:07,904 Bet kā mēs varam rakstīt tas vēl oficiāli? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Un tur būs maz Mazliet statistikas. 354 00:17:13,140 --> 00:17:15,880 Tātad, ja jūs pazust, tikai mēģināt lai izprastu jēdzienu. 355 00:17:15,880 --> 00:17:18,700 Tas nav svarīgi, ja jūs saprotat vienādojumi ļoti labi. 356 00:17:18,700 --> 00:17:22,150 Tas viss būs tiešsaistē. 357 00:17:22,150 --> 00:17:25,490 >> Vārdu sakot, tas, ko es esmu aprēķināšanai ir varbūtība, ka šī dziesma ir par 358 00:17:25,490 --> 00:17:28,040 Lady Gaga ņemot vērā, ka - 359 00:17:28,040 --> 00:17:30,660 tāpēc šī josla nozīmē, ņemot vērā, ka - 360 00:17:30,660 --> 00:17:33,680 Es redzēju vārdu "bērnu". Vai tas ir jēga? 361 00:17:33,680 --> 00:17:35,540 Tāpēc es cenšos, lai aprēķinātu ka varbūtība. 362 00:17:35,540 --> 00:17:38,540 >> Tātad ir šī teorēma sauc Bayes teorēmu, kas saka, ka 363 00:17:38,540 --> 00:17:43,330 varbūtība dota B, ir varbūtība B dota, reizes 364 00:17:43,330 --> 00:17:47,660 varbūtība, pār varbūtību B. Tas ir garš vienādojums. 365 00:17:47,660 --> 00:17:51,970 Bet to, kas jums ir jāsaprot, no tas ir, ka tas ir tas, ko es vēlos 366 00:17:51,970 --> 00:17:52,830 aprēķināt, vai ne? 367 00:17:52,830 --> 00:17:56,570 Tā varbūtība, ka šī dziesma ir par Lady Gaga ņemot vērā, ka es redzēju vārdu 368 00:17:56,570 --> 00:17:58,230 "Baby". 369 00:17:58,230 --> 00:18:02,960 >> Un tagad tas, ko es saņemu, ir varbūtība vārdu "baby", ņemot 370 00:18:02,960 --> 00:18:04,390 ka man ir Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Un kas ir tas būtībā? 372 00:18:07,220 --> 00:18:10,500 Ko tas nozīmē, kas ir varbūtība redzēt vārdu "baby" 373 00:18:10,500 --> 00:18:12,130 in Gaga dziesmu? 374 00:18:12,130 --> 00:18:16,240 Ja es gribu, lai aprēķinātu, ka ļoti Vienkāršs veids, tas ir tikai skaits 375 00:18:16,240 --> 00:18:23,640 reizes es redzu "Baby" pār kopskaita gada vārdu Gaga dziesmu, vai ne? 376 00:18:23,640 --> 00:18:27,600 Kas ir frekvence, ka es redzu ka vārds Gaga darbā? 377 00:18:27,600 --> 00:18:30,530 Jēga? 378 00:18:30,530 --> 00:18:33,420 >> Otrais termiņš ir varbūtība Gaga. 379 00:18:33,420 --> 00:18:34,360 Ko tas nozīmē? 380 00:18:34,360 --> 00:18:38,550 Tas būtībā nozīmē, kāda ir varbūtība klasificējot 381 00:18:38,550 --> 00:18:40,690 daži vārdi kā Gaga? 382 00:18:40,690 --> 00:18:45,320 Un tas ir sava veida dīvaini, bet pieņemsim domāt par piemēru. 383 00:18:45,320 --> 00:18:49,230 Tātad pieņemsim, ka varbūtība ar "baby" dziesmā ir tāds pats 384 00:18:49,230 --> 00:18:51,760 par Gaga un Britniju Spīrsu. 385 00:18:51,760 --> 00:18:54,950 Bet Britney Spears ir divreiz vairāk dziesmas par Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Tāpēc, ja kāds tikai nejauši dod jums dziesmu "baby", pirmā lieta, jums 387 00:19:00,570 --> 00:19:04,710 apskatīt ir, kāda ir varbūtība ar "Baby" ar Gaga dziesmu "baby" 388 00:19:04,710 --> 00:19:05,410 ar Britney dziesmu? 389 00:19:05,410 --> 00:19:06,460 Un tas pats. 390 00:19:06,460 --> 00:19:10,040 >> Tā otrā lieta, ka jūs redzēt, ir, labi, kāda ir varbūtība 391 00:19:10,040 --> 00:19:13,770 Tas lirisks pats to Gaga lyric, un kāda ir varbūtība 392 00:19:13,770 --> 00:19:15,380 ir Britney lirisks? 393 00:19:15,380 --> 00:19:18,950 Tāpēc, ka Britnija ir tik daudz vairāk dziesmu nekā Gaga, jūs, iespējams, 394 00:19:18,950 --> 00:19:21,470 teiksim, labi, tas ir iespējams Britney lirisks. 395 00:19:21,470 --> 00:19:23,340 Tātad, tas ir iemesls, kāpēc mums ir šī termins tieši šeit. 396 00:19:23,340 --> 00:19:24,670 Varbūtība Gaga. 397 00:19:24,670 --> 00:19:26,950 Jēga? 398 00:19:26,950 --> 00:19:28,660 Vai tā? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Un pēdējais ir tikai varbūtība par "bērnu", kas nav 401 00:19:33,500 --> 00:19:34,810 īsti jautājums, ka daudz. 402 00:19:34,810 --> 00:19:39,940 Bet tas ir varbūtība redzot "Baby" angļu valodā. 403 00:19:39,940 --> 00:19:42,725 Mēs parasti nav vienalga, ka daudz par šo terminu. 404 00:19:42,725 --> 00:19:44,490 Vai tas ir jēga? 405 00:19:44,490 --> 00:19:48,110 Tāpēc varbūtība Gaga ir sauc pirms varbūtība 406 00:19:48,110 --> 00:19:49,530 no klases Gaga. 407 00:19:49,530 --> 00:19:53,840 Jo tas tikai nozīmē, ka to, kas ir varbūtība, ka tā, ka klasē - 408 00:19:53,840 --> 00:19:55,520 kas ir Gaga - 409 00:19:55,520 --> 00:19:59,350 tikai vispār, tikko bez nosacījumiem. 410 00:19:59,350 --> 00:20:02,560 >> Un tad, kad man ir varbūtība Gaga dota "baby", mēs to saucam par plus 411 00:20:02,560 --> 00:20:06,160 Teary varbūtību, jo tas ir varbūtība, ka 412 00:20:06,160 --> 00:20:08,300 Gaga devušas pierādījumus. 413 00:20:08,300 --> 00:20:11,050 Tāpēc es esmu sniedzot jums pierādījumus ka es redzēju vārdu bērnu un 414 00:20:11,050 --> 00:20:12,690 dziesma jēga? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Tātad, ja es aprēķināts, ka par katru dziesmas par Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 kas tas varētu būt - 419 00:20:25,916 --> 00:20:27,730 acīmredzot, es nevaru pārvietot šo. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Gada Gaga varbūtība būs kaut ko līdzīgu, 2 ir lielāks par 24, times 1/2, 422 00:20:36,920 --> 00:20:38,260 vairāk 2 pāri 53. 423 00:20:38,260 --> 00:20:40,640 Tas nav svarīgi, ja jūs zināt, ko šie skaitļi, tiek saņemtas no. 424 00:20:40,640 --> 00:20:44,750 Bet tas ir tikai skaitlis, kas notiek ir vairāk nekā 0, vai ne? 425 00:20:44,750 --> 00:20:48,610 >> Un tad, kad man Katy Perry, varbūtība "Baby", ņemot vērā Katy ir 426 00:20:48,610 --> 00:20:49,830 jau 0, vai ne? 427 00:20:49,830 --> 00:20:52,820 Jo tur nav "baby" ar Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Tātad, tad tas kļūst 0, un Gaga uzvaras, kas nozīmē, ka Gaga ir 429 00:20:56,360 --> 00:20:57,310 iespējams dziedātājs. 430 00:20:57,310 --> 00:20:58,560 Vai tas ir jēga? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Tātad, ja es vēlos, lai padarītu šo amatpersonu, Es patiesībā var darīt modeli 435 00:21:11,750 --> 00:21:12,700 vairākiem vārdiem. 436 00:21:12,700 --> 00:21:14,610 Tātad pieņemsim, ka man ir kaut kas piemēram, "baby, es esmu 437 00:21:14,610 --> 00:21:16,030 uz uguns, "vai kaut ko. 438 00:21:16,030 --> 00:21:17,760 Tāpēc tas ir vairākus vārdus. 439 00:21:17,760 --> 00:21:20,880 Un šajā gadījumā, jūs varat redzēt ka "bērns" ir Gaga, 440 00:21:20,880 --> 00:21:21,710 bet tas nav Katy. 441 00:21:21,710 --> 00:21:24,940 Un "uguns" ir Katy, bet tas nav Gaga, vai ne? 442 00:21:24,940 --> 00:21:27,200 Tātad, tas kļūst trickier, vai ne? 443 00:21:27,200 --> 00:21:31,440 Jo šķiet, ka jūs gandrīz ir saikne starp diviem. 444 00:21:31,440 --> 00:21:36,980 >> Tātad, kas jums jādara, ir jāuzņemas neatkarība starp vārdiem. 445 00:21:36,980 --> 00:21:41,210 Vārdu sakot, ko tas nozīmē, ka Es esmu tikai aprēķināšanai, kas ir 446 00:21:41,210 --> 00:21:44,330 varbūtība redzēt "bērnu", kas ir varbūtība redzēt "I" un 447 00:21:44,330 --> 00:21:46,670 "Am", un "par" un "uguns," all atsevišķi. 448 00:21:46,670 --> 00:21:48,670 Tad es esmu reizinot tos visus. 449 00:21:48,670 --> 00:21:52,420 Un es esmu redzēt, kāda ir varbūtība redzēt visu teikumu. 450 00:21:52,420 --> 00:21:55,210 Jēga? 451 00:21:55,210 --> 00:22:00,270 >> Tātad, būtībā, ja man ir tikai viens vārds, ko es gribu, lai atrastu, ir arg max, 452 00:22:00,270 --> 00:22:05,385 kas nozīmē, kas ir klase, kas ir dod man vislielāko varbūtību? 453 00:22:05,385 --> 00:22:10,010 Tātad, kas ir klase, kas dod man augstākais varbūtība 454 00:22:10,010 --> 00:22:11,940 varbūtība klases dots vārds. 455 00:22:11,940 --> 00:22:17,610 Tātad šajā gadījumā, Gaga dota "bērnu." Vai Katy dota "bērnu." Jēga? 456 00:22:17,610 --> 00:22:21,040 >> Un tikai no Bayes, ka vienādojums, kas man parādīja, 457 00:22:21,040 --> 00:22:24,780 mēs radām šo frakciju. 458 00:22:24,780 --> 00:22:28,750 Vienīgais ir tas, ka jūs redzēt, ka Vārda varbūtība, ņemot 459 00:22:28,750 --> 00:22:31,370 klases mainās atkarībā no klases, vai ne? 460 00:22:31,370 --> 00:22:34,260 Par "bērnu" s, ka man ir vairāki jo Gaga ir atšķirīgs no Katy. 461 00:22:34,260 --> 00:22:37,640 No klases varbūtība arī izmaiņas, jo tas ir tikai skaitlis 462 00:22:37,640 --> 00:22:39,740 dziesmas katrai no tām ir. 463 00:22:39,740 --> 00:22:43,980 >> Bet varbūtība vārda together būs vienāda visiem 464 00:22:43,980 --> 00:22:44,740 mākslinieki, labi? 465 00:22:44,740 --> 00:22:47,150 Tāpēc varbūtība vārds ir tikai, kāda ir varbūtība 466 00:22:47,150 --> 00:22:49,820 redzot šo vārdu Angļu valodas? 467 00:22:49,820 --> 00:22:51,420 Tātad, tas ir pats par visiem no tiem. 468 00:22:51,420 --> 00:22:55,790 Tāpēc, ka tas ir nemainīgs, mēs varam tikai piliens šo un nav jārūpējas par to. 469 00:22:55,790 --> 00:23:00,230 Tāpēc tas būs patiešām mēs meklējam vienādojums. 470 00:23:00,230 --> 00:23:03,360 >> Un, ja man ir vairāki vārdi, es esmu vēl nāksies iepriekš 471 00:23:03,360 --> 00:23:04,610 varbūtība šeit. 472 00:23:04,610 --> 00:23:06,980 Vienīgais ir tas, ka es esmu reizinot varbūtība 473 00:23:06,980 --> 00:23:08,490 visiem citiem vārdiem. 474 00:23:08,490 --> 00:23:10,110 Tāpēc es esmu reizinot tos visus. 475 00:23:10,110 --> 00:23:12,610 Jēga? 476 00:23:12,610 --> 00:23:18,440 Tas izskatās dīvaini, bet būtībā nozīmē, aprēķināt iepriekš no klases, un 477 00:23:18,440 --> 00:23:22,100 reizinot ar varbūtību katras vārdus esot šajā klasē. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Un jūs zināt, ka varbūtība vārds dots klases būs 480 00:23:29,150 --> 00:23:34,520 vairākas reizes, jūs redzēsiet, ka vārdu ka klase, dalot ar skaitu 481 00:23:34,520 --> 00:23:37,020 vārdi jums ir, ka klasē kopumā. 482 00:23:37,020 --> 00:23:37,990 Jēga? 483 00:23:37,990 --> 00:23:41,680 Tas ir vienkārši, kā "baby" bija 2 pāri vārdu skaits, kas 484 00:23:41,680 --> 00:23:43,020 Man bija lyrics. 485 00:23:43,020 --> 00:23:45,130 Lai tikai frekvenci. 486 00:23:45,130 --> 00:23:46,260 >> Bet ir viena lieta. 487 00:23:46,260 --> 00:23:51,250 Atceros, kā es biju rāda, ka varbūtība "Baby" esot lyrics 488 00:23:51,250 --> 00:23:56,350 no Katy Perry bija 0 tikai tāpēc Katy Perry nebija "Baby" vispār? 489 00:23:56,350 --> 00:24:04,900 Bet tas izklausās nedaudz skarbi, lai tikai vienkārši teikt, ka vārdi nevar būt no 490 00:24:04,900 --> 00:24:10,040 mākslinieks tikai tāpēc, ka viņiem nav šis vārds īpaši jebkurā laikā. 491 00:24:10,040 --> 00:24:13,330 >> Lai jūs varētu vienkārši teikt, labi, ja jūs nav šo vārdu, es esmu gatavojas 492 00:24:13,330 --> 00:24:15,640 jums mazāku varbūtību, bet es esmu tikai nav gatavojas 493 00:24:15,640 --> 00:24:17,420 sniegt jums 0 uzreiz. 494 00:24:17,420 --> 00:24:21,040 Jo varbūt tas bija kaut kas līdzīgs, "Ugunsdrošības, ugunsdzēsības, uguns, uguns", kas ir 495 00:24:21,040 --> 00:24:21,990 pilnīgi Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Un tad "baby", un tas tikai iet, lai 0 uzreiz, jo tur bija viens 497 00:24:26,060 --> 00:24:27,250 "Baby". 498 00:24:27,250 --> 00:24:31,440 >> Vārdu sakot, tas, ko mēs darām, ir kaut kas sauc par Laplasa izlīdzināšanas. 499 00:24:31,440 --> 00:24:36,260 Un tas tikai nozīmē, ka es esmu, kas daži varbūtība pat vārdiem 500 00:24:36,260 --> 00:24:37,850 ka nav. 501 00:24:37,850 --> 00:24:43,170 Tātad, ko es daru, ir tas, ka tad, kad es esmu Aprēķinot to, es vienmēr pievienot 1 līdz 502 00:24:43,170 --> 00:24:44,180 skaitītājs. 503 00:24:44,180 --> 00:24:48,060 Tātad, pat tad, ja vārds neeksistē, jo Šajā gadījumā, ja tas ir 0, es esmu vēl 504 00:24:48,060 --> 00:24:51,250 aprēķinot to kā 1 pāri Kopējais vārdu skaits. 505 00:24:51,250 --> 00:24:55,060 Pretējā gadījumā, man, cik daudz vārdu Man ir un es pievienot 1. 506 00:24:55,060 --> 00:24:58,300 Tāpēc es esmu skaitīšanas abiem gadījumiem. 507 00:24:58,300 --> 00:25:00,430 Jēga? 508 00:25:00,430 --> 00:25:03,060 >> Tāpēc tagad pieņemsim darīt kādu kodēšanas. 509 00:25:03,060 --> 00:25:06,440 Es esmu nāksies darīt to diezgan ātri, bet tas ir tikai svarīgi, ka jums 510 00:25:06,440 --> 00:25:08,600 guys saprast jēdzienus. 511 00:25:08,600 --> 00:25:13,450 Tātad, ko mēs cenšamies darīt ir tieši īstenot šo 512 00:25:13,450 --> 00:25:14,330 lieta, ko es tikko teicu - 513 00:25:14,330 --> 00:25:19,110 Es gribu, lai jūs nodot dziesmas no Lady Gaga un Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Un programma būs spējīgs teikt, ja šie jaunie vārdi ir no Gaga 515 00:25:22,980 --> 00:25:24,170 vai Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Jēga? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Tāpēc man ir šī programma, es esmu gatavojas zvanīt classify.py. 519 00:25:30,710 --> 00:25:31,970 Tāpēc tas ir Python. 520 00:25:31,970 --> 00:25:34,210 Tā ir jauna programmēšanas valoda. 521 00:25:34,210 --> 00:25:38,020 Tas ir ļoti līdzīgs dažās veidi, C un PHP. 522 00:25:38,020 --> 00:25:43,180 Tas ir līdzīgi, jo, ja jūs vēlaties, lai mācīties Python pēc tam, zinot C, tas ir 523 00:25:43,180 --> 00:25:46,270 tiešām nav tik daudz problēmu tikai tāpēc, ka Python ir daudz vieglāk 524 00:25:46,270 --> 00:25:47,520 nekā C, vispirms. 525 00:25:47,520 --> 00:25:49,370 Un daudzas lietas jau ir īstenoti jums. 526 00:25:49,370 --> 00:25:56,820 Tik vienkārši, kā, piemēram, PHP ir funkcijas, kas kārtotu sarakstu, vai pievienot kaut ko 527 00:25:56,820 --> 00:25:58,780 masīva, vai blah, blah, blah. 528 00:25:58,780 --> 00:26:00,690 Python ir visas tās, kā arī. 529 00:26:00,690 --> 00:26:05,960 >> Tāpēc es esmu tikai gatavojas izskaidrot ātri kā mēs varētu darīt klasifikāciju 530 00:26:05,960 --> 00:26:07,860 problēma šeit. 531 00:26:07,860 --> 00:26:13,230 Tātad pieņemsim, ka šajā gadījumā, man ir lyrics no Gaga un Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Veidā, ka man ir tie lyrics ir tas, ka Pirmais vārds lyrics ir 533 00:26:21,880 --> 00:26:25,250 mākslinieka vārdu, un pārējais ir dzeja. 534 00:26:25,250 --> 00:26:29,470 Tātad pieņemsim, ka man ir šī sarakstu kurā pirmais ir lyrics by Gaga. 535 00:26:29,470 --> 00:26:31,930 Tātad, šeit es esmu uz pareizā ceļa. 536 00:26:31,930 --> 00:26:35,270 Un nākamais ir Katy, un tas ir arī dziesmu tekstus. 537 00:26:35,270 --> 00:26:38,040 >> Tātad, tas ir, kā jūs deklarēt mainīgais Python. 538 00:26:38,040 --> 00:26:40,200 Jums nav, lai dotu datu tipu. 539 00:26:40,200 --> 00:26:43,150 Jūs vienkārši uzrakstīt "Lyrics" veida, piemēram, PHP. 540 00:26:43,150 --> 00:26:44,890 Jēga? 541 00:26:44,890 --> 00:26:47,770 >> Tātad, kādi ir lietas, kas man ir aprēķināšanai, lai varētu aprēķināt 542 00:26:47,770 --> 00:26:49,360 varbūtības? 543 00:26:49,360 --> 00:26:55,110 Man ir, lai aprēķinātu "Priors" katra atšķiras 544 00:26:55,110 --> 00:26:56,710 klases, kas man ir. 545 00:26:56,710 --> 00:27:06,680 Man ir, lai aprēķinātu "aposteriorie," vai diezgan daudz varbūtības 546 00:27:06,680 --> 00:27:12,150 katrs no dažādiem vārdiem, kas Es varu būt katram māksliniekam. 547 00:27:12,150 --> 00:27:17,210 Tātad laikā Gaga, piemēram, es esmu gatavojas ir saraksts par to, cik reizes es redzu 548 00:27:17,210 --> 00:27:19,250 katrs no vārdiem. 549 00:27:19,250 --> 00:27:20,760 Jēga? 550 00:27:20,760 --> 00:27:25,370 >> Un visbeidzot, es esmu tikai nāksies sarakstu, ko sauc par "vārdi", kas ir tikai gatavojas 551 00:27:25,370 --> 00:27:29,780 ir, cik daudz vārdu es ir katram māksliniekam. 552 00:27:29,780 --> 00:27:33,760 Tātad Gaga, piemēram, kad es izskatās ar dziesmu, man bija, es domāju, ka 24 553 00:27:33,760 --> 00:27:34,750 vārdus kopā. 554 00:27:34,750 --> 00:27:38,970 Tāpēc šis saraksts ir tikai nāksies Gaga 24, un Katy citu numuru. 555 00:27:38,970 --> 00:27:40,130 Jēga? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Tāpēc tagad, faktiski, pieņemsim iet uz kodēšanu. 558 00:27:42,530 --> 00:27:45,270 Tātad Python, jūs faktiski var atpakaļ ķekars dažādās 559 00:27:45,270 --> 00:27:46,630 lietas no funkciju. 560 00:27:46,630 --> 00:27:50,810 Tāpēc es esmu gatavojas, lai radītu šo funkciju sauc par "nosacījumu", kas notiek 561 00:27:50,810 --> 00:27:53,890 atdotu visu no šīm lietām, "priors," par "varbūtības", un 562 00:27:53,890 --> 00:28:05,690 "vārdiem." Tātad "nosacījuma", un tas ir būs zvanot uz "dziesmu." 563 00:28:05,690 --> 00:28:11,510 >> Tāpēc tagad es gribu, lai jūs faktiski rakstīt šo funkciju. 564 00:28:11,510 --> 00:28:17,750 Tāpēc, ka es varu rakstīt šo funkcija ir es tikko noteikts šīs 565 00:28:17,750 --> 00:28:20,620 darboties ar "def". Tāpēc es darīju "def nosacīta, "un tas ir ņemot 566 00:28:20,620 --> 00:28:28,700 "Lyrics". Un ko tas gatavojas darīt ir, pirmkārt, man ir mana priors 567 00:28:28,700 --> 00:28:31,030 ka es gribu, lai aprēķinātu. 568 00:28:31,030 --> 00:28:34,330 >> Tāpēc, ka es varu darīt, ir izveidot vārdnīca Python, kurā 569 00:28:34,330 --> 00:28:37,320 ir diezgan daudz pats kā hash galda, vai tas ir kā iteratīvs 570 00:28:37,320 --> 00:28:40,480 masīvs PHP. 571 00:28:40,480 --> 00:28:44,150 Tas ir, kā es apliecinu vārdnīcu. 572 00:28:44,150 --> 00:28:53,580 Un būtībā, ko tas nozīmē, ka priors of Gaga ir 0,5, piemēram, ja 573 00:28:53,580 --> 00:28:57,200 50% no lyrics ir no Gaga, 50% ir no Katy. 574 00:28:57,200 --> 00:28:58,450 Jēga? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Tāpēc man ir izdomāt, kā lai aprēķinātu Priors. 577 00:29:03,680 --> 00:29:07,120 >> Nākamie, kas man ir jādara, arī, ir varbūtības un vārdi. 578 00:29:07,120 --> 00:29:17,100 Tāpēc varbūtības Gaga ir saraksts visu varbūtību, ka es 579 00:29:17,100 --> 00:29:19,160 ir katrā no vārdiem Gaga. 580 00:29:19,160 --> 00:29:23,880 Tātad, ja es eju uz varbūtībām Gaga "Baby", piemēram, tas būs man 581 00:29:23,880 --> 00:29:28,750 kaut kā 2 pāri 24 šajā lietā. 582 00:29:28,750 --> 00:29:30,070 Jēga? 583 00:29:30,070 --> 00:29:36,120 Tad es eju uz "varbūtības", pāriet uz "Gaga" bucket, kas ir saraksts ar visiem 584 00:29:36,120 --> 00:29:40,550 tad Gaga vārdi, tad es eju uz "bērnu," un es redzu varbūtību. 585 00:29:40,550 --> 00:29:45,940 >> Un, visbeidzot, man ir tas "Vārdus" vārdnīcu. 586 00:29:45,940 --> 00:29:53,620 Tātad, šeit, "varbūtības". Un tad "vārdiem." Tātad, ja man "vārdus", "Gaga," 587 00:29:53,620 --> 00:29:58,330 kas notiek varētu notikt, ir, ka tas ir gatavojas sniegt man 24, sakot, ka es 588 00:29:58,330 --> 00:30:01,990 ir 24 vārdi, kas dziesmu no Gaga. 589 00:30:01,990 --> 00:30:04,110 Jēga? 590 00:30:04,110 --> 00:30:07,070 Tātad šeit, "vārdi" ir vienāds Dah-Dah-DAH. 591 00:30:07,070 --> 00:30:07,620 Labi 592 00:30:07,620 --> 00:30:12,210 >> Tātad, ko es esmu gatavojas darīt, ir es esmu gatavojas pārietu pār katru no lyrics, lai 593 00:30:12,210 --> 00:30:14,490 katrs no virknes, kas Man sarakstā. 594 00:30:14,490 --> 00:30:18,040 Un es esmu gatavojas, lai aprēķinātu tās lietas attiecībā uz katru no kandidātu. 595 00:30:18,040 --> 00:30:19,950 Jēga? 596 00:30:19,950 --> 00:30:21,700 Tāpēc man ir jādara, lai cilpu. 597 00:30:21,700 --> 00:30:26,300 >> Tātad, Python, ko es varu darīt, ir "uz līnijas ar vārdiem. "to pašu, 598 00:30:26,300 --> 00:30:28,000 "Katram" paziņojumu PHP. 599 00:30:28,000 --> 00:30:33,420 Atceros, kā tad, ja tas ir PHP varēju saka "par katru dziesmu, kā 600 00:30:33,420 --> 00:30:35,220 line. "Ir jēga? 601 00:30:35,220 --> 00:30:38,900 Tāpēc es ka katru no līnijām, šajā gadījumā šo stīgu un nākamais 602 00:30:38,900 --> 00:30:44,540 string, lai katram no līnijas, ko es gatavojas darīt, ir, pirmkārt, es esmu gatavojas 603 00:30:44,540 --> 00:30:49,150 sadalīt šo līniju uz sarakstu vārdi atdalīti ar atstarpēm. 604 00:30:49,150 --> 00:30:53,730 >> Tik cool lieta par Python ir tas, ka jūs varētu tikai Google, piemēram, "Kā es varu 605 00:30:53,730 --> 00:30:58,220 sadalīt virkni vārdos? ", Un tas ir dodas uz jums pastāstīt, kā to izdarīt. 606 00:30:58,220 --> 00:31:04,890 Un veids, kā to darīt, tas ir tikai "līnija = Line.split () ", un tas ir pamatā 607 00:31:04,890 --> 00:31:08,640 gatavojas sniegt jums sarakstu ar katrs no vārdiem šeit. 608 00:31:08,640 --> 00:31:09,620 Jēga? 609 00:31:09,620 --> 00:31:15,870 Tāpēc tagad, ka man bija, ka es gribu zināt kas ir dziedātāja šī dziesma. 610 00:31:15,870 --> 00:31:20,130 Un to, ka man vienkārši ir, lai saņemtu masīva pirmais elements, vai ne? 611 00:31:20,130 --> 00:31:26,390 Tāpēc es varu tikai teikt, ka es "dziedātājs = Līnija (0) "Ir jēga? 612 00:31:26,390 --> 00:31:32,010 >> Un tad to, kas man ir nepieciešams darīt, ir, pirmkārt, viss, es esmu gatavojas atjaunināt cik 613 00:31:32,010 --> 00:31:36,130 vārdi man ir zem "Gaga". tāpēc es esmu tikai gatavojas, lai aprēķinātu, cik daudz vārdu es 614 00:31:36,130 --> 00:31:38,690 ir šajā sarakstā, vai ne? 615 00:31:38,690 --> 00:31:41,910 Jo tas ir, cik daudz vārdi man ir in lyrics, un es esmu tikai gatavojas 616 00:31:41,910 --> 00:31:44,120 pievienojiet to "Gaga" masīvs. 617 00:31:44,120 --> 00:31:47,090 Vai tas ir jēga? 618 00:31:47,090 --> 00:31:49,010 Nelietojiet koncentrēties pārāk daudz par sintaksi. 619 00:31:49,010 --> 00:31:50,430 Vairāk domā par jēdzieniem. 620 00:31:50,430 --> 00:31:52,400 Tas ir ļoti svarīga daļa. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Tātad, ko es varu darīt, ir, ja "gaga" ir jau šajā sarakstā, tāpēc "ja dziedātājs 623 00:32:00,260 --> 00:32:03,190 vārdus "kas nozīmē, ka es jau ir vārdi, ko Gaga. 624 00:32:03,190 --> 00:32:06,640 Es tikai vēlos, lai pievienotu papildu vārdi, ka. 625 00:32:06,640 --> 00:32:15,810 Tātad, ko es daru, ir "vārdi (dziedātāja) + = Len (līnija) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Un tad es varu tikai darīt garuma līniju. 627 00:32:18,250 --> 00:32:21,860 Tā kā daudzi elementi I ir masīvā. 628 00:32:21,860 --> 00:32:27,060 Un man ir jādara, mīnus 1 tikai tāpēc, ka masīva pirmais elements ir tikai 629 00:32:27,060 --> 00:32:29,180 dziedātājs un tie nav lyrics. 630 00:32:29,180 --> 00:32:31,420 Jēga? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Else", tas nozīmē, ka es vēlos, lai faktiski ievietot Gaga šajā sarakstā. 633 00:32:35,820 --> 00:32:45,990 Tāpēc es vienkārši darīt "vārdi (dziedātāja) = Len (līnija) - 1, "sorry. 634 00:32:45,990 --> 00:32:49,200 Tātad vienīgā atšķirība starp diviem pozīcijas ir tāda, ka tas viens, tā nav 635 00:32:49,200 --> 00:32:51,080 pastāv vēl, tāpēc es esmu tikai inicializēšana to. 636 00:32:51,080 --> 00:32:53,820 Šis viens es esmu faktiski pievienojot. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Tātad tas bija pievienojot vārdus. 639 00:32:59,480 --> 00:33:03,040 >> Tagad es vēlos, lai vairotu Priors. 640 00:33:03,040 --> 00:33:05,480 Tātad, kā es varu aprēķināt priors? 641 00:33:05,480 --> 00:33:11,580 Šā priors var aprēķināt cik daudz reižu. 642 00:33:11,580 --> 00:33:15,340 Tik, cik reizes jūs redzēsiet, ka dziedātāja starp visiem dziedātājiem, kas jums 643 00:33:15,340 --> 00:33:16,380 ir, vai ne? 644 00:33:16,380 --> 00:33:18,810 Tātad Gaga un Katy Perry, Šajā gadījumā, es redzu Gaga 645 00:33:18,810 --> 00:33:20,570 reizi, Katy Perry vienu reizi. 646 00:33:20,570 --> 00:33:23,320 >> Vārdu sakot, priors par Gaga un Katy Perry būtu 647 00:33:23,320 --> 00:33:24,390 tikai viens, vai ne? 648 00:33:24,390 --> 00:33:26,500 Jūs vienkārši, cik reizes Es redzu, ka mākslinieks. 649 00:33:26,500 --> 00:33:28,740 Tāpēc tas ir ļoti viegli aprēķināt. 650 00:33:28,740 --> 00:33:34,100 Es varu tikai kaut kas līdzīgs, kā, piemēram, "ja dziedātājs priors, "es esmu tikai gatavojas 651 00:33:34,100 --> 00:33:38,970 pievienot 1 to lodziņā Priors. 652 00:33:38,970 --> 00:33:51,000 Tātad, "priors (dziedāt)" + = 1 "un tad" cits " Es esmu gatavojas darīt "Priors (dziedātāja) 653 00:33:51,000 --> 00:33:55,000 = 1. "Ir jēga? 654 00:33:55,000 --> 00:34:00,080 >> Tātad, ja tas neeksistē es tikai izvirzīti kā 1, citādi es vienkārši pievienojiet 1. 655 00:34:00,080 --> 00:34:11,280 Labi, tāpēc tagad viss, kas man ir pa kreisi, lai darīt arī pievienot katru no vārdiem 656 00:34:11,280 --> 00:34:12,290 varbūtības. 657 00:34:12,290 --> 00:34:14,889 Tāpēc man ir, lai saskaitītu, cik reižu Es redzu katru no vārdiem. 658 00:34:14,889 --> 00:34:18,780 Tāpēc es vienkārši ir jādara citā cilpa rindā. 659 00:34:18,780 --> 00:34:25,190 >> Tātad pirmā lieta, ko es esmu gatavojas darīt, ir pārbaudiet, vai dziedātājs jau ir 660 00:34:25,190 --> 00:34:26,969 varbūtības masīvs. 661 00:34:26,969 --> 00:34:31,739 Tāpēc es esmu pārbaudīt, ja dziedātājs nav ir varbūtības masīvs, es esmu tikai 662 00:34:31,739 --> 00:34:34,480 gatavojas, lai sāktu vienu viņiem. 663 00:34:34,480 --> 00:34:36,400 Tas pat nav masīvs, piedodiet, tas ir vārdnīca. 664 00:34:36,400 --> 00:34:43,080 Tāpēc varbūtības dziedātāja gatavojas būs atvērta vārdnīca, tāpēc es esmu 665 00:34:43,080 --> 00:34:45,830 tikai inicializēšana vārdnīcu par to. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Un tagad es tiešām varu darīt, lai cilpu lai aprēķinātu katrai no vārdiem ' 668 00:34:58,330 --> 00:35:00,604 varbūtības. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Tātad, ko es varu darīt, ir, lai cilpu. 671 00:35:04,160 --> 00:35:06,590 Tāpēc es esmu tikai gatavojas atkārtot pa masīva. 672 00:35:06,590 --> 00:35:15,320 Tāpēc, ka es varu darīt, ka Python ir "par i diapazonā." No 1 673 00:35:15,320 --> 00:35:19,200 jo es gribu sākt otrajā elements, jo pirmā ir 674 00:35:19,200 --> 00:35:20,260 dziedātājs nosaukums. 675 00:35:20,260 --> 00:35:24,990 Tātad, no viena līdz garuma līniju. 676 00:35:24,990 --> 00:35:29,760 Un, kad es svārstās tas tiešām iet no piemēram, šeit no 1 līdz Len no 677 00:35:29,760 --> 00:35:30,740 line mīnus 1. 678 00:35:30,740 --> 00:35:33,810 Tāpēc tas jau ir tas, ka lieta, kas dara n mīnus 1 uz blokiem, kas ir ļoti 679 00:35:33,810 --> 00:35:35,500 ērti. 680 00:35:35,500 --> 00:35:37,850 Jēga? 681 00:35:37,850 --> 00:35:42,770 >> Tāpēc katrai no tām, ko es esmu gatavojas do ir, tāpat kā otra, 682 00:35:42,770 --> 00:35:50,320 Es esmu gatavojas, lai pārbaudītu, vai vārds šajā pozīciju rindā jau 683 00:35:50,320 --> 00:35:51,570 varbūtības. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Un tad kā es šeit teicu, varbūtības vārdi, tāpat kā man 686 00:35:57,260 --> 00:35:58,400 "varbūtības (dziedātājs)". 687 00:35:58,400 --> 00:35:59,390 Tā nosaukums dziedātājs. 688 00:35:59,390 --> 00:36:03,450 Tātad, ja tas jau ir "Probabilit (dziedātāja)", tas nozīmē, ka es 689 00:36:03,450 --> 00:36:11,960 vēlaties pievienot 1 to, tāpēc es esmu gatavojas do "varbūtības (dziedātājs)" un 690 00:36:11,960 --> 00:36:14,100 vārdu sauc par "line (i)". 691 00:36:14,100 --> 00:36:22,630 Es esmu gatavojas pievienot 1 un "cits" Es esmu tikai gatavojas, lai sāktu to 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Jēga? 695 00:36:28,420 --> 00:36:30,180 >> Tātad, es calculated visas masīvi. 696 00:36:30,180 --> 00:36:36,580 Tātad, tagad viss, kas man ir jādara, lai tas viens ir tikai "atgriešanās priors, 697 00:36:36,580 --> 00:36:43,230 varbūtības un vārdiem. "Let ' redzēt, ja tādi ir, OK. 698 00:36:43,230 --> 00:36:45,690 Šķiet, ka viss strādā līdz šim. 699 00:36:45,690 --> 00:36:46,900 Tātad, tas ir jēga? 700 00:36:46,900 --> 00:36:47,750 Kaut kādā veidā? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Tāpēc tagad man ir visas varbūtības. 703 00:36:51,980 --> 00:36:55,100 Tāpēc tagad vienīgā lieta, ko es esmu pa kreisi ir tikai, lai ir, ka lieta, ka 704 00:36:55,100 --> 00:36:58,650 aprēķina ierīci visu varbūtības, kad man dziesmu. 705 00:36:58,650 --> 00:37:06,270 >> Tātad pieņemsim, ka es vēlos, lai tagad zvanīt šī funkcija "klasificētu ()" un 706 00:37:06,270 --> 00:37:08,880 lieta, ka funkcija tiek ir tikai arguments. 707 00:37:08,880 --> 00:37:13,170 Teiksim "Baby, es esmu par uguns", un tas ir gatavojas, lai noskaidrotu, kāda ir 708 00:37:13,170 --> 00:37:14,490 varbūtība, ka tas ir Gaga? 709 00:37:14,490 --> 00:37:16,405 Kāda ir varbūtība ka tas ir Katie? 710 00:37:16,405 --> 00:37:19,690 Izklausās labi? 711 00:37:19,690 --> 00:37:25,750 Tāpēc es esmu tikai nāksies izveidot jauna funkcija sauc par "klasificētu ()" un 712 00:37:25,750 --> 00:37:29,180 tas ir gatavojas veikt kādu lyrics, kā arī. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Un papildus dziesmu es arī ir jānosūta priors, 715 00:37:36,160 --> 00:37:37,700 varbūtības un vārdi. 716 00:37:37,700 --> 00:37:44,000 Tāpēc es esmu gatavojas nosūtīt lyrics, Priors, varbūtības, vārdus. 717 00:37:44,000 --> 00:37:51,840 >> Tāpēc tas ir ņemot lyrics, Priors, varbūtības, vārdus. 718 00:37:51,840 --> 00:37:53,530 Tātad, ko tas dara? 719 00:37:53,530 --> 00:37:57,180 Tā būtībā ir gatavojas iet cauri visiem iespējamie kandidāti, kas jums 720 00:37:57,180 --> 00:37:58,510 ir kā dziedātājs. 721 00:37:58,510 --> 00:37:59,425 Un kur ir tie kandidāti? 722 00:37:59,425 --> 00:38:01,020 Viņi ir priors, vai ne? 723 00:38:01,020 --> 00:38:02,710 Tāpēc man ir visi no tiem tur. 724 00:38:02,710 --> 00:38:07,870 Tāpēc es esmu nāksies vārdnīca no visiem iespējamajiem kandidātiem. 725 00:38:07,870 --> 00:38:14,220 Un tad katram kandidātam priors, tāpēc tas nozīmē, ka tas būs 726 00:38:14,220 --> 00:38:17,740 būt Gaga, Keitija, ja man bija more tas būtu. 727 00:38:17,740 --> 00:38:20,410 Es esmu gatavojas sākt aprēķināšanai šī varbūtība. 728 00:38:20,410 --> 00:38:28,310 Kā mēs redzējām varbūtība PowerPoint ir iepriekšējās reizes 729 00:38:28,310 --> 00:38:30,800 Produkts katra citas varbūtības. 730 00:38:30,800 --> 00:38:32,520 >> Lai es varētu darīt pats šeit. 731 00:38:32,520 --> 00:38:36,330 Es varu tikai darīt varbūtība ir Sākotnēji tieši pirms. 732 00:38:36,330 --> 00:38:40,340 Tātad priors par kandidātu. 733 00:38:40,340 --> 00:38:40,870 Tiesības? 734 00:38:40,870 --> 00:38:45,360 Un tagad man ir atkārtot visā vārdi, kas man ir, lyrics, lai būtu 735 00:38:45,360 --> 00:38:48,820 var pievienot varbūtību attiecībā uz katru no tiem, OK? 736 00:38:48,820 --> 00:38:57,900 Tātad, "par vārdu dziesmu", ko es esmu gatavojas to darīt, ir, ja vārds ir 737 00:38:57,900 --> 00:39:01,640 "varbūtības (kandidāts)", kas nozīmē, ka tas ir vārds, kas 738 00:39:01,640 --> 00:39:03,640 Kandidātam ir viņu dziesmu - 739 00:39:03,640 --> 00:39:05,940 Piemēram, "baby" par Gaga - 740 00:39:05,940 --> 00:39:11,710 ko es esmu gatavojas darīt, ir, ka varbūtība būs jāreizina 741 00:39:11,710 --> 00:39:22,420 līdz 1 plus varbūtībām kandidāts šo vārdu. 742 00:39:22,420 --> 00:39:25,710 Un to sauc "vārds". 743 00:39:25,710 --> 00:39:32,440 Tas dalot ar vairākiem vārdiem ka man ir par šo kandidātu. 744 00:39:32,440 --> 00:39:37,450 Kopējais skaits vārdiem, kas man ir par dziedātāju, ka es esmu meklē. 745 00:39:37,450 --> 00:39:40,290 >> "Else". tas nozīmē, ka tas ir jauns vārds tāpēc tas lūdzu būt, piemēram, piemēram, 746 00:39:40,290 --> 00:39:41,860 "Uguns" Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Tāpēc es vienkārši gribu darīt 1 vairāk "Vārdu (kandidāts)". 748 00:39:45,760 --> 00:39:47,710 Tāpēc es nevēlos, lai šo termiņu šeit. 749 00:39:47,710 --> 00:39:50,010 >> Tātad tas būs pamatā kopēt un ielīmēt to. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Bet es esmu gatavojas dzēst šo daļu. 752 00:39:56,000 --> 00:39:57,610 Tāpēc tas ir tikai būs 1 pār to. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Izklausās labi? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Un tagad beigās, es esmu tikai gatavojas drukāt kandidāta vārdu un 757 00:40:09,700 --> 00:40:15,750 varbūtība, ka jums ir par kam S uz to vārdiem. 758 00:40:15,750 --> 00:40:16,200 Jēga? 759 00:40:16,200 --> 00:40:18,390 Un es tiešām nav pat vajag šo vārdnīcu. 760 00:40:18,390 --> 00:40:19,510 Jēga? 761 00:40:19,510 --> 00:40:21,810 >> Tātad, pieņemsim redzēt, ja tas tiešām darbojas. 762 00:40:21,810 --> 00:40:24,880 Tātad, ja es palaist, tas nestrādāja. 763 00:40:24,880 --> 00:40:26,130 Pagaidiet vienu sekundi. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Vārdi (kandidāts)", "vārdus (kandidāts)", tas ir 766 00:40:31,720 --> 00:40:33,750 nosaukums masīva. 767 00:40:33,750 --> 00:40:41,435 OK Tātad, tas saka, ka ir dažas bug par kandidāta Priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Ļaujiet man tikai chill mazliet. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Pamēģināsim. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Tāpēc tas dod Katy Perry ir šis varbūtība, ka šī reizes 10 līdz 774 00:40:58,710 --> 00:41:02,200 mīnus 7, un Gaga ir tas reizes 10 līdz mīnus 6. 775 00:41:02,200 --> 00:41:05,610 Tātad jūs redzat, tas liecina, ka Gaga ir lielāka varbūtība. 776 00:41:05,610 --> 00:41:09,260 Tātad "Baby, es esmu on Fire" ir iespējams Gaga dziesmu. 777 00:41:09,260 --> 00:41:10,580 Jēga? 778 00:41:10,580 --> 00:41:12,030 Tātad šis ir tas, ko mēs darījām. 779 00:41:12,030 --> 00:41:16,010 >> Šis kods tiks publicēta internetā, Tātad jūs guys var to pārbaudīt out. 780 00:41:16,010 --> 00:41:20,720 Varbūt izmantot dažas no tā, ja jūs vēlaties, lai darīt projekts vai kaut kas līdzīgs. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Tas bija tikai, lai parādītu kādi skaitļošanas 783 00:41:25,930 --> 00:41:27,230 lingvistika kods izskatās. 784 00:41:27,230 --> 00:41:33,040 Bet tagad iesim uz vairāk augsta līmeņa sīkumi. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Tāpēc citas problēmas I runāja par - 787 00:41:35,150 --> 00:41:37,550 segmentācijas problēma ir pirmais no tiem. 788 00:41:37,550 --> 00:41:40,820 Tātad jums ir šeit japāņu. 789 00:41:40,820 --> 00:41:43,420 Un tad jūs redzēsiet, ka nav vietas. 790 00:41:43,420 --> 00:41:49,110 Tāpēc tas būtībā nozīmē, ka tā ir top no krēsla, vai ne? 791 00:41:49,110 --> 00:41:50,550 Tu runā japāņu? 792 00:41:50,550 --> 00:41:52,840 Tā ir top no krēsla, vai ne? 793 00:41:52,840 --> 00:41:54,480 >> STUDENTU: Es nezinu, ko Kanji tur ir. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: Tas [RUNĀJOŠĀ japāņu] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Tātad, tas būtībā nozīmē vadībā top. 797 00:42:00,960 --> 00:42:03,620 Tātad, ja jums bija, lai telpu tas būtu šeit. 798 00:42:03,620 --> 00:42:05,970 Un tad jums ir [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Kas būtībā nozīmē, Mr Ueda. 800 00:42:09,040 --> 00:42:13,180 Un jūs redzēsiet, ka "Ueda", un jums ir telpu un tad "san." Tātad jūs redzat, ka 801 00:42:13,180 --> 00:42:15,470 Šeit jūs "UE" ir kā pati par sevi. 802 00:42:15,470 --> 00:42:17,750 Un šeit tas ir raksturs tai blakus. 803 00:42:17,750 --> 00:42:21,720 >> Tāpēc tas nav, piemēram, šajās valodās rakstzīmes nozīmē vārdu tā, lai jūs 804 00:42:21,720 --> 00:42:23,980 vienkārši ielieciet daudz telpu. 805 00:42:23,980 --> 00:42:25,500 Rakstzīmes ir saistīti viens ar otru. 806 00:42:25,500 --> 00:42:28,680 , Un tie var būt kopā , piemēram, divas, trīs, vienu. 807 00:42:28,680 --> 00:42:34,520 Tātad jums tiešām ir izveidot sava veida no veidiem, kā liekot uz šīm telpām. 808 00:42:34,520 --> 00:42:38,850 >> Un tas ir tas, ka, ja jums dati no šīm Āzijas valodām, 809 00:42:38,850 --> 00:42:40,580 viss nāk unsegmented. 810 00:42:40,580 --> 00:42:45,940 Tāpēc, ka neviens, kas raksta japāņu vai ķīniešu raksta ar atstarpēm. 811 00:42:45,940 --> 00:42:48,200 Ikreiz, kad jūs esat rakstiski ķīniešu, Japāņu jūs vienkārši rakstīt visu 812 00:42:48,200 --> 00:42:48,710 bez atstarpēm. 813 00:42:48,710 --> 00:42:52,060 Tas pat nav jēgas likt atstarpes. 814 00:42:52,060 --> 00:42:57,960 Tātad, ja jums iegūt datus no dažas Austrumāzijas valodu, ja vēlaties 815 00:42:57,960 --> 00:43:00,760 faktiski darīt kaut ko ar to Jums segmentā pirmās. 816 00:43:00,760 --> 00:43:05,130 >> Domā darīt piemēru lyrics bez atstarpēm. 817 00:43:05,130 --> 00:43:07,950 Tāpēc vienīgais dziesmu, kas jums ir būs teikumus, vai ne? 818 00:43:07,950 --> 00:43:09,470 Atdalīti ar periodiem. 819 00:43:09,470 --> 00:43:13,930 Bet tad ar tikai sodu būs nav īsti palīdzēt, par to informāciju 820 00:43:13,930 --> 00:43:17,760 par to, kas šie vārdi ir līdz. 821 00:43:17,760 --> 00:43:18,120 Tiesības? 822 00:43:18,120 --> 00:43:20,010 Tātad, jums vajadzētu liek atstarpes pirmās. 823 00:43:20,010 --> 00:43:21,990 Tātad, kā jūs varat darīt? 824 00:43:21,990 --> 00:43:24,920 >> Tātad nāk ideja par valodu modelis, kas ir kaut kas patiešām 825 00:43:24,920 --> 00:43:26,870 svarīgi skaitļošanas lingvistika. 826 00:43:26,870 --> 00:43:32,790 Tāpēc valodas modelis pamatā tabula varbūtību, ka izrādes 827 00:43:32,790 --> 00:43:36,260 pirmkārt, kāda ir varbūtība , kam vārdu valodā? 828 00:43:36,260 --> 00:43:39,590 Tātad, kas parāda, cik bieži vārds ir. 829 00:43:39,590 --> 00:43:43,130 Un tad arī parāda attiecības starp vārdiem teikumā. 830 00:43:43,130 --> 00:43:51,500 >> Tā galvenā ideja ir, ja svešinieks atnāca jums un teica teikumu 831 00:43:51,500 --> 00:43:55,600 Jums, kāda ir varbūtība, ka, Piemēram, "šī ir mana māsa [GTF?"?] 832 00:43:55,600 --> 00:43:57,480 bija teikums, ka persona teica? 833 00:43:57,480 --> 00:44:00,380 Tātad, protams, daži teikumi ir biežāk nekā citi. 834 00:44:00,380 --> 00:44:04,450 Piemēram, "Labrīt" vai "labs nakts "vai" hey tur, "ir daudz 835 00:44:04,450 --> 00:44:08,260 biežāk, nekā lielākā daļa sodu ka mums ir angļu valodā. 836 00:44:08,260 --> 00:44:11,060 Tātad, kāpēc šie teikumi biežāk? 837 00:44:11,060 --> 00:44:14,060 >> Pirmkārt, tas ir tāpēc, ka jums ir vārdus, kas ir biežāk. 838 00:44:14,060 --> 00:44:20,180 Tā, piemēram, ja jūs sakāt, suns liels, un suns ir gigantisks, jūs 839 00:44:20,180 --> 00:44:23,880 parasti iespējams dzirdēt suns ir liels biežāk, jo "lielais" ir vairāk 840 00:44:23,880 --> 00:44:27,260 bieži angļu valodā par "gigantisku." Tātad, viens no 841 00:44:27,260 --> 00:44:30,100 lietas ir vārds frekvences. 842 00:44:30,100 --> 00:44:34,490 >> Otra lieta, kas ir patiešām svarīgs ir tikai 843 00:44:34,490 --> 00:44:35,490 pasūtījums no vārdiem. 844 00:44:35,490 --> 00:44:39,500 Tātad, tas ir kopīgs teikt "kaķis iekšā kastē. ", bet jums nav parasti 845 00:44:39,500 --> 00:44:44,250 redzēt "kastē iekšā ir kaķis." tā Jūs redzēsiet, ka tur ir dažas nozīme 846 00:44:44,250 --> 00:44:46,030 ar vārdiem kārtībā. 847 00:44:46,030 --> 00:44:50,160 Jūs varat ne tikai teikt, ka šie divi teikumi ir tāda pati varbūtība 848 00:44:50,160 --> 00:44:53,010 tikai tāpēc, ka tie ir tie paši vārdi. 849 00:44:53,010 --> 00:44:55,550 Jums tiešām ir jārūpējas par to, lai arī. 850 00:44:55,550 --> 00:44:57,650 Jēga? 851 00:44:57,650 --> 00:44:59,490 >> Tātad, ko mēs darām? 852 00:44:59,490 --> 00:45:01,550 Tātad, ko es varētu mēģināt, lai saņemtu jums? 853 00:45:01,550 --> 00:45:04,400 Es cenšos, lai jūs to, ko mēs zvaniet n-gramu modeļiem. 854 00:45:04,400 --> 00:45:09,095 Tā n-gramu modeļi būtībā uzņemas ka katram vārdam, kas 855 00:45:09,095 --> 00:45:10,960 Jums ir teikumā. 856 00:45:10,960 --> 00:45:15,020 Tas ir varbūtība, ka tas vārds tur ir atkarīga ne tikai no 857 00:45:15,020 --> 00:45:18,395 biežumu šī vārda valodā, bet arī par vārdiem, kas 858 00:45:18,395 --> 00:45:19,860 ir ap to. 859 00:45:19,860 --> 00:45:25,810 >> Tā, piemēram, parasti, kad jūs redzat kaut kas līdzīgs uz vai jūs 860 00:45:25,810 --> 00:45:28,040 iespējams, gatavojas, lai redzētu lietvārds pēc tā, vai ne? 861 00:45:28,040 --> 00:45:31,750 Jo, kad jums ir prievārds parasti tas aizņem lietvārdus pēc tā. 862 00:45:31,750 --> 00:45:35,540 Vai ja jums ir darbības vārds, kas ir pārejošs jūs parasti gatavojas 863 00:45:35,540 --> 00:45:36,630 ir lietvārdu frāze. 864 00:45:36,630 --> 00:45:38,780 Tātad, tas notiek, ir lietvārds kaut kur ap to. 865 00:45:38,780 --> 00:45:44,950 >> Tātad, būtībā, ko tā dara, ir, ka tas uzskata, ka varbūtība, ka tā 866 00:45:44,950 --> 00:45:47,960 Vārdi blakus viens otram, kad jūs aprēķinot 867 00:45:47,960 --> 00:45:49,050 varbūtība teikumā. 868 00:45:49,050 --> 00:45:50,960 Un tas, ko valoda modelis pamatā. 869 00:45:50,960 --> 00:45:54,620 Vienkārši sakot, kāda ir varbūtība , kam īpašs 870 00:45:54,620 --> 00:45:57,120 teikums valodā? 871 00:45:57,120 --> 00:45:59,110 Tātad, kāpēc ir tā, ka noderīga, būtībā? 872 00:45:59,110 --> 00:46:02,390 Un pirmkārt, to, kas ir n-gram modeli, tad? 873 00:46:02,390 --> 00:46:08,850 >> Tātad, n-gram modelis nozīmē, ka katrs vārds ir atkarīga no 874 00:46:08,850 --> 00:46:12,700 Nākamais N mīnus 1 vārdi. 875 00:46:12,700 --> 00:46:18,150 Tātad, būtībā, tas nozīmē, ka, ja es paskatos, Piemēram, pie CS50 TF kad 876 00:46:18,150 --> 00:46:21,500 Es esmu aprēķinot varbūtību teikumu, jums būs, piemēram, " 877 00:46:21,500 --> 00:46:25,280 varbūtība, ka vārdu "" reizes varbūtība, ka " 878 00:46:25,280 --> 00:46:31,720 CS50 "reizes varbūtība, ka "CS50 TF." Tātad, būtībā, es paļaujos 879 00:46:31,720 --> 00:46:35,720 visi iespējamie veidi, izstiepjot to. 880 00:46:35,720 --> 00:46:41,870 >> Un tad parasti, kad jūs darāt to, kā projektā, jūs likts N būt 881 00:46:41,870 --> 00:46:42,600 zemu vērtību. 882 00:46:42,600 --> 00:46:45,930 Tātad, parasti ir bigrams vai Trigrammas. 883 00:46:45,930 --> 00:46:51,090 Tā, ka jūs vienkārši rēķināties divas vārdiem sakot, no diviem vārdiem, vai trim vārdiem grupa, 884 00:46:51,090 --> 00:46:52,620 tikai veiktspējas jautājumiem. 885 00:46:52,620 --> 00:46:56,395 Un arī tāpēc, ka varbūt, ja jums ir kaut ko līdzīgu "The CS50 TF." Kad jūs 886 00:46:56,395 --> 00:47:00,510 ir "TF", tas ir ļoti svarīgi, ka "CS50" ir blakus, vai ne? 887 00:47:00,510 --> 00:47:04,050 Šīs divas lietas parasti viens otram blakus. 888 00:47:04,050 --> 00:47:06,410 >> Ja jūs domājat par "TF", tas ir iespējams, nāksies ko 889 00:47:06,410 --> 00:47:07,890 klasē tas TF'ing par. 890 00:47:07,890 --> 00:47:11,330 Arī "" ir ļoti svarīga par CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Bet, ja jums ir kaut kas līdzīgs "The CS50 TF devās uz klasi un deva to 892 00:47:14,570 --> 00:47:20,060 studentiem dažas konfektes. "" Candy "un" " nav nekāda sakara tiešām, labi? 893 00:47:20,060 --> 00:47:23,670 Viņi tik tālu viena no otras, ka tas nav īsti jautājums, ko 894 00:47:23,670 --> 00:47:25,050 vārdi ir. 895 00:47:25,050 --> 00:47:31,210 >> Tātad, darot bigram vai Trigram, tas tikai nozīmē, ka jūs ierobežo 896 00:47:31,210 --> 00:47:33,430 sevi ar dažiem vārdiem , kas ir apkārt. 897 00:47:33,430 --> 00:47:35,810 Jēga? 898 00:47:35,810 --> 00:47:40,630 Tātad, ja jūs vēlaties darīt segmentāciju, būtībā, ko jūs vēlaties darīt, ir redzēt 899 00:47:40,630 --> 00:47:44,850 kādi ir visi iespējamie veidi, jūs varat segments sodu. 900 00:47:44,850 --> 00:47:49,090 >> Piemēram, ka jūs redzēt, kas ir varbūtība, ka katrs no šiem teikumiem 901 00:47:49,090 --> 00:47:50,880 esošo valodā? 902 00:47:50,880 --> 00:47:53,410 Tātad, kas jums jādara, ir, piemēram, labi, pieņemsim man mēģināt likt atstarpi šeit. 903 00:47:53,410 --> 00:47:55,570 Tātad jūs varat ievietot atstarpi tur un jūs redzat, kas ir 904 00:47:55,570 --> 00:47:57,590 varbūtība, ka šī teikuma? 905 00:47:57,590 --> 00:48:00,240 Tad jums ir līdzīgi, OK, varbūt tas nebija tik labs. 906 00:48:00,240 --> 00:48:03,420 Tāpēc man vietu tur un kosmosa tur, un jūs varat aprēķināt 907 00:48:03,420 --> 00:48:06,240 varbūtība tagad, un jūs redzēsiet, ka tā ir lielāka varbūtība. 908 00:48:06,240 --> 00:48:12,160 >> Tātad šis ir algoritms sauc TANGO segmentācija algoritmu, kas ir 909 00:48:12,160 --> 00:48:14,990 tiešām kaut kas būtu patiešām cool projektam, kas 910 00:48:14,990 --> 00:48:20,860 būtībā notiek unsegmented tekstu, kas var būt japāņu vai ķīniešu, vai varbūt 911 00:48:20,860 --> 00:48:26,080 Angļu bez atstarpēm un mēģina nodot atstarpes starp vārdiem un tas 912 00:48:26,080 --> 00:48:29,120 ka, izmantojot valodu modeli un mēģinot lai redzētu, kas ir augstākais 913 00:48:29,120 --> 00:48:31,270 varbūtība, jūs varat saņemt. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Tāpēc tas ir segmentācija. 916 00:48:33,800 --> 00:48:35,450 >> Tagad sintakse. 917 00:48:35,450 --> 00:48:40,940 Tātad, sintakse tiek izmantota tik daudz lietas, tiesības tagad. 918 00:48:40,940 --> 00:48:44,880 Tātad Graph Meklēt, lai Siri par diezgan daudz jebkāda veida fiziska 919 00:48:44,880 --> 00:48:46,490 valodas apstrāde jums ir. 920 00:48:46,490 --> 00:48:49,140 Tātad, kādi ir svarīgi lietas par sintaksi? 921 00:48:49,140 --> 00:48:52,390 Tātad, teikumi vispār ir tas, ko mēs saucam sastāvdaļas. 922 00:48:52,390 --> 00:48:57,080 Kas ir veida, piemēram, vārdu grupu kas ir funkciju teikumā. 923 00:48:57,080 --> 00:49:02,220 Un viņi nevar īsti būt neatkarīgi viena no otras. 924 00:49:02,220 --> 00:49:07,380 >> Tātad, ja es saku, piemēram, "Lauren mīl Milo. "Es zinu, ka" Lauren "ir 925 00:49:07,380 --> 00:49:10,180 komponents, un tad "mīl Milo "ir arī vēl viens. 926 00:49:10,180 --> 00:49:16,860 Jo jūs nevarat pateikt, piemēram, "Lauren Milo mīl "ir tāda pati nozīme. 927 00:49:16,860 --> 00:49:18,020 Tas nav nāksies pati nozīme. 928 00:49:18,020 --> 00:49:22,500 Vai es nevaru teikt, piemēram, "Milo Lauren mīl. "Ne viss ir tāds pats 929 00:49:22,500 --> 00:49:25,890 nozīmē darīt. 930 00:49:25,890 --> 00:49:31,940 >> Tātad divas svarīgākas lietas par sintakse ir leksikas veidi, kas ir 931 00:49:31,940 --> 00:49:35,390 būtībā funkcija, kas jums ir vārdus ar sevi. 932 00:49:35,390 --> 00:49:39,180 Tātad jums ir jāzina, ka "Lauren" un "Milo" ir lietvārdi. 933 00:49:39,180 --> 00:49:41,040 "Love" ir darbības vārds. 934 00:49:41,040 --> 00:49:45,660 Un otrs svarīga lieta ir ka viņi Phrasal veidiem. 935 00:49:45,660 --> 00:49:48,990 Tātad, jūs zināt, ka "mīl Milo" faktiski verbālās frāze. 936 00:49:48,990 --> 00:49:52,390 Tātad, kad es saku "Lauren," Es zinu, ka Lauren dara kaut ko. 937 00:49:52,390 --> 00:49:53,620 Ko viņa dara? 938 00:49:53,620 --> 00:49:54,570 Viņa ir mīlošs Milo. 939 00:49:54,570 --> 00:49:56,440 Tātad, tas ir viss. 940 00:49:56,440 --> 00:50:01,640 Bet tās sastāvdaļas ir lietvārds un darbības vārds. 941 00:50:01,640 --> 00:50:04,210 Bet kopā viņi dara verb frāze. 942 00:50:04,210 --> 00:50:08,680 >> Tātad, ko mēs varam reāli darīt ar skaitļošanas lingvistika? 943 00:50:08,680 --> 00:50:13,810 Tātad, ja man ir kaut kas, piemēram "draugi Allison." Es redzu, ja es tikko 944 00:50:13,810 --> 00:50:17,440 bija sintaktisko koks es zinātu, ka "Draugi" ir lietvārda frāze ir 945 00:50:17,440 --> 00:50:21,480 lietvārds, un tad "no Allison" ir prepozicionāls frāze, kurā "par" ir 946 00:50:21,480 --> 00:50:24,810 piedāvājums un "Allison" ir lietvārds. 947 00:50:24,810 --> 00:50:30,910 Ko es varētu darīt, ir mācīt manu datoru ka tad, kad man ir lietvārda frāze vienu un 948 00:50:30,910 --> 00:50:33,080 tad prepozicionāls frāze. 949 00:50:33,080 --> 00:50:39,020 Tātad šajā gadījumā, "draugi", un tad "no Milo "Es zinu, ka tas nozīmē, ka 950 00:50:39,020 --> 00:50:43,110 NP2, otrs, pieder NP1. 951 00:50:43,110 --> 00:50:47,680 >> Lai es varētu izveidot kādu saistībā, sava veida funkcijas par to. 952 00:50:47,680 --> 00:50:52,370 Tāpēc, kad es redzu šo struktūru, kas precīzi atbilst "ar draugiem 953 00:50:52,370 --> 00:50:56,030 Allison, "Es zinu, ka Allison pieder draugiem. 954 00:50:56,030 --> 00:50:58,830 Tātad draugi ir kaut kas ka Allison ir. 955 00:50:58,830 --> 00:50:59,610 Jēga? 956 00:50:59,610 --> 00:51:01,770 Tātad tas ir būtībā kas Graph Meklēt dara. 957 00:51:01,770 --> 00:51:04,360 Tas tikai rada noteikumus par daudz lietām. 958 00:51:04,360 --> 00:51:08,190 Tāpēc "draugi Allison", "Mani draugi kas dzīvo Cambridge, "" mani draugi 959 00:51:08,190 --> 00:51:12,970 kas iet uz Harvard. "Tas rada noteikumus visām šīm lietām. 960 00:51:12,970 --> 00:51:14,930 >> Tagad mašīntulkošanu. 961 00:51:14,930 --> 00:51:18,850 Tātad, mašīntulkošana ir arī kaut statistikas. 962 00:51:18,850 --> 00:51:21,340 Un faktiski, ja jūs iesaistīties skaitļošanas valodniecība, daudz 963 00:51:21,340 --> 00:51:23,580 jūsu stuff būs statistika. 964 00:51:23,580 --> 00:51:26,670 Tā kā man bija darīt piemēru ar daudz varbūtību, ka es biju 965 00:51:26,670 --> 00:51:30,540 aprēķināšanai, un tad jums šo ļoti mazs skaitlis, kas ir galīgais 966 00:51:30,540 --> 00:51:33,180 varbūtība, un tas, ko sniedz jums atbildi. 967 00:51:33,180 --> 00:51:37,540 Mašīntulkošana izmanto arī statistiskais modelis. 968 00:51:37,540 --> 00:51:44,790 Un, ja jūs vēlaties, lai padomātu par mašīnu tulkojumu iespējas vienkāršākā 969 00:51:44,790 --> 00:51:48,970 veidā, ko jūs varat iedomāties, ir tikai tulkot burtiski, vai ne? 970 00:51:48,970 --> 00:51:52,150 >> Kad jūs mācīties valodu, lai pirmo reizi, tas ir parasti, ko 971 00:51:52,150 --> 00:51:52,910 jums, vai ne? 972 00:51:52,910 --> 00:51:57,050 Ja vēlaties, jūs tulkotu sodu jūsu valodas uz valodu 973 00:51:57,050 --> 00:52:00,060 jūs mācīties, parasti vispirms, jums pārvērst katru no vārdiem 974 00:52:00,060 --> 00:52:03,180 atsevišķi, un tad mēģināt likt vārdus vietā. 975 00:52:03,180 --> 00:52:07,100 >> Tātad, ja es gribēju tulkot to, [RUNĀJOŠĀ PORTUGĀLES] 976 00:52:07,100 --> 00:52:10,430 kas nozīmē "baltais kaķis skrēja prom." Ja es gribēju tulkot no 977 00:52:10,430 --> 00:52:13,650 Portugāļu angļu, ko es varētu darīt, ir, pirmkārt, es tikko 978 00:52:13,650 --> 00:52:14,800 tulkot vārdu pa vārdam. 979 00:52:14,800 --> 00:52:20,570 Tik "o" ir "," "Gato", "kaķis" "Branco", "balts", un tad "Fugio" ir 980 00:52:20,570 --> 00:52:21,650 "Skrēja prom." 981 00:52:21,650 --> 00:52:26,130 >> Tātad man ir visi vārdi šeit bet viņi nav kārtībā. 982 00:52:26,130 --> 00:52:29,590 Tas ir tāpat kā "kaķis baltais aizbēga" kas ir ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Tātad, tad es varētu būt otrais solis, kas būs atrast ideālu 984 00:52:34,490 --> 00:52:36,610 pozīciju attiecībā uz katru no vārdiem. 985 00:52:36,610 --> 00:52:40,240 Tāpēc es zinu, ka es tiešām gribu, lai būtu "White Cat", nevis "kaķis balta." Tā 986 00:52:40,240 --> 00:52:46,050 ko es varu darīt, ir, visvairāk naivi metodi Nr būtu izveidot visu 987 00:52:46,050 --> 00:52:49,720 iespējamās permutācijas vārdiem, no pozīcijām. 988 00:52:49,720 --> 00:52:53,300 Un tad redzētu, kura ir visaugstākā varbūtība saskaņā 989 00:52:53,300 --> 00:52:54,970 manu valodu modeli. 990 00:52:54,970 --> 00:52:58,390 Un tad, kad es atrast vienu, kas ir augstākais varbūtība tam, kas ir 991 00:52:58,390 --> 00:53:01,910 iespējams, "baltais kaķis skrēja prom," tas ir mans tulkojums. 992 00:53:01,910 --> 00:53:06,710 >> Un tas ir vienkāršs veids, kā izskaidrot cik daudz mašīntulkošanu 993 00:53:06,710 --> 00:53:07,910 algoritmi strādā. 994 00:53:07,910 --> 00:53:08,920 Vai tas ir jēga? 995 00:53:08,920 --> 00:53:12,735 Tas ir arī kaut kas aizraujošs ka jūs guys var varbūt izpētīt 996 00:53:12,735 --> 00:53:13,901 galīgais projekts, jā? 997 00:53:13,901 --> 00:53:15,549 >> STUDENTU: Nu, jūs teicāt, tas bija naivs kā, lai to, kas ir 998 00:53:15,549 --> 00:53:17,200 nav naivi veidā? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: nav naivi veidā? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Tātad pirmā lieta, kas ir slikti par šī metode ir tā, ka es tikai tulkots 1002 00:53:22,860 --> 00:53:24,330 vārdi, vārdu pa vārdam. 1003 00:53:24,330 --> 00:53:30,570 Bet dažreiz jums ir vārdi, kas var būt vairāki tulkojumi. 1004 00:53:30,570 --> 00:53:32,210 Es esmu gatavojas, lai mēģinātu domāt par kaut ko. 1005 00:53:32,210 --> 00:53:37,270 Piemēram, "manga" Portugāles can nu "rullēt" vai "piedurknes". Tā 1006 00:53:37,270 --> 00:53:40,450 kad jūs mēģināt tulkot vārdu ar vārdiem, tas varētu būt sniedzot jums 1007 00:53:40,450 --> 00:53:42,050 kaut kas, kas nav jēgas. 1008 00:53:42,050 --> 00:53:45,770 >> Tātad jūs tiešām vēlaties, lai jums apskatīt visas iespējamie tulkojumi 1009 00:53:45,770 --> 00:53:49,840 vārdus un redzēt, pirmkārt, kāda ir kārtība. 1010 00:53:49,840 --> 00:53:52,000 Mēs runājām par permutating lietas? 1011 00:53:52,000 --> 00:53:54,150 Lai redzētu visas iespējamās pasūtījumus un izvēlēties vienu ar augstāko 1012 00:53:54,150 --> 00:53:54,990 varbūtība? 1013 00:53:54,990 --> 00:53:57,860 Jūs varat izvēlēties arī visas iespējas tulkojumi par katru 1014 00:53:57,860 --> 00:54:00,510 vārdu, un tad redzēt, - 1015 00:54:00,510 --> 00:54:01,950 apvienojumā ar permutāciju - 1016 00:54:01,950 --> 00:54:03,710 kuriem viens ir augstākais varbūtība. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, jūs varat arī apskatīt ne tikai vārdus, bet frāzes. 1018 00:54:08,590 --> 00:54:11,700 lai jūs varētu analizēt attiecības starp vārdi un tad saņemt 1019 00:54:11,700 --> 00:54:13,210 labāku tulkojumu. 1020 00:54:13,210 --> 00:54:16,690 Arī kaut kas cits, tāpēc šajā semestrī Es esmu faktiski dara pētījumus 1021 00:54:16,690 --> 00:54:19,430 Ķīniešu-angļu mašīntulkošanu, tā tulkojot no 1022 00:54:19,430 --> 00:54:20,940 Ķīniešu angļu valodā. 1023 00:54:20,940 --> 00:54:26,760 >> Un kaut ko mēs darām, ir, papildus izmantojot statistiskais modelis, kas ir tikai 1024 00:54:26,760 --> 00:54:30,570 redzot varbūtības redzēt daži pozīciju teikumā, es esmu 1025 00:54:30,570 --> 00:54:35,360 faktiski arī pievienojot dažas sintaksi manu modelis, sacīdams: ak, ja es redzu šāda veida 1026 00:54:35,360 --> 00:54:39,420 būvniecības, tas ir tas, ko es vēlos , lai mainītu to, kad es tulkot. 1027 00:54:39,420 --> 00:54:43,880 Tātad jūs varat pievienot arī kādu elements sintakse, lai padarītu 1028 00:54:43,880 --> 00:54:47,970 tulkošanas efektīvāku un precīzāk. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Tātad, kā jūs varat sākt, ja vēlaties darīt kaut skaitļošanas 1031 00:54:51,010 --> 00:54:51,980 lingvistika? 1032 00:54:51,980 --> 00:54:54,560 >> Pirmkārt, jums izvēlēties projektu kas ietver valodas. 1033 00:54:54,560 --> 00:54:56,310 Tātad, tur ir tik daudz, kas tur. 1034 00:54:56,310 --> 00:54:58,420 Ir tik daudz lietas, varat darīt. 1035 00:54:58,420 --> 00:55:00,510 Un tad var domāt par modeli ka jūs varat izmantot. 1036 00:55:00,510 --> 00:55:04,710 Parasti tas nozīmē, ka domāšanu pieņēmumi, kā, piemēram, ak, kad man bija 1037 00:55:04,710 --> 00:55:05,770 piemēram, domājot par lyrics. 1038 00:55:05,770 --> 00:55:09,510 Man bija līdzīgi, labi, ja es vēlos, lai noskaidrotu out, kurš rakstīja šo, es, iespējams, vēlas 1039 00:55:09,510 --> 00:55:15,400 apskatīt vārdiem persona izmanto, un redzēt, kas lieto šo vārdu ļoti bieži. 1040 00:55:15,400 --> 00:55:18,470 Lai mēģinātu izdarīt pieņēmumus un mēģiniet domāt par modeļiem. 1041 00:55:18,470 --> 00:55:21,395 Un tad jūs varat arī meklēt tiešsaistē veida problēma, ka jums ir, 1042 00:55:21,395 --> 00:55:24,260 un tā gatavojas ierosināt lai jums modeļiem, kas varbūt 1043 00:55:24,260 --> 00:55:26,560 modelēts, ka lieta labi. 1044 00:55:26,560 --> 00:55:29,080 >> Un arī jūs vienmēr varat e-pastu man. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Un es varu tikai atbildēt uz Jūsu jautājumiem. 1047 00:55:34,940 --> 00:55:38,600 Mēs varam pat varētu tikties, lai es varētu sniegt ieteikumus par to, kā 1048 00:55:38,600 --> 00:55:41,490 savu projektu īstenošanai. 1049 00:55:41,490 --> 00:55:45,610 Un es domāju, ja jūs iesaistīties ar Skaitļošanas valodniecības, tas notiek 1050 00:55:45,610 --> 00:55:46,790 būt liels. 1051 00:55:46,790 --> 00:55:48,370 Jūs esat dodas, lai redzētu, ka ir tik daudz potenciāla. 1052 00:55:48,370 --> 00:55:52,060 Un nozare vēlas īrēt jūs tik slikti, jo no tā. 1053 00:55:52,060 --> 00:55:54,720 Tāpēc es ceru, ka jūs guys baudīt to. 1054 00:55:54,720 --> 00:55:57,030 Ja jūs guys ir kādi jautājumi, Jūs varat uzdot man pēc tam. 1055 00:55:57,030 --> 00:55:58,280 Bet paldies. 1056 00:55:58,280 --> 00:56:00,150