1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Freitas: Ei. 3 00:00:08,870 --> 00:00:09,980 Sveiki visi. 4 00:00:09,980 --> 00:00:11,216 Mano vardas Lukas Freitas. 5 00:00:11,216 --> 00:00:15,220 Aš ne [nesigirdi] jaunesnysis studijuoti kompiuterių mokslas daugiau dėmesio skirti 6 00:00:15,220 --> 00:00:16,410 Kompiuterinė lingvistika. 7 00:00:16,410 --> 00:00:19,310 Taigi, mano vidurinė yra kalba ir kalbų teorija. 8 00:00:19,310 --> 00:00:21,870 Aš tikrai džiaugiamės, kad išmokyti jus vaikinai Šiek tiek apie srityje. 9 00:00:21,870 --> 00:00:24,300 Tai labai įdomi sritis, mokytis. 10 00:00:24,300 --> 00:00:27,260 Taip pat su daug potencialo ateityje. 11 00:00:27,260 --> 00:00:30,160 Taigi, aš tikrai džiaugiamės, kad jūs vaikinai svarsto projektus 12 00:00:30,160 --> 00:00:31,160 Kompiuterinė lingvistika. 13 00:00:31,160 --> 00:00:35,460 Ir aš būsiu daugiau nei laimingi galėdami patarti bet jei jūs nuspręsite 14 00:00:35,460 --> 00:00:37,090 verstis bent viena iš jų. 15 00:00:37,090 --> 00:00:40,010 >> Taigi, visų pirma, kas yra kompiuterinė lingvistika? 16 00:00:40,010 --> 00:00:44,630 Taigi, kompiuterinė lingvistika yra sankirta tarp lingvistikos ir 17 00:00:44,630 --> 00:00:46,390 kompiuterių mokslas. 18 00:00:46,390 --> 00:00:47,415 Taigi, kas yra kalbotyra? 19 00:00:47,415 --> 00:00:48,490 Kas yra informatika? 20 00:00:48,490 --> 00:00:51,580 Na iš lingvistikos, ką mes tai kalbos. 21 00:00:51,580 --> 00:00:54,960 Taigi lingvistika yra iš tikrųjų tyrimas natūralios kalbos apskritai. 22 00:00:54,960 --> 00:00:58,330 Taigi natūralios kalbos - mes kalbame apie kalba, kad mes iš tikrųjų naudoti 23 00:00:58,330 --> 00:00:59,770 bendrauti tarpusavyje. 24 00:00:59,770 --> 00:01:02,200 Taigi mes ne tiksliai kalbėti apie C arba Java. 25 00:01:02,200 --> 00:01:05,900 Mes kalbame daugiau apie anglų kalbos ir Kinijos ir kitų kalbų, kad mes 26 00:01:05,900 --> 00:01:07,780 naudoti bendrauti tarpusavyje. 27 00:01:07,780 --> 00:01:12,470 >> Sudėtingas dalykas, apie tai, kad dabar mes turime beveik 7000 28 00:01:12,470 --> 00:01:14,260 pasaulio kalbų. 29 00:01:14,260 --> 00:01:19,520 Taigi yra gana didelė įvairovė kalbų, kad mes galime mokytis. 30 00:01:19,520 --> 00:01:22,600 Ir tada jūs manote, kad tai tikriausiai labai sunku padaryti, pavyzdžiui, 31 00:01:22,600 --> 00:01:26,960 vertimas iš vienos kalbos į kita vertus, turint omenyje, kad jūs turite 32 00:01:26,960 --> 00:01:28,240 beveik 7000 iš jų. 33 00:01:28,240 --> 00:01:31,450 Taigi, jei manote, kad daryti vertimą iš vienos kalbos į kitą jums 34 00:01:31,450 --> 00:01:35,840 turi beveik daugiau nei milijonas skirtingų kombinacijų, kad jūs galite 35 00:01:35,840 --> 00:01:37,330 turi iš kalbos kalba. 36 00:01:37,330 --> 00:01:40,820 Taigi, tai tikrai nelengva padaryti kai rūšies pavyzdys vertimo sistemos 37 00:01:40,820 --> 00:01:43,540 kiekvienas kalba. 38 00:01:43,540 --> 00:01:47,120 >> Taigi, lingvistika elgiasi su sintakse, semantika, pragmatika. 39 00:01:47,120 --> 00:01:49,550 Vaikinai ne tiksliai reikia žinoti, ką jie yra. 40 00:01:49,550 --> 00:01:55,090 Bet labai įdomus dalykas yra tai, kad kaip gimtoji, kai jūs išmoksite 41 00:01:55,090 --> 00:01:59,010 kalba kaip vaikas, jūs iš tikrųjų mokytis visi iš tų dalykų - sintaksės semantikos 42 00:01:59,010 --> 00:02:00,500 ir pragmatika - 43 00:02:00,500 --> 00:02:01,430 patys. 44 00:02:01,430 --> 00:02:04,820 Ir niekas išmokyti jus, sintaksė jums suprasti, kaip sakiniai 45 00:02:04,820 --> 00:02:05,290 struktūra. 46 00:02:05,290 --> 00:02:07,980 Taigi, tai tikrai įdomu, nes tai kažkas, kad ateina labai 47 00:02:07,980 --> 00:02:10,389 intuityviai. 48 00:02:10,389 --> 00:02:13,190 >> Ir ką jūs vartojate nuo kompiuterių mokslas? 49 00:02:13,190 --> 00:02:16,700 Na, svarbiausia, kad mes turėti informatikos pirma yra 50 00:02:16,700 --> 00:02:19,340 visi, dirbtinis intelektas ir mašina mokymo. 51 00:02:19,340 --> 00:02:22,610 Taigi, ką mes bandome daryti Kompiuterinė lingvistika yra mokyti 52 00:02:22,610 --> 00:02:26,990 kompiuteris kaip ką nors padaryti su kalba. 53 00:02:26,990 --> 00:02:28,630 >> Taigi, pavyzdžiui, mašiną vertimas. 54 00:02:28,630 --> 00:02:32,490 Bandau mokyti savo kompiuterio Kaip sužinoti, kaip pereiti iš vieno 55 00:02:32,490 --> 00:02:33,310 kalbos į kitą. 56 00:02:33,310 --> 00:02:35,790 Taigi, iš esmės patinka mokymą kompiuterių dvi kalbas. 57 00:02:35,790 --> 00:02:38,870 Jeigu aš natūralios kalbos apdorojimo, kuris yra pvz konkrečiais 58 00:02:38,870 --> 00:02:41,810 "Facebook" grafikas Paieška, mokyti kompiuteris kaip suprasti 59 00:02:41,810 --> 00:02:42,730 užklausos gerai. 60 00:02:42,730 --> 00:02:48,130 >> Taigi, jei jums pasakyti "apie nuotraukų Mano draugai. "Facebook" nelaiko, kad 61 00:02:48,130 --> 00:02:51,130 kaip visą eilutę, kuri turi tik žodžių krūva. 62 00:02:51,130 --> 00:02:56,020 Jis tikrai supranta ryšį tarp "Nuotraukos" ir "mano draugai" ir 63 00:02:56,020 --> 00:02:59,620 supranta, kad "nuotraukos" yra nuosavybė "draugais". 64 00:02:59,620 --> 00:03:02,350 >> Taigi, tai yra dalis, pavyzdžiui, natūralios kalbos apdorojimas. 65 00:03:02,350 --> 00:03:04,790 Jis bando suprasti, kas yra tarp ryšys 66 00:03:04,790 --> 00:03:07,520 tariamosios sakinyje žodžiai. 67 00:03:07,520 --> 00:03:11,170 Ir didelis klausimas, ar galite išmokyti kompiuterį, kaip kalbėti 68 00:03:11,170 --> 00:03:12,650 apskritai kalba? 69 00:03:12,650 --> 00:03:17,810 Kuris yra labai įdomus klausimas galvoti, nes jei gal ateityje, 70 00:03:17,810 --> 00:03:19,930 jūs ketinate turėti galimybę kreipkitės į savo mobilųjį telefoną. 71 00:03:19,930 --> 00:03:23,290 Tipo kaip, ką mes darome su "Siri", bet kažkas nutiko, jūs iš tikrųjų galite 72 00:03:23,290 --> 00:03:25,690 sakyti, ką nori, ir telefonas ketina viską suprantu. 73 00:03:25,690 --> 00:03:28,350 O tai gali turėti tolesnių klausimų ir nuolat kalbėti. 74 00:03:28,350 --> 00:03:30,880 Tai kažkas tikrai įdomu, mano nuomone. 75 00:03:30,880 --> 00:03:33,070 >> Taigi, kažkas apie natūraliųjų kalbų. 76 00:03:33,070 --> 00:03:36,220 Kažkas tikrai įdomaus natūralios kalbos yra tai, kad, ir tai yra 77 00:03:36,220 --> 00:03:38,470 kreditas mano lingvistikos profesorius, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Ji suteikia pavyzdį ir manau, tai tikrai įdomu. 79 00:03:40,830 --> 00:03:47,060 Kadangi mes išmokti kalbą nuo tada, kai mes gimę ir tada mūsų gimtoji 80 00:03:47,060 --> 00:03:49,170 kalba rūšies auga ant mūsų. 81 00:03:49,170 --> 00:03:52,570 >> Ir iš esmės jūs išmoksite kalbą nuo minimalaus indėlio, tiesa? 82 00:03:52,570 --> 00:03:56,700 Jūs tik gauti informacijos iš savo tėvai, ką jūsų kalba skamba 83 00:03:56,700 --> 00:03:58,770 patinka, ir jūs tiesiog išmokti. 84 00:03:58,770 --> 00:04:02,240 Taigi, tai įdomu, nes jei peržvelgsite tuose sakiniuose, pvz. 85 00:04:02,240 --> 00:04:06,980 Jums atrodo, "Marija užsideda kailio kiekvieną kartą, kai ji palieka namus. " 86 00:04:06,980 --> 00:04:10,650 >> Šiuo atveju, tai galima turėti žodis "ji" reiškia Marijos, tiesa? 87 00:04:10,650 --> 00:04:13,500 Galite pasakyti: "Marija užsideda kailio kiekvieną kartą, kai Marija palieka 88 00:04:13,500 --> 00:04:14,960 namas. ", kad viskas gerai. 89 00:04:14,960 --> 00:04:19,370 Bet tada jei peržvelgsite sakinio "Ji užsideda kailio kaskart Marija 90 00:04:19,370 --> 00:04:22,850 palieka namus. "Jūs žinote, tai Neįmanoma pasakyti, kad "ji" yra 91 00:04:22,850 --> 00:04:24,260 nuoroda į Marijos. 92 00:04:24,260 --> 00:04:27,070 >> Nėra sakydamas, kad "Marija kelia būdas ant palto kiekvieną kartą Marija palieka 93 00:04:27,070 --> 00:04:30,790 namas. "Taigi, tai įdomu, nes tai yra intuicija natūra 94 00:04:30,790 --> 00:04:32,890 kad kiekvienas gimtoji yra. 95 00:04:32,890 --> 00:04:36,370 Ir niekas mokė, kad tai yra taip, kad sintaksė veikia. 96 00:04:36,370 --> 00:04:41,930 Ir kad jūs galite turėti tik šį "Ji" nuoroda į Marijos šiame Pirmuoju atveju 97 00:04:41,930 --> 00:04:44,260 ir faktiškai tai kita taip pat, bet ne šį vieną. 98 00:04:44,260 --> 00:04:46,500 Bet kiekvienas natūra gauna į tą patį atsakymą. 99 00:04:46,500 --> 00:04:48,580 Visi sutinka, kad. 100 00:04:48,580 --> 00:04:53,280 Taigi, tai tikrai įdomu, kaip nors jūs neturite žinoti visas taisykles 101 00:04:53,280 --> 00:04:55,575 savo kalba, rūšies suprasti kaip kalba veikia. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Taigi, įdomus dalykas, apie gamtos kalba yra tai, kad jūs neturite 104 00:05:01,530 --> 00:05:06,970 žinoti, bet sintaksė žinoti, jei sakinys yra gramatinė ar gramatikos ir 105 00:05:06,970 --> 00:05:08,810 daugeliu atvejų. 106 00:05:08,810 --> 00:05:13,220 Todėl jūs manote, kad gal kas atsitinka taip, kad per savo gyvenimą, jūs 107 00:05:13,220 --> 00:05:17,410 tiesiog laikyti vis labiau ir labiau sakiniai papasakojo jums. 108 00:05:17,410 --> 00:05:19,800 Ir tada jūs nuolat įsiminimo visi sakiniai. 109 00:05:19,800 --> 00:05:24,230 Ir tada, kai kas nors jums pasakys kažkas, išgirsite, kad sakinys ir 110 00:05:24,230 --> 00:05:27,040 pažvelgti į savo žodyną sakinių ir pamatyti, jei 111 00:05:27,040 --> 00:05:28,270 kad sakinys yra. 112 00:05:28,270 --> 00:05:29,830 Ir jei tai ten sako, kad gramatinė. 113 00:05:29,830 --> 00:05:31,740 Jei tai nėra jums pasakyti, kad tai gramatikos. 114 00:05:31,740 --> 00:05:35,150 >> Taigi, tuo atveju, galėtumėte pasakyti, oh, todėl jūs turite milžinišką sąrašą visų 115 00:05:35,150 --> 00:05:36,140 galimi sakiniai. 116 00:05:36,140 --> 00:05:38,240 Ir tada, kai išgirsite sakinį, jūs žinote, jei tai gramatinė ar 117 00:05:38,240 --> 00:05:39,450 nėra pagrįsta, kad. 118 00:05:39,450 --> 00:05:42,360 Dalykas yra tai, kad jei peržvelgsite sakinys, pavyzdžiui, " 119 00:05:42,360 --> 00:05:47,540 penkių vadovauja CS50 TFS virti aklas aštuonkojai naudojant DAPA puodelis. "Tai 120 00:05:47,540 --> 00:05:49,630 tikrai ne sakinys kad jūs girdėjote anksčiau. 121 00:05:49,630 --> 00:05:52,380 Bet tuo pačiu metu, jūs žinote, tai gana daug gramatinių, tiesa? 122 00:05:52,380 --> 00:05:55,570 Nėra gramatinių klaidų ir jūs galite pasakyti, kad 123 00:05:55,570 --> 00:05:57,020 tai įmanoma sakinys. 124 00:05:57,020 --> 00:06:01,300 >> Taigi tai verčia manyti, kad iš tikrųjų Taip, kad mes mokomės kalbą yra ne tik 125 00:06:01,300 --> 00:06:07,090 turėdami milžinišką duomenų bazę galima žodžiai ar sakiniai, bet daugiau 126 00:06:07,090 --> 00:06:11,490 supratimą tarp santykį žodžiai tų sakinių. 127 00:06:11,490 --> 00:06:14,570 Ar tai prasminga? 128 00:06:14,570 --> 00:06:19,370 Taip, tada klausimas, gali kompiuteriai mokytis kalbų? 129 00:06:19,370 --> 00:06:21,490 Ar mes mokome kalbą kompiuteriuose? 130 00:06:21,490 --> 00:06:24,230 >> Taigi, pagalvokime skirtumo tarp gimtoji kalba 131 00:06:24,230 --> 00:06:25,460 ir kompiuteris. 132 00:06:25,460 --> 00:06:27,340 Taigi, kas atsitinka su garsiakalbiu? 133 00:06:27,340 --> 00:06:30,430 Na, gimtoji mokosi kalba sąlyčio su juo. 134 00:06:30,430 --> 00:06:34,200 Paprastai jos ankstyvosios vaikystės metai. 135 00:06:34,200 --> 00:06:38,570 Taigi, iš esmės, jūs tiesiog turėti kūdikį, ir jūs nuolat kalbėti su juo, ir jis 136 00:06:38,570 --> 00:06:40,540 tik mokosi, kaip kalbėti kalba, tiesa? 137 00:06:40,540 --> 00:06:42,660 Taigi, jūs iš esmės suteikia indėlis į kūdikį. 138 00:06:42,660 --> 00:06:45,200 Taigi, tada galima teigti, kad kompiuteris gali daryti tą patį, tiesa? 139 00:06:45,200 --> 00:06:49,510 Jūs galite tiesiog suteikti kalbai kaip įvestį į kompiuterį. 140 00:06:49,510 --> 00:06:53,410 >> Kaip, pavyzdžiui, failų krūva kad turi knygų anglų kalba. 141 00:06:53,410 --> 00:06:56,190 Gal tai vienas iš būdų, kad jums galėtų mokyti 142 00:06:56,190 --> 00:06:57,850 kompiuteris Anglų, tiesa? 143 00:06:57,850 --> 00:07:01,000 Ir iš tiesų, jei jūs manote apie tai, pateksite gal pora 144 00:07:01,000 --> 00:07:02,680 dienas skaityti knygą. 145 00:07:02,680 --> 00:07:05,760 Už kompiuterį užtrunka sekundę pažvelgti į visus knygos žodžių. 146 00:07:05,760 --> 00:07:10,810 Taigi, jūs galite galvoti, kad gali būti tik tai argumentas indėliu aplink jus, 147 00:07:10,810 --> 00:07:15,440 kad neužtenka pasakyti, kad tai kažkas, kad tik žmonės gali padaryti. 148 00:07:15,440 --> 00:07:17,680 Jūs galite galvoti kompiuteriai Taip pat galite gauti informacijos. 149 00:07:17,680 --> 00:07:21,170 >> Antras dalykas yra tai, kad gimtoji kalba taip pat turime smegenis, kad turi 150 00:07:21,170 --> 00:07:23,870 kalbų mokymosi galimybė. 151 00:07:23,870 --> 00:07:27,020 Bet jei jūs manote apie tai, Smegenys yra kietas dalykas. 152 00:07:27,020 --> 00:07:30,450 Kai gimsta, jis jau nustatytas - 153 00:07:30,450 --> 00:07:31,320 tai yra jūsų smegenys. 154 00:07:31,320 --> 00:07:34,660 Ir kaip jums augti, jūs tiesiog gaunate daugiau įvesties kalbos, o gal ir maistinių medžiagų 155 00:07:34,660 --> 00:07:35,960 ir kitų dalykų. 156 00:07:35,960 --> 00:07:38,170 Tačiau gana daug jūsų smegenys yra kietas dalykas. 157 00:07:38,170 --> 00:07:41,290 >> Taigi galima pasakyti, gerai, gal galite statyti kompiuterį, kuriame yra krūva 158 00:07:41,290 --> 00:07:45,890 funkcijos ir metodai, kad tik imituoja kalbų mokymosi galimybė. 159 00:07:45,890 --> 00:07:49,630 Taigi šia prasme, galima sakyti, gerai, aš gali turėti kompiuterį, kuriame yra visi 160 00:07:49,630 --> 00:07:52,270 ką man reikia išmokti kalbą. 161 00:07:52,270 --> 00:07:56,200 Ir paskutinis dalykas yra tai, kad gimtoji garsiakalbis mokosi iš bandymų ir klaidų. 162 00:07:56,200 --> 00:08:01,090 Taigi, iš esmės dar vienas svarbus dalykas, kalbos mokymasis yra tai, kad jūs tipo 163 00:08:01,090 --> 00:08:05,340 iš mokytis dalykų, darant apibendrinimai, ką išgirsite. 164 00:08:05,340 --> 00:08:10,280 >> Taigi, kaip jūs auga jūs sužinosite, kad kai kurie žodžiai yra daugiau kaip daiktavardžiai, 165 00:08:10,280 --> 00:08:11,820 kai kurie kiti jų yra būdvardžiai. 166 00:08:11,820 --> 00:08:14,250 Ir jums nereikia turėti bet žinių lingvistikos 167 00:08:14,250 --> 00:08:15,040 suprasti, kad. 168 00:08:15,040 --> 00:08:18,560 Bet jūs tiesiog žinau, ten kai kurie žodžiai yra išdėstyti tam tikra dalis 169 00:08:18,560 --> 00:08:22,570 sakinys ir kai kurie kiti kiti dalys sakinyje. 170 00:08:22,570 --> 00:08:26,110 >> Ir tai, kai jūs darote kažką, kad yra kaip sakinio, kad nėra teisinga - 171 00:08:26,110 --> 00:08:28,770 gal, nes yra per apibendrinimas pavyzdžiui. 172 00:08:28,770 --> 00:08:32,210 Gal kai jūs augau, jūs pastebėsite, kad daugiskaita paprastai 173 00:08:32,210 --> 00:08:35,809 suformuotas išleidimą S ne Žodžio pabaiga. 174 00:08:35,809 --> 00:08:40,042 Ir tada jums pabandyti padaryti, kad daugiskaitą "elnias", kaip "elnių" arba "dantis" kaip 175 00:08:40,042 --> 00:08:44,780 "tooths." Taigi jūsų tėvai arba kas taiso jums ir sako, ne, 176 00:08:44,780 --> 00:08:49,020 daugiskaita apie "elnias" yra "elnias", ir daugiskaitos iš "dantis" yra "dantis". Ir 177 00:08:49,020 --> 00:08:50,060 Jums išmokti tuos dalykus. 178 00:08:50,060 --> 00:08:51,520 Taigi, jūs išmoksite iš bandymų ir klaidų. 179 00:08:51,520 --> 00:08:53,100 >> Bet jūs taip pat gali tai padaryti su kompiuteriu. 180 00:08:53,100 --> 00:08:55,310 Jūs galite turėti kažką vadinama stiprinimas mokymasis. 181 00:08:55,310 --> 00:08:58,560 Kuris iš esmės yra tarsi suteikiant kompiuteris atlygis, kai ji 182 00:08:58,560 --> 00:08:59,410 kažkas teisingai. 183 00:08:59,410 --> 00:09:04,710 Ir suteikiant jam atlygį priešingai ir kai ji ką nors blogo. 184 00:09:04,710 --> 00:09:07,410 Jūs iš tikrųjų galite pamatyti, kad jei jūs einate į Google Translate ir bandysite 185 00:09:07,410 --> 00:09:10,220 išversti sakinį, jis prašo jums už atsiliepimus. 186 00:09:10,220 --> 00:09:13,240 Taigi, jei jūs sakote, oi, ten geriau vertimas šio sakinio. 187 00:09:13,240 --> 00:09:18,140 Jūs galite įvesti jį ir tada, jei iš daug žmonės nuolat sako, kad yra geriau 188 00:09:18,140 --> 00:09:21,560 vertimas, tai tik sužino, kad ji vietoj turėtų naudoti tą vertimą 189 00:09:21,560 --> 00:09:22,960 vienas buvo duoti. 190 00:09:22,960 --> 00:09:28,830 >> Taigi, tai labai filosofinis klausimas pamatyti, jei kompiuteriai bus 191 00:09:28,830 --> 00:09:30,340 galėsite kalbėtis ar ne ateityje. 192 00:09:30,340 --> 00:09:34,440 Bet aš turiu daug vilčių, kad jie gali tik remiantis šiais argumentais. 193 00:09:34,440 --> 00:09:38,570 Bet tai tik daugiau filosofinė klausimas. 194 00:09:38,570 --> 00:09:43,460 >> Taigi, nors kompiuteriai dar negali kalbėti, kas yra tai, ką mes galime padaryti? 195 00:09:43,460 --> 00:09:47,070 Kai kurie tikrai cool viskas yra duomenų klasifikacija. 196 00:09:47,070 --> 00:09:53,210 Taigi, pavyzdžiui, vaikinai žinoti kad pašto paslaugos dabar daryti 197 00:09:53,210 --> 00:09:55,580 Pavyzdžiui, šiukšlių. 198 00:09:55,580 --> 00:09:59,070 Taigi, kai gaunate šlamštas, tai bando filtruoti į kitą dėžutę. 199 00:09:59,070 --> 00:10:00,270 Taigi, kaip tai padaryti? 200 00:10:00,270 --> 00:10:06,080 Tai nėra, kaip kompiuteris tiesiog žino Kokią pašto adresai siuntimo paštu. 201 00:10:06,080 --> 00:10:09,130 Taigi jis daugiau grindžiamas turinio pranešimą, o gal pavadinimas, arba 202 00:10:09,130 --> 00:10:11,310 gal kai modelis, kad jūs turite. 203 00:10:11,310 --> 00:10:15,690 >> Taigi, iš esmės, ką jūs galite padaryti, tai gauti daug duomenų laiškų, kurie šlamštas, 204 00:10:15,690 --> 00:10:19,980 laiškus, kurie yra ne šlamštas, ir sužinoti, kas rūšies raštų turite 205 00:10:19,980 --> 00:10:21,000 tie, kurie yra šlamštas. 206 00:10:21,000 --> 00:10:23,260 Ir tai yra dalis Skaičiuojamasis lingvistika. 207 00:10:23,260 --> 00:10:24,720 Ji vadinama duomenų klasifikacija. 208 00:10:24,720 --> 00:10:28,100 Ir mes iš tikrųjų ketiname pamatyti pavyzdys, kad per ateinančius skaidres. 209 00:10:28,100 --> 00:10:32,910 >> Antras dalykas yra natūralios kalbos perdirbimą, kuris yra dalykas, kad 210 00:10:32,910 --> 00:10:36,580 Grafikas Paieška daro nuomos jums parašyti sakinį. 211 00:10:36,580 --> 00:10:38,690 Ir jis tiki, jūs suprantate, ką yra prasmė ir suteikia 212 00:10:38,690 --> 00:10:39,940 jums geresnis rezultatas. 213 00:10:39,940 --> 00:10:43,880 Tiesą sakant, jei jūs einate į "Google" ar Bing ir ieškoti kažką panašaus Lady 214 00:10:43,880 --> 00:10:47,060 Gaga aukštis, jūs iš tikrųjų vyksta gauti 5 '1 ", o ne informacijos 215 00:10:47,060 --> 00:10:50,170 iš jos, nes ji iš tikrųjų supranta ką jūs kalbate apie. 216 00:10:50,170 --> 00:10:52,140 Štai dalis gamtos kalbos apdorojimas. 217 00:10:52,140 --> 00:10:57,000 >> Ar taip pat, kai jūs naudojate Siri pirmas turite algoritmą, kuris bando 218 00:10:57,000 --> 00:11:01,130 išversti tai, ką jūs sakote, į žodžius, į tekstą. 219 00:11:01,130 --> 00:11:03,690 Ir tada jis bando išversti kad į prasmę. 220 00:11:03,690 --> 00:11:06,570 Taigi, kad viskas priklauso gamtos kalbos apdorojimas. 221 00:11:06,570 --> 00:11:08,320 >> Tada jūs turite automatinį vertimą - 222 00:11:08,320 --> 00:11:10,300 kuris iš tikrųjų yra vienas iš mano mėgstamiausių - 223 00:11:10,300 --> 00:11:14,060 kuris yra tiesiog versti iš kalbos į kitą. 224 00:11:14,060 --> 00:11:17,950 Taigi, jūs galite galvoti, kad kai darai mašininis vertimas, turite 225 00:11:17,950 --> 00:11:19,750 begalinės galimybės sakinių. 226 00:11:19,750 --> 00:11:22,960 Taigi, čia yra ne tiesiog laikyti būdas kiekvienas vertimas. 227 00:11:22,960 --> 00:11:27,440 Taigi jūs turite sugalvoti įdomu algoritmų, kad būtų galima 228 00:11:27,440 --> 00:11:30,110 išversti kiekvieną sakinys tam tikru būdu. 229 00:11:30,110 --> 00:11:32,483 >> Vaikinai turite kokių nors klausimų iki šiol? 230 00:11:32,483 --> 00:11:34,450 Ar ne? 231 00:11:34,450 --> 00:11:34,830 Gerai. 232 00:11:34,830 --> 00:11:36,900 >> Taigi, ką mes ketiname pamatyti šiandien? 233 00:11:36,900 --> 00:11:39,300 Pirmiausia, aš norėčiau pakalbėti apie klasifikavimo problema. 234 00:11:39,300 --> 00:11:41,440 Taigi, vienas, kad aš buvau sako apie šlamštas. 235 00:11:41,440 --> 00:11:46,820 Ką aš ruošiuosi padaryti, tai, atsižvelgiant Siūlyti dainą, galite pabandyti išsiaiškinti, 236 00:11:46,820 --> 00:11:49,810 su didele tikimybe kas yra dainininkas? 237 00:11:49,810 --> 00:11:53,590 Tarkime, kad turiu dainas iš Motinos Gaga ir Katy Perry, jei aš jums 238 00:11:53,590 --> 00:11:58,130 nauja daina, galite išsiaiškinti, ar tai Katy Perry ar Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Antrasis, aš tiesiog norėčiau pakalbėti apie segmentacijos problemą. 240 00:12:01,490 --> 00:12:05,780 Taigi, aš nežinau, jei jus vaikinai žino, bet Kinų, japonų, kitų Rytų Azijos 241 00:12:05,780 --> 00:12:08,090 kalbos ir kitų kalbų apskritai, neturi 242 00:12:08,090 --> 00:12:09,830 tarpų tarp žodžių. 243 00:12:09,830 --> 00:12:13,540 Ir tada, jei jūs manote apie tai, kaip šios kompiuteris rūšies mėgina 244 00:12:13,540 --> 00:12:18,600 suprasti, natūralios kalbos apdorojimo, atrodo ne žodžiais ir 245 00:12:18,600 --> 00:12:21,500 bando suprasti santykius tarp jų, tiesa? 246 00:12:21,500 --> 00:12:25,440 Bet tada jei turite Kinija, ir jūs turi nulines erdves, tai tikrai sunku 247 00:12:25,440 --> 00:12:28,360 sužinoti, kas yra tarp ryšys žodžiai, nes jie neturi bet 248 00:12:28,360 --> 00:12:29,530 žodžiai pirmas. 249 00:12:29,530 --> 00:12:32,600 Taigi, ką jums reikia padaryti kažką vadinama segmentavimas, kuris tiesiog reiškia išleidimą 250 00:12:32,600 --> 00:12:36,490 tarpai tarp to, ką mes norime skambinti žodžiai tų kalbų. 251 00:12:36,490 --> 00:12:37,740 Prasmės? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Ir tada mes ketiname kalbėti apie sintaksę. 254 00:12:41,540 --> 00:12:44,050 Taigi tik šiek tiek apie gamtos kalbos apdorojimas. 255 00:12:44,050 --> 00:12:45,420 Tai bus tiesiog apžvalga. 256 00:12:45,420 --> 00:12:50,700 Taigi, šiandien, iš esmės tai, ką noriu daryti yra suteikti jums vaikinai šiek tiek 257 00:12:50,700 --> 00:12:53,930 viduje kokios yra galimybės kad jūs galite padaryti su skaičiuojamosios 258 00:12:53,930 --> 00:12:54,960 lingvistika. 259 00:12:54,960 --> 00:13:00,410 Ir tada jūs galite pamatyti, ką jūs manote yra kietas tarp šių dalykų. 260 00:13:00,410 --> 00:13:02,270 O gal jūs galite galvoti apie projekto ir ateiti pasikalbėti su manimi. 261 00:13:02,270 --> 00:13:05,260 Ir galiu jums patarti apie tai, kaip jį įgyvendinti. 262 00:13:05,260 --> 00:13:09,060 >> Taigi sintaksė bus šiek tiek apie grafikas Paieška ir mašinos 263 00:13:09,060 --> 00:13:09,670 vertimas. 264 00:13:09,670 --> 00:13:13,650 Aš tiesiog ketina duoti kaip pavyzdį galite, pavyzdžiui, išversti 265 00:13:13,650 --> 00:13:16,020 kažkas iš portugalų į anglų. 266 00:13:16,020 --> 00:13:17,830 Skamba gerai? 267 00:13:17,830 --> 00:13:19,293 >> Taigi, pirmiausia, klasifikavimo problema. 268 00:13:19,293 --> 00:13:23,590 Aš pasakyti, kad tai seminaro dalis bus sunkiausia 269 00:13:23,590 --> 00:13:27,560 tik vienas, nes vyksta turi būti tam tikras kodavimo. 270 00:13:27,560 --> 00:13:29,470 Bet tai bus Python. 271 00:13:29,470 --> 00:13:34,380 Aš žinau, vaikinai nežino, Python, todėl Aš tik ketina paaiškintų, aukštos 272 00:13:34,380 --> 00:13:35,750 lygį, ką aš darau. 273 00:13:35,750 --> 00:13:40,900 Ir jūs neturite really care per daug apie sintaksę, nes tai 274 00:13:40,900 --> 00:13:42,140 ką jūs vaikinai gali mokytis. 275 00:13:42,140 --> 00:13:42,540 Gerai? 276 00:13:42,540 --> 00:13:43,580 Skamba gerai. 277 00:13:43,580 --> 00:13:46,020 >> Taigi, kas yra klasifikavimo problema? 278 00:13:46,020 --> 00:13:49,140 Taigi jums suteikta keletą dainos žodžius daina, ir norite atspėti 279 00:13:49,140 --> 00:13:50,620 kas dainuoja jį. 280 00:13:50,620 --> 00:13:54,045 Ir tai gali būti bet kokios rūšies kitų problemų. 281 00:13:54,045 --> 00:13:59,980 Taigi tai gali būti, pavyzdžiui, jūs turite prezidento rinkimų kampaniją, ir jūs turite 282 00:13:59,980 --> 00:14:02,610 kalba, o jūs norite rasti , jei jis buvo, pavyzdžiui, 283 00:14:02,610 --> 00:14:04,470 B. Obama ar Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Arba jūs galite turėti laiškų krūva ir norite išsiaiškinti, ar jie yra 285 00:14:07,700 --> 00:14:08,890 šlamštą, ar ne. 286 00:14:08,890 --> 00:14:11,440 Taigi, tai tik klasifikuojant kai grindžiami duomenys žodžiai 287 00:14:11,440 --> 00:14:13,790 , kad turite ten. 288 00:14:13,790 --> 00:14:16,295 >> Taigi, norint tai padaryti, jūs turite padaryti keletą prielaidų. 289 00:14:16,295 --> 00:14:20,570 Taigi apie kompiuterinės lingvistikos daug daro prielaidas, 290 00:14:20,570 --> 00:14:24,100 paprastai smart prielaidos, kad galite gauti gerų rezultatų. 291 00:14:24,100 --> 00:14:26,670 Bandymas sukurti jam modelį. 292 00:14:26,670 --> 00:14:31,290 Ir tada jį išbandyti ir pamatyti, jei ji veikia, jei ji suteikia jums gerą tikslumo. 293 00:14:31,290 --> 00:14:33,940 Ir jei taip, tuomet jūs pabandyti jį patobulinti. 294 00:14:33,940 --> 00:14:37,640 Jei ne, jūs kaip, gerai, gal aš turėtų kitą prielaidą. 295 00:14:37,640 --> 00:14:44,030 >> Taigi prielaida, kad mes ketiname padaryti, kad menininkas paprastai dainuoja 296 00:14:44,030 --> 00:14:49,220 apie temą kelis kartus, o gal naudoja žodžius kelis kartus tiesiog 297 00:14:49,220 --> 00:14:50,270 nes jie įpratę prie jo. 298 00:14:50,270 --> 00:14:51,890 Jūs galite tiesiog galvoti apie savo draugus. 299 00:14:51,890 --> 00:14:57,350 Aš tikiu, kad jus vaikinai visi turime draugų kad pasakyti savo parašo frazę, 300 00:14:57,350 --> 00:14:59,260 pažodžiui kiekvieną sakinį - 301 00:14:59,260 --> 00:15:02,660 kaip kai konkretaus žodžio ar tam tikram frazė, kad jie pasakyti 302 00:15:02,660 --> 00:15:04,020 kiekvienas sakinys. 303 00:15:04,020 --> 00:15:07,920 >> Ir ką jūs galite pasakyti, kad, jei matote sakinys, kuris turi parašo 304 00:15:07,920 --> 00:15:11,450 frazė, galima spėti, kad greičiausiai Jūsų draugas 305 00:15:11,450 --> 00:15:13,310 viena sakau, tiesa? 306 00:15:13,310 --> 00:15:18,410 Taigi, jūs padaryti šią prielaidą ir tada tai kaip jums sukurti modelį. 307 00:15:18,410 --> 00:15:24,440 >> Pavyzdys, kad aš ruošiuosi duoti yra kaip Lady Gaga, pavyzdžiui, žmonės 308 00:15:24,440 --> 00:15:27,430 pasakyti, kad ji naudoja "Baby" už visi jos numeris vienas dainas. 309 00:15:27,430 --> 00:15:32,270 Ir iš tikrųjų tai yra vaizdo, kad rodo jai sakydamas žodį "kūdikio" už 310 00:15:32,270 --> 00:15:33,410 skirtingos dainos. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO PLAYBACK] 312 00:15:33,860 --> 00:15:34,310 >> - (SINGING) kūdikiui. 313 00:15:34,310 --> 00:15:36,220 Kūdikių. 314 00:15:36,220 --> 00:15:37,086 Kūdikių. 315 00:15:37,086 --> 00:15:37,520 Kūdikių. 316 00:15:37,520 --> 00:15:37,770 Kūdikių. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Kūdikių. 319 00:15:39,243 --> 00:15:40,085 Kūdikių. 320 00:15:40,085 --> 00:15:40,510 Kūdikių. 321 00:15:40,510 --> 00:15:40,850 Kūdikių. 322 00:15:40,850 --> 00:15:41,090 >> [PABAIGA VIDEO PLAYBACK- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Freitas: Taigi yra, manau, 40 dainos čia, kuriame ji sako 324 00:15:44,020 --> 00:15:48,690 Žodis "kūdikis". Taigi jūs galite iš esmės manau, kad jei matote dainą, kuri turi 325 00:15:48,690 --> 00:15:52,180 Žodis "kūdikis", yra keletas aukštos tikimybė, kad jis Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Bet pabandykime plėtoti šią dar daugiau formaliai. 327 00:15:56,450 --> 00:16:00,470 >> Taigi šie žodžiai dainų pagal Lady Gaga ir Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Taigi, jums pažvelgti į Lady Gaga, pamatysite jos turi įvykių daug "kūdikis" 329 00:16:04,120 --> 00:16:07,710 daug pasikartojimų "taip". Ir Katy Perry turi pasikartojimų daug 330 00:16:07,710 --> 00:16:10,360 "," Pasikartojimų daug "ugnies". 331 00:16:10,360 --> 00:16:14,560 >> Taigi, iš esmės tai, ką mes norime padaryti, tai jums lyrikos. 332 00:16:14,560 --> 00:16:20,480 Tarkime, kad jūs gaunate už lyric daina, kuri yra "kūdikis", tiesiog "kūdikis". Jei 333 00:16:20,480 --> 00:16:24,750 jūs tiesiog gaunate žodį "kūdikio", ir tai yra visi duomenys, kad jūs turite iš 334 00:16:24,750 --> 00:16:27,880 Lady Gaga ir Katy Perry, kuris būtų galite atspėti, yra asmuo, 335 00:16:27,880 --> 00:16:29,370 kas dainuoja daina? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga ir Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, tiesa? 338 00:16:33,150 --> 00:16:37,400 Nes ji vienintelė, kuri sako "Kūdikis". Tai skamba kvailai, ar ne? 339 00:16:37,400 --> 00:16:38,760 Gerai, tai yra tikrai paprasta. 340 00:16:38,760 --> 00:16:41,860 Aš tiesiog žiūri į dviejų dainų ir Žinoma, ji tik tas, kuris turi 341 00:16:41,860 --> 00:16:42,660 "Kūdikis". 342 00:16:42,660 --> 00:16:44,740 >> Bet kas, jei turite žodžių krūva? 343 00:16:44,740 --> 00:16:50,900 Jei faktinė lyrikos, nors pavyzdžiui, "kūdikis, aš tiesiog 344 00:16:50,900 --> 00:16:51,610 nuvyko į [? CFT?] 345 00:16:51,610 --> 00:16:54,020 paskaita "ar kažkas panašaus, ir tada jūs iš tikrųjų turite išsiaiškinti - 346 00:16:54,020 --> 00:16:55,780 remiantis visais šiais žodžiais - 347 00:16:55,780 --> 00:16:58,350 kas yra menininkas, kuris tikriausiai dainavo šią dainą? 348 00:16:58,350 --> 00:17:01,860 Taigi pabandykime sukurti tai šiek tiek toliau. 349 00:17:01,860 --> 00:17:05,630 >> Gerai, kad grindžiamas tik duomenų, kad mes turiu, atrodo, kad Gaga yra tikriausiai 350 00:17:05,630 --> 00:17:06,260 dainininkė. 351 00:17:06,260 --> 00:17:07,904 Bet kaip mes galime rašyti tai daugiau oficialiai? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Ir ten bus mažai šiek tiek statistikos. 354 00:17:13,140 --> 00:17:15,880 Taigi, jei jūs prarasti, tiesiog pabandyti suprasti sąvoka. 355 00:17:15,880 --> 00:17:18,700 Tai neturi reikšmės, jei jūs suprantate lygtys puikiai. 356 00:17:18,700 --> 00:17:22,150 Visa tai bus internete. 357 00:17:22,150 --> 00:17:25,490 >> Taigi, iš esmės, ką aš apskaičiuoti, Tikimybė, kad ši daina yra iš 358 00:17:25,490 --> 00:17:28,040 Lady Gaga turint omenyje, kad - 359 00:17:28,040 --> 00:17:30,660 todėl ši juosta reiškia, turint omenyje, kad - 360 00:17:30,660 --> 00:17:33,680 Pamačiau žodį "kūdikis". Ar tai prasminga? 361 00:17:33,680 --> 00:17:35,540 Taigi, aš bandau apskaičiuoti kad tikimybė. 362 00:17:35,540 --> 00:17:38,540 >> Taigi tai teorema vadinama Bajeso teorema, kuri teigia, kad 363 00:17:38,540 --> 00:17:43,330 tikimybė tam tikrą B yra tikimybė B suteiktas A, datos 364 00:17:43,330 --> 00:17:47,660 tikimybė, nei tikimybe iš B. Tai ilgas lygtis. 365 00:17:47,660 --> 00:17:51,970 Bet ką jūs turite suprasti, iš tai, kad tai, ką aš noriu 366 00:17:51,970 --> 00:17:52,830 apskaičiuoti, tiesa? 367 00:17:52,830 --> 00:17:56,570 Taigi tikimybė, kad ta daina yra iš Lady GaGa nes pamačiau žodį 368 00:17:56,570 --> 00:17:58,230 "Kūdikis". 369 00:17:58,230 --> 00:18:02,960 >> O dabar ką aš gaunu yra Tikimybė, žodis "baby" atsižvelgiant į 370 00:18:02,960 --> 00:18:04,390 kad turiu Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Ir kas tai yra iš esmės? 372 00:18:07,220 --> 00:18:10,500 Ką tai reiškia, tai, kas tikimybė pamatyti žodį "baby" 373 00:18:10,500 --> 00:18:12,130 per Gaga dainos? 374 00:18:12,130 --> 00:18:16,240 Jei aš noriu apskaičiuoti, kad labai paprastas būdas, tai tik iš skaičių 375 00:18:16,240 --> 00:18:23,640 kartų matau "Baby", palyginti su bendru iš žodžių Gaga dainų, tiesa? 376 00:18:23,640 --> 00:18:27,600 Kas yra dažnis, kad matau kad žodis Gaga darbe? 377 00:18:27,600 --> 00:18:30,530 Prasmės? 378 00:18:30,530 --> 00:18:33,420 >> Antrasis trimestras tikimybė Gaga. 379 00:18:33,420 --> 00:18:34,360 Ką tai reiškia? 380 00:18:34,360 --> 00:18:38,550 Tai iš esmės reiškia, kad tai, kas tikimybė klasifikuoti 381 00:18:38,550 --> 00:18:40,690 kai žodžiai kaip Gaga? 382 00:18:40,690 --> 00:18:45,320 Ir tai yra tipo keista, bet tegul galvoja pavyzdys. 383 00:18:45,320 --> 00:18:49,230 Taigi galime sakyti, kad tikimybė turintys "Baby" daina yra pati 384 00:18:49,230 --> 00:18:51,760 už Gaga ir Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Tačiau Britney Spears turi du kartus daugiau dainų nei Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Taigi, jei kažkas tiesiog atsitiktinai suteikia jums lyrika "kūdikis", pirmas dalykas, kurį 387 00:19:00,570 --> 00:19:04,710 pažvelgti į tai, kas yra tikimybė, turintys "Baby" į Gaga dainą "Baby" 388 00:19:04,710 --> 00:19:05,410 į Britney daina? 389 00:19:05,410 --> 00:19:06,460 Ir tai tas pats. 390 00:19:06,460 --> 00:19:10,040 >> Taigi antras dalykas, kad jūs matote, yra tai, gerai, kas yra tikimybė, 391 00:19:10,040 --> 00:19:13,770 pati tai lyrikos yra Gaga lyrikos, ir kas yra tikimybė, 392 00:19:13,770 --> 00:19:15,380 yra Britney lyrinis? 393 00:19:15,380 --> 00:19:18,950 Taigi nuo Britney turi tiek daug daugiau dainų kaip Gaga, jūs tikriausiai 394 00:19:18,950 --> 00:19:21,470 tarkim, gerai, tai tikriausiai Britney lyrikos. 395 00:19:21,470 --> 00:19:23,340 Štai kodėl mes turime tai vadiname čia. 396 00:19:23,340 --> 00:19:24,670 Tikimybė Gaga. 397 00:19:24,670 --> 00:19:26,950 Prasminga? 398 00:19:26,950 --> 00:19:28,660 Ar tai? 399 00:19:28,660 --> 00:19:29,370 Gerai. 400 00:19:29,370 --> 00:19:33,500 >> Ir naujausia yra tik tikimybė iš "Baby", kuri nėra 401 00:19:33,500 --> 00:19:34,810 tikrai nesvarbu, kad daug. 402 00:19:34,810 --> 00:19:39,940 Bet tai tikimybe matyti "Baby" anglų kalba. 403 00:19:39,940 --> 00:19:42,725 Mes paprastai nerūpi, kad daug apie šio termino. 404 00:19:42,725 --> 00:19:44,490 Ar tai prasminga? 405 00:19:44,490 --> 00:19:48,110 Taigi Gaga tikimybė yra vadinamas prieš tikimybė 406 00:19:48,110 --> 00:19:49,530 iš klasės Gaga. 407 00:19:49,530 --> 00:19:53,840 Nes tai tiesiog reiškia, kad tai, kas Tikimybė turėti šią klasę - 408 00:19:53,840 --> 00:19:55,520 kuris Gaga - 409 00:19:55,520 --> 00:19:59,350 tiesiog apskritai, tiesiog be sąlygų. 410 00:19:59,350 --> 00:20:02,560 >> Ir tada, kai turiu tikimybę Gaga suteiktas "kūdikis", mes jį vadiname plius 411 00:20:02,560 --> 00:20:06,160 verkiantis tikimybę, nes tai turintys tikimybė 412 00:20:06,160 --> 00:20:08,300 Gaga davė keletą įrodymų. 413 00:20:08,300 --> 00:20:11,050 Taigi, aš suteikti Jums įrodymus kad aš pamačiau žodį kūdikį ir 414 00:20:11,050 --> 00:20:12,690 daina prasminga? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 Gerai. 417 00:20:16,410 --> 00:20:22,400 >> Taigi, jei aš apskaičiavo, kad už kiekvieną iš Lady Gaga dainų, 418 00:20:22,400 --> 00:20:25,916 kas tai būtų - 419 00:20:25,916 --> 00:20:27,730 matyt, aš negaliu perkelti jį. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Iš Gaga tikimybė bus kažkas panašaus, 2 per 24 kartų 1/2, 422 00:20:36,920 --> 00:20:38,260 per 2 per 53. 423 00:20:38,260 --> 00:20:40,640 Tai neturi reikšmės, jei jūs žinote, ką šie skaičiai iš. 424 00:20:40,640 --> 00:20:44,750 Bet tai tik skaičius, kad ketina būti daugiau nei 0, tiesa? 425 00:20:44,750 --> 00:20:48,610 >> Ir tada, kai aš Katy Perry tikimybė "Baby" suteikta Katy yra 426 00:20:48,610 --> 00:20:49,830 jau 0, tiesa? 427 00:20:49,830 --> 00:20:52,820 Nes nėra "kūdikis" Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Taigi tai tampa 0, o Gaga laimi, o tai reiškia, kad Gaga yra 429 00:20:56,360 --> 00:20:57,310 tikriausiai dainininkė. 430 00:20:57,310 --> 00:20:58,560 Ar tai prasminga? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 Gerai. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Taigi, jei aš noriu, kad tai daugiau pareigūną, Aš iš tikrųjų gali padaryti modelį 435 00:21:11,750 --> 00:21:12,700 kelis žodžius. 436 00:21:12,700 --> 00:21:14,610 Taigi galime sakyti, kad turiu kažką pavyzdžiui, "kūdikis, aš esu 437 00:21:14,610 --> 00:21:16,030 ant ugnies ", ar kažką. 438 00:21:16,030 --> 00:21:17,760 Taigi ji turi kelis žodžius. 439 00:21:17,760 --> 00:21:20,880 Ir šiuo atveju, jūs galite pamatyti kad "kūdikis" yra Gaga, 440 00:21:20,880 --> 00:21:21,710 bet tai nėra Katy. 441 00:21:21,710 --> 00:21:24,940 Ir "ugnis" yra Katy, bet tai ne Gaga, tiesa? 442 00:21:24,940 --> 00:21:27,200 Taigi jis vis sudėtingiau, tiesa? 443 00:21:27,200 --> 00:21:31,440 Nes atrodo, kad jūs beveik yra tarp dviejų lygų rezultatą. 444 00:21:31,440 --> 00:21:36,980 >> Taigi, ką jūs turite padaryti, tai prisiimti nepriklausomumas tarp žodžių. 445 00:21:36,980 --> 00:21:41,210 Taigi, iš esmės, ką tai reiškia, kad Aš tiesiog apskaičiuoti, kas yra 446 00:21:41,210 --> 00:21:44,330 tikimybė pamatyti "kūdikį", kas yra matyti tikimybė "aš" ir 447 00:21:44,330 --> 00:21:46,670 "Esu", ir "ant" ir "ugnis" visos atskirai. 448 00:21:46,670 --> 00:21:48,670 Tada aš dauginant juos visus. 449 00:21:48,670 --> 00:21:52,420 Ir aš matau, kas yra tikimybė, pamatyti visą sakinį. 450 00:21:52,420 --> 00:21:55,210 Prasmės? 451 00:21:55,210 --> 00:22:00,270 >> Taigi, iš esmės, jei turiu tik vieną žodį, ką aš noriu rasti yra arg max 452 00:22:00,270 --> 00:22:05,385 o tai reiškia, kas yra grupė, kuri yra suteikia man didžiausią tikimybę? 453 00:22:05,385 --> 00:22:10,010 Taigi, kas yra klasė, suteikia man didžiausia tikimybė 454 00:22:10,010 --> 00:22:11,940 Tikimybė klasės suteikta žodį. 455 00:22:11,940 --> 00:22:17,610 Taigi šiuo atveju Gaga suteiktas "kūdikį". Arba Katy suteiktas "kūdikį". Prasmės? 456 00:22:17,610 --> 00:22:21,040 >> Ir tik nuo Bayes, kad lygtis, kad aš parodė, 457 00:22:21,040 --> 00:22:24,780 mes sukurti šią frakciją. 458 00:22:24,780 --> 00:22:28,750 Vienintelis dalykas, kad jūs matote, kad žodžio tikimybė suteikta 459 00:22:28,750 --> 00:22:31,370 klasė keičiasi priklausomai nuo nuo klasės, tiesa? 460 00:22:31,370 --> 00:22:34,260 Iš "Baby" s, kad aš skaičius per Gaga skiriasi nuo Katy. 461 00:22:34,260 --> 00:22:37,640 Klasės tikimybė taip pat pokyčius, nes tai tiesiog numeris 462 00:22:37,640 --> 00:22:39,740 dainų kiekvienas iš jų turi. 463 00:22:39,740 --> 00:22:43,980 >> Tačiau pats žodis tikimybė bus tas pats visiems 464 00:22:43,980 --> 00:22:44,740 menininkai, tiesa? 465 00:22:44,740 --> 00:22:47,150 Taigi žodžio tikimybė yra tiesiog, kas yra tikimybė, 466 00:22:47,150 --> 00:22:49,820 matome, kad žodis Anglų kalba? 467 00:22:49,820 --> 00:22:51,420 Todėl visus juos pats. 468 00:22:51,420 --> 00:22:55,790 Taigi, kadangi tai yra nuolatinis, mes galime tiesiog lašas tai ir negalvoja apie tai. 469 00:22:55,790 --> 00:23:00,230 Taigi, tai bus iš tikrųjų lygtis mes ieškome. 470 00:23:00,230 --> 00:23:03,360 >> Ir jei turiu kelis žodžius, aš dar teks iki 471 00:23:03,360 --> 00:23:04,610 tikimybė čia. 472 00:23:04,610 --> 00:23:06,980 Vienintelis dalykas yra tai, kad aš dauginant Tikimybių 473 00:23:06,980 --> 00:23:08,490 visi kiti žodžiai. 474 00:23:08,490 --> 00:23:10,110 Taigi, aš dauginant juos visus. 475 00:23:10,110 --> 00:23:12,610 Prasmės? 476 00:23:12,610 --> 00:23:18,440 Atrodo keistai, bet iš esmės reiškia, apskaičiuoti iki šios klasės, ir 477 00:23:18,440 --> 00:23:22,100 tada padauginti iš kiekvieno tikimybe žodžiai neliečia tos klasės. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Ir jūs žinote, kad tikimybė Žodis suteiktas klasė bus 480 00:23:29,150 --> 00:23:34,520 skaičių kartų matote šį žodį kad klasės, padalintas iš skaičiaus 481 00:23:34,520 --> 00:23:37,020 žodžiai turite, kad klasė apskritai. 482 00:23:37,020 --> 00:23:37,990 Prasmės? 483 00:23:37,990 --> 00:23:41,680 Tai tiesiog kaip "kūdikis" buvo 2 per žodžių skaičius, kad 484 00:23:41,680 --> 00:23:43,020 Turėjau dainų. 485 00:23:43,020 --> 00:23:45,130 Taigi tik dažnis. 486 00:23:45,130 --> 00:23:46,260 >> Bet yra vienas dalykas. 487 00:23:46,260 --> 00:23:51,250 Prisiminkite, kaip aš rodžiau, kad tikimybė "kūdikių" Būti žodžiai 488 00:23:51,250 --> 00:23:56,350 iš Katy Perry buvo 0 tik todėl, kad Katy Perry neturėjo "Baby" ne visi? 489 00:23:56,350 --> 00:24:04,900 Bet tai skamba šiek tiek šiurkštus tik tiesiog pasakyti, kad žodžiai gali būti ne iš 490 00:24:04,900 --> 00:24:10,040 menininkas tik todėl, kad jie neturi kad žodis ypač bet kuriuo metu. 491 00:24:10,040 --> 00:24:13,330 >> Taigi, galite tiesiog pasakyti, gerai, jei neturi šį žodį, aš ruošiuosi 492 00:24:13,330 --> 00:24:15,640 Jums skirti mažesnę tikimybę, bet aš tik nesiruošia 493 00:24:15,640 --> 00:24:17,420 Jums 0 karto. 494 00:24:17,420 --> 00:24:21,040 Nes gal tai buvo kažkas panašaus, "Gaisro, gaisro, ugnies, ugnis", kuris yra 495 00:24:21,040 --> 00:24:21,990 visiškai Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Ir tada "kūdikis", ir jis tiesiog eina į 0 iš karto, nes ten buvo vienas 497 00:24:26,060 --> 00:24:27,250 "Kūdikis". 498 00:24:27,250 --> 00:24:31,440 >> Taigi, iš esmės tai, ką mes darome, yra kažkas vadinamas Laplaso išlyginimo. 499 00:24:31,440 --> 00:24:36,260 Ir tai tiesiog reiškia, kad aš padovanosiu kai tikimybė, net žodžių 500 00:24:36,260 --> 00:24:37,850 kad nėra. 501 00:24:37,850 --> 00:24:43,170 Taigi, ką aš galiu padaryti, kad kai aš Apskaičiuojant tai, aš visada pridėti 1 kaip 502 00:24:43,170 --> 00:24:44,180 skaitiklis. 503 00:24:44,180 --> 00:24:48,060 Taigi, net jei žodis neegzistuoja, ir Tokiu atveju, jei tai yra 0, aš vis dar 504 00:24:48,060 --> 00:24:51,250 Apskaičiuojant tai, kaip 1 per bendras žodžių skaičius. 505 00:24:51,250 --> 00:24:55,060 Priešingu atveju, aš gauti kiek žodžių Turiu ir aš pridėti 1. 506 00:24:55,060 --> 00:24:58,300 Taigi, aš skaičiuoti abiem atvejais. 507 00:24:58,300 --> 00:25:00,430 Prasmės? 508 00:25:00,430 --> 00:25:03,060 >> Taigi dabar galime padaryti kai kodavimas. 509 00:25:03,060 --> 00:25:06,440 Aš ruošiuosi tai padaryti gana greitai, bet tai tik svarbu, kad jums 510 00:25:06,440 --> 00:25:08,600 vaikinai suprasti sąvokas. 511 00:25:08,600 --> 00:25:13,450 Taigi, ką mes bandome padaryti yra tiksliai įgyvendinti šį 512 00:25:13,450 --> 00:25:14,330 dalykas, kad aš ką tik pasakė - 513 00:25:14,330 --> 00:25:19,110 Noriu, kad jūs įdėti žodžiai iš Lady Gaga ir Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Ir programa bus suteikta galimybė pasakyti, ar šie nauji žodžiai yra iš Gaga 515 00:25:22,980 --> 00:25:24,170 ar Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Prasmės? 517 00:25:25,800 --> 00:25:27,530 Gerai. 518 00:25:27,530 --> 00:25:30,710 >> Taigi turiu šią programą aš ruošiuosi skambinti classify.py. 519 00:25:30,710 --> 00:25:31,970 Taigi tai yra Python. 520 00:25:31,970 --> 00:25:34,210 Tai nauja programavimo kalba. 521 00:25:34,210 --> 00:25:38,020 Jis yra labai panašus į kai būdų, C ir PHP. 522 00:25:38,020 --> 00:25:43,180 Tai panašu, nes, jei norite išmokti Python po žinant C, tai 523 00:25:43,180 --> 00:25:46,270 tikrai ne tai, kad daug iššūkis tik todėl, kad Pitonas yra daug lengviau 524 00:25:46,270 --> 00:25:47,520 nei C, visų pirma. 525 00:25:47,520 --> 00:25:49,370 Ir daug dalykų jau įgyvendinama už jus. 526 00:25:49,370 --> 00:25:56,820 Taigi, tiesiog, kaip pavyzdžiui, PHP turi funkcijas, kad rūšiuoti sąrašą, arba pridėti kažką 527 00:25:56,820 --> 00:25:58,780 į masyvą, ar bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python yra visi tie taip pat. 529 00:26:00,690 --> 00:26:05,960 >> Taigi, aš tik ketina greitai paaiškinti kaip mes galime padaryti klasifikacija 530 00:26:05,960 --> 00:26:07,860 problema čia. 531 00:26:07,860 --> 00:26:13,230 Taigi galime sakyti, kad šiuo atveju, turiu lyrics Gaga ir Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Būdas, kad aš turiu tuos žodžiai yra tai, kad pirmasis žodis iš dainos yra 533 00:26:21,880 --> 00:26:25,250 menininko vardas, o likusi dalis yra lyrika. 534 00:26:25,250 --> 00:26:29,470 Taigi galime sakyti, kad turiu šį sąrašą kuris pirmasis yra žodžiai Gaga. 535 00:26:29,470 --> 00:26:31,930 Taigi, čia aš esu teisingame kelyje. 536 00:26:31,930 --> 00:26:35,270 Ir šalia vienas Katy ir jis taip pat dainų. 537 00:26:35,270 --> 00:26:38,040 >> Taigi, tai, kaip jūs deklaruoti Python kintamasis. 538 00:26:38,040 --> 00:26:40,200 Jūs neturite duoti duomenų tipą. 539 00:26:40,200 --> 00:26:43,150 Jūs tiesiog parašyti "žodžiai" kokios patinka PHP. 540 00:26:43,150 --> 00:26:44,890 Prasmės? 541 00:26:44,890 --> 00:26:47,770 >> Taigi, kas yra tai, kad turiu apskaičiuoti, kad būtų galima apskaičiuoti 542 00:26:47,770 --> 00:26:49,360 tikimybės? 543 00:26:49,360 --> 00:26:55,110 Turiu apskaičiuoti "priors" kiekvieno skirtingi 544 00:26:55,110 --> 00:26:56,710 klasės, kad aš. 545 00:26:56,710 --> 00:27:06,680 Turiu apskaičiuoti "posteriors", ar gana daug tikimybes 546 00:27:06,680 --> 00:27:12,150 Kiekvieno iš skirtingų žodžių, Galiu turėti kiekvienam menininkui. 547 00:27:12,150 --> 00:27:17,210 Taigi per Gaga, pavyzdžiui, aš ruošiuosi turėti kiek kartų matau sąrašą 548 00:27:17,210 --> 00:27:19,250 kiekvienas iš žodžių. 549 00:27:19,250 --> 00:27:20,760 Prasmės? 550 00:27:20,760 --> 00:27:25,370 >> Ir pagaliau, aš tiesiog teks sąrašas vadinamas "žodžiai", kuri yra tik ketina 551 00:27:25,370 --> 00:27:29,780 turėti kiek žodžių aš turėti kiekvienam menininkui. 552 00:27:29,780 --> 00:27:33,760 Taigi Gaga, pavyzdžiui, kai aš žiūriu su tekstais, aš manau, 24 553 00:27:33,760 --> 00:27:34,750 žodžiai iš viso. 554 00:27:34,750 --> 00:27:38,970 Taigi šis sąrašas yra tik teks Gaga 24 ir Katy kitas numeris. 555 00:27:38,970 --> 00:27:40,130 Prasmės? 556 00:27:40,130 --> 00:27:40,560 Gerai. 557 00:27:40,560 --> 00:27:42,530 >> Taigi dabar, iš tikrųjų, tegul eiti į kodavimas. 558 00:27:42,530 --> 00:27:45,270 Taigi, Python, jūs iš tikrųjų galite grįžti yra skirtingi krūva 559 00:27:45,270 --> 00:27:46,630 viskas iš funkcijos. 560 00:27:46,630 --> 00:27:50,810 Taigi, aš ruošiuosi sukurti šią funkciją vadinamas "sąlyginis", kuris vyksta 561 00:27:50,810 --> 00:27:53,890 grąžinti visus iš tų dalykų, "nenuosavas", kad "tikimybės", ir 562 00:27:53,890 --> 00:28:05,690 "žodžiai". Taigi "Sąlyginai", ir tai bus skambinama į "žodžiai". 563 00:28:05,690 --> 00:28:11,510 >> Taigi, dabar noriu jums iš tikrųjų rašyti šią funkciją. 564 00:28:11,510 --> 00:28:17,750 Taigi, taip, kad aš galiu tai parašyti funkcija aš tiesiog tai apibrėžta 565 00:28:17,750 --> 00:28:20,620 veikti su "Def. Taigi aš "Def sąlyga ", o tai, atsižvelgiant 566 00:28:20,620 --> 00:28:28,700 "Žodžiai". O kas tai darys yra, visų pirma, turiu priors 567 00:28:28,700 --> 00:28:31,030 kad aš noriu apskaičiuoti. 568 00:28:31,030 --> 00:28:34,330 >> Taigi, taip, kad aš tai galiu padaryti, tai sukurti Python, kalbų žodynas 569 00:28:34,330 --> 00:28:37,320 yra beveik tas pats dalykas kaip maišos stalo, ar tai kaip iteracinis 570 00:28:37,320 --> 00:28:40,480 masyvas PHP. 571 00:28:40,480 --> 00:28:44,150 Tai kaip man deklaruoti žodyną. 572 00:28:44,150 --> 00:28:53,580 Ir iš esmės, ką tai reiškia, kad nenuosavas iš Gaga yra 0,5, jei, pavyzdžiui, 573 00:28:53,580 --> 00:28:57,200 50% dainų yra iš Gaga, 50% yra Katy. 574 00:28:57,200 --> 00:28:58,450 Prasmės? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Taigi turiu išsiaiškinti, kaip apskaičiuoti priors. 577 00:29:03,680 --> 00:29:07,120 >> Artimiausius tie, kad aš turi daryti, taip pat, yra tikimybės ir žodžiai. 578 00:29:07,120 --> 00:29:17,100 Taigi iš Gaga tikimybės yra sąrašas visų tikimybių, kad aš 579 00:29:17,100 --> 00:29:19,160 turėti atskiruose Gaga žodžių. 580 00:29:19,160 --> 00:29:23,880 Taigi, jei aš einu į tikimybių Gaga "Kūdikis", pavyzdžiui, tai bus man 581 00:29:23,880 --> 00:29:28,750 kažkas panašaus į 2 per 24 šiuo atveju. 582 00:29:28,750 --> 00:29:30,070 Prasmės? 583 00:29:30,070 --> 00:29:36,120 Taigi aš einu į "tikimybės", eikite į "Gaga" bucket, kad turi visą sąrašą 584 00:29:36,120 --> 00:29:40,550 kad Gaga žodžiai, tada aš einu į "kūdikis" ir matau tikimybę. 585 00:29:40,550 --> 00:29:45,940 >> Ir pagaliau turiu tai "Žodžiai" žodynas. 586 00:29:45,940 --> 00:29:53,620 Taigi čia ", tikimybės." Ir "žodžiai". Taigi, jei aš "žodžiai", "Gaga" 587 00:29:53,620 --> 00:29:58,330 kas nutiks yra tai, kad ketina suteikti man 24, sakydamas, kad aš 588 00:29:58,330 --> 00:30:01,990 turi 24 žodžius per žodžiai iš Gaga. 589 00:30:01,990 --> 00:30:04,110 Prasminga? 590 00:30:04,110 --> 00:30:07,070 Taigi čia "žodžiai" yra lygu DAH-Dah-Dah. 591 00:30:07,070 --> 00:30:07,620 Gerai 592 00:30:07,620 --> 00:30:12,210 >> Taigi, ką aš ruošiuosi padaryti tai aš ruošiuosi kartoti per kiekvieną iš žodžių, todėl 593 00:30:12,210 --> 00:30:14,490 kiekvienas stygos kad Turiu sąraše. 594 00:30:14,490 --> 00:30:18,040 Ir aš ruošiuosi apskaičiuoti tuos dalykus už kiekvieną kandidatų. 595 00:30:18,040 --> 00:30:19,950 Prasminga? 596 00:30:19,950 --> 00:30:21,700 Taigi aš turiu padaryti už kilpą. 597 00:30:21,700 --> 00:30:26,300 >> Taigi, Python, ką aš galiu padaryti, tai "už linijos iš dainų. "tas pats, kaip 598 00:30:26,300 --> 00:30:28,000 "Už kiekvieną" pareiškimą PHP. 599 00:30:28,000 --> 00:30:33,420 Prisiminkite, kaip aš, jei ji buvo PHP galėtų sako: "kiekvienos dainos kaip 600 00:30:33,420 --> 00:30:35,220 linija. "Prasminga? 601 00:30:35,220 --> 00:30:38,900 Taigi, aš imtis kiekvienas iš šių linijų, šiuo atveju, šios eilutės ir kitą 602 00:30:38,900 --> 00:30:44,540 string taip kiekvienai iš linijų, ką aš ruošiuosi padaryti tai pirma, aš ruošiuosi 603 00:30:44,540 --> 00:30:49,150 padalyti šią eilutę į sąrašo žodžiai, atskirti tarpais. 604 00:30:49,150 --> 00:30:53,730 >> Taigi cool dalykas apie Python yra tai, kad galima tiesiog "Google", pavyzdžiui, "kaip aš galiu 605 00:30:53,730 --> 00:30:58,220 padalinti eilutę į žodžius? "Ir tai ketina papasakoti, kaip tai padaryti. 606 00:30:58,220 --> 00:31:04,890 Ir kaip tai padaryti, tai tik "linija = Line.split () "ir tai iš esmės 607 00:31:04,890 --> 00:31:08,640 ketina suteikti jums sąrašą kiekvienas čia žodžių. 608 00:31:08,640 --> 00:31:09,620 Prasminga? 609 00:31:09,620 --> 00:31:15,870 Taigi dabar, kad aš padariau, kad aš noriu žinoti kas yra tos dainos dainininkas. 610 00:31:15,870 --> 00:31:20,130 Ir tai, kad aš tiesiog gauti Pirmasis elementas masyvo, tiesa? 611 00:31:20,130 --> 00:31:26,390 Taigi, galiu tik pasakyti, kad aš "dainininkas = Linija (0) "Prasminga? 612 00:31:26,390 --> 00:31:32,010 >> Ir tada ką reikia padaryti, tai, pirmiausia Apskritai, aš ruošiuosi atnaujinti kiek 613 00:31:32,010 --> 00:31:36,130 žodžiai Turiu pagal "Gaga". todėl aš tiesiog ketina apskaičiuoti, kiek žodžių aš 614 00:31:36,130 --> 00:31:38,690 turėti šiame sąraše, tiesa? 615 00:31:38,690 --> 00:31:41,910 Kadangi tai yra kiek žodžių Turiu į dainų ir aš tik ketina 616 00:31:41,910 --> 00:31:44,120 įtraukti jį į "Gaga" masyvo. 617 00:31:44,120 --> 00:31:47,090 Ar tai prasminga? 618 00:31:47,090 --> 00:31:49,010 Negalima per daug dėmesio sintaksę. 619 00:31:49,010 --> 00:31:50,430 Daugiau galvoti apie sąvokas. 620 00:31:50,430 --> 00:31:52,400 Tai svarbiausia dalis. 621 00:31:52,400 --> 00:31:52,720 Gerai. 622 00:31:52,720 --> 00:32:00,260 >> Taigi, ką aš galiu padaryti tai, jei "Gaga" yra jau į tą sąrašą, todėl "jei dainininkas 623 00:32:00,260 --> 00:32:03,190 žodžiai ", o tai reiškia, kad aš jau turi žodžius Gaga. 624 00:32:03,190 --> 00:32:06,640 Aš tik noriu pridėti papildomą žodžiai, kad. 625 00:32:06,640 --> 00:32:15,810 Taigi, ką aš padaryti, tai "žodžiai (singer) + = Len (linija) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Ir tada aš galiu tik daryti linijos ilgis. 627 00:32:18,250 --> 00:32:21,860 Taigi, kaip daug elementų I turi masyve. 628 00:32:21,860 --> 00:32:27,060 Ir aš turiu daryti atėmus 1 tik todėl, Pirmasis elementas masyve yra tik 629 00:32:27,060 --> 00:32:29,180 dainininkė ir tie, kurie ne žodžiai. 630 00:32:29,180 --> 00:32:31,420 Prasminga? 631 00:32:31,420 --> 00:32:32,780 Gerai. 632 00:32:32,780 --> 00:32:35,820 >> "Kitas", tai reiškia, kad aš noriu, kad iš tikrųjų įterpti Gaga į sąrašą. 633 00:32:35,820 --> 00:32:45,990 Taigi aš tiesiog padaryti "žodžiai (atlikėjas) = Len (linija) - 1, "atsiprašau. 634 00:32:45,990 --> 00:32:49,200 Taigi, vienintelis skirtumas tarp dviejų linijos yra tai, kad tai viena, tai nėra 635 00:32:49,200 --> 00:32:51,080 egzistuoja dar, kad aš tiesiog Inicijuojama jį. 636 00:32:51,080 --> 00:32:53,820 Tai vienas aš iš tikrųjų pridėti. 637 00:32:53,820 --> 00:32:55,570 Gerai. 638 00:32:55,570 --> 00:32:59,480 Taigi tai buvo pridedant prie žodžių. 639 00:32:59,480 --> 00:33:03,040 >> Dabar aš noriu pridėti į Priors. 640 00:33:03,040 --> 00:33:05,480 Taigi, kaip man apskaičiuoti priors? 641 00:33:05,480 --> 00:33:11,580 Į nenuosavas gali būti apskaičiuojamas pagal tai, kiek kartų. 642 00:33:11,580 --> 00:33:15,340 Taigi, kiek kartų jūs pamatysite, kad dainininkas tarp visų dainininkų, kad jūs 643 00:33:15,340 --> 00:33:16,380 turi, tiesa? 644 00:33:16,380 --> 00:33:18,810 Taigi Gaga ir Katy Perry, šiuo atveju, matau Gaga 645 00:33:18,810 --> 00:33:20,570 vieną kartą, Katy Perry kartą. 646 00:33:20,570 --> 00:33:23,320 >> Taigi, iš esmės yra skirtos Gaga nenuosavas ir Katy Perry būtų 647 00:33:23,320 --> 00:33:24,390 tik vienas, tiesa? 648 00:33:24,390 --> 00:33:26,500 Jūs tiesiog kiek kartų Matau menininkas. 649 00:33:26,500 --> 00:33:28,740 Taigi tai yra labai lengva apskaičiuoti. 650 00:33:28,740 --> 00:33:34,100 Galiu tik kažką panašaus, kaip, pavyzdžiui, "jei dainininkas Priors, "Aš tik ketina 651 00:33:34,100 --> 00:33:38,970 pridėti 1 jų nenuosavas dėžutę. 652 00:33:38,970 --> 00:33:51,000 Taigi, "nenuosavas (dainuoti)" + = 1 ", tada" kita " Aš ruošiuosi padaryti "priors (dainininkas) 653 00:33:51,000 --> 00:33:55,000 = 1. "Prasminga? 654 00:33:55,000 --> 00:34:00,080 >> Taigi, jei ji neegzistuoja aš tiesiog kaip 1, kitaip aš tiesiog pridėkite 1. 655 00:34:00,080 --> 00:34:11,280 Gerai, kad dabar visi, kad man liko daryti taip pat pridėti kiekvieno iš žodžių 656 00:34:11,280 --> 00:34:12,290 tikimybės. 657 00:34:12,290 --> 00:34:14,889 Taigi turiu suskaičiuoti, kiek kartų Matau kiekvienas iš žodžių. 658 00:34:14,889 --> 00:34:18,780 Taigi, aš tiesiog padaryti kitą už linijos į liniją. 659 00:34:18,780 --> 00:34:25,190 >> Taigi pirmas dalykas, kad aš ruošiuosi padaryti tai patikrinti, ar dainininkė jau turi 660 00:34:25,190 --> 00:34:26,969 tikimybių matrica. 661 00:34:26,969 --> 00:34:31,739 Taigi, aš patikrinti, jei atlikėjas nėra turi tikimybių matrica, aš tiesiog 662 00:34:31,739 --> 00:34:34,480 ketina inicijuoti vieną jų. 663 00:34:34,480 --> 00:34:36,400 Tai net ne masyvas, atsiprašau, tai žodyną. 664 00:34:36,400 --> 00:34:43,080 Taigi dainininkas tikimybės vyksta būti atvira žodynas, todėl aš 665 00:34:43,080 --> 00:34:45,830 tik inicijuojant už jį žodyną. 666 00:34:45,830 --> 00:34:46,820 Gerai? 667 00:34:46,820 --> 00:34:58,330 >> Ir dabar aš iš tikrųjų gali padaryti už linijos apskaičiuoti kiekvieno iš žodžių ' 668 00:34:58,330 --> 00:35:00,604 tikimybės. 669 00:35:00,604 --> 00:35:01,540 Gerai. 670 00:35:01,540 --> 00:35:04,160 Taigi, ką aš galiu padaryti, tai už linijos. 671 00:35:04,160 --> 00:35:06,590 Taigi, aš tik ketina pakartoti per masyvo. 672 00:35:06,590 --> 00:35:15,320 Taigi būdas, kad aš galiu padaryti, kad Python yra "for i in asortimentą." Nuo 1 673 00:35:15,320 --> 00:35:19,200 nes noriu pradėti antrąjį elementas, nes pirmasis yra 674 00:35:19,200 --> 00:35:20,260 dainininkas pavadinimas. 675 00:35:20,260 --> 00:35:24,990 Taigi iš vienos iki linijos ilgis. 676 00:35:24,990 --> 00:35:29,760 Ir kai aš svyruoti ji iš tikrųjų pereiti nuo kaip čia nuo 1 iki len iš 677 00:35:29,760 --> 00:35:30,740 linijos minus 1. 678 00:35:30,740 --> 00:35:33,810 Taigi ji jau daro, kad daro ką n minus 1 už masyvų, kuris yra labai 679 00:35:33,810 --> 00:35:35,500 patogu. 680 00:35:35,500 --> 00:35:37,850 Prasminga? 681 00:35:37,850 --> 00:35:42,770 >> Taigi, kiekvienas iš jų, ką aš ruošiuosi padaryti, tai, kaip ir kitas, 682 00:35:42,770 --> 00:35:50,320 Aš ruošiuosi patikrinti, ar šioje žodis pozicija eilutėje jau 683 00:35:50,320 --> 00:35:51,570 tikimybės. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Ir tada, kaip sakiau čia tikimybės žodžiai, kaip ir aš 686 00:35:57,260 --> 00:35:58,400 "tikimybes (dainininkų)". 687 00:35:58,400 --> 00:35:59,390 Taigi dainininkės vardas. 688 00:35:59,390 --> 00:36:03,450 Taigi, jei jis jau "Probabilit (atlikėjas)", tai reiškia, kad aš 689 00:36:03,450 --> 00:36:11,960 norite pridėti 1 į jį, todėl aš ruošiuosi padaryti "tikimybes (dainininkas)" ir 690 00:36:11,960 --> 00:36:14,100 žodis yra vadinamas "linija (i). 691 00:36:14,100 --> 00:36:22,630 Aš ruošiuosi įdėti 1 ir "kitas" aš tiesiog ketina inicijuoti jį 1. 692 00:36:22,630 --> 00:36:23,880 "Linija (i). 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Prasminga? 695 00:36:28,420 --> 00:36:30,180 >> Taigi, aš skaičiuojami visi matricos. 696 00:36:30,180 --> 00:36:36,580 Taigi, dabar visi, kad aš turiu padaryti tai vienas yra tiesiog "grįžti priors, 697 00:36:36,580 --> 00:36:43,230 tikimybės ir žodžiai ". tegul pamatyti, jei yra kokių nors, Gerai. 698 00:36:43,230 --> 00:36:45,690 Atrodo viskas veikia iki šiol. 699 00:36:45,690 --> 00:36:46,900 Taigi, tai turi prasmę? 700 00:36:46,900 --> 00:36:47,750 Tam tikru būdu? 701 00:36:47,750 --> 00:36:49,280 Gerai. 702 00:36:49,280 --> 00:36:51,980 Taigi, dabar turiu visas tikimybes. 703 00:36:51,980 --> 00:36:55,100 Taigi, dabar vienintelis dalykas, kas man liko yra tiesiog turėti tą daiktą, kad 704 00:36:55,100 --> 00:36:58,650 apskaičiuoja visas produktą tikimybės, kai gausiu dainų. 705 00:36:58,650 --> 00:37:06,270 >> Taigi galime sakyti, kad aš noriu dabar vadiname ši funkcija "klasifikuoti ()" ir 706 00:37:06,270 --> 00:37:08,880 dalykas, kad funkcija trunka yra tiesiog argumentas. 707 00:37:08,880 --> 00:37:13,170 Tarkime, "Baby, aš esu ant ugnies", o tai ketina išsiaiškinti, kas yra 708 00:37:13,170 --> 00:37:14,490 Tikimybė, kad tai Gaga? 709 00:37:14,490 --> 00:37:16,405 Kokia yra tikimybė, kad tai yra Katie? 710 00:37:16,405 --> 00:37:19,690 Skamba gerai? 711 00:37:19,690 --> 00:37:25,750 Taigi aš tiesiog teks sukurti nauja funkcija vadinama "klasifikuoti ()" ir 712 00:37:25,750 --> 00:37:29,180 ji ketina imtis tam tikrų žodžiai taip pat. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Ir be žodžių aš taip pat turi siųsti priors, 715 00:37:36,160 --> 00:37:37,700 tikimybės ir žodžiai. 716 00:37:37,700 --> 00:37:44,000 Taigi, aš ruošiuosi siųsti Lyrics, priors, tikimybės, žodžiai. 717 00:37:44,000 --> 00:37:51,840 >> Taigi tai yra atsižvelgiant Lyrics, priors, tikimybės, žodžiai. 718 00:37:51,840 --> 00:37:53,530 Taigi, ką daryti? 719 00:37:53,530 --> 00:37:57,180 Ji iš esmės ketina eiti per visus galimi kandidatai, kad jūs 720 00:37:57,180 --> 00:37:58,510 turėti kaip dainininkė. 721 00:37:58,510 --> 00:37:59,425 Ir kur tie kandidatai? 722 00:37:59,425 --> 00:38:01,020 Jie Per Priors, tiesa? 723 00:38:01,020 --> 00:38:02,710 Taigi turiu visus tuos ten. 724 00:38:02,710 --> 00:38:07,870 Taigi, aš ruošiuosi žodyną visų galimų kandidatų. 725 00:38:07,870 --> 00:38:14,220 Ir tada kiekvieno kandidato nenuosavas, taigi tai reiškia, kad jis ketina 726 00:38:14,220 --> 00:38:17,740 būti Gaga, Katie, jei aš turėjo daugiau būtų daugiau. 727 00:38:17,740 --> 00:38:20,410 Aš ruošiuosi pradėti skaičiuoti ši tikimybė. 728 00:38:20,410 --> 00:38:28,310 Tikimybė, kaip matėme PowerPoint išankstiniai kartų 729 00:38:28,310 --> 00:38:30,800 produkto kiekvienos kitos tikimybės. 730 00:38:30,800 --> 00:38:32,520 >> Taigi aš galiu padaryti pats čia. 731 00:38:32,520 --> 00:38:36,330 Aš galiu tik daryti tikimybė yra Iš pradžių tik prieš. 732 00:38:36,330 --> 00:38:40,340 Taigi nenuosavas Kandidato. 733 00:38:40,340 --> 00:38:40,870 Teisė? 734 00:38:40,870 --> 00:38:45,360 Ir dabar turiu kartotis per visus Žodžiai, kuriuos aš turiu dainų būtų 735 00:38:45,360 --> 00:38:48,820 galima pridėti tikimybę kiekvienam iš jų, gerai? 736 00:38:48,820 --> 00:38:57,900 Taigi, "už žodžio žodžiai" ką aš ruošiuosi reikia padaryti, tai, jei žodis yra 737 00:38:57,900 --> 00:39:01,640 "tikimybes (kandidatas)", kuris reiškia, kad tai žodis, kuris 738 00:39:01,640 --> 00:39:03,640 Kandidatas turi savo dainų - 739 00:39:03,640 --> 00:39:05,940 Pavyzdžiui, "kūdikis" ir Gaga - 740 00:39:05,940 --> 00:39:11,710 ką aš ruošiuosi padaryti, tai, kad tikimybė ketina dauginamas 741 00:39:11,710 --> 00:39:22,420 iki 1 plius tikimybės už šio žodžio kandidatas. 742 00:39:22,420 --> 00:39:25,710 Ir tai vadinama "žodis". 743 00:39:25,710 --> 00:39:32,440 Tai padalintas iš žodžių skaičiaus kad turiu už tą kandidatą. 744 00:39:32,440 --> 00:39:37,450 Bendras žodžių skaičius, kad turiu dainininkas, kad aš žiūri. 745 00:39:37,450 --> 00:39:40,290 >> "Kitas". tai reiškia, kad jis naujas žodis todėl būčiau kaip pavyzdžiui, 746 00:39:40,290 --> 00:39:41,860 "Ugnis" Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Taigi aš tiesiog noriu padaryti 1 per "Žodis (kandidatas). 748 00:39:45,760 --> 00:39:47,710 Taigi aš nenoriu įdėti šią sąvoką čia. 749 00:39:47,710 --> 00:39:50,010 >> Taigi, tai bus iš esmės kopijavimo ir įdėjimo tai. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Bet aš ištrinti šią dalį. 752 00:39:56,000 --> 00:39:57,610 Taigi, tai tik bus 1 per tai. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Skamba gerai? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Ir dabar pabaigoje, aš tik ketina spausdinti kandidato vardas, pavardė ir 757 00:40:09,700 --> 00:40:15,750 tikimybė, kad jūs turite iš turintys "S savo dainų. 758 00:40:15,750 --> 00:40:16,200 Prasminga? 759 00:40:16,200 --> 00:40:18,390 Ir aš iš tikrųjų net reikia šį žodyną. 760 00:40:18,390 --> 00:40:19,510 Prasminga? 761 00:40:19,510 --> 00:40:21,810 >> Taigi, pažiūrėkime, jei tai iš tiesų veikia. 762 00:40:21,810 --> 00:40:24,880 Taigi, jei aš paleisti tai, ji neveikia. 763 00:40:24,880 --> 00:40:26,130 Palaukti vieną sekundę. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Žodžiai (kandidatas)", "žodžiai (kandidatas)", tai 766 00:40:31,720 --> 00:40:33,750 masyvo pavadinimas. 767 00:40:33,750 --> 00:40:41,435 Gerai Taigi, ji sako, yra keletas klaidų dėl kandidato Priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Leiskite man tiesiog chill truputį. 770 00:40:48,760 --> 00:40:50,360 Gerai. 771 00:40:50,360 --> 00:40:51,305 Pabandykime. 772 00:40:51,305 --> 00:40:51,720 Gerai. 773 00:40:51,720 --> 00:40:58,710 >> Taigi ji suteikia Katy Perry turi tai Tikimybė šio karto 10 iki 774 00:40:58,710 --> 00:41:02,200 atėmus 7, o Gaga turi tai kartus nuo 10 iki minus 6. 775 00:41:02,200 --> 00:41:05,610 Taigi matote, tai rodo, kad Gaga turi didesnę tikimybę. 776 00:41:05,610 --> 00:41:09,260 Taigi "Baby, aš on Fire" yra tikriausiai GaGa daina. 777 00:41:09,260 --> 00:41:10,580 Prasminga? 778 00:41:10,580 --> 00:41:12,030 Taigi tai, ką mes padarėme. 779 00:41:12,030 --> 00:41:16,010 >> Šis kodas bus paskelbtas internete, Taigi jūs vaikinai gali jį patikrinti. 780 00:41:16,010 --> 00:41:20,720 Gal naudoti kai jį, jei norite daryti projektą ar kažką panašaus. 781 00:41:20,720 --> 00:41:22,150 Gerai. 782 00:41:22,150 --> 00:41:25,930 Tai buvo tiesiog parodyti kas skaičiuojamoji 783 00:41:25,930 --> 00:41:27,230 lingvistika kodas atrodo. 784 00:41:27,230 --> 00:41:33,040 Bet dabar eikime daugiau aukšto lygio dalykų. 785 00:41:33,040 --> 00:41:33,340 Gerai. 786 00:41:33,340 --> 00:41:35,150 >> Taigi kitų problemų aš kalbu apie - 787 00:41:35,150 --> 00:41:37,550 segmentacijos problemą yra pirmoji iš jų. 788 00:41:37,550 --> 00:41:40,820 Taigi jūs turite čia japonų. 789 00:41:40,820 --> 00:41:43,420 Ir tada pamatysite, kad yra be tarpų. 790 00:41:43,420 --> 00:41:49,110 Taigi tai iš esmės reiškia, kad jis kėdės viršaus, tiesa? 791 00:41:49,110 --> 00:41:50,550 Jūs kalbate japonų kalbos? 792 00:41:50,550 --> 00:41:52,840 Tai kėdės viršaus, tiesa? 793 00:41:52,840 --> 00:41:54,480 >> STUDENTAS: aš nežinau, ką kandži ten yra. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Freitas: Jis [PASISAKYMAS Japonų] 795 00:41:57,010 --> 00:41:57,950 Gerai. 796 00:41:57,950 --> 00:42:00,960 Taigi tai iš esmės reiškia, kėdė viršuje. 797 00:42:00,960 --> 00:42:03,620 Taigi, jei jums teko padėkite tarpą būtų čia. 798 00:42:03,620 --> 00:42:05,970 Ir tada jūs turite [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Kuris iš esmės reiškia Mr Ueda. 800 00:42:09,040 --> 00:42:13,180 Ir pamatysite, kad "Ueda" ir jūs turite vietos ir tada "san". Taigi matote, kad 801 00:42:13,180 --> 00:42:15,470 čia "UE" yra tarsi savaime. 802 00:42:15,470 --> 00:42:17,750 Ir čia jis turi charakterį šalia jos. 803 00:42:17,750 --> 00:42:21,720 >> Taigi, tai ne kaip tose kalbose ženklai reiškia žodį, nes tai 804 00:42:21,720 --> 00:42:23,980 tiesiog įdėti erdves daug. 805 00:42:23,980 --> 00:42:25,500 Veikėjai yra susiję tarpusavyje. 806 00:42:25,500 --> 00:42:28,680 Ir jie gali būti kartu kaip du, trys, vienas. 807 00:42:28,680 --> 00:42:34,520 Taigi, jūs iš tikrųjų turite sukurti kokio nors iš būdų išleisti tuos tarpus. 808 00:42:34,520 --> 00:42:38,850 >> Ir tai yra tai, kad kiekvieną kartą, kai jūs gaunate duomenys iš šių Azijos kalbomis, 809 00:42:38,850 --> 00:42:40,580 viskas ateina unsegmented. 810 00:42:40,580 --> 00:42:45,940 Kadangi niekas, kas rašo japonų ar kinų rašo su tarpais. 811 00:42:45,940 --> 00:42:48,200 Kai rašote Kinija, Japonijos jūs tiesiog parašyti viską 812 00:42:48,200 --> 00:42:48,710 be tarpų. 813 00:42:48,710 --> 00:42:52,060 Ji nėra net prasmės įdėti erdvėse. 814 00:42:52,060 --> 00:42:57,960 Taigi, kai jūs gaunate duomenis, kai Rytų Azijos kalba, jei norite 815 00:42:57,960 --> 00:43:00,760 iš tikrųjų ką nors daryti su tuo jūs turite segmente pirmas. 816 00:43:00,760 --> 00:43:05,130 >> Pagalvokite apie tai darome dėl pavyzdį kad be tarpų žodžiai. 817 00:43:05,130 --> 00:43:07,950 Taigi vieninteliai žodžiai, kad jūs turite bus sakiniai, tiesa? 818 00:43:07,950 --> 00:43:09,470 Atskirti laikotarpius. 819 00:43:09,470 --> 00:43:13,930 Bet tada turinti tik nuosprendis tikrai ne padėti duoti informaciją 820 00:43:13,930 --> 00:43:17,760 kas tie žodžiai yra iš. 821 00:43:17,760 --> 00:43:18,120 Teisė? 822 00:43:18,120 --> 00:43:20,010 Taigi turėtumėte kelia tarpai pirmas. 823 00:43:20,010 --> 00:43:21,990 Taigi, kaip jūs galite padaryti, kad? 824 00:43:21,990 --> 00:43:24,920 >> Taigi kalbama apie kalbos idėja modelis, kuris yra kažkas tikrai 825 00:43:24,920 --> 00:43:26,870 svarbu Skaičiuojamasis lingvistika. 826 00:43:26,870 --> 00:43:32,790 Taigi kalbos modelis yra iš esmės lentelėje tikimybes, kad rodo 827 00:43:32,790 --> 00:43:36,260 visų pirma, kas yra tikimybė, turintys žodį kalba? 828 00:43:36,260 --> 00:43:39,590 Taigi rodo, kaip dažnai žodis. 829 00:43:39,590 --> 00:43:43,130 Ir tada taip pat rodo, kad ryšio tarp sakinyje žodžių. 830 00:43:43,130 --> 00:43:51,500 >> Taigi, pagrindinė idėja yra, jei nepažįstamasis atėjo jums ir sakė sakinys 831 00:43:51,500 --> 00:43:55,600 jums, kas yra tikimybė, kad, Pavyzdžiui, "tai yra mano sesuo [? GTF?] 832 00:43:55,600 --> 00:43:57,480 buvo sakinys, kad asmuo sakė? 833 00:43:57,480 --> 00:44:00,380 Taigi akivaizdu, kai kurie sakiniai dažniau nei kiti. 834 00:44:00,380 --> 00:44:04,450 Pavyzdžiui, "labas rytas" arba "geras naktį "arba" Ei ten, "kur kas daugiau 835 00:44:04,450 --> 00:44:08,260 bendro, nei dauguma sakinių kad mes turime angliškai. 836 00:44:08,260 --> 00:44:11,060 Taigi, kodėl šie sakiniai dažniau? 837 00:44:11,060 --> 00:44:14,060 >> Visų pirma, tai yra todėl, kad jūs turite žodžiai, kurie dažniau. 838 00:44:14,060 --> 00:44:20,180 Taigi, pavyzdžiui, jei jūs sakote, šuo didelis, ir šuo yra milžiniška, jūs 839 00:44:20,180 --> 00:44:23,880 paprastai tikriausiai išgirsti šuo yra didelis dažniau, nes "didelis" yra daugiau 840 00:44:23,880 --> 00:44:27,260 dažnai anglų kalba ne "milžiniška". Taigi, vienas iš 841 00:44:27,260 --> 00:44:30,100 viskas yra žodis dažnis. 842 00:44:30,100 --> 00:44:34,490 >> Antras dalykas, kuris yra tikrai Svarbu yra tik 843 00:44:34,490 --> 00:44:35,490 Kad žodžių. 844 00:44:35,490 --> 00:44:39,500 Taigi, tai įprasta sakyti "katė Dėžės viduje. ", tačiau jūs neturite paprastai 845 00:44:39,500 --> 00:44:44,250 pamatyti "Dėžės vidus yra katė." taip matote, kad yra tam tikrų svarba 846 00:44:44,250 --> 00:44:46,030 į žodžių tvarka. 847 00:44:46,030 --> 00:44:50,160 Jūs galite ne tik pasakyti, kad tie du sakiniai turi tokią pačią tikimybę 848 00:44:50,160 --> 00:44:53,010 tik todėl, kad jie turi tuos pačius žodžius. 849 00:44:53,010 --> 00:44:55,550 Jūs iš tikrųjų turite rūpintis apie tvarka, kaip gerai. 850 00:44:55,550 --> 00:44:57,650 Prasmės? 851 00:44:57,650 --> 00:44:59,490 >> Taigi, ką mes galime padaryti? 852 00:44:59,490 --> 00:45:01,550 Taigi, ką aš galėtų pabandyti jums? 853 00:45:01,550 --> 00:45:04,400 Bandau jums tai, ką mes skambinti n-gramų modelius. 854 00:45:04,400 --> 00:45:09,095 Taigi n-gramų modeliai iš esmės prisiima kad už kiekvieną žodį, 855 00:45:09,095 --> 00:45:10,960 turite sakinyje. 856 00:45:10,960 --> 00:45:15,020 Tai turintys tikimybė, kad Žodis čia priklauso ne tik nuo 857 00:45:15,020 --> 00:45:18,395 dažnis šio žodžio ta kalba, bet ir žodžių, 858 00:45:18,395 --> 00:45:19,860 yra aplink jį. 859 00:45:19,860 --> 00:45:25,810 >> Taigi, pavyzdžiui, paprastai, kai matai kažkas panašaus ar ne jūs 860 00:45:25,810 --> 00:45:28,040 tikriausiai pamatyti daiktavardis po jo, tiesa? 861 00:45:28,040 --> 00:45:31,750 Nes kai turite prielinksnį paprastai užtrunka daiktavardį po jo. 862 00:45:31,750 --> 00:45:35,540 Arba, jei turite veiksmažodis, kuris yra pereinamas jūs paprastai ketinate 863 00:45:35,540 --> 00:45:36,630 turi daiktavardžio frazę. 864 00:45:36,630 --> 00:45:38,780 Taigi jis ketina turėti daiktavardžio kažkur aplink jį. 865 00:45:38,780 --> 00:45:44,950 >> Taigi, iš esmės, ką ji daro, yra tai, kad mano, kad svarbu turėti tikimybę 866 00:45:44,950 --> 00:45:47,960 žodžiai vienas šalia kito, kai jūs apskaičiuoti 867 00:45:47,960 --> 00:45:49,050 tikimybė sakinyje. 868 00:45:49,050 --> 00:45:50,960 Ir tai, ką kalba modelis iš esmės. 869 00:45:50,960 --> 00:45:54,620 Tiesiog sakydamas kas tikimybė turėti tam tikrą 870 00:45:54,620 --> 00:45:57,120 sakinys kalba? 871 00:45:57,120 --> 00:45:59,110 Taigi, kodėl tai, kad naudinga, iš esmės? 872 00:45:59,110 --> 00:46:02,390 Ir visų pirma, kas yra n-gramas modelis, tada? 873 00:46:02,390 --> 00:46:08,850 >> Taigi n-gramas modelis reiškia, kad kiekvienas žodis, priklauso nuo 874 00:46:08,850 --> 00:46:12,700 kitas N atėmus 1 žodžiai. 875 00:46:12,700 --> 00:46:18,150 Taigi, iš esmės, tai reiškia, kad jei man atrodo, Pavyzdžiui, tuo CS50 TF kai 876 00:46:18,150 --> 00:46:21,500 Aš apskaičiuoti tikimybę sakinys, jūs būsite kaip " 877 00:46:21,500 --> 00:46:25,280 tikimybė turintys žodį "" kartų turintys tikimybė " 878 00:46:25,280 --> 00:46:31,720 CS50 "Times turintys tikimybė "CS50 TF." Taigi, iš esmės, tikiuosi 879 00:46:31,720 --> 00:46:35,720 visos įmanomos galimybės jį tempiant. 880 00:46:35,720 --> 00:46:41,870 >> Ir tada paprastai, kai jūs darote tai, kaip projekte, jūs įtraukėte N turi būti 881 00:46:41,870 --> 00:46:42,600 mažos vertės. 882 00:46:42,600 --> 00:46:45,930 Taigi, paprastai turi bigrams ar trigrams. 883 00:46:45,930 --> 00:46:51,090 Taigi, kad jūs tiesiog suskaičiuoti du tariant, grupė iš dviejų žodžių ar trijų žodžių, 884 00:46:51,090 --> 00:46:52,620 tik veiklos klausimais. 885 00:46:52,620 --> 00:46:56,395 O taip pat, nes gal jei turite kažką panašaus į "The CS50 TF." Jei 886 00:46:56,395 --> 00:47:00,510 turi "TF", tai labai svarbu, kad "CS50" yra šalia jo, tiesa? 887 00:47:00,510 --> 00:47:04,050 Šie du dalykai yra paprastai šalia vienas kito. 888 00:47:04,050 --> 00:47:06,410 >> Jei manote, kad "TF", tai tikriausiai teks ko 889 00:47:06,410 --> 00:47:07,890 klasė tai TF'ing už. 890 00:47:07,890 --> 00:47:11,330 Taip pat "" yra tikrai svarbus už CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Bet jei jūs turite ką nors panašaus į "The CS50 TF nuėjo į klasę ir davė savo 892 00:47:14,570 --> 00:47:20,060 studentai kai saldainiai. "Candy" ir "" neturi nieko bendra su tikrai, tiesa? 893 00:47:20,060 --> 00:47:23,670 Jie taip toli viena nuo kitos, kad tai tikrai ne klausimas, ką 894 00:47:23,670 --> 00:47:25,050 žodžiai turite. 895 00:47:25,050 --> 00:47:31,210 >> Taigi atlikdami Bigramų arba trigram, jis tiesiog reiškia, kad jūs apriboti 896 00:47:31,210 --> 00:47:33,430 sau kai kurių žodžių kurios yra aplink. 897 00:47:33,430 --> 00:47:35,810 Prasmės? 898 00:47:35,810 --> 00:47:40,630 Taigi, kai jūs norite daryti segmentaciją, Iš esmės, ką norite padaryti, tai pamatyti 899 00:47:40,630 --> 00:47:44,850 kokie yra visi galimi būdai, galite segmentas bausmę. 900 00:47:44,850 --> 00:47:49,090 >> Toks, kad jums pamatyti, kas yra Tikimybė, kad kiekvienos iš šių sakinių 901 00:47:49,090 --> 00:47:50,880 esama kalba? 902 00:47:50,880 --> 00:47:53,410 Taigi, ką jūs darote, yra kaip, gerai, tegul man pabandyti įdėti erdvę čia. 903 00:47:53,410 --> 00:47:55,570 Taigi, jūs padėkite tarpą ten ir jums pamatyti, kas yra 904 00:47:55,570 --> 00:47:57,590 Tikimybė šio sakinio? 905 00:47:57,590 --> 00:48:00,240 Tada esate kaip, gerai, gal tai buvo ne tai, kad gerai. 906 00:48:00,240 --> 00:48:03,420 Taigi aš padėkite tarpą ten ir erdvė ten, ir jums apskaičiuoti 907 00:48:03,420 --> 00:48:06,240 tikimybė dabar, ir pamatysite, kad tai didesnė tikimybė. 908 00:48:06,240 --> 00:48:12,160 >> Taigi tai yra algoritmas vadinamas tango segmentavimo algoritmas, kuris yra 909 00:48:12,160 --> 00:48:14,990 iš tikrųjų kažkas, kad būtų tikrai cool projektą, kuris 910 00:48:14,990 --> 00:48:20,860 iš esmės trunka unsegmented tekstą, kuris gali būti japonų ar kinų, o gal 911 00:48:20,860 --> 00:48:26,080 Lietuvių be tarpų ir bando įdėti tarpai tarp žodžių ir ji 912 00:48:26,080 --> 00:48:29,120 kad naudojant kalbos modelį ir bando pamatyti, kas yra didžiausias 913 00:48:29,120 --> 00:48:31,270 Tikimybė, galite gauti. 914 00:48:31,270 --> 00:48:32,230 Gerai. 915 00:48:32,230 --> 00:48:33,800 Taigi tai yra segmentacija. 916 00:48:33,800 --> 00:48:35,450 >> Dabar sintaksė. 917 00:48:35,450 --> 00:48:40,940 Taigi, sintaksė yra naudojama tiek daug dalykų dabar. 918 00:48:40,940 --> 00:48:44,880 Taigi, grafikas Paieška, už Siri gana daug bet natūrali 919 00:48:44,880 --> 00:48:46,490 kalbos apdorojimas turite. 920 00:48:46,490 --> 00:48:49,140 Taigi, kas yra svarbu, viskas apie sintaksę? 921 00:48:49,140 --> 00:48:52,390 Taigi, sakiniai paprastai turi ką mes vadiname sudedamąsias dalis. 922 00:48:52,390 --> 00:48:57,080 Kuris yra lyg žodžių grupė kad turime į sakinio funkciją. 923 00:48:57,080 --> 00:49:02,220 Ir jie tikrai negali būti vienas nuo kito. 924 00:49:02,220 --> 00:49:07,380 >> Taigi, jei aš sakau, pavyzdžiui, "Laura myli Milo. "Žinau, kad" Laura "yra 925 00:49:07,380 --> 00:49:10,180 sudedamoji ir tada "myli Milo ", taip pat dar vienas. 926 00:49:10,180 --> 00:49:16,860 Kadangi jūs negalite pasakyti, kaip "Lauren Milo myli "turi tą pačią reikšmę. 927 00:49:16,860 --> 00:49:18,020 Jis nesiruošia turėti pačią reikšmę. 928 00:49:18,020 --> 00:49:22,500 Arba aš negaliu pasakyti, pavyzdžiui, "Milo Lauren myli. "Ne viskas yra tas pats 929 00:49:22,500 --> 00:49:25,890 reiškia tai, kad. 930 00:49:25,890 --> 00:49:31,940 >> Jiedu daugiau svarbių dalykų, apie sintaksė yra leksikos tipų, kurie yra 931 00:49:31,940 --> 00:49:35,390 iš esmės funkcija, kad jūs turi žodžių patys. 932 00:49:35,390 --> 00:49:39,180 Taigi, jūs turite žinoti, kad "Laura" Milo "yra daiktavardžiai. 933 00:49:39,180 --> 00:49:41,040 "Meilė" yra veiksmažodis. 934 00:49:41,040 --> 00:49:45,660 Ir antras svarbus dalykas yra tai, kad jie Frazės tipai. 935 00:49:45,660 --> 00:49:48,990 Taigi jūs žinote, kad "myli Milo" iš tikrųjų žodinis frazė. 936 00:49:48,990 --> 00:49:52,390 Taigi, kai aš sakau "Lauren", "Aš žinau, kad Lauren daro kažką. 937 00:49:52,390 --> 00:49:53,620 Ką ji daro? 938 00:49:53,620 --> 00:49:54,570 Ji myli Milo. 939 00:49:54,570 --> 00:49:56,440 Todėl visa tai. 940 00:49:56,440 --> 00:50:01,640 Tačiau jos sudedamosios dalys yra daiktavardis ir veiksmažodis. 941 00:50:01,640 --> 00:50:04,210 Tačiau kartu jie sudaro veiksmažodis frazę. 942 00:50:04,210 --> 00:50:08,680 >> Taigi, ką mes galime iš tikrųjų su Kompiuterinė lingvistika? 943 00:50:08,680 --> 00:50:13,810 Taigi, jei aš turiu kažką, pavyzdžiui "draugai Allison". Aš pamatyti, jei aš tiesiog 944 00:50:13,810 --> 00:50:17,440 nebuvo sintaksės medis norėčiau žinoti, kad "Draugai" yra daiktavardis frazė yra 945 00:50:17,440 --> 00:50:21,480 daiktavardžio ir tada "iš Allison" yra Esperanto frazę, kuri "iš" yra 946 00:50:21,480 --> 00:50:24,810 pasiūlymas ir "Allison" yra daiktavardis. 947 00:50:24,810 --> 00:50:30,910 Ką galėčiau padaryti, tai išmokyti savo kompiuterį kad kai turiu daiktavardžio frazę vieną ir 948 00:50:30,910 --> 00:50:33,080 tada Esperanto frazė. 949 00:50:33,080 --> 00:50:39,020 Taigi, šiuo atveju, "draugai", tada "iš Milo "Žinau, kad tai reiškia, kad 950 00:50:39,020 --> 00:50:43,110 NP2, antrasis valdo Np1. 951 00:50:43,110 --> 00:50:47,680 >> Taigi aš galiu sukurti tam tikrą susijusių natūra, kai funkcija natūra už jį. 952 00:50:47,680 --> 00:50:52,370 Taigi, kai aš matau šią struktūrą, kuri tiksliai atitinka su "draugais 953 00:50:52,370 --> 00:50:56,030 Allison "Aš žinau, kad Allison valdo draugų. 954 00:50:56,030 --> 00:50:58,830 Taigi, draugai yra kažkas kad Allison turi. 955 00:50:58,830 --> 00:50:59,610 Prasminga? 956 00:50:59,610 --> 00:51:01,770 Taigi tai iš esmės yra kas Grafikas Paieška daro. 957 00:51:01,770 --> 00:51:04,360 Jis tiesiog sukuria taisykles dėl daugelio dalykų. 958 00:51:04,360 --> 00:51:08,190 Taigi "draugai Allison", "my friends kurie gyvena Kembridže "," mano draugai 959 00:51:08,190 --> 00:51:12,970 kurie eina į Harvardo. "Jis sukuria taisykles dėl visų šių dalykų. 960 00:51:12,970 --> 00:51:14,930 >> Dabar mašininis vertimas. 961 00:51:14,930 --> 00:51:18,850 Taigi, mašininio vertimo, taip pat kažkas statistikos. 962 00:51:18,850 --> 00:51:21,340 Ir iš tikrųjų, jei jūs gaunate dalyvauti Kompiuterinė lingvistika, iš daug 963 00:51:21,340 --> 00:51:23,580 jūsų stuff bus statistika. 964 00:51:23,580 --> 00:51:26,670 Taigi, kaip darau pavyzdį Tikimybių daug, kad buvau 965 00:51:26,670 --> 00:51:30,540 apskaičiuoti, ir tada jums tai labai mažas skaičius, kad tai galutinis 966 00:51:30,540 --> 00:51:33,180 tikimybė, ir kad tai, ką suteikia jums atsakymą. 967 00:51:33,180 --> 00:51:37,540 Mašininis vertimas taip pat naudoja statistinis modelis. 968 00:51:37,540 --> 00:51:44,790 Ir jei jūs norite galvoti apie mašiną vertimas paprasčiausias 969 00:51:44,790 --> 00:51:48,970 Beje, tai, ką jūs galite galvoti tik išversti pažodžiui, tiesa? 970 00:51:48,970 --> 00:51:52,150 >> Kai jūs mokotės kalbą pirmą kartą, tai paprastai kas 971 00:51:52,150 --> 00:51:52,910 jūs, tiesa? 972 00:51:52,910 --> 00:51:57,050 Jei norite, galite išversti sakinį Jūsų kalbos į kalbą 973 00:51:57,050 --> 00:52:00,060 jūs mokotės, paprastai pirmiausia, jūs išversti kiekvienas iš žodžių 974 00:52:00,060 --> 00:52:03,180 individualiai, ir tada bandyti įdėti žodžius į vietą. 975 00:52:03,180 --> 00:52:07,100 >> Taigi, jei aš norėjau išversti tai, [PASISAKYMAS PORTUGALIJOS] 976 00:52:07,100 --> 00:52:10,430 kuris reiškia "balta katė pabėgo." Jei aš norėjau jį išversti iš 977 00:52:10,430 --> 00:52:13,650 Iš portugalų į anglų, ką aš gali padaryti, tai, pirma, aš tiesiog 978 00:52:13,650 --> 00:52:14,800 išversti pažodžiui. 979 00:52:14,800 --> 00:52:20,570 Taigi, "o" yra "," gato "," katė " "Branco", "balta", o tada "fugio" yra 980 00:52:20,570 --> 00:52:21,650 "Pabėgo". 981 00:52:21,650 --> 00:52:26,130 >> Taigi turiu visus žodžius čia bet jie ne tam. 982 00:52:26,130 --> 00:52:29,590 Tai kaip "katė balta pabėgo" kuris yra gramatikos. 983 00:52:29,590 --> 00:52:34,490 Taigi, tada aš gali turėti antrąjį žingsnį, kuris bus rasti idealą 984 00:52:34,490 --> 00:52:36,610 pozicija kiekvienai iš žodžių. 985 00:52:36,610 --> 00:52:40,240 Taigi aš žinau, kad aš iš tikrųjų noriu turėti "Balta katė", o ne "katė balta." Taip 986 00:52:40,240 --> 00:52:46,050 ką aš galiu padaryti, tai, labiausiai naivus metodą būtų sukurti visi 987 00:52:46,050 --> 00:52:49,720 galimų kombinacijų žodžiai, pozicijų. 988 00:52:49,720 --> 00:52:53,300 Ir tada pamatysite, kurie iš jų turi didžiausia tikimybė pagal 989 00:52:53,300 --> 00:52:54,970 mano kalbos modelį. 990 00:52:54,970 --> 00:52:58,390 Ir tada, kai aš rasti vieną, kuri turi didžiausia tikimybė tai, kuri yra 991 00:52:58,390 --> 00:53:01,910 tikriausiai "balta katė pabėgo" tai mano vertimas. 992 00:53:01,910 --> 00:53:06,710 >> Ir tai yra paprastas būdas paaiškinti kaip apie mašininį vertimą daug 993 00:53:06,710 --> 00:53:07,910 algoritmai dirbti. 994 00:53:07,910 --> 00:53:08,920 Ar tai prasminga? 995 00:53:08,920 --> 00:53:12,735 Tai taip pat yra kažkas tikrai įdomu kad vaikinai gali gal tyrinėti 996 00:53:12,735 --> 00:53:13,901 galutinis projektas, taip? 997 00:53:13,901 --> 00:53:15,549 >> STUDENTAS: Na, sakė, kad tai buvo naivus būdas, todėl tai, kas 998 00:53:15,549 --> 00:53:17,200 ne naivus būdas? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Freitas: ne naivus būdas? 1000 00:53:18,400 --> 00:53:19,050 Gerai. 1001 00:53:19,050 --> 00:53:22,860 Taigi pirmas dalykas, kad yra blogai šis metodas yra tai, kad aš tiesiog išversti 1002 00:53:22,860 --> 00:53:24,330 žodžiai, žodis po žodžio. 1003 00:53:24,330 --> 00:53:30,570 Bet kartais turite žodžius, gali turėti kelis vertimus. 1004 00:53:30,570 --> 00:53:32,210 Aš einu bandyti galvoti kažką. 1005 00:53:32,210 --> 00:53:37,270 Pavyzdžiui, "Manga" Portugalijos skardinę būti arba "išdarkyti" arba "rankovės". Taip 1006 00:53:37,270 --> 00:53:40,450 kai bandote išversti žodį žodžiu, ji gali būti suteikti jums 1007 00:53:40,450 --> 00:53:42,050 kažkas, kad nėra jokios prasmės. 1008 00:53:42,050 --> 00:53:45,770 >> Taigi jūs tikrai norite pažvelgti visi galimi vertimai 1009 00:53:45,770 --> 00:53:49,840 žodžiai ir pamatyti, visų pirma, kas yra tvarka. 1010 00:53:49,840 --> 00:53:52,000 Mes kalbame apie permutating ką? 1011 00:53:52,000 --> 00:53:54,150 Norėdami pamatyti visus galimus užsakymus ir pasirinkti vieną su didžiausia 1012 00:53:54,150 --> 00:53:54,990 tikimybė? 1013 00:53:54,990 --> 00:53:57,860 Taip pat galite pasirinkti visas įmanomas vertimai kiekvienas 1014 00:53:57,860 --> 00:54:00,510 Žodis ir tada pamatyti, - 1015 00:54:00,510 --> 00:54:01,950 kartu su kombinacijomis - 1016 00:54:01,950 --> 00:54:03,710 kurių vienas turi didžiausią tikimybę. 1017 00:54:03,710 --> 00:54:08,590 >> Be to, jūs taip pat galite peržvelgti ne tik žodžiai, bet frazės. 1018 00:54:08,590 --> 00:54:11,700 todėl galite analizuoti ryšius tarp santykių žodžiai ir tada gauti 1019 00:54:11,700 --> 00:54:13,210 geriau vertimo. 1020 00:54:13,210 --> 00:54:16,690 Taip pat kažkas, todėl šį semestrą Aš iš tikrųjų daro tyrimus 1021 00:54:16,690 --> 00:54:19,430 Kinų-anglų kalbų mašininio vertimo, taip verčiant iš 1022 00:54:19,430 --> 00:54:20,940 Kinų į anglų kalbą. 1023 00:54:20,940 --> 00:54:26,760 >> Ir ką mes darome, yra, be to, naudojant statistinis modelis, kuris yra tik 1024 00:54:26,760 --> 00:54:30,570 matome mato tikimybes kai sakinyje pozicija, aš 1025 00:54:30,570 --> 00:54:35,360 iš tikrųjų taip pat pridedant keletą sintaksę mano modelis, sakydamas: oh, jei matau, tokio pobūdžio 1026 00:54:35,360 --> 00:54:39,420 statybos, tai yra tai, ką noriu jį pakeisti, kai aš išversti. 1027 00:54:39,420 --> 00:54:43,880 Taigi, jūs taip pat galite pridėti šiek tiek natūra elementas sintaksė padaryti 1028 00:54:43,880 --> 00:54:47,970 vertimas efektyviau ir tikslesnis. 1029 00:54:47,970 --> 00:54:48,550 Gerai. 1030 00:54:48,550 --> 00:54:51,010 >> Taigi, kaip jūs galite pradėti, jei norite daryti kažką Skaičiuojamasis 1031 00:54:51,010 --> 00:54:51,980 lingvistika? 1032 00:54:51,980 --> 00:54:54,560 >> Pirma, pasirinkti projektą kuris apima kalbas. 1033 00:54:54,560 --> 00:54:56,310 Taigi, yra tiek daug ten. 1034 00:54:56,310 --> 00:54:58,420 Yra tiek daug dalykų, kuriuos galite padaryti. 1035 00:54:58,420 --> 00:55:00,510 Ir tada gali galvoti apie modelio kad jūs galite naudoti. 1036 00:55:00,510 --> 00:55:04,710 Paprastai tai reiškia, kad mąstymas prielaidos, kaip, pavyzdžiui, oi, kai buvau 1037 00:55:04,710 --> 00:55:05,770 kaip mąstymo dainų. 1038 00:55:05,770 --> 00:55:09,510 Aš, pavyzdžiui, gerai, jei noriu suprasti iš rašęs tai, aš tikriausiai norite 1039 00:55:09,510 --> 00:55:15,400 ieškoti žodžiai asmuo naudojami ir matyti, kas naudoja šį žodį labai dažnai. 1040 00:55:15,400 --> 00:55:18,470 Taigi pabandykite daryti prielaidas ir pabandykite galvoti apie modelius. 1041 00:55:18,470 --> 00:55:21,395 Ir tada jūs taip pat galite ieškoti internete tokios problemos, kad jūs turite, 1042 00:55:21,395 --> 00:55:24,260 ir jis ketina pasiūlyti jums modelių, kurie gal 1043 00:55:24,260 --> 00:55:26,560 modeliuojama, kad dalykas gerai. 1044 00:55:26,560 --> 00:55:29,080 >> Ir taip pat visada galite rašyti man. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Ir aš galiu tik atsakyti į jūsų klausimus. 1047 00:55:34,940 --> 00:55:38,600 Mes galime net gali susitikti, kad galiu pateikti pasiūlymus, kaip būtų galima 1048 00:55:38,600 --> 00:55:41,490 įgyvendindami projektą. 1049 00:55:41,490 --> 00:55:45,610 Aš turiu galvoje, jei jūs įsitraukti Kompiuterinė lingvistika, jis ketina 1050 00:55:45,610 --> 00:55:46,790 būti didelis. 1051 00:55:46,790 --> 00:55:48,370 Jūs einate pamatyti ten Yra tiek daug galimybių. 1052 00:55:48,370 --> 00:55:52,060 Ir pramonė nori samdyti jums taip blogai dėl to. 1053 00:55:52,060 --> 00:55:54,720 Taigi, aš tikiuosi jus vaikinai patiko tai. 1054 00:55:54,720 --> 00:55:57,030 Jei vaikinai turite kokių nors klausimų, galite paklausti manęs po to. 1055 00:55:57,030 --> 00:55:58,280 Bet ačiū. 1056 00:55:58,280 --> 00:56:00,150