1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Hey. 3 00:00:08,870 --> 00:00:09,980 Vabljeni vsi. 4 00:00:09,980 --> 00:00:11,216 Moje ime je Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Sem junior na [neslišno] študiju računalništva s poudarkom na 6 00:00:15,220 --> 00:00:16,410 računalniškega jezikoslovja. 7 00:00:16,410 --> 00:00:19,310 Torej moj sekundarni v jeziku in teorija jezika. 8 00:00:19,310 --> 00:00:21,870 Res sem navdušena, da naučil fantje malo o tem področju. 9 00:00:21,870 --> 00:00:24,300 To je zelo zanimivo področje za študij. 10 00:00:24,300 --> 00:00:27,260 Tudi z veliko potenciala za prihodnost. 11 00:00:27,260 --> 00:00:30,160 Torej, jaz sem res navdušena, da vidva razmišljajo projekte 12 00:00:30,160 --> 00:00:31,160 računalniškega jezikoslovja. 13 00:00:31,160 --> 00:00:35,460 In jaz bom z veseljem svetoval kdo od vas, če se boste odločili za 14 00:00:35,460 --> 00:00:37,090 uresničujejo enega od teh. 15 00:00:37,090 --> 00:00:40,010 >> Torej, najprej, kaj je računalniška lingvistika? 16 00:00:40,010 --> 00:00:44,630 Torej, računalniška lingvistika, je presečišče med jezikoslovjem in 17 00:00:44,630 --> 00:00:46,390 računalništva. 18 00:00:46,390 --> 00:00:47,415 Torej, kaj je jezikoslovje? 19 00:00:47,415 --> 00:00:48,490 Kaj je računalništvo? 20 00:00:48,490 --> 00:00:51,580 No iz jezikoslovja, kaj vzamemo so jeziki. 21 00:00:51,580 --> 00:00:54,960 Torej jezikoslovje je dejansko študija naravnega jezika na splošno. 22 00:00:54,960 --> 00:00:58,330 Torej naravni jezik - govorimo o jezik, ki se dejansko uporabljajo za 23 00:00:58,330 --> 00:00:59,770 komunicirajo med seboj. 24 00:00:59,770 --> 00:01:02,200 Torej ne ravno govorimo o C ali Java. 25 00:01:02,200 --> 00:01:05,900 Govorimo več o angleškem in Kitajski in drugi jeziki, ki jih 26 00:01:05,900 --> 00:01:07,780 uporabljajo za komunikacijo med seboj. 27 00:01:07,780 --> 00:01:12,470 >> Zahtevna stvar, da je to Zdaj imamo skoraj 7.000 28 00:01:12,470 --> 00:01:14,260 jezikov v svetu. 29 00:01:14,260 --> 00:01:19,520 Torej, obstaja precej visoka sorta jezikov, da lahko študirajo. 30 00:01:19,520 --> 00:01:22,600 In potem misliš, da je to verjetno zelo težko narediti, npr 31 00:01:22,600 --> 00:01:26,960 prevod iz enega jezika v drugo, če upoštevamo, da imate 32 00:01:26,960 --> 00:01:28,240 skoraj 7.000 od njih. 33 00:01:28,240 --> 00:01:31,450 Torej, če misliš, da delaš prevod iz enega jezika v drugi si 34 00:01:31,450 --> 00:01:35,840 imajo skoraj več kot milijon različnih kombinacij, ki jih lahko 35 00:01:35,840 --> 00:01:37,330 imajo od jezika do jezika. 36 00:01:37,330 --> 00:01:40,820 Torej, to je res izziv, da naredite nekaj vrsta primer prevajalskega sistema 37 00:01:40,820 --> 00:01:43,540 vsak jezik. 38 00:01:43,540 --> 00:01:47,120 >> Torej, jezikoslovje obravnava s sintakso, Semantika in pragmatika. 39 00:01:47,120 --> 00:01:49,550 Vi se natančno ne potrebujem vedeti, kaj so. 40 00:01:49,550 --> 00:01:55,090 Ampak zelo zanimiva stvar je, da kot native speaker, ko ste izvedeli, 41 00:01:55,090 --> 00:01:59,010 jezik kot otrok, ste dejansko učijo vse te stvari - skladnja semantika 42 00:01:59,010 --> 00:02:00,500 in pragmatika - 43 00:02:00,500 --> 00:02:01,430 sami. 44 00:02:01,430 --> 00:02:04,820 In nihče ne bo naučil sintakso , da bi razumeli, kako so kazni 45 00:02:04,820 --> 00:02:05,290 strukturirana. 46 00:02:05,290 --> 00:02:07,980 Torej, to je res zanimivo, ker to je nekaj, kar pride zelo 47 00:02:07,980 --> 00:02:10,389 intuitivno. 48 00:02:10,389 --> 00:02:13,190 >> In kaj ob od računalništvo? 49 00:02:13,190 --> 00:02:16,700 No, najbolj pomembna stvar, ki jo imajo v računalništvu je v prvi vrsti 50 00:02:16,700 --> 00:02:19,340 Vse, umetna inteligenca in strojno učenje. 51 00:02:19,340 --> 00:02:22,610 Torej, kaj smo poskušali delaš računalniška lingvistika je teach 52 00:02:22,610 --> 00:02:26,990 računalnik, kako narediti nekaj z jezikom. 53 00:02:26,990 --> 00:02:28,630 >> Tako, na primer, v stroju prevod. 54 00:02:28,630 --> 00:02:32,490 Poskušam se naučiti moj računalnik how vedeti, kako prehod iz ene 55 00:02:32,490 --> 00:02:33,310 jezik za drugo. 56 00:02:33,310 --> 00:02:35,790 Torej, v bistvu všeč poučevanje Računalniške dva jezika. 57 00:02:35,790 --> 00:02:38,870 Če naredim obdelavo naravnega jezika, ki je primer za 58 00:02:38,870 --> 00:02:41,810 Facebook Graf Search, učiš računalnik, kako razumeti 59 00:02:41,810 --> 00:02:42,730 poizvedbe dobro. 60 00:02:42,730 --> 00:02:48,130 >> Torej, če rečeš "fotografije mojega prijatelji. "Facebook ne zdravi, da 61 00:02:48,130 --> 00:02:51,130 kot cel niz, ki ima samo kup besed. 62 00:02:51,130 --> 00:02:56,020 To dejansko razume odnos med "fotografije" in "prijatelji" in 63 00:02:56,020 --> 00:02:59,620 razume, da se "fotografije", so lastnina "prijatelji". 64 00:02:59,620 --> 00:03:02,350 >> Torej, to je del, na primer, obdelava naravnega jezika. 65 00:03:02,350 --> 00:03:04,790 To se poskuša razumeti, kaj je razmerje med 66 00:03:04,790 --> 00:03:07,520 besede v stavku. 67 00:03:07,520 --> 00:03:11,170 In veliko vprašanje je, lahko naučiti računalnik, kako govoriti 68 00:03:11,170 --> 00:03:12,650 jezik na splošno? 69 00:03:12,650 --> 00:03:17,810 Kar je zelo zanimivo vprašanje mislim, kot če bi morda v prihodnosti, 70 00:03:17,810 --> 00:03:19,930 boste mogli pogovorite s svojim mobilnim telefonom. 71 00:03:19,930 --> 00:03:23,290 Nekako tako kot tisto, kar počnemo s Siri, vendar nekaj več kot, lahko dejansko 72 00:03:23,290 --> 00:03:25,690 reči karkoli hočeš, in telefon se dogaja, da razumejo vse. 73 00:03:25,690 --> 00:03:28,350 In ima lahko spremljala vprašanja in govorite. 74 00:03:28,350 --> 00:03:30,880 To je nekaj res razburljivo, po mojem mnenju. 75 00:03:30,880 --> 00:03:33,070 >> Torej, nekaj o naravnih jezikov. 76 00:03:33,070 --> 00:03:36,220 Nekaj ​​res zanimivo naravnih jezikov je, da je, in to je 77 00:03:36,220 --> 00:03:38,470 kredit na moj profesor lingvistike, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Ona daje zgled in mislim, to je res zanimivo. 79 00:03:40,830 --> 00:03:47,060 Ker smo se naučili jezika, od kdaj rodimo in potem naš materni 80 00:03:47,060 --> 00:03:49,170 jezik vrsta raste na nas. 81 00:03:49,170 --> 00:03:52,570 >> In v bistvu se boste naučili jezika od minimalne vhod, mar ne? 82 00:03:52,570 --> 00:03:56,700 Ste pravkar dobili vhod iz vašega Starši, kaj je tvoj jezik sliši 83 00:03:56,700 --> 00:03:58,770 všeč in jo šele učijo. 84 00:03:58,770 --> 00:04:02,240 Torej, to je zanimivo, ker če pogledaš V teh stavkih, npr. 85 00:04:02,240 --> 00:04:06,980 Zgledaš, "Mary nadene plašč vsakem Čas zapusti hišo. " 86 00:04:06,980 --> 00:04:10,650 >> V tem primeru je mogoče imeti Beseda "ona" nanaša na Marijo, kajne? 87 00:04:10,650 --> 00:04:13,500 Lahko rečeš "Mary nadene plašč vsakič Mary zapusti 88 00:04:13,500 --> 00:04:14,960 hiša. ", tako da je v redu. 89 00:04:14,960 --> 00:04:19,370 Ampak potem, če pogledaš na stavka "Ona postavlja na plašč vsakič Mary 90 00:04:19,370 --> 00:04:22,850 zapusti hišo. "veš, da je mogoče reči, da je "ona" je 91 00:04:22,850 --> 00:04:24,260 ki se nanaša na Marijo. 92 00:04:24,260 --> 00:04:27,070 >> Ni šans, da bi rekel, da je "Marija postavlja na plašču vsakič Mary zapusti 93 00:04:27,070 --> 00:04:30,790 hiša. "Torej, to je zanimivo, ker to je nekako intuicijo 94 00:04:30,790 --> 00:04:32,890 da ima vsak naravni govorec. 95 00:04:32,890 --> 00:04:36,370 In nihče ni naučil, da je to Tako, da je sintaksa deluje. 96 00:04:36,370 --> 00:04:41,930 In da lahko le to "ona" sklicevanjem na Marije v tem prvem primeru 97 00:04:41,930 --> 00:04:44,260 in dejansko je to druga Tudi, vendar ne v tem. 98 00:04:44,260 --> 00:04:46,500 Toda vsi nekako dobi na isti odgovor. 99 00:04:46,500 --> 00:04:48,580 Vsakdo se strinja s tem. 100 00:04:48,580 --> 00:04:53,280 Tako da je res zanimivo, kako, čeprav ne veš vsa pravila 101 00:04:53,280 --> 00:04:55,575 v vašem jeziku, ki ga nekako razumem kako jezik deluje. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Tako zanimiva stvar, o naravnih je jezik, ki ga ne bi bilo treba 104 00:05:01,530 --> 00:05:06,970 poznam nobenega sintakso, da vem, če stavek je slovnična ali Negramatički za 105 00:05:06,970 --> 00:05:08,810 večini primerov. 106 00:05:08,810 --> 00:05:13,220 , Ki misliš, da morda kaj se zgodi, da skozi svoje življenje, si 107 00:05:13,220 --> 00:05:17,410 samo vztrajati vse bolj in bolj stavki povedal za vas. 108 00:05:17,410 --> 00:05:19,800 In potem boste obdržali memoriranje vse kazni. 109 00:05:19,800 --> 00:05:24,230 In potem, ko ti nekdo pove, nekaj, slišiš ta stavek in 110 00:05:24,230 --> 00:05:27,040 pogledaš na svojega besednjaka stavkov in videli, če 111 00:05:27,040 --> 00:05:28,270 ta stavek je tam. 112 00:05:28,270 --> 00:05:29,830 In če je tam pravijo, da je slovnična. 113 00:05:29,830 --> 00:05:31,740 Če je ne boste rekli, da je Negramatički. 114 00:05:31,740 --> 00:05:35,150 >> Torej, v tem primeru, bi rekel, oh, tako da boste imeli ogromen seznam vseh 115 00:05:35,150 --> 00:05:36,140 možne kazni. 116 00:05:36,140 --> 00:05:38,240 In potem, ko slišiš stavek, veš, če je slovnična ali 117 00:05:38,240 --> 00:05:39,450 ne temelji na tem. 118 00:05:39,450 --> 00:05:42,360 Stvar je v tem, da če pogledaš na stavek, na primer, " 119 00:05:42,360 --> 00:05:47,540 pet vodil CS50 TFS kuhano slepe hobotnica z uporabo DAPA vrč. "To je 120 00:05:47,540 --> 00:05:49,630 definitivno ni stavek da si slišal. 121 00:05:49,630 --> 00:05:52,380 Vendar pa hkrati veš, da je precej slovničnih, kajne? 122 00:05:52,380 --> 00:05:55,570 Ni slovnične napake in lahko rečem, da 123 00:05:55,570 --> 00:05:57,020 to je možno kazen. 124 00:05:57,020 --> 00:06:01,300 >> Tako da nas mislijo, da dejansko Tako, da smo se naučili jezika ni samo 125 00:06:01,300 --> 00:06:07,090 ki ga imajo ogromno bazo mogoče besede ali stavke, vendar več 126 00:06:07,090 --> 00:06:11,490 razumevanje odnosa med besede v teh stavkih. 127 00:06:11,490 --> 00:06:14,570 Ali to smiselno? 128 00:06:14,570 --> 00:06:19,370 Je tako, potem je vprašanje, lahko računalniki učenje jezikov? 129 00:06:19,370 --> 00:06:21,490 Moremo naučiti jezika na računalnikih? 130 00:06:21,490 --> 00:06:24,230 >> Torej, kaj je razmišljati o razliki med rodni govorci jezika 131 00:06:24,230 --> 00:06:25,460 in računalnik. 132 00:06:25,460 --> 00:06:27,340 Torej, kaj se zgodi na zvočnik? 133 00:06:27,340 --> 00:06:30,430 No, naravni govorec nauči jezik izpostavljenosti do njega. 134 00:06:30,430 --> 00:06:34,200 Običajno svojih prvih letih otroštva. 135 00:06:34,200 --> 00:06:38,570 Torej, v bistvu, imate samo otroka, in kar naprej govoril z njim, in to 136 00:06:38,570 --> 00:06:40,540 Pravkar se nauči govoriti jezik, kajne? 137 00:06:40,540 --> 00:06:42,660 Torej, ste v bistvu daje vhod za otroka. 138 00:06:42,660 --> 00:06:45,200 Torej, potem lahko trdijo, da računalnik lahko storijo enako stvar, kajne? 139 00:06:45,200 --> 00:06:49,510 Si lahko samo dati JEZIKA kot izhodišče za računalnikom. 140 00:06:49,510 --> 00:06:53,410 >> Kot na primer kup datotek da so knjige v angleščini. 141 00:06:53,410 --> 00:06:56,190 Morda je to eden od načinov, ki vam bi morda lahko naučil 142 00:06:56,190 --> 00:06:57,850 Računalnik angleško, kajne? 143 00:06:57,850 --> 00:07:01,000 In v resnici, če mislite o tem, vas popelje morda nekaj 144 00:07:01,000 --> 00:07:02,680 dni, da berejo knjigo. 145 00:07:02,680 --> 00:07:05,760 Za računalnik, ki je potreben za trenutek, da poglej vse besede v knjigi. 146 00:07:05,760 --> 00:07:10,810 Torej si lahko mislite, da je lahko samo to Argument prispevkom okoli vas, 147 00:07:10,810 --> 00:07:15,440 da ni dovolj, da rečemo, da je to nekaj, kar lahko samo ljudje. 148 00:07:15,440 --> 00:07:17,680 Si lahko mislite računalnike Prav tako lahko dobite vhod. 149 00:07:17,680 --> 00:07:21,170 >> Druga stvar je, da govorci Imajo tudi možganov, ki ima 150 00:07:21,170 --> 00:07:23,870 učenje jezikov zmogljivosti. 151 00:07:23,870 --> 00:07:27,020 Ampak, če mislite o tem, možgani trdna stvar. 152 00:07:27,020 --> 00:07:30,450 Ko se rodiš, to je že določena - 153 00:07:30,450 --> 00:07:31,320 to je vaši možgani. 154 00:07:31,320 --> 00:07:34,660 In kot ste odraščali, ki ste jo pravkar dobili več vhod jezika in morda hranil 155 00:07:34,660 --> 00:07:35,960 in druge stvari. 156 00:07:35,960 --> 00:07:38,170 Ampak precej vaši možgani je trdna stvar. 157 00:07:38,170 --> 00:07:41,290 >> Tako da lahko rečem, no, morda lahko zgraditi računalnik, ki ima kup 158 00:07:41,290 --> 00:07:45,890 funkcije in metode, ki samo posnemajo učenje jezikov zmogljivosti. 159 00:07:45,890 --> 00:07:49,630 Torej, v tem smislu, da bi lahko rekli, dobro, sem lahko računalnik, ki ima vse 160 00:07:49,630 --> 00:07:52,270 Stvari se moram naučiti jezika. 161 00:07:52,270 --> 00:07:56,200 In zadnja stvar je, da je materni Govornik se uči iz poskusov in napak. 162 00:07:56,200 --> 00:08:01,090 Tako da v bistvu še ena pomembna stvar v Učenje jezikov je, da si nekako 163 00:08:01,090 --> 00:08:05,340 od učijo stvari, ki jih tako posploševati, kar slišite. 164 00:08:05,340 --> 00:08:10,280 >> Torej, kot ste odraščali ste izvedeli, da Nekatere besede so bolj kot samostalniki, 165 00:08:10,280 --> 00:08:11,820 nekateri drugi pa so pridevniki. 166 00:08:11,820 --> 00:08:14,250 In vam ni treba imeti vsaka znanje jezikoslovja 167 00:08:14,250 --> 00:08:15,040 razumeti, da. 168 00:08:15,040 --> 00:08:18,560 Vendar si vedel, da je nekaj besed je postavljenih v nekem delu 169 00:08:18,560 --> 00:08:22,570 stavek, in nekateri drugi v drugo deli stavka. 170 00:08:22,570 --> 00:08:26,110 >> In da ko narediš nekaj, kar je kot kazen, ki ni pravilna - 171 00:08:26,110 --> 00:08:28,770 Morda zaradi pretirano posploševanje npr. 172 00:08:28,770 --> 00:08:32,210 Mogoče, ko si odraščal, opazite da je množina običajno 173 00:08:32,210 --> 00:08:35,809 oblikovana z zaustavitvijo S na Konec besede. 174 00:08:35,809 --> 00:08:40,042 Nato pa poskusite narediti množina "jeleni" so jeleni "" ali "zob", ​​kot je 175 00:08:40,042 --> 00:08:44,780 "tooths." Torej tvoji starši ali ti nekdo popravi in ​​reče, ne, 176 00:08:44,780 --> 00:08:49,020 množina "jelena" je "jelena" in množina "zob" je "zob". In potem 177 00:08:49,020 --> 00:08:50,060 boste naučili te stvari. 178 00:08:50,060 --> 00:08:51,520 Torej, ste se naučili iz poskusov in napak. 179 00:08:51,520 --> 00:08:53,100 >> Lahko pa tudi to, da z računalnikom. 180 00:08:53,100 --> 00:08:55,310 Lahko imaš nekaj, kar ti okrepitev učenja. 181 00:08:55,310 --> 00:08:58,560 Ki je v bistvu tako, kot bi Računalnik nagrado vsakič, ko se to zgodi 182 00:08:58,560 --> 00:08:59,410 Nekaj ​​pravilno. 183 00:08:59,410 --> 00:09:04,710 In ji daje nasprotje nagrado in ko se to zgodi nekaj narobe. 184 00:09:04,710 --> 00:09:07,410 Lahko dejansko videli, da če greš da Google Translate in poskusite 185 00:09:07,410 --> 00:09:10,220 prevesti stavek, da vas prosi za povratne informacije. 186 00:09:10,220 --> 00:09:13,240 Torej, če si rekel, oh, tam je bolje prevod tega stavka. 187 00:09:13,240 --> 00:09:18,140 Lahko ga vnesite in potem, če veliko Ljudje kar naprej govorijo, da je bolje 188 00:09:18,140 --> 00:09:21,560 prevod, samo izve, da je bi morali namesto uporabil ta prevod 189 00:09:21,560 --> 00:09:22,960 ena je bila daje. 190 00:09:22,960 --> 00:09:28,830 >> Torej, to je zelo filozofsko vprašanje da vidim, če računalnikov se bodo 191 00:09:28,830 --> 00:09:30,340 mogli govoriti ali ne v prihodnosti. 192 00:09:30,340 --> 00:09:34,440 Ampak imam veliko upanja, da jih lahko Samo na podlagi teh argumentov. 193 00:09:34,440 --> 00:09:38,570 Ampak to je samo bolj filozofsko vprašanje. 194 00:09:38,570 --> 00:09:43,460 >> Torej, medtem ko računalniki še vedno ne more govoriti, kaj so stvari, ki jih lahko storimo? 195 00:09:43,460 --> 00:09:47,070 Nekaj ​​res kul stvari Razvrstitev podatkov. 196 00:09:47,070 --> 00:09:53,210 Tako, na primer, veste, da so e-poštne storitve storiti za 197 00:09:53,210 --> 00:09:55,580 Na primer, filtriranje spam. 198 00:09:55,580 --> 00:09:59,070 Torej, ko boste prejeli spam, je poskuša filtrirati na drugo polje. 199 00:09:59,070 --> 00:10:00,270 Torej, kako to storiti? 200 00:10:00,270 --> 00:10:06,080 To ni všeč računalnik samo ve kaj e-poštni naslovi so pošiljanje spam. 201 00:10:06,080 --> 00:10:09,130 Tako da je bolj temeljila na vsebino sporočilo, ali morda naslov ali 202 00:10:09,130 --> 00:10:11,310 Mogoče nek vzorec, ki ga imajo. 203 00:10:11,310 --> 00:10:15,690 >> Torej, v bistvu, kaj lahko naredite, je dobil Veliko podatkov, elektronskih sporočil, ki so spam, 204 00:10:15,690 --> 00:10:19,980 e-poštna sporočila, ki niso spam, in izvedeti, kaj vrsta vzorcev imate v 205 00:10:19,980 --> 00:10:21,000 Tiste, ki so spam. 206 00:10:21,000 --> 00:10:23,260 In to je del računskih jezikoslovje. 207 00:10:23,260 --> 00:10:24,720 Imenuje se razvrstitev podatkov. 208 00:10:24,720 --> 00:10:28,100 In smo dejansko videli Primer da bo v naslednjih diapozitivih. 209 00:10:28,100 --> 00:10:32,910 >> Druga stvar, ki je naravni jezik predelave, ki je stvar, ki 210 00:10:32,910 --> 00:10:36,580 Graf Iskanje počne od najemnin napišete kazen. 211 00:10:36,580 --> 00:10:38,690 In upa, da razumete, kaj je pomen in daje 212 00:10:38,690 --> 00:10:39,940 ste boljši rezultat. 213 00:10:39,940 --> 00:10:43,880 Pravzaprav, če greš na Google ali Bing in iščete nekaj podobnega Lady 214 00:10:43,880 --> 00:10:47,060 Višina Gaga je, da ste dejansko dogaja da bi dobili 5 '1 "namesto informacij 215 00:10:47,060 --> 00:10:50,170 od nje, ker je dejansko razume kaj govoriš. 216 00:10:50,170 --> 00:10:52,140 Torej, to je del naravnega jezik za obdelavo. 217 00:10:52,140 --> 00:10:57,000 >> Ali pa tudi, ko ste s pomočjo Siri, prvi imate algoritem, ki poskuša 218 00:10:57,000 --> 00:11:01,130 prevesti kaj govoriš v besede v besedilu. 219 00:11:01,130 --> 00:11:03,690 In potem je poskušal prevesti da v smislu. 220 00:11:03,690 --> 00:11:06,570 Tako, da je vse del naravnega jezik za obdelavo. 221 00:11:06,570 --> 00:11:08,320 >> Potem imate strojnega prevajanja - 222 00:11:08,320 --> 00:11:10,300 ki je pravzaprav ena od mojih favoritov - 223 00:11:10,300 --> 00:11:14,060 ki je pravkar prevajanju iz jezika v drugega. 224 00:11:14,060 --> 00:11:17,950 Torej si lahko mislite, da ko delaš strojno prevajanje, imate 225 00:11:17,950 --> 00:11:19,750 neskončne možnosti stavkov. 226 00:11:19,750 --> 00:11:22,960 Torej ni nobenega načina, da samo shranjevanje vsak prevod. 227 00:11:22,960 --> 00:11:27,440 Torej ste prišli do zanimivih algoritmi bi lahko 228 00:11:27,440 --> 00:11:30,110 prevesti vsak stavek na nek način. 229 00:11:30,110 --> 00:11:32,483 >> Vi imate kakršnakoli vprašanja doslej? 230 00:11:32,483 --> 00:11:34,450 Ne? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Torej, kaj smo videli danes? 233 00:11:36,900 --> 00:11:39,300 Najprej bom govoril o problem uvrstitev. 234 00:11:39,300 --> 00:11:41,440 Torej, tisti, ki me je govorijo o spam. 235 00:11:41,440 --> 00:11:46,820 Kaj bom storiti, je, glede na to lyrics skladbo, lahko poskusite ugotoviti, 236 00:11:46,820 --> 00:11:49,810 z veliko verjetnostjo kdo je pevec? 237 00:11:49,810 --> 00:11:53,590 Recimo, da imam pesmi Lady Gaga in Katy Perry, če ti dam 238 00:11:53,590 --> 00:11:58,130 Nova pesem, lahko ugotovimo, če to je Katy Perry ali Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Drugi pa, grem govoriti o problem segmentacije. 240 00:12:01,490 --> 00:12:05,780 Tako da ne vem, če veste, ampak Kitajski, japonski, drugi vzhodnoazijski 241 00:12:05,780 --> 00:12:08,090 jeziku ter v drugih jezikih V splošnem nimajo 242 00:12:08,090 --> 00:12:09,830 presledki med besedami. 243 00:12:09,830 --> 00:12:13,540 In potem, če mislite o tem, kako to računalnik nekako poskuša 244 00:12:13,540 --> 00:12:18,600 razumeti, obdelava naravnega jezika, je videti na besedami in 245 00:12:18,600 --> 00:12:21,500 poskuša razumeti odnose med njimi, kajne? 246 00:12:21,500 --> 00:12:25,440 Ampak potem, če imate kitajski, in ti imeti nič prostore, to je res težko 247 00:12:25,440 --> 00:12:28,360 izvedeti, kakšno je razmerje med besede, ker nimajo kateremkoli 248 00:12:28,360 --> 00:12:29,530 Besede na prvi. 249 00:12:29,530 --> 00:12:32,600 Tako da boste morali narediti nekaj, kar ti Segmentacija, ki samo pomeni, da se 250 00:12:32,600 --> 00:12:36,490 Razmiki med kaj bi klic besede v teh jezikih. 251 00:12:36,490 --> 00:12:37,740 Smisla? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> In potem bomo govorimo o skladnji. 254 00:12:41,540 --> 00:12:44,050 Torej samo malo o naravnih jezik za obdelavo. 255 00:12:44,050 --> 00:12:45,420 To se dogaja, da je samo pregled. 256 00:12:45,420 --> 00:12:50,700 Torej, danes, v bistvu tisto, kar želim storiti se vam fantje malo 257 00:12:50,700 --> 00:12:53,930 Notranjost kakšne so možnosti ki jih lahko naredite s računskih 258 00:12:53,930 --> 00:12:54,960 jezikoslovje. 259 00:12:54,960 --> 00:13:00,410 In potem lahko vidite, kaj si misliš je kul med temi stvarmi. 260 00:13:00,410 --> 00:13:02,270 In morda si lahko zamislite projekta in se pogovarjati z mano. 261 00:13:02,270 --> 00:13:05,260 In jaz lahko dam nasvet o tem, kako jo izvajati. 262 00:13:05,260 --> 00:13:09,060 >> Torej sintaksa se bo nekoliko O Graph Search in strojem 263 00:13:09,060 --> 00:13:09,670 prevod. 264 00:13:09,670 --> 00:13:13,650 Jaz bom samo dal primer, kako Lahko bi, na primer, prevesti 265 00:13:13,650 --> 00:13:16,020 nekaj iz portugalščine v angleščino. 266 00:13:16,020 --> 00:13:17,830 Sliši se dobro? 267 00:13:17,830 --> 00:13:19,293 >> Torej, najprej, problem uvrstitev. 268 00:13:19,293 --> 00:13:23,590 Jaz bom rekel, da je to del seminarja se bo najbolj zahtevna 269 00:13:23,590 --> 00:13:27,560 eno samo zato, ker se dogaja vsaj nekaj kodiranje. 270 00:13:27,560 --> 00:13:29,470 Ampak to se dogaja, da je Python. 271 00:13:29,470 --> 00:13:34,380 Vem, da vi ne veste, Python, tako Jaz sem samo, da pojasni, na visoki 272 00:13:34,380 --> 00:13:35,750 raven, kar delam. 273 00:13:35,750 --> 00:13:40,900 In ti ne bo treba res skrbi preveč toliko o skladnji, ker to je 274 00:13:40,900 --> 00:13:42,140 kaj vi lahko naučite. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Sliši se dobro. 277 00:13:43,580 --> 00:13:46,020 >> Torej, kaj je problem razvrstitev? 278 00:13:46,020 --> 00:13:49,140 Torej boš dal nekaj lyrics pesem, in želite, da uganiti 279 00:13:49,140 --> 00:13:50,620 ki jo poje. 280 00:13:50,620 --> 00:13:54,045 In to je lahko za kakršnokoli drugih težav. 281 00:13:54,045 --> 00:13:59,980 Torej je mogoče, na primer, da imate predsedniški kampanji in imate 282 00:13:59,980 --> 00:14:02,610 govor, in želite, da bi našli , če je bilo, na primer, 283 00:14:02,610 --> 00:14:04,470 Obama ali Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Ali lahko imate kup e-pošte in hočeš, da ugotovimo, če so 285 00:14:07,700 --> 00:14:08,890 spam ali ne. 286 00:14:08,890 --> 00:14:11,440 Torej, to je samo nekaj razvrščanje podatki, ki temeljijo na besede 287 00:14:11,440 --> 00:14:13,790 da ste tam. 288 00:14:13,790 --> 00:14:16,295 >> Torej za to, moraš narediti nekaj predpostavk. 289 00:14:16,295 --> 00:14:20,570 Torej, veliko približno računalniškega jezikoslovja je predpostavk, 290 00:14:20,570 --> 00:14:24,100 ponavadi pametne predpostavke, da lahko dobili dobre rezultate. 291 00:14:24,100 --> 00:14:26,670 Poskušajo ustvariti model za to. 292 00:14:26,670 --> 00:14:31,290 In potem jo preizkusite in poglejte, če deluje, če vam dobro natančnost. 293 00:14:31,290 --> 00:14:33,940 In če je temu tako, potem boste poskušali izboljšati. 294 00:14:33,940 --> 00:14:37,640 Če se ne, ti si kot, OK, morda sem naj bi drugačno predpostavko. 295 00:14:37,640 --> 00:14:44,030 >> Torej predpostavka, da bomo se je, da je umetnik ponavadi poje 296 00:14:44,030 --> 00:14:49,220 o temi večkrat, in morda uporablja besede, večkrat samo 297 00:14:49,220 --> 00:14:50,270 zato, ker so navajeni na to. 298 00:14:50,270 --> 00:14:51,890 Lahko samo pomislite na svojega prijatelja. 299 00:14:51,890 --> 00:14:57,350 Prepričan sem, da vama vse prijatelje ki pravijo, njihov podpis besedno zvezo, 300 00:14:57,350 --> 00:14:59,260 dobesedno za vsak stavek - 301 00:14:59,260 --> 00:15:02,660 kot neke določene besede ali nekaterih posebnih Stavek, ki pravijo, da za 302 00:15:02,660 --> 00:15:04,020 vsak stavek. 303 00:15:04,020 --> 00:15:07,920 >> In kaj lahko rečem je, da če vidite stavek, da je podpis 304 00:15:07,920 --> 00:15:11,450 Stavek, ki jih lahko uganiti, da je verjetno tvoj prijatelj 305 00:15:11,450 --> 00:15:13,310 eden je rekel, kajne? 306 00:15:13,310 --> 00:15:18,410 Torej si tako predvideval, nato pa to je, kako si ustvariti model. 307 00:15:18,410 --> 00:15:24,440 >> Primer, da bom dal, je na kako Lady Gaga, na primer, ljudje 308 00:15:24,440 --> 00:15:27,430 pravijo, da ona uporablja "otroka" za vsi njeni številka ena pesmi. 309 00:15:27,430 --> 00:15:32,270 In dejansko je ta video, ki prikazuje ji rekel besedo "otroka" za 310 00:15:32,270 --> 00:15:33,410 različne pesmi. 311 00:15:33,410 --> 00:15:33,860 >> [Predvajanje videa] 312 00:15:33,860 --> 00:15:34,310 >> - (PETJE) Baby. 313 00:15:34,310 --> 00:15:36,220 Baby. 314 00:15:36,220 --> 00:15:37,086 Baby. 315 00:15:37,086 --> 00:15:37,520 Baby. 316 00:15:37,520 --> 00:15:37,770 Baby. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Baby. 319 00:15:39,243 --> 00:15:40,085 Baby. 320 00:15:40,085 --> 00:15:40,510 Baby. 321 00:15:40,510 --> 00:15:40,850 Baby. 322 00:15:40,850 --> 00:15:41,090 >> [END predvajanje videa 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Torej obstajajo, mislim, 40 pesmi, tukaj, v katerem pravi, 324 00:15:44,020 --> 00:15:48,690 Beseda "otroka". Torej v bistvu lahko uganiti da če vidiš pesem, ki ima 325 00:15:48,690 --> 00:15:52,180 Beseda "baby," je neka visoka Verjetnost, da je Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Ampak poskusimo to razviti nadalje bolj formalno. 327 00:15:56,450 --> 00:16:00,470 >> Torej, to so pesmi skladbam Lady Gaga in Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Torej si poglej Lady Gaga, ki jih vidijo imajo veliko dogodkov za "dojenčka", 329 00:16:04,120 --> 00:16:07,710 Veliko pojavov "način." In potem Katy Perry ima veliko pojavljanj 330 00:16:07,710 --> 00:16:10,360 «,» Veliko pojavov "ogenj". 331 00:16:10,360 --> 00:16:14,560 >> Torej v bistvu tisto, kar smo želeli storiti je, da si dobil posreduj besedilo. 332 00:16:14,560 --> 00:16:20,480 Recimo, da ste dobili posreduj besedilo za Pesem, ki je "baby," samo "mlade". Če 333 00:16:20,480 --> 00:16:24,750 ste pravkar dobili besedo »otroka« in to so vsi podatki, ki jih imajo od 334 00:16:24,750 --> 00:16:27,880 Lady Gaga in Katy Perry, ki bi uganete je oseba 335 00:16:27,880 --> 00:16:29,370 kdo poje pesem? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga in Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, kajne? 338 00:16:33,150 --> 00:16:37,400 Ker je edini, ki pravi: "Otrok". To se sliši neumno, kajne? 339 00:16:37,400 --> 00:16:38,760 OK, to je res enostavno. 340 00:16:38,760 --> 00:16:41,860 Jaz sem samo videti na dveh pesmih in Seveda, ona je edina, ki ima 341 00:16:41,860 --> 00:16:42,660 "Otrok". 342 00:16:42,660 --> 00:16:44,740 >> Toda kaj, če imate kup besed? 343 00:16:44,740 --> 00:16:50,900 Če imate dejansko lirskega, nekaj kot, "ljubica, pravkar sem 344 00:16:50,900 --> 00:16:51,610 obiskala [? RVK?] 345 00:16:51,610 --> 00:16:54,020 Predavanje "ali nekaj takega, in potem boste dejansko morali ugotoviti - 346 00:16:54,020 --> 00:16:55,780 na podlagi vseh teh besed - 347 00:16:55,780 --> 00:16:58,350 kdo je umetnik, ki je verjetno pel to pesem? 348 00:16:58,350 --> 00:17:01,860 Torej poskusimo razviti to malo naprej. 349 00:17:01,860 --> 00:17:05,630 >> OK, tako da temelji le na podatkih, ki smo dobil, se zdi, da je Gaga verjetno 350 00:17:05,630 --> 00:17:06,260 pevka. 351 00:17:06,260 --> 00:17:07,904 Ampak kako lahko pišemo to bolj formalno? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 In tam dogaja, da se malo malo statistike. 354 00:17:13,140 --> 00:17:15,880 Torej, če ste izgubili, samo poskusite razumeti pojem. 355 00:17:15,880 --> 00:17:18,700 Ni važno, če ste razumeli enačbe zelo dobro. 356 00:17:18,700 --> 00:17:22,150 To je vse, bo na spletu. 357 00:17:22,150 --> 00:17:25,490 >> Torej v bistvu tisto, kar sem izračunu je Verjetnost, da je ta pesem 358 00:17:25,490 --> 00:17:28,040 Lady Gaga saj - 359 00:17:28,040 --> 00:17:30,660 da to pomeni, bar saj - 360 00:17:30,660 --> 00:17:33,680 Videl sem besedo "otroka". Ali to smiselno? 361 00:17:33,680 --> 00:17:35,540 Torej, jaz sem poskušal izračunati da je verjetnost. 362 00:17:35,540 --> 00:17:38,540 >> Tako da je ta izrek se imenuje Bayesov teorem, ki pravi, da 363 00:17:38,540 --> 00:17:43,330 verjetnost danega B, je Verjetnost, B, A, saj časi 364 00:17:43,330 --> 00:17:47,660 verjetnost, da bo, v verjetnosti B. Ta je dolga enačba. 365 00:17:47,660 --> 00:17:51,970 Ampak kaj moraš razumeti iz to je, da je to tisto, kar želim 366 00:17:51,970 --> 00:17:52,830 izračunati, kajne? 367 00:17:52,830 --> 00:17:56,570 Tako da je verjetnost, da je ta pesem Lady Gaga saj sem videl besedo 368 00:17:56,570 --> 00:17:58,230 "Otrok". 369 00:17:58,230 --> 00:18:02,960 >> In kaj zdaj dobivam je Verjetnost besedo "otroške" dati 370 00:18:02,960 --> 00:18:04,390 da imam Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 In kaj je to v bistvu? 372 00:18:07,220 --> 00:18:10,500 Kaj to pomeni, je, kaj je Verjetnost, da bi videli besedo "otroka" 373 00:18:10,500 --> 00:18:12,130 V Gaga lyrics? 374 00:18:12,130 --> 00:18:16,240 Če hočem izračunati, da je v zelo preprost način, to je samo število 375 00:18:16,240 --> 00:18:23,640 krat sem videl "dojenčka", glede na skupno število besed v Gaga lyrics, kajne? 376 00:18:23,640 --> 00:18:27,600 Kakšna je frekvenca, ki jo vidim da beseda v delu Gaga je? 377 00:18:27,600 --> 00:18:30,530 Smisla? 378 00:18:30,530 --> 00:18:33,420 >> Drugi izraz verjetnost Gaga. 379 00:18:33,420 --> 00:18:34,360 Kaj to pomeni? 380 00:18:34,360 --> 00:18:38,550 To v bistvu pomeni, kaj je verjetnost razvrščanja 381 00:18:38,550 --> 00:18:40,690 Nekatere pesmi so Gaga? 382 00:18:40,690 --> 00:18:45,320 In to je nekako čudno, ampak Pomislimo na primer. 383 00:18:45,320 --> 00:18:49,230 Torej, recimo, da je verjetnost imajo "otroka" v pesem je enak 384 00:18:49,230 --> 00:18:51,760 Za Gaga in Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Ampak Britney Spears ima dvakrat več pesmi, kot so Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Torej, če vam nekdo samo naključno daje lyrics "dojenčka", prvo stvar, ki jo 387 00:19:00,570 --> 00:19:04,710 gledati je, kakšna je verjetnost, imajo "otroka" v Gaga pesem, "ljubica" 388 00:19:04,710 --> 00:19:05,410 v Britney pesmi? 389 00:19:05,410 --> 00:19:06,460 In to je ista stvar. 390 00:19:06,460 --> 00:19:10,040 >> Torej, druga stvar, ki jo boste videli, je, no, kaj je verjetnost 391 00:19:10,040 --> 00:19:13,770 ta pesem sama po sebi pa Gaga pesem, in kakšna je verjetnost 392 00:19:13,770 --> 00:19:15,380 pri čemer je Britney pesem? 393 00:19:15,380 --> 00:19:18,950 Zato, ker ima Britney toliko bolj lyrics kot Gaga, bi vam verjetno 394 00:19:18,950 --> 00:19:21,470 recimo, dobro, to je verjetno Britney pesem. 395 00:19:21,470 --> 00:19:23,340 Tako da je, zakaj imamo to imenujemo tukaj. 396 00:19:23,340 --> 00:19:24,670 Verjetnost Gaga. 397 00:19:24,670 --> 00:19:26,950 Smiselno? 398 00:19:26,950 --> 00:19:28,660 To počne? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> In zadnja je samo verjetnost za "dojenčka", ki ne 401 00:19:33,500 --> 00:19:34,810 važno, da je veliko. 402 00:19:34,810 --> 00:19:39,940 Vendar je verjetnost videnje "otroka" v angleškem jeziku. 403 00:19:39,940 --> 00:19:42,725 Mi običajno ne skrbi, da toliko o tem obdobju. 404 00:19:42,725 --> 00:19:44,490 Ali to smiselno? 405 00:19:44,490 --> 00:19:48,110 Torej verjetnost Gaga je imenovana pred verjetnost 406 00:19:48,110 --> 00:19:49,530 razrednega Gaga. 407 00:19:49,530 --> 00:19:53,840 Ker to pomeni le, da je tisto, kar je Verjetnost, da ima njen razred - 408 00:19:53,840 --> 00:19:55,520 ki je Gaga - 409 00:19:55,520 --> 00:19:59,350 Samo na splošno, ravno brez pogojev. 410 00:19:59,350 --> 00:20:02,560 >> In potem, ko sem imel verjetnost Gaga zaradi "mlade", ga imenujemo plus 411 00:20:02,560 --> 00:20:06,160 teary verjetnost, ker je verjetnost ob 412 00:20:06,160 --> 00:20:08,300 Gaga dal nekaj dokazov. 413 00:20:08,300 --> 00:20:11,050 Torej, jaz ti dam dokaze da sem videl besedo otroka in 414 00:20:11,050 --> 00:20:12,690 pesem smiselna? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Torej, če sem izračunal, da za vsako pesmi za Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 kaj bi bilo - 419 00:20:25,916 --> 00:20:27,730 očitno je, da ne morem premakniti tega. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Verjetnost Gaga bo nekaj podobnega, 2. nad 24 krat 1/2, 422 00:20:36,920 --> 00:20:38,260 več kot 2 nad 53. 423 00:20:38,260 --> 00:20:40,640 Ni važno, če veš, kaj Te številke so prihajajo iz. 424 00:20:40,640 --> 00:20:44,750 Ampak to je samo številka, ki se dogaja da bo več kot 0, kajne? 425 00:20:44,750 --> 00:20:48,610 >> In potem, ko sem naredil Katy Perry, Verjetnost, "dojenčka", saj je Katy 426 00:20:48,610 --> 00:20:49,830 že 0, kajne? 427 00:20:49,830 --> 00:20:52,820 Ker ni "mlade" V Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Torej, potem to postane 0, in Gaga zmag, kar pomeni, da je Gaga 429 00:20:56,360 --> 00:20:57,310 Verjetno pevka. 430 00:20:57,310 --> 00:20:58,560 Ali to smiselno? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Torej, če želim, da bi to še uradni, Jaz lahko dejansko narediti model 435 00:21:11,750 --> 00:21:12,700 več besed. 436 00:21:12,700 --> 00:21:14,610 Torej, recimo, da imam nekaj kot, "baby, I am 437 00:21:14,610 --> 00:21:16,030 na ogenj, "ali kaj podobnega. 438 00:21:16,030 --> 00:21:17,760 Torej ima več besede. 439 00:21:17,760 --> 00:21:20,880 In v tem primeru, si lahko ogledate da "mlade" je Gaga, 440 00:21:20,880 --> 00:21:21,710 vendar to ni v Katy. 441 00:21:21,710 --> 00:21:24,940 In "ogenj" je v Katy, vendar to ni v Gaga, kajne? 442 00:21:24,940 --> 00:21:27,200 Torej, to je vse težje, kajne? 443 00:21:27,200 --> 00:21:31,440 Ker se zdi, da si skoraj imajo vez med njima. 444 00:21:31,440 --> 00:21:36,980 >> Torej, kaj morate storiti je, da prevzame Neodvisnost med besedami. 445 00:21:36,980 --> 00:21:41,210 Torej v bistvu, kaj to pomeni, da Jaz sem samo izračun, kar je 446 00:21:41,210 --> 00:21:44,330 Verjetnost, da bi videli "otroka", kar je verjetnost videnje "I" in 447 00:21:44,330 --> 00:21:46,670 "Am" in "o" in "ogenj" vse ločeno. 448 00:21:46,670 --> 00:21:48,670 Potem sem se pomnoži vse od njih. 449 00:21:48,670 --> 00:21:52,420 In vidim, kaj je verjetnost videnje celotno kazen. 450 00:21:52,420 --> 00:21:55,210 Smisla? 451 00:21:55,210 --> 00:22:00,270 >> Torej v bistvu, če imam samo eno besedo, tisto, kar želim, da bi našli, je arg max, 452 00:22:00,270 --> 00:22:05,385 kar pomeni, kaj je razred, ki je mi dali največ možnosti? 453 00:22:05,385 --> 00:22:10,010 Torej, kaj je razred, ki se daje me največja verjetnost 454 00:22:10,010 --> 00:22:11,940 verjetnost razreda dati besedo. 455 00:22:11,940 --> 00:22:17,610 Torej, v tem primeru, saj Gaga "otroka". Ali Katy dana "otroka". Smisla? 456 00:22:17,610 --> 00:22:21,040 >> In samo od Bayes, da Enačba, da sem pokazal, 457 00:22:21,040 --> 00:22:24,780 smo ustvarili to frakcijo. 458 00:22:24,780 --> 00:22:28,750 Edina stvar je, da boste videli, da verjetnost besede glede 459 00:22:28,750 --> 00:22:31,370 razreda se spreminja glede v razredu, kajne? 460 00:22:31,370 --> 00:22:34,260 Število "otroške" ih, ki sem jih V Gaga je drugačen od Katy. 461 00:22:34,260 --> 00:22:37,640 Verjetnost razredu tudi spremembe, saj je samo številka 462 00:22:37,640 --> 00:22:39,740 pesmi, vsaka od njih ima. 463 00:22:39,740 --> 00:22:43,980 >> Ampak verjetnost je beseda sama se bo enaka za vse 464 00:22:43,980 --> 00:22:44,740 umetniki, kajne? 465 00:22:44,740 --> 00:22:47,150 Torej verjetnost besedo samo, kakšna je verjetnost, 466 00:22:47,150 --> 00:22:49,820 vidim to besedo v Angleški jezik? 467 00:22:49,820 --> 00:22:51,420 Torej je enaka za vse. 468 00:22:51,420 --> 00:22:55,790 Zato ker je to konstanta, smo lahko samo spusti to ne briga. 469 00:22:55,790 --> 00:23:00,230 Torej bo to dejansko Enačba iščemo. 470 00:23:00,230 --> 00:23:03,360 >> In če imam več besed, da sem še vedno dogaja, da imajo pred 471 00:23:03,360 --> 00:23:04,610 Verjetnost tukaj. 472 00:23:04,610 --> 00:23:06,980 Edina stvar je, da sem se pomnoži verjetnost 473 00:23:06,980 --> 00:23:08,490 Vse drugimi besedami. 474 00:23:08,490 --> 00:23:10,110 Torej sem se pomnoži vse od njih. 475 00:23:10,110 --> 00:23:12,610 Smisla? 476 00:23:12,610 --> 00:23:18,440 To izgleda čudno, ampak v bistvu pomeni, izračunati pred razreda, in 477 00:23:18,440 --> 00:23:22,100 nato pomnožimo z verjetnostjo, da je vsak besed, ki so v tem razredu. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> In veš, da je verjetnost Beseda dana razred se bo 480 00:23:29,150 --> 00:23:34,520 kolikokrat ste videli to besedo v da razred, deljeno s številom 481 00:23:34,520 --> 00:23:37,020 Besede, ki jih imajo po tem, da razred na splošno. 482 00:23:37,020 --> 00:23:37,990 Smisla? 483 00:23:37,990 --> 00:23:41,680 To je samo, kako "mlade" je bil več kot 2 število besed, ki 484 00:23:41,680 --> 00:23:43,020 Imel sem v besedilih. 485 00:23:43,020 --> 00:23:45,130 Torej samo frekvenca. 486 00:23:45,130 --> 00:23:46,260 >> Vendar pa obstaja ena stvar. 487 00:23:46,260 --> 00:23:51,250 Spominjam se, kako sem pokazal, da Verjetnost, "otroške", ki se lyrics 488 00:23:51,250 --> 00:23:56,350 od Katy Perry je 0 samo zato, ker Katy Perry ni imel "otroka" sploh? 489 00:23:56,350 --> 00:24:04,900 Ampak to se sliši malo kruto, da samo preprosto reči, da pesmi ne more biti iz 490 00:24:04,900 --> 00:24:10,040 umetnik samo zato, ker nimajo da beseda zlasti kadarkoli. 491 00:24:10,040 --> 00:24:13,330 >> Torej bi lahko samo rekli, dobro, če nimajo te besede, se bom 492 00:24:13,330 --> 00:24:15,640 vam manjšo verjetnost, ampak jaz samo ne bo 493 00:24:15,640 --> 00:24:17,420 vam 0. takoj. 494 00:24:17,420 --> 00:24:21,040 Saj morda je bilo nekaj podobnega, "Požar, ogenj, požar, ogenj", ki je 495 00:24:21,040 --> 00:24:21,990 popolnoma Katy Perry. 496 00:24:21,990 --> 00:24:26,060 In potem "mlade" in da gre samo za 0 desno stran, ker je bila ena 497 00:24:26,060 --> 00:24:27,250 "Otrok". 498 00:24:27,250 --> 00:24:31,440 >> Torej v bistvu tisto, kar počnemo, je nekaj imenovano Laplace glajenje. 499 00:24:31,440 --> 00:24:36,260 In to samo pomeni, da dajem nekateri verjetnost celo besedami 500 00:24:36,260 --> 00:24:37,850 da ne obstajajo. 501 00:24:37,850 --> 00:24:43,170 Torej, kaj storiti, je, da ko sem izračun tega sem vedno dodamo 1 do 502 00:24:43,170 --> 00:24:44,180 števec. 503 00:24:44,180 --> 00:24:48,060 Torej, čeprav beseda ne obstaja, pri V tem primeru, če je to 0, še vedno sem 504 00:24:48,060 --> 00:24:51,250 izračuna, da je to več kot 1 Skupno število besed. 505 00:24:51,250 --> 00:24:55,060 Drugače pa sem dobil, koliko besed Imam in dodam 1. 506 00:24:55,060 --> 00:24:58,300 Torej Štejem obeh primerih. 507 00:24:58,300 --> 00:25:00,430 Smisla? 508 00:25:00,430 --> 00:25:03,060 >> Torej, zdaj pa naredite nekaj kodiranja. 509 00:25:03,060 --> 00:25:06,440 Jaz bom moral to storiti zelo hitro, ampak to je samo pomembno, da vam 510 00:25:06,440 --> 00:25:08,600 Fantje razumejo koncepte. 511 00:25:08,600 --> 00:25:13,450 Torej, kaj smo poskušali narediti je natančno izvajanje te 512 00:25:13,450 --> 00:25:14,330 stvar, ki sem rekel - 513 00:25:14,330 --> 00:25:19,110 Želim vam, da iz besedila Lady Gaga in Katy Perry. 514 00:25:19,110 --> 00:25:22,980 In program se bo lahko reči, če so te nove pesmi iz Gaga 515 00:25:22,980 --> 00:25:24,170 ali Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Smisla? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Torej imam ta program, vam bom poklicati classify.py. 519 00:25:30,710 --> 00:25:31,970 Torej, to je Python. 520 00:25:31,970 --> 00:25:34,210 To je nov programski jezik. 521 00:25:34,210 --> 00:25:38,020 To je zelo podoben v nekaterih poti do C in PHP. 522 00:25:38,020 --> 00:25:43,180 To je podobno, ker če hočeš naučiti Python ko vedo C, je 523 00:25:43,180 --> 00:25:46,270 res, da ni kaj prida izziv samo zato, ker Python je veliko lažje 524 00:25:46,270 --> 00:25:47,520 kot C, najprej. 525 00:25:47,520 --> 00:25:49,370 In veliko stvari, ki so že izvaja za vas. 526 00:25:49,370 --> 00:25:56,820 Torej, kako ima funkcije, kot so PHP, da razvrstiti seznam, ali pa dodajte nekaj 527 00:25:56,820 --> 00:25:58,780 array, ali bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python ima vse tiste, kot dobro. 529 00:26:00,690 --> 00:26:05,960 >> Torej grem na hitro razloži kako bi lahko naredil z uvrstitvijo 530 00:26:05,960 --> 00:26:07,860 problem tukaj. 531 00:26:07,860 --> 00:26:13,230 Torej, recimo, da v tem primeru, moram Besedila iz Gaga in Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Tako, da imam te pesmi je, da prva beseda besedil je 533 00:26:21,880 --> 00:26:25,250 ime izvajalca in ostalo je lyrics. 534 00:26:25,250 --> 00:26:29,470 Torej, recimo, da imam ta seznam katerih prva je lyrics by Gaga. 535 00:26:29,470 --> 00:26:31,930 Torej, tukaj sem na pravi poti. 536 00:26:31,930 --> 00:26:35,270 In naslednjič je Katy, in ima tudi pesmi. 537 00:26:35,270 --> 00:26:38,040 >> Torej, to je, kako se razglasi spremenljivka v Python. 538 00:26:38,040 --> 00:26:40,200 Vam ni treba dati podatkovni tip. 539 00:26:40,200 --> 00:26:43,150 Pravkar ste napisali "lyrics" Tako kot v PHP. 540 00:26:43,150 --> 00:26:44,890 Smisla? 541 00:26:44,890 --> 00:26:47,770 >> Torej, kaj so stvari, ki jih moram izračun, da se lahko izračuna 542 00:26:47,770 --> 00:26:49,360 Verjetnosti? 543 00:26:49,360 --> 00:26:55,110 Moram izračunati "pridigarji" za vsakega izmed različnih 544 00:26:55,110 --> 00:26:56,710 razredi, ki jih imam. 545 00:26:56,710 --> 00:27:06,680 Moram izračunati "ogrodje,," ali precej verjetnosti 546 00:27:06,680 --> 00:27:12,150 vsako od različnih besed, ki Imam lahko za vsak umetnik. 547 00:27:12,150 --> 00:27:17,210 Tako znotraj Gaga, na primer, bom da imajo seznam, kolikokrat sem videl 548 00:27:17,210 --> 00:27:19,250 Vsaka od besed. 549 00:27:19,250 --> 00:27:20,760 Smisla? 550 00:27:20,760 --> 00:27:25,370 >> In končno, bom samo, da imajo Seznam imenovanih "besede", ki je pravkar dogaja 551 00:27:25,370 --> 00:27:29,780 da ima koliko besed imeti za vsakega umetnika. 552 00:27:29,780 --> 00:27:33,760 Torej za Gaga, na primer, ko pogledam do besedil, ki sem jih, mislim, 24 553 00:27:33,760 --> 00:27:34,750 besede skupaj. 554 00:27:34,750 --> 00:27:38,970 Torej je ta seznam le, da bo imel Gaga 24, in Katy drugo številko. 555 00:27:38,970 --> 00:27:40,130 Smisla? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Torej sedaj, pravzaprav, dajmo pojdite na kodiranja. 558 00:27:42,530 --> 00:27:45,270 Torej v Python, lahko dejansko vrnitev kup različnih 559 00:27:45,270 --> 00:27:46,630 stvari iz funkcije. 560 00:27:46,630 --> 00:27:50,810 Torej bom ustvariti to funkcijo imenovano "pogojno", ki se dogaja 561 00:27:50,810 --> 00:27:53,890 vrniti vse te stvari, "pridigarji", za "Verjetnost," in 562 00:27:53,890 --> 00:28:05,690 "besede". Torej "pogojno", in to je bodo vprašljive "besedil." 563 00:28:05,690 --> 00:28:11,510 >> Torej, zdaj želim, da dejansko napisati to funkcijo. 564 00:28:11,510 --> 00:28:17,750 Torej način, da sem lahko to napisati Funkcijo sem to opredeljeno 565 00:28:17,750 --> 00:28:20,620 delovati v skladu z "def." Torej sem naredil "def pogojen, "in to je ob 566 00:28:20,620 --> 00:28:28,700 "Lyrics." In kaj to bo naredil je, najprej, imam Pridigarji 567 00:28:28,700 --> 00:28:31,030 da želim izračunati. 568 00:28:31,030 --> 00:28:34,330 >> Torej način, da sem lahko to storiti, je ustvariti Slovar v Pythonu, ki 569 00:28:34,330 --> 00:28:37,320 je precej ista stvar kot hašiš miza, ali je kot ponavljajoč 570 00:28:37,320 --> 00:28:40,480 matrika v PHP. 571 00:28:40,480 --> 00:28:44,150 To je, kako izjavljam slovar. 572 00:28:44,150 --> 00:28:53,580 In v bistvu, kaj to pomeni, da pridigarji iz Gaga je 0,5, na primer, če 573 00:28:53,580 --> 00:28:57,200 50% besedil so iz Gaga, 50% pa od Katy. 574 00:28:57,200 --> 00:28:58,450 Smisla? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Tako da sem moral ugotoviti, kako za izračun pridigarjem. 577 00:29:03,680 --> 00:29:07,120 >> Naslednji tisti, ki jih moram narediti, tudi, so verjetnosti in besede. 578 00:29:07,120 --> 00:29:17,100 Torej je verjetnost Gaga je seznam vseh verjetnosti, da sem 579 00:29:17,100 --> 00:29:19,160 ima za vsako od besed za Gaga. 580 00:29:19,160 --> 00:29:23,880 Torej, če grem na verjetnosti Gaga "Baby," za primer, da bomo mi 581 00:29:23,880 --> 00:29:28,750 nekaj takega kot 2 nad 24 v tem primeru. 582 00:29:28,750 --> 00:29:30,070 Smisla? 583 00:29:30,070 --> 00:29:36,120 Zato sem šel na "verjetnost", pojdite na "Gaga" bucket, ki ima seznam vseh 584 00:29:36,120 --> 00:29:40,550 besede Gaga, potem pa sem šel na "otroka" in vidim verjetnost. 585 00:29:40,550 --> 00:29:45,940 >> In končno imam to "Besede" ni v slovarju. 586 00:29:45,940 --> 00:29:53,620 Torej, tukaj, "verjetnosti". In potem "besede". Torej, če naredim "besed," "Gaga" 587 00:29:53,620 --> 00:29:58,330 kaj se bo zgodilo, je, da je dogaja, da mi 24, ki pravijo, da sem 588 00:29:58,330 --> 00:30:01,990 imajo 24 besed v besedilih iz Gaga. 589 00:30:01,990 --> 00:30:04,110 Smiselno? 590 00:30:04,110 --> 00:30:07,070 Torej, tukaj, "besede" je enaka dah dah dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Torej, kaj bom storiti, je, da bom Ponovil skozi vsako od besedil, tako 593 00:30:12,210 --> 00:30:14,490 Vsaka od nizov, ki Imam na seznamu. 594 00:30:14,490 --> 00:30:18,040 In jaz bom za izračun te stvari za vsakega od kandidatov. 595 00:30:18,040 --> 00:30:19,950 Smiselno? 596 00:30:19,950 --> 00:30:21,700 Tako da sem moral narediti zanko. 597 00:30:21,700 --> 00:30:26,300 >> Torej, v Python, kaj lahko storim, je "za linijo V besedilih. "ista stvar kot 598 00:30:26,300 --> 00:30:28,000 "Za vsako" izjavo v PHP. 599 00:30:28,000 --> 00:30:33,420 Spomnim se, kako, če je bila PHP sem lahko pravijo "Za vsako besedil kot 600 00:30:33,420 --> 00:30:35,220 vrstica. "Logično? 601 00:30:35,220 --> 00:30:38,900 Tako da sem ob vsakem od linij, v tem primer, ta niz in dostavo 602 00:30:38,900 --> 00:30:44,540 Niz tako za vsako od linij, kaj sem tekoč storiti, je, prvič, bom 603 00:30:44,540 --> 00:30:49,150 razdeli to vrstico v seznamu besede ločene s presledki. 604 00:30:49,150 --> 00:30:53,730 >> Tako kul stvar Python je, da si lahko samo Google, kot so "kako lahko 605 00:30:53,730 --> 00:30:58,220 split niz v besede? "In to je dogaja, da vam povem, kako to storiti. 606 00:30:58,220 --> 00:31:04,890 In način, kako to storiti, je le "linija = Line.split () ", in to je v bistvu 607 00:31:04,890 --> 00:31:08,640 dogaja, da vam seznam z vsako od besed tukaj. 608 00:31:08,640 --> 00:31:09,620 Smiselno? 609 00:31:09,620 --> 00:31:15,870 Torej sedaj, da sem storil, da želim vedeti kdo je pevec te pesmi. 610 00:31:15,870 --> 00:31:20,130 In za to, da sem moral dobiti Prvi element matrike, kajne? 611 00:31:20,130 --> 00:31:26,390 Torej, jaz lahko samo rečem, da sem "pevec = Črta (0) "Ima smisel? 612 00:31:26,390 --> 00:31:32,010 >> In kaj moram storiti, potem je v prvi vrsti vse, bom posodobiti, koliko 613 00:31:32,010 --> 00:31:36,130 Besede imam pod "Gaga." tako da sem pravkar bo izračun, koliko besed sem 614 00:31:36,130 --> 00:31:38,690 imajo na tem seznamu, kajne? 615 00:31:38,690 --> 00:31:41,910 Ker je to, koliko besed sem V besedil in jaz bom samo 616 00:31:41,910 --> 00:31:44,120 dodajte na "Gaga" matrike. 617 00:31:44,120 --> 00:31:47,090 Ali to smiselno? 618 00:31:47,090 --> 00:31:49,010 Ne osredotočajo preveč na sintakso. 619 00:31:49,010 --> 00:31:50,430 Bolj misliti konceptov. 620 00:31:50,430 --> 00:31:52,400 To je najpomembnejši del. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Torej, kaj lahko storite, je, če "Gaga" je že v tem seznamu, tako da "če je pevka v 623 00:32:00,260 --> 00:32:03,190 besede "kar pomeni, da sem že imajo besede, ki jih Gaga. 624 00:32:03,190 --> 00:32:06,640 Želim dodati dodatne besed na to. 625 00:32:06,640 --> 00:32:15,810 Torej, kaj storiti, je "besede (pevka) + = Len (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 In potem sem lahko samo naredi dolžina proge. 627 00:32:18,250 --> 00:32:21,860 Torej, kako veliko elementov I imajo v matriki. 628 00:32:21,860 --> 00:32:27,060 In moram narediti minus 1 samo zato, ker Prvi element matrike je le 629 00:32:27,060 --> 00:32:29,180 pevka in to niso lyrics. 630 00:32:29,180 --> 00:32:31,420 Smiselno? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Else", to pomeni, da želim, da se dejansko vstaviti Gaga v seznamu. 633 00:32:35,820 --> 00:32:45,990 Tako da sem naredil "besede (pevka) = Len (line) - 1: "Žal mi je. 634 00:32:45,990 --> 00:32:49,200 Torej je edina razlika med obema linije je, da ta, da ne 635 00:32:49,200 --> 00:32:51,080 obstajajo še ni, tako da sem samo inicializacijo. 636 00:32:51,080 --> 00:32:53,820 Tole sem pravzaprav dodal. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Torej, to je tako, da besede. 639 00:32:59,480 --> 00:33:03,040 >> Zdaj želim dodati, da pridigarjem. 640 00:33:03,040 --> 00:33:05,480 Torej, kako izračunam pridigarjem? 641 00:33:05,480 --> 00:33:11,580 Pridigarji se lahko izračuna s tem, koliko krat. 642 00:33:11,580 --> 00:33:15,340 Torej, kolikokrat ste videli, da je pevka Med vsemi pevci, ki vas 643 00:33:15,340 --> 00:33:16,380 imate, kajne? 644 00:33:16,380 --> 00:33:18,810 Torej za Gaga in Katy Perry, V tem primeru vidim Gaga 645 00:33:18,810 --> 00:33:20,570 enkrat, Katy Perry enkrat. 646 00:33:20,570 --> 00:33:23,320 >> Tako rekoč pridigarji za Gaga in Katy Perry bi 647 00:33:23,320 --> 00:33:24,390 samo ena, kajne? 648 00:33:24,390 --> 00:33:26,500 Ti samo kolikokrat Vidim umetnika. 649 00:33:26,500 --> 00:33:28,740 Torej, to je zelo težko izračunati. 650 00:33:28,740 --> 00:33:34,100 Jaz lahko samo nekaj podobnega, kot je všeč ", če pevka v dosjeju, "grem 651 00:33:34,100 --> 00:33:38,970 dodati 1 na njihovo Pridigarji polju. 652 00:33:38,970 --> 00:33:51,000 Torej, "pridigarji (pojejo)" + = 1 "in nato" drugega " Jaz bom naredil "Pridigarji (pevka) 653 00:33:51,000 --> 00:33:55,000 = 1. "Logično? 654 00:33:55,000 --> 00:34:00,080 >> Torej, če to ne obstaja, sem dal kot 1, sicer sem dodati 1. 655 00:34:00,080 --> 00:34:11,280 OK, tako da zdaj vse, kar mi je ostalo storiti je tudi dodamo vsaka od besed k 656 00:34:11,280 --> 00:34:12,290 Verjetnosti. 657 00:34:12,290 --> 00:34:14,889 Tako da sem moral prešteti, kolikokrat Vidim vsak besed. 658 00:34:14,889 --> 00:34:18,780 Tako da sem moral narediti še en za zanke v liniji. 659 00:34:18,780 --> 00:34:25,190 >> Torej prva stvar, ki jo bom naredil je, preveri, če že ima pevec 660 00:34:25,190 --> 00:34:26,969 Verjetnosti matrika. 661 00:34:26,969 --> 00:34:31,739 Torej sem preverjanje, če pevka ne imajo Verjetnost paleto, jaz sem samo 662 00:34:31,739 --> 00:34:34,480 gre za inicializacijo enega za njih. 663 00:34:34,480 --> 00:34:36,400 To ni niti matrika, žal, to je slovar. 664 00:34:36,400 --> 00:34:43,080 Torej je verjetnost pevec se dogaja biti odprt slovar, tako da sem 665 00:34:43,080 --> 00:34:45,830 samo inicializacijo slovar za to. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> In zdaj sem lahko dejansko narediti zanko Za izračun vsako od besed " 668 00:34:58,330 --> 00:35:00,604 Verjetnosti. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Torej, kaj lahko storim, je za zanko. 671 00:35:04,160 --> 00:35:06,590 Torej, jaz bom samo Ponovil v matriki. 672 00:35:06,590 --> 00:35:15,320 Torej način, da sem lahko naredil, da v Pythonu je "za i v območju." Od 1 673 00:35:15,320 --> 00:35:19,200 ker želim, da začnete na sekundo element, ker prva je 674 00:35:19,200 --> 00:35:20,260 Ime pevka. 675 00:35:20,260 --> 00:35:24,990 Torej od enega do dolžina proge. 676 00:35:24,990 --> 00:35:29,760 In ko sem se gibljejo v resnici gredo od kot sem od 1 do len od 677 00:35:29,760 --> 00:35:30,740 vrstica minus 1. 678 00:35:30,740 --> 00:35:33,810 Torej to že počne tisto stvar delaš n minus 1 za zaporedja, ki je zelo 679 00:35:33,810 --> 00:35:35,500 priročno. 680 00:35:35,500 --> 00:35:37,850 Smiselno? 681 00:35:37,850 --> 00:35:42,770 >> Torej, za vsako od njih, kaj bom naredimo je, tako kot v drugega, 682 00:35:42,770 --> 00:35:50,320 Grem preveriti, če je beseda v tem Položaj v liniji je že v 683 00:35:50,320 --> 00:35:51,570 Verjetnosti. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 In potem, ko sem rekel, tukaj, verjetnosti Besede, kot sem dal 686 00:35:57,260 --> 00:35:58,400 "verjetnosti (pevec)". 687 00:35:58,400 --> 00:35:59,390 Torej ime pevca. 688 00:35:59,390 --> 00:36:03,450 Torej, če je to že v "Probabilit (pevec)", to pomeni, da sem 689 00:36:03,450 --> 00:36:11,960 želite dodati 1 do njega, zato bom Do "verjetnosti (pevka)" in 690 00:36:11,960 --> 00:36:14,100 Beseda se imenuje "linija (i)". 691 00:36:14,100 --> 00:36:22,630 Jaz bom dodal 1 in "drugega" Jaz sem samo bo to inicializacijo za 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Smiselno? 695 00:36:28,420 --> 00:36:30,180 >> Torej, sem se izračunajo vsi nizi. 696 00:36:30,180 --> 00:36:36,580 Torej, zdaj vse, kar moram storiti za ta je samo "vrnili Pridigarji, 697 00:36:36,580 --> 00:36:43,230 Verjetnosti in besede. "dajmo vidim, če obstajajo, v redu. 698 00:36:43,230 --> 00:36:45,690 Zdi se, vse deluje tako daleč. 699 00:36:45,690 --> 00:36:46,900 Tako, da je smiselno? 700 00:36:46,900 --> 00:36:47,750 Na nek način? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Torej, zdaj imam vse verjetnosti. 703 00:36:51,980 --> 00:36:55,100 Torej, zdaj edino, kar je ostalo je le, da so to stvar, ki 704 00:36:55,100 --> 00:36:58,650 izračuna proizvod vseh Verjetnost, ko pridem lyrics. 705 00:36:58,650 --> 00:37:06,270 >> Torej, recimo, da želim, da danes imenujemo Ta funkcija "razvrščanje ()" in 706 00:37:06,270 --> 00:37:08,880 Stvar, ki funkcijo prevzame je le argument. 707 00:37:08,880 --> 00:37:13,170 Recimo "Dragi, jaz sem na ogenj" in to je dogaja, da ugotovimo, kaj je 708 00:37:13,170 --> 00:37:14,490 Verjetnost, da je ta Gaga? 709 00:37:14,490 --> 00:37:16,405 Kakšna je verjetnost, Tega Katie? 710 00:37:16,405 --> 00:37:19,690 Sliši se dobro? 711 00:37:19,690 --> 00:37:25,750 Tako da sem le, da bo treba ustvariti Nova funkcija se imenuje "klasificirati ()" in 712 00:37:25,750 --> 00:37:29,180 to se dogaja, da nekatere lyrics, kot dobro. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 In poleg besedil tudi jaz poslati pridigarjem, 715 00:37:36,160 --> 00:37:37,700 Verjetnosti in besede. 716 00:37:37,700 --> 00:37:44,000 Tako da bom poslati lyrics, Pridigarji, Verjetnosti, besede. 717 00:37:44,000 --> 00:37:51,840 >> Torej je ta ob lyrics, Pridigarji, Verjetnosti, besede. 718 00:37:51,840 --> 00:37:53,530 Torej, kaj počne? 719 00:37:53,530 --> 00:37:57,180 V bistvu se dogaja, da gredo skozi vse možne kandidate, ki jih 720 00:37:57,180 --> 00:37:58,510 ima kot pevka. 721 00:37:58,510 --> 00:37:59,425 In kje so tisti kandidati? 722 00:37:59,425 --> 00:38:01,020 Oni V pridigarjem, kajne? 723 00:38:01,020 --> 00:38:02,710 Torej imam vse tiste tam. 724 00:38:02,710 --> 00:38:07,870 Tako bom imel slovar vseh možnih kandidatov. 725 00:38:07,870 --> 00:38:14,220 In potem za vsakega kandidata v Pridigarji, tako da to pomeni, da se dogaja, da 726 00:38:14,220 --> 00:38:17,740 biti Gaga, Katie, če bi imel bolj bi bilo. 727 00:38:17,740 --> 00:38:20,410 Jaz bom za začetek izračun to verjetnost. 728 00:38:20,410 --> 00:38:28,310 Verjetnost, kot smo videli v PowerPoint se predhodno krat 729 00:38:28,310 --> 00:38:30,800 Produkt iz vsake od drugi verjetnosti. 730 00:38:30,800 --> 00:38:32,520 >> Tako da sem lahko naredil isto tukaj. 731 00:38:32,520 --> 00:38:36,330 Jaz lahko samo to verjetnost je, najprej tik pred tem. 732 00:38:36,330 --> 00:38:40,340 Tako pridigarji kandidata. 733 00:38:40,340 --> 00:38:40,870 Kajne? 734 00:38:40,870 --> 00:38:45,360 In zdaj moram ponoviti čez vse Besede, ki sem jih v besedilih, da bi 735 00:38:45,360 --> 00:38:48,820 lahko dodali verjetnost za vsakega od njih, v redu? 736 00:38:48,820 --> 00:38:57,900 Torej, "za besedo v pesmi" kaj bom storiti, je, če je beseda v 737 00:38:57,900 --> 00:39:01,640 "verjetnosti (kandidatke)", ki pomeni, da je beseda, ki 738 00:39:01,640 --> 00:39:03,640 ima kandidat v svojih besedilih - 739 00:39:03,640 --> 00:39:05,940 na primer, "ljubica" za Gaga - 740 00:39:05,940 --> 00:39:11,710 kaj bom storiti, je, da verjetnost, da se bo treba pomnožiti 741 00:39:11,710 --> 00:39:22,420 z 1 plus verjetnosti Kandidat za to besedo. 742 00:39:22,420 --> 00:39:25,710 In se imenuje "beseda". 743 00:39:25,710 --> 00:39:32,440 To deljeno s številom besed da imam za to kandidata. 744 00:39:32,440 --> 00:39:37,450 Skupno število besed, ki sem za pevca, da gledam. 745 00:39:37,450 --> 00:39:40,290 >> "Else". to pomeni, da je nova beseda Tako bi bilo, če bi na primer 746 00:39:40,290 --> 00:39:41,860 "Ogenj" za Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Torej, rad bi naredil več kot 1 "Beseda (kandidat)". 748 00:39:45,760 --> 00:39:47,710 Tako da ne želite, da bi ta izraz tukaj. 749 00:39:47,710 --> 00:39:50,010 >> Tako se dogaja, da je v bistvu kopiranje in lepljenje to. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Ampak bom izbrisati ta del. 752 00:39:56,000 --> 00:39:57,610 Torej to je samo bo 1. nad tem. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Sliši se dobro? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 In zdaj, na koncu sem le, da bo natisniti ime kandidata in 757 00:40:09,700 --> 00:40:15,750 Verjetnost, da imate v ima S na svojih besedilih. 758 00:40:15,750 --> 00:40:16,200 Smiselno? 759 00:40:16,200 --> 00:40:18,390 In jaz pravzaprav sploh ne Potrebujem ta slovar. 760 00:40:18,390 --> 00:40:19,510 Smiselno? 761 00:40:19,510 --> 00:40:21,810 >> Torej, da vidimo, če je to dejansko deluje. 762 00:40:21,810 --> 00:40:24,880 Torej, če sem teči to, da ni delovalo. 763 00:40:24,880 --> 00:40:26,130 Počakajte eno sekundo. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Besede (kandidatke)", "besede (kandidatke)", to je 766 00:40:31,720 --> 00:40:33,750 ime matrike. 767 00:40:33,750 --> 00:40:41,435 OK Torej, pravi, da je nekaj bug za kandidata v dosjeju. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Dovolite mi, da se umiri malo. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Poskusimo. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Tako daje Katy Perry je to Verjetnost tega 10-krat na 774 00:40:58,710 --> 00:41:02,200 minus 7, in Gaga ima ta krat 10 na minus 6. 775 00:41:02,200 --> 00:41:05,610 Torej vidite, da kaže, da je Gaga ima večjo verjetnost. 776 00:41:05,610 --> 00:41:09,260 Torej "Dragi, jaz sem on Fire" je Verjetno Gaga pesem. 777 00:41:09,260 --> 00:41:10,580 Smiselno? 778 00:41:10,580 --> 00:41:12,030 Torej, to je tisto, kar smo storili. 779 00:41:12,030 --> 00:41:16,010 >> Ta koda se bo objavljen na spletu, tako da lahko vi pogledat. 780 00:41:16,010 --> 00:41:20,720 Morda uporabite nekaj pa za, če želite, da narediti projekt ali kaj podobnega. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 To je bil samo pokazati kaj računska 783 00:41:25,930 --> 00:41:27,230 jezikoslovje koda izgleda. 784 00:41:27,230 --> 00:41:33,040 Ampak zdaj gremo k bolj Visoka raven stvari. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Torej drugi problemi I je govoril o tem - 787 00:41:35,150 --> 00:41:37,550 problem segmentacije je prva od njih. 788 00:41:37,550 --> 00:41:40,820 Torej imate tukaj Japonce. 789 00:41:40,820 --> 00:41:43,420 In potem boste videli, da ni presledkov. 790 00:41:43,420 --> 00:41:49,110 Torej je to v bistvu pomeni, da je to top stola, kajne? 791 00:41:49,110 --> 00:41:50,550 Govoriš japonsko? 792 00:41:50,550 --> 00:41:52,840 To je top stola, kajne? 793 00:41:52,840 --> 00:41:54,480 >> Študent: Ne vem, kaj kanji tam je. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: To je [govori Japonsko] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Tako da v bistvu pomeni predsedovanje vrhu. 797 00:42:00,960 --> 00:42:03,620 Torej, če si moral dati prostor da bi bilo tukaj. 798 00:42:03,620 --> 00:42:05,970 In potem imaš [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Kar v bistvu pomeni, gospod Ueda. 800 00:42:09,040 --> 00:42:13,180 In boste videli, da je "Ueda" in imate prostor in nato "san". Torej vidite, da 801 00:42:13,180 --> 00:42:15,470 Tukaj ste "UE" je kot, ki ga sama. 802 00:42:15,470 --> 00:42:17,750 In tukaj ima značaj ob njej. 803 00:42:17,750 --> 00:42:21,720 >> Torej to ni všeč v teh jezikih znakov, kar pomeni besedo, ki je, tako da boste 804 00:42:21,720 --> 00:42:23,980 samo dal veliko prostorov. 805 00:42:23,980 --> 00:42:25,500 Znaki med seboj povezane. 806 00:42:25,500 --> 00:42:28,680 In so lahko skupaj kot dve, tri, ena. 807 00:42:28,680 --> 00:42:34,520 Tako da boste dejansko morali ustvariti nekakšno za način dajanja te prostore. 808 00:42:34,520 --> 00:42:38,850 >> In ta stvar je, da vsakič, ko prideš Podatki iz teh azijskih jezikov, 809 00:42:38,850 --> 00:42:40,580 vse, kar prihaja unsegmented. 810 00:42:40,580 --> 00:42:45,940 Saj nihče, ki piše v japonščini ali kitajski piše s presledki. 811 00:42:45,940 --> 00:42:48,200 Kadarkoli pišete Kitajski, Japonci si napisati vse 812 00:42:48,200 --> 00:42:48,710 brez presledkov. 813 00:42:48,710 --> 00:42:52,060 To sploh ni smiselno postaviti prostore. 814 00:42:52,060 --> 00:42:57,960 Potem, ko boste dobili podatke, nekateri Vzhodnoazijski jezik, če želite, da 815 00:42:57,960 --> 00:43:00,760 dejansko pa s tem nekaj moraš segmentu prvi. 816 00:43:00,760 --> 00:43:05,130 >> Razmišljati o tem zgledu lyrics brez presledkov. 817 00:43:05,130 --> 00:43:07,950 Torej le lyrics, ki jih imajo bo stavka, kajne? 818 00:43:07,950 --> 00:43:09,470 Ločene z obdobji. 819 00:43:09,470 --> 00:43:13,930 Potem pa imajo samo stavka bo ne res pomagal na posredovanje informacij 820 00:43:13,930 --> 00:43:17,760 kdo te pesmi so jih. 821 00:43:17,760 --> 00:43:18,120 Kajne? 822 00:43:18,120 --> 00:43:20,010 Torej bi morali najprej postavlja prostorov. 823 00:43:20,010 --> 00:43:21,990 Torej, kako lahko to storite? 824 00:43:21,990 --> 00:43:24,920 >> In potem pride ideja o jeziku model, ki je nekaj res 825 00:43:24,920 --> 00:43:26,870 pomembno za računskih jezikoslovje. 826 00:43:26,870 --> 00:43:32,790 Torej jezik model je v bistvu tabela verjetnosti, da kaže 827 00:43:32,790 --> 00:43:36,260 Najprej, kar je verjetnost imajo besedo v jeziku? 828 00:43:36,260 --> 00:43:39,590 Torej, ki prikazuje, kako pogosta beseda. 829 00:43:39,590 --> 00:43:43,130 In potem tudi kaže na odnos med besedami v stavku. 830 00:43:43,130 --> 00:43:51,500 >> Torej Glavna ideja je, če je tujec tebi in rekel stavek 831 00:43:51,500 --> 00:43:55,600 ti, kaj je verjetnost, da je za Na primer, "to je moja sestra [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 je stavek, da je oseba, ki je rekel? 833 00:43:57,480 --> 00:44:00,380 Torej, očitno nekateri stavki so bolj pogosto kot drugi. 834 00:44:00,380 --> 00:44:04,450 Na primer, "dobro jutro" ali "dobro noč, "ali" Hej, "je veliko bolj 835 00:44:04,450 --> 00:44:08,260 pogosti kot večina stavkov da imamo angleščino. 836 00:44:08,260 --> 00:44:11,060 Torej, zakaj so ti stavki pogostejši? 837 00:44:11,060 --> 00:44:14,060 >> First of all, je to zato, ker imate besede, ki so bolj pogoste. 838 00:44:14,060 --> 00:44:20,180 Tako, na primer, če rečeš, da je pes velika, in pes je ogromen, si 839 00:44:20,180 --> 00:44:23,880 ponavadi verjetno slišali pes je velik bolj pogosto, ker je "velik", je bolj 840 00:44:23,880 --> 00:44:27,260 pogosta v angleškem jeziku kot "ogromen". Torej, eden 841 00:44:27,260 --> 00:44:30,100 stvari, je frekvenca beseda. 842 00:44:30,100 --> 00:44:34,490 >> Druga stvar, ki je res Pomembno je le 843 00:44:34,490 --> 00:44:35,490 vrstni red besed. 844 00:44:35,490 --> 00:44:39,500 Torej, to je skupno to, da rečeš "mačka znotraj škatle. "vendar pa običajno ne 845 00:44:39,500 --> 00:44:44,250 glej v "polje v notranjosti je mačka." tako boste videli, da obstaja pomembna 846 00:44:44,250 --> 00:44:46,030 v vrstnem redu besed. 847 00:44:46,030 --> 00:44:50,160 Ne moreš kar reči, da ti dve stavki imajo enako verjetnost 848 00:44:50,160 --> 00:44:53,010 samo zato, ker imajo enake besede. 849 00:44:53,010 --> 00:44:55,550 Boste dejansko morali skrbeti O vrstnem redu, kot dobro. 850 00:44:55,550 --> 00:44:57,650 Smisla? 851 00:44:57,650 --> 00:44:59,490 >> Torej, kaj naj naredimo? 852 00:44:59,490 --> 00:45:01,550 Torej, kaj lahko poskusite, boste dobili? 853 00:45:01,550 --> 00:45:04,400 Poskušam, da bi dobili tisto, kar smo klic modele n-gram. 854 00:45:04,400 --> 00:45:09,095 Torej n-gram modeli v bistvu prevzemajo da za vsako besedo, ki 855 00:45:09,095 --> 00:45:10,960 imate v stavku. 856 00:45:10,960 --> 00:45:15,020 To je verjetnost, da ima Beseda pa ni odvisna samo od 857 00:45:15,020 --> 00:45:18,395 pogostost te besede v jeziku, , ampak tudi na besede, ki 858 00:45:18,395 --> 00:45:19,860 so ga obkroža. 859 00:45:19,860 --> 00:45:25,810 >> Tako na primer, po navadi, ko vidiš nekaj podobnega ali pri vas 860 00:45:25,810 --> 00:45:28,040 verjetno bo videti samostalnik po njej, kajne? 861 00:45:28,040 --> 00:45:31,750 Ker, ko imate preposition Ponavadi to traja samostalnik po njej. 862 00:45:31,750 --> 00:45:35,540 Ali pa, če imate glagol, ki je prehodni navadi se dogaja, da 863 00:45:35,540 --> 00:45:36,630 imajo samostalnik frazo. 864 00:45:36,630 --> 00:45:38,780 Tako se dogaja, da imajo samostalnik nekje okoli njega. 865 00:45:38,780 --> 00:45:44,950 >> Torej, v bistvu, kaj počne, je, da meni, da je verjetnost, 866 00:45:44,950 --> 00:45:47,960 besede drug poleg drugega, ko si izračun 867 00:45:47,960 --> 00:45:49,050 verjetnost, da bo stavka. 868 00:45:49,050 --> 00:45:50,960 In to je tisto jezik Model je v bistvu. 869 00:45:50,960 --> 00:45:54,620 Samo reči, kaj je verjetnost od ima specifično 870 00:45:54,620 --> 00:45:57,120 stavek v jeziku? 871 00:45:57,120 --> 00:45:59,110 Torej, zakaj je to koristno, v bistvu? 872 00:45:59,110 --> 00:46:02,390 In najprej kar je Model n-gram, potem? 873 00:46:02,390 --> 00:46:08,850 >> Torej Model n-gram pomeni, da vsaka beseda odvisen 874 00:46:08,850 --> 00:46:12,700 Naslednja N minus 1 besed. 875 00:46:12,700 --> 00:46:18,150 Torej, v bistvu, to pomeni, da če gledam, na primer, v CS50 TF ko 876 00:46:18,150 --> 00:46:21,500 Jaz sem izračun verjetnosti stavek, boste všeč " 877 00:46:21,500 --> 00:46:25,280 Verjetnost, da ima beseda "" krat verjetnost, da imajo " 878 00:46:25,280 --> 00:46:31,720 CS50 "krat verjetnost, da ima "CS50 TF." Torej, v bistvu, jaz računam 879 00:46:31,720 --> 00:46:35,720 vse možne načine za njeno raztezanje. 880 00:46:35,720 --> 00:46:41,870 >> In potem ponavadi, ko delaš to, kot je v projektu, si dal N, da je 881 00:46:41,870 --> 00:46:42,600 Nizka vrednost. 882 00:46:42,600 --> 00:46:45,930 Torej, imajo običajno bigrams ali trigrams. 883 00:46:45,930 --> 00:46:51,090 Tako, da si šteje dve besedi, skupina dveh besed ali tri besede, 884 00:46:51,090 --> 00:46:52,620 samo za vprašanja o uspešnosti. 885 00:46:52,620 --> 00:46:56,395 In tudi zato, ker morda, če imate nekaj podobnega "The CS50 TF." Ko ste 886 00:46:56,395 --> 00:47:00,510 imajo "TF", to je zelo pomembno, da "CS50" je ob njem, kajne? 887 00:47:00,510 --> 00:47:04,050 Ti dve stvari sta običajno drug poleg drugega. 888 00:47:04,050 --> 00:47:06,410 >> Če menite, da "TF", je to verjetno dogaja, da imajo kaj 889 00:47:06,410 --> 00:47:07,890 Razred pa je TF'ing za. 890 00:47:07,890 --> 00:47:11,330 Tudi "" je res pomembno Za CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Toda, če imate nekaj podobnega "The CS50 TF odšel v razredu in dali svoje 892 00:47:14,570 --> 00:47:20,060 študenti nekaj sladkarij. "" Candy "in" " imeti nobene zveze res, kajne? 893 00:47:20,060 --> 00:47:23,670 Oni so tako oddaljena drug od drugega, da ni važno kaj 894 00:47:23,670 --> 00:47:25,050 Besede, ki jih imajo. 895 00:47:25,050 --> 00:47:31,210 >> Tako, da delaš bigram ali trigram, da pomeni le, da ste omejevanje 896 00:47:31,210 --> 00:47:33,430 si, da nekaterih besed da so okoli. 897 00:47:33,430 --> 00:47:35,810 Smisla? 898 00:47:35,810 --> 00:47:40,630 Torej, če želite narediti segmentacijo, v bistvu, kaj želite storiti, je videti 899 00:47:40,630 --> 00:47:44,850 kaj so vse možne načine, da se lahko segmentu kazni. 900 00:47:44,850 --> 00:47:49,090 >> Takšna, da boste videli, kaj je verjetnost, da bo vsaka od teh stavkih 901 00:47:49,090 --> 00:47:50,880 obstajajo v jeziku? 902 00:47:50,880 --> 00:47:53,410 Torej, kaj morate storiti, je, kot, no, kaj me poskušali dati prostor tukaj. 903 00:47:53,410 --> 00:47:55,570 Torej si dal prostor tam in boste videli, kaj je 904 00:47:55,570 --> 00:47:57,590 Verjetnost tega stavka? 905 00:47:57,590 --> 00:48:00,240 Potem ste kot, OK, morda da ni bil tako dober. 906 00:48:00,240 --> 00:48:03,420 Zato sem dal prostor tam in presledek poleg tega pa si izračunajte 907 00:48:03,420 --> 00:48:06,240 Verjetnost, zdaj, in boste videli, da je večja verjetnost. 908 00:48:06,240 --> 00:48:12,160 >> Torej je to algoritem imenovan TANGO segmentacija algoritem, ki je 909 00:48:12,160 --> 00:48:14,990 pravzaprav nekaj, kar bi bilo res kul za projekt, ki je 910 00:48:14,990 --> 00:48:20,860 v bistvu traja unsegmented besedilo, ki lahko japonska ali kitajska ali morda 911 00:48:20,860 --> 00:48:26,080 Angleščina brez presledkov in poskuša dati presledki med besedami in to počne 912 00:48:26,080 --> 00:48:29,120 da z uporabo jezikovnega vzorca in poskuša videti, kaj je najvišja 913 00:48:29,120 --> 00:48:31,270 Verjetnost lahko dobite. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Torej je ta delitev. 916 00:48:33,800 --> 00:48:35,450 >> Zdaj sintaksa. 917 00:48:35,450 --> 00:48:40,940 Torej, je sintaksa uporablja za Toliko stvari zdaj. 918 00:48:40,940 --> 00:48:44,880 Torej za graf Search, za Siri za precej koli vrste naravnih 919 00:48:44,880 --> 00:48:46,490 jezik za obdelavo imate. 920 00:48:46,490 --> 00:48:49,140 Torej, kaj so pomembna stvari o skladnji? 921 00:48:49,140 --> 00:48:52,390 Torej, stavki imajo na splošno kar imenujemo sestavine. 922 00:48:52,390 --> 00:48:57,080 Ki so nekako kot skupin besed da imajo funkcijo v stavku. 923 00:48:57,080 --> 00:49:02,220 In ne more biti res narazen. 924 00:49:02,220 --> 00:49:07,380 >> Torej, če rečem, na primer, "Lauren ljubi Milo. "Vem, da je" Lauren " 925 00:49:07,380 --> 00:49:10,180 Sestavni in nato "ljubezni Milo "je tudi še eden. 926 00:49:10,180 --> 00:49:16,860 Ker ne morete reči, kot je "Lauren Milo rad "na enak pomen. 927 00:49:16,860 --> 00:49:18,020 To se ne dogaja, da imajo enak pomen. 928 00:49:18,020 --> 00:49:22,500 Ali pa ne morem reči, kot je "Milo Lauren ljubi. "Ni vse, kar je enako 929 00:49:22,500 --> 00:49:25,890 kar pomeni, da delaš. 930 00:49:25,890 --> 00:49:31,940 >> Torej, dve pomembni stvari o sintaksa so leksikalni vrste, ki je 931 00:49:31,940 --> 00:49:35,390 v bistvu funkcija, ki jo imeti za besedami, ki jih sami. 932 00:49:35,390 --> 00:49:39,180 Tako da boste morali vedeti, da "Lauren" in "Milo" so samostalniki. 933 00:49:39,180 --> 00:49:41,040 "Ljubezen" je glagol. 934 00:49:41,040 --> 00:49:45,660 In druga pomembna stvar je, da oni stavčni vrste. 935 00:49:45,660 --> 00:49:48,990 Tako da boste vedeli, da je "ljubi Milo" je pravzaprav besedni stavek. 936 00:49:48,990 --> 00:49:52,390 Torej, ko rečem "Lauren," Vem, da Lauren počne nekaj. 937 00:49:52,390 --> 00:49:53,620 Kaj počne? 938 00:49:53,620 --> 00:49:54,570 Ona je ljubeč Milo. 939 00:49:54,570 --> 00:49:56,440 Tako da je cela stvar. 940 00:49:56,440 --> 00:50:01,640 Vendar njegovi sestavni deli so samostalnik in glagol. 941 00:50:01,640 --> 00:50:04,210 Ampak skupaj, dajo glagol frazo. 942 00:50:04,210 --> 00:50:08,680 >> Torej, kaj lahko dejansko počnejo z računalniška lingvistika? 943 00:50:08,680 --> 00:50:13,810 Torej, če imam kaj za primer "prijatelji Allison." Jaz vidim, če sem 944 00:50:13,810 --> 00:50:17,440 ni skladenjsko drevo Rad bi vedel, da "Prijatelji" je samostalnik stavek je 945 00:50:17,440 --> 00:50:21,480 samostalnik in nato "Allison" je predložne zveze, pri kateri "v" je 946 00:50:21,480 --> 00:50:24,810 predlog in "Allison" je samostalnik. 947 00:50:24,810 --> 00:50:30,910 Kaj lahko storim je naučil moj računalnik da ko imam samostalnik besedno eno in 948 00:50:30,910 --> 00:50:33,080 potem predložne zveze. 949 00:50:33,080 --> 00:50:39,020 Torej v tem primeru, "prijatelji" in nato "od Milo "Vem, da to pomeni, da 950 00:50:39,020 --> 00:50:43,110 NP2, drugi pa ima v lasti NP1. 951 00:50:43,110 --> 00:50:47,680 >> Tako da sem lahko ustvari neke vrste zvezi, nekakšen funkcije za to. 952 00:50:47,680 --> 00:50:52,370 Torej, ko sem videl to strukturo, ki točno ujema s "prijatelji 953 00:50:52,370 --> 00:50:56,030 Allison, "Vem, da je Allison lastnik prijatelje. 954 00:50:56,030 --> 00:50:58,830 Torej, prijatelji so nekaj da ima Allison. 955 00:50:58,830 --> 00:50:59,610 Smiselno? 956 00:50:59,610 --> 00:51:01,770 Torej, to je v bistvu tisto, kar Graf Iskanje počne. 957 00:51:01,770 --> 00:51:04,360 To samo ustvarja pravila Za veliko stvari. 958 00:51:04,360 --> 00:51:08,190 Tako "prijatelji Allison", "Moji prijatelji ki živi v Cambridgeu, "" prijatelje 959 00:51:08,190 --> 00:51:12,970 ki gredo na Harvard. "Ustvarja pravila za vse te stvari. 960 00:51:12,970 --> 00:51:14,930 >> Zdaj strojno prevajanje. 961 00:51:14,930 --> 00:51:18,850 Torej, strojno prevajanje, je prav tako Nekaj ​​statističnih podatkov. 962 00:51:18,850 --> 00:51:21,340 In dejansko, če se vključijo v računalniška lingvistika, veliko 963 00:51:21,340 --> 00:51:23,580 vaše stvari se bo statistika. 964 00:51:23,580 --> 00:51:26,670 Torej, kot sem delal na primer z veliko verjetnosti, da sem bil 965 00:51:26,670 --> 00:51:30,540 izračun, nato pa dobiš za to zelo majhno število, ki je končni 966 00:51:30,540 --> 00:51:33,180 Verjetnost, in to je tisto, vam daje odgovor. 967 00:51:33,180 --> 00:51:37,540 Strojno prevajanje prav tako uporablja statističnega modela. 968 00:51:37,540 --> 00:51:44,790 In če želite, da razmišljajo o stroju prevod v najpreprostejši možni 969 00:51:44,790 --> 00:51:48,970 Mimogrede, kaj si lahko misliš, da je prav prevesti besedo za besedo, kajne? 970 00:51:48,970 --> 00:51:52,150 >> Ko ste učenje jezika za prvič, da je običajno, kar 971 00:51:52,150 --> 00:51:52,910 ti, kajne? 972 00:51:52,910 --> 00:51:57,050 Če želite prevesti stavek v vašem jeziku, v jeziku 973 00:51:57,050 --> 00:52:00,060 učiš, običajno najprej, ti prevesti vsaka od besed 974 00:52:00,060 --> 00:52:03,180 posamično, nato pa poskusite dati besede v mestu. 975 00:52:03,180 --> 00:52:07,100 >> Torej, če sem hotel prevesti, [GOVORJENJE PORTUGALSKA] 976 00:52:07,100 --> 00:52:10,430 kar pomeni "bela mačka zbežala." Če bi želel prevesti iz 977 00:52:10,430 --> 00:52:13,650 Portugalski v angleščino, kar sem lahko narediš je, prvič, sem 978 00:52:13,650 --> 00:52:14,800 prevesti besedo za besedo. 979 00:52:14,800 --> 00:52:20,570 Torej, "o" je "," "Gato", "mačka" "Branco", "bele" in nato "fugio" je 980 00:52:20,570 --> 00:52:21,650 "Pobegnil". 981 00:52:21,650 --> 00:52:26,130 >> Torej imam vse besede tukaj, ampak oni niso v redu. 982 00:52:26,130 --> 00:52:29,590 To je kot "mačka bela pobegnil" ki je Negramatički. 983 00:52:29,590 --> 00:52:34,490 Torej, potem pa lahko drugi korak, ki se bo našel idealno 984 00:52:34,490 --> 00:52:36,610 Položaj za vsako od besed. 985 00:52:36,610 --> 00:52:40,240 Tako da vem, da sem dejansko želijo imeti "Bela mačka" namesto "mačka beli barvi." Tako 986 00:52:40,240 --> 00:52:46,050 kaj lahko storim, je, najbolj naivna metoda bi ustvariti vse 987 00:52:46,050 --> 00:52:49,720 možne permutacije besede, iz pozicij. 988 00:52:49,720 --> 00:52:53,300 In potem vidite, katera ima največja verjetnost, da po 989 00:52:53,300 --> 00:52:54,970 po mojem jezikovnem modelu. 990 00:52:54,970 --> 00:52:58,390 In potem, ko sem najti tisto, ki ima največja verjetnost je, ki je 991 00:52:58,390 --> 00:53:01,910 verjetno "bela mačka zbežala," to je moj prevod. 992 00:53:01,910 --> 00:53:06,710 >> In to je preprost način razložiti kako veliko strojno prevajanje 993 00:53:06,710 --> 00:53:07,910 algoritmov. 994 00:53:07,910 --> 00:53:08,920 Ali to smiselno? 995 00:53:08,920 --> 00:53:12,735 To je tudi nekaj res razburljivo da lahko vi morda raziskovanje za 996 00:53:12,735 --> 00:53:13,901 končni projekt, ja? 997 00:53:13,901 --> 00:53:15,549 >> Študent: No, ste rekli, da je naiven način, da tisto, kar je 998 00:53:15,549 --> 00:53:17,200 ni naiven način? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: ni naiven način? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Torej prva stvar, ki je slabo zaradi Ta metoda je, da sem prevedeni 1002 00:53:22,860 --> 00:53:24,330 besede, besedo za besedo. 1003 00:53:24,330 --> 00:53:30,570 Ampak včasih moraš besede, ki imajo lahko več prevodov. 1004 00:53:30,570 --> 00:53:32,210 Bom poskusil, da razmišljajo nečesa. 1005 00:53:32,210 --> 00:53:37,270 Na primer, "manga" v portugalski pločevinki bodisi "Komadati" ali "rokav." Tako 1006 00:53:37,270 --> 00:53:40,450 ko ste poskušali prevesti besedo z besedo, morda vam 1007 00:53:40,450 --> 00:53:42,050 nekaj, kar nima nobenega smisla. 1008 00:53:42,050 --> 00:53:45,770 >> Torej si dejansko želijo, da pogledaš na vse možni prevodi 1009 00:53:45,770 --> 00:53:49,840 besede in glej, najprej, kaj je red. 1010 00:53:49,840 --> 00:53:52,000 Govorila sva o permutating stvari? 1011 00:53:52,000 --> 00:53:54,150 Če si želite ogledati vse možne naloge za in izberejo eno z najvišjo 1012 00:53:54,150 --> 00:53:54,990 Verjetnost? 1013 00:53:54,990 --> 00:53:57,860 Izberete lahko tudi vse mogoče prevodi za vsako 1014 00:53:57,860 --> 00:54:00,510 Beseda in potem videli - 1015 00:54:00,510 --> 00:54:01,950 v kombinaciji z permutacije - 1016 00:54:01,950 --> 00:54:03,710 katera ima največjo verjetnost. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, si lahko ogledate tudi ne samo besede, ampak besede. 1018 00:54:08,590 --> 00:54:11,700 tako da lahko analizira odnose med besede in nato dobil 1019 00:54:11,700 --> 00:54:13,210 boljši prevod. 1020 00:54:13,210 --> 00:54:16,690 Tudi kaj drugega, tako da je ta semester Jaz sem pravzaprav raziskovalno delo v 1021 00:54:16,690 --> 00:54:19,430 Kitajsko-angleški strojno prevajanje, tako prevajanju iz 1022 00:54:19,430 --> 00:54:20,940 Kitajci v angleščino. 1023 00:54:20,940 --> 00:54:26,760 >> In kaj moramo storiti, je, poleg uporabo statističnega modela, ki je le 1024 00:54:26,760 --> 00:54:30,570 videnje verjetnosti videli nekateri položaj v stavku, sem 1025 00:54:30,570 --> 00:54:35,360 dejansko tudi dodal nekaj sintakse my Model, rekoč, oh, če vidim te vrste 1026 00:54:35,360 --> 00:54:39,420 gradnje, to je tisto, kar hočem Za spremembo, ko sem prevajati. 1027 00:54:39,420 --> 00:54:43,880 Torej si lahko dodate tudi neke vrste element sintakse, da bi 1028 00:54:43,880 --> 00:54:47,970 Prevod učinkovitejše in natančnejše. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Torej, kako lahko začnem, če hočeš nekaj storiti v računskih 1031 00:54:51,010 --> 00:54:51,980 lingvistika? 1032 00:54:51,980 --> 00:54:54,560 >> Najprej morate izbrati projekt ki vključuje jezike. 1033 00:54:54,560 --> 00:54:56,310 Torej, tam je tudi veliko tam. 1034 00:54:56,310 --> 00:54:58,420 Tukaj je toliko stvari, ki jih lahko storite. 1035 00:54:58,420 --> 00:55:00,510 In potem lahko zamislite model ki jih lahko uporabite. 1036 00:55:00,510 --> 00:55:04,710 Ponavadi to pomeni razmišljanje predpostavke, kot je všeč, oh, ko sem bil 1037 00:55:04,710 --> 00:55:05,770 podobno razmišljanje besedil. 1038 00:55:05,770 --> 00:55:09,510 Bila sem kot, no, če želim, da ugotovimo ven, ki je to napisal, sem verjetno želeli 1039 00:55:09,510 --> 00:55:15,400 pogled na besedami oseba uporablja in glej, ki uporablja to besedo zelo pogosto. 1040 00:55:15,400 --> 00:55:18,470 Torej, poskusite narediti predpostavke in začeti razmišljati o modelih. 1041 00:55:18,470 --> 00:55:21,395 In potem si lahko tudi iskanje na spletu za vrste problem, ki ga imajo, 1042 00:55:21,395 --> 00:55:24,260 in to se dogaja, kažejo, da vas modele, ki morda 1043 00:55:24,260 --> 00:55:26,560 vzoru te stvari dobro. 1044 00:55:26,560 --> 00:55:29,080 >> In prav tako lahko vedno mi email. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 In lahko sem samo odgovoriti na vaša vprašanja. 1047 00:55:34,940 --> 00:55:38,600 Lahko bi celo lahko sestanejo, da bom lahko dajejo predloge o načinih 1048 00:55:38,600 --> 00:55:41,490 izvedbi projekta. 1049 00:55:41,490 --> 00:55:45,610 In mislim, če ste se ukvarjajo z računalniške lingvistike, da se dogaja 1050 00:55:45,610 --> 00:55:46,790 bi bilo super. 1051 00:55:46,790 --> 00:55:48,370 Boš videl tam je tako veliko potenciala. 1052 00:55:48,370 --> 00:55:52,060 In industrija želi zaposliti ti tako slabo zaradi tega. 1053 00:55:52,060 --> 00:55:54,720 Zato upam, da vama je to všeč. 1054 00:55:54,720 --> 00:55:57,030 Če imate kakršno koli vprašanje fantje, mi lahko vprašam po tem. 1055 00:55:57,030 --> 00:55:58,280 Ampak hvala. 1056 00:55:58,280 --> 00:56:00,150