1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Freitas: Hej. 3 00:00:08,870 --> 00:00:09,980 Bonvenon ĉiuj. 4 00:00:09,980 --> 00:00:11,216 Mia nomo estas Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Mi estas juna je [inaudibles] studanta komputiko kun fokuso en 6 00:00:15,220 --> 00:00:16,410 komputa lingvistiko. 7 00:00:16,410 --> 00:00:19,310 Do mia malĉefaj estas en lingvo kaj lingvan teorion. 8 00:00:19,310 --> 00:00:21,870 Mi vere ekscitita por instrui vin infanoj iomete pri la kampo. 9 00:00:21,870 --> 00:00:24,300 Ĝi estas tre ekscita spaco por studi. 10 00:00:24,300 --> 00:00:27,260 Ankaŭ kun multa potenciala por la estonteco. 11 00:00:27,260 --> 00:00:30,160 Do, mi vere ekscitita ke vi uloj estas konsideranta projektoj 12 00:00:30,160 --> 00:00:31,160 komputa lingvistiko. 13 00:00:31,160 --> 00:00:35,460 Kaj mi estos pli ol feliĉa konsili iu el vi, se vi decidas 14 00:00:35,460 --> 00:00:37,090 persekutu unu el tiuj. 15 00:00:37,090 --> 00:00:40,010 >> Do ĉio kio estas komputa lingvistiko? 16 00:00:40,010 --> 00:00:44,630 Do komputa lingvistiko estas la komunaĵo inter lingvistiko kaj 17 00:00:44,630 --> 00:00:46,390 komputiko. 18 00:00:46,390 --> 00:00:47,415 Do, kio estas la lingvistiko? 19 00:00:47,415 --> 00:00:48,490 Kio estas komputiko? 20 00:00:48,490 --> 00:00:51,580 Bone el lingvoscienco, kion ni prenos estas la lingvoj. 21 00:00:51,580 --> 00:00:54,960 Do lingvistiko estas fakte la studo de natura lingvo ĝenerale. 22 00:00:54,960 --> 00:00:58,330 Do natura lingvo - ni parolas pri lingvo, kiun ni vere uzas por 23 00:00:58,330 --> 00:00:59,770 komuniki kun la aliaj. 24 00:00:59,770 --> 00:01:02,200 Do ni ne ĝuste parolas pri C aŭ Java. 25 00:01:02,200 --> 00:01:05,900 Ni parolas pli pri la angla kaj La ĉina kaj aliaj lingvoj, ke ni 26 00:01:05,900 --> 00:01:07,780 uzi por komuniki unu kun alia. 27 00:01:07,780 --> 00:01:12,470 >> La defia afero pri kiu estas tiu ĝuste nun ni havas preskaŭ 7.000 28 00:01:12,470 --> 00:01:14,260 lingvoj en la mondo. 29 00:01:14,260 --> 00:01:19,520 Do estas suficxe alta diversaĵo de lingvoj, kiujn ni povas studi. 30 00:01:19,520 --> 00:01:22,600 Kaj tiam vi opinias ke tio estas verŝajne tre malfacile fari, ekzemple, 31 00:01:22,600 --> 00:01:26,960 traduko de unu lingvo al la aliaj, konsiderante, ke vi havas 32 00:01:26,960 --> 00:01:28,240 preskaŭ 7.000 el ili. 33 00:01:28,240 --> 00:01:31,450 Do, se vi pensas fari tradukado el unu lingvo al alia vi 34 00:01:31,450 --> 00:01:35,840 havas preskaŭ pli ol miliono malsamaj kombinoj, kiujn vi povas 35 00:01:35,840 --> 00:01:37,330 havas de lingvo al lingvo. 36 00:01:37,330 --> 00:01:40,820 Do ĝi estas vere defianta fari iun speco de ekzemplon tradukejo por 37 00:01:40,820 --> 00:01:43,540 ĉiu unuopa lingvo. 38 00:01:43,540 --> 00:01:47,120 >> Do, lingvistiko traktas kun sintakso, semantiko, pragmata. 39 00:01:47,120 --> 00:01:49,550 Vi infanoj ne ekzakte bezonas scii kio ili estas. 40 00:01:49,550 --> 00:01:55,090 Sed la tre interesa afero estas ke kiel denaska parolanto, kiam oni lernas 41 00:01:55,090 --> 00:01:59,010 lingvon kiel infano, vi vere lerni ĉiuj el tiuj aferoj - sintakso semantiko 42 00:01:59,010 --> 00:02:00,500 kaj pragmata - 43 00:02:00,500 --> 00:02:01,430 per vi mem. 44 00:02:01,430 --> 00:02:04,820 Kaj neniu devas instrui vin sintakson por vi kompreni kiel frazoj estas 45 00:02:04,820 --> 00:02:05,290 strukturitaj. 46 00:02:05,290 --> 00:02:07,980 Do, ĝi estas vere interesa, ĉar ĝi estas io kiu venas tre 47 00:02:07,980 --> 00:02:10,389 intuicie. 48 00:02:10,389 --> 00:02:13,190 >> Kaj kion vi prenas el la komputiko? 49 00:02:13,190 --> 00:02:16,700 Nu, la plej grava aĵo kiun ni havi en komputila scienco estas unua de 50 00:02:16,700 --> 00:02:19,340 ĉiuj, artefarita inteligenteco kaj maŝina lerno. 51 00:02:19,340 --> 00:02:22,610 Do, kion ni provas fari komputa lingvistiko estas instrui 52 00:02:22,610 --> 00:02:26,990 vian komputilon kiel fari ion kun lingvo. 53 00:02:26,990 --> 00:02:28,630 >> Do, ekzemple, en maŝino tradukado. 54 00:02:28,630 --> 00:02:32,490 Mi provas instrui mian komputilon kiel scii transiron de unu 55 00:02:32,490 --> 00:02:33,310 lingvo al la alia. 56 00:02:33,310 --> 00:02:35,790 Do, esence ŝatas instrui komputilo du lingvoj. 57 00:02:35,790 --> 00:02:38,870 Se mi faras naturan lingvon prilaborado, kio estas la kazo ekzemple de 58 00:02:38,870 --> 00:02:41,810 Facebook Diagramo Serĉu, vi instruas vian komputilon kiel kompreni 59 00:02:41,810 --> 00:02:42,730 pridemandojn bone. 60 00:02:42,730 --> 00:02:48,130 >> Do, se vi diras "la fotojn de mia geamikoj. "Facebook ne traktas ke 61 00:02:48,130 --> 00:02:51,130 kiel tuto kordoj kiuj havas nur aron da vortoj. 62 00:02:51,130 --> 00:02:56,020 Ĝi vere komprenas la rilaton inter "fotojn" kaj "miaj amikoj" kaj 63 00:02:56,020 --> 00:02:59,620 komprenas, ke "fotoj" estas posedaĵo de "miaj amikoj". 64 00:02:59,620 --> 00:03:02,350 >> Do, tio estas parto de, ekzemple, natura lingvo prilaborado. 65 00:03:02,350 --> 00:03:04,790 Ĝi estas provo kompreni, kion estas la rilato inter 66 00:03:04,790 --> 00:03:07,520 la vortoj en frazo. 67 00:03:07,520 --> 00:03:11,170 Kaj la granda demando estas, ĉu vi instruos komputilon kiel paroli 68 00:03:11,170 --> 00:03:12,650 lingvon ĝenerale? 69 00:03:12,650 --> 00:03:17,810 Kiu estas tre interesa demando al pensas, kvazaŭ eble en la estonteco, 70 00:03:17,810 --> 00:03:19,930 vi tuj povos paroli kun via poŝtelefono. 71 00:03:19,930 --> 00:03:23,290 Speco de kiel kion ni faru kun Siri sed ion pli ŝatas, vi povas efektive 72 00:03:23,290 --> 00:03:25,690 diri kion ajn vi volas kaj la telefono tuj kompreni ĉion. 73 00:03:25,690 --> 00:03:28,350 Kaj tio povas havi sekvi supren demandoj kaj observu parolas. 74 00:03:28,350 --> 00:03:30,880 Tio estas io vere ekscita, en mia opinio. 75 00:03:30,880 --> 00:03:33,070 >> Do, io pri naturaj lingvoj. 76 00:03:33,070 --> 00:03:36,220 Iun vere interesan pri naturaj lingvoj estas tio, kaj tio estas 77 00:03:36,220 --> 00:03:38,470 kredito al mia lingvistika profesoro, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Ŝi donas ekzemplon kaj mi kredas ĝi estas vere interesa. 79 00:03:40,830 --> 00:03:47,060 Ĉar ni lernas lingvo de kiam ni naskiĝas kaj tiam nia denaska 80 00:03:47,060 --> 00:03:49,170 lingvo ia kreskas sur nin. 81 00:03:49,170 --> 00:03:52,570 >> Kaj esence oni lernas lingvon el minimuma enigo, ĉu ne? 82 00:03:52,570 --> 00:03:56,700 Vi simple ricevas enigon el via gepatroj de kio via lingvo sonas 83 00:03:56,700 --> 00:03:58,770 ŝati kaj vi nur lernas gxin. 84 00:03:58,770 --> 00:04:02,240 Do, ĝi estas interesa, ĉar se vi rigardas ĉe tiuj frazoj, ekzemple. 85 00:04:02,240 --> 00:04:06,980 Vi aspektas, "Maria metas sur jako ĉiu tempo ŝi forlasas la domon. " 86 00:04:06,980 --> 00:04:10,650 >> En ĉi tiu kazo, ĝi estas ebla al havi la vorton "ŝi" aludas al Maria, ĉu? 87 00:04:10,650 --> 00:04:13,500 Vi povas diri "Maria metas sur ŝildo ĉiufoje Maria lasas la 88 00:04:13,500 --> 00:04:14,960 domo. "tiel, ke estas bone. 89 00:04:14,960 --> 00:04:19,370 Sed tiam, se vi rigardas la frazo "Ŝi metas sur jako ĉiufoje Maria 90 00:04:19,370 --> 00:04:22,850 forlasas la domon. "vi scias ke estas neeble diri, ke "ŝi" estas 91 00:04:22,850 --> 00:04:24,260 raportante al Mary. 92 00:04:24,260 --> 00:04:27,070 >> Ne estas maniero de diri ke "Maria metas sur jako ĉiufoje Maria lasas 93 00:04:27,070 --> 00:04:30,790 la domo. "Do estas interesa ĉar tio estas la tipo de intuicio 94 00:04:30,790 --> 00:04:32,890 ke singla denaska parolanto havas. 95 00:04:32,890 --> 00:04:36,370 Kaj neniu instruis, ke tio estas la vojo, laux kiu la sintakso funkcias. 96 00:04:36,370 --> 00:04:41,930 Kaj ke vi nur povas havi tiun "ŝi" raportante al Maria en tiu unua kazo, 97 00:04:41,930 --> 00:04:44,260 kaj efektive en ĉi tiu alia tro, sed ne en ĉi tiu. 98 00:04:44,260 --> 00:04:46,500 Sed cxiu speco de gets al la sama respondo. 99 00:04:46,500 --> 00:04:48,580 Ĉiuj konsentas pri tio. 100 00:04:48,580 --> 00:04:53,280 Do ĝi estas vere interesa kiom kvankam vi ne konas ĉiujn regulojn 101 00:04:53,280 --> 00:04:55,575 en via lingvo vi ia kompreni kiel la lingvo funkcias. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Do la interesa afero pri natura lingvo estas ke vi ne devas 104 00:05:01,530 --> 00:05:06,970 konas neniun sintakson por scii se frazo Estas gramatikajn aŭ ungrammatical por 105 00:05:06,970 --> 00:05:08,810 Plejofte. 106 00:05:08,810 --> 00:05:13,220 Kiun vi pensas ke eble kio okazas estas ke per via vivo, vi 107 00:05:13,220 --> 00:05:17,410 nur teni ricevas pli kaj pli frazoj sciigis al vi. 108 00:05:17,410 --> 00:05:19,800 Kaj tiam vi gardos parkerigi ĉiuj frazoj. 109 00:05:19,800 --> 00:05:24,230 Kaj tiam, kiam iu diras al vi io, vi auxdos, ke frazo kaj 110 00:05:24,230 --> 00:05:27,040 vi rigardas vian vortprovizon de frazoj kaj vidi se 111 00:05:27,040 --> 00:05:28,270 ke frazo estas tie. 112 00:05:28,270 --> 00:05:29,830 Kaj se gxi estas tie vi diras ke estas gramatika. 113 00:05:29,830 --> 00:05:31,740 Se ĝi ne estas vi diras ke estas ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Do, en tiu kazo, vi dirus, ho, do vi havas grandegan liston de ĉiuj 115 00:05:35,150 --> 00:05:36,140 eblaj frazoj. 116 00:05:36,140 --> 00:05:38,240 Kaj poste, kiam vi aŭdas frazo, vi scias se ĝi estas gramatikajn aŭ 117 00:05:38,240 --> 00:05:39,450 ne estas bazita sur tio. 118 00:05:39,450 --> 00:05:42,360 La afero estas ke, se vi rigardas frazo, ekzemple: "La 119 00:05:42,360 --> 00:05:47,540 kvin-estrita CS50 TFS kuirita blinduloj polpo uzante daPa taso. "Estas 120 00:05:47,540 --> 00:05:49,630 certe ne frazon ke vi aŭdis antaŭe. 121 00:05:49,630 --> 00:05:52,380 Sed samtempe vi scias ke estas pretty much gramatika, ĉu ne? 122 00:05:52,380 --> 00:05:55,570 Ne estas gramatikajn erarojn kaj vi povas diri ke 123 00:05:55,570 --> 00:05:57,020 ĝi estas ebla frazo. 124 00:05:57,020 --> 00:06:01,300 >> Do ĝi igas nin pensi, ke fakte la maniero, ke ni lernas lingvo estas ne nur 125 00:06:01,300 --> 00:06:07,090 por havi grandegan datumbazon de eblaj vortoj aŭ frazoj, sed pli 126 00:06:07,090 --> 00:06:11,490 kompreni la rilaton inter vortoj en tiuj frazoj. 127 00:06:11,490 --> 00:06:14,570 Ĉu tio havas sencon? 128 00:06:14,570 --> 00:06:19,370 Do, tiam la demando estas, ĉu komputiloj lernas lingvojn? 129 00:06:19,370 --> 00:06:21,490 Ĉu oni povas instrui lingvon al komputiloj? 130 00:06:21,490 --> 00:06:24,230 >> Do, ni pensu pri la diferenco inter denaska parolanto de lingvo 131 00:06:24,230 --> 00:06:25,460 kaj komputilo. 132 00:06:25,460 --> 00:06:27,340 Do, kio okazas al la parolanto? 133 00:06:27,340 --> 00:06:30,430 Nu, la denaska parolanto lernas lingvo de la ekspozicio al ĝi. 134 00:06:30,430 --> 00:06:34,200 Kutime lia frua infaneco jaroj. 135 00:06:34,200 --> 00:06:38,570 Do, esence, vi nur havos bebon, kaj vi tenas parolis al ĝi, kaj ĝi 136 00:06:38,570 --> 00:06:40,540 nur lernas kiel paroli la lingvon, ĉu ne? 137 00:06:40,540 --> 00:06:42,660 Do, vi estas esence donante enigo al la bebo. 138 00:06:42,660 --> 00:06:45,200 Do, tiam vi povas argumenti ke komputilo povas fari la saman aĵon, right? 139 00:06:45,200 --> 00:06:49,510 Vi povas simple doni lingvon kiel eniro al la komputilo. 140 00:06:49,510 --> 00:06:53,410 >> Kiel ekzemple faskon de dosieroj kiuj havas librojn en la angla. 141 00:06:53,410 --> 00:06:56,190 Eble tio estas unu vojo, kiun vi eble povus instrui 142 00:06:56,190 --> 00:06:57,850 komputilo angla, ĉu ne? 143 00:06:57,850 --> 00:07:01,000 Kaj fakte, se vi opinias pri tio, ĝi prenas vin eble paron 144 00:07:01,000 --> 00:07:02,680 tagojn por legi libron. 145 00:07:02,680 --> 00:07:05,760 Ĉar komputilo prenas duan al rigardi ĉiujn vortojn en libron. 146 00:07:05,760 --> 00:07:10,810 Do vi povas pensi, ke eble ĝuste tiu argumento de enigo el ĉirkaŭ vi, 147 00:07:10,810 --> 00:07:15,440 tio ne sufiĉas por diri ke tio estas iu kiu nur la homoj povas fari. 148 00:07:15,440 --> 00:07:17,680 Vi povas pensi komputiloj ankaŭ povas ricevi enigo. 149 00:07:17,680 --> 00:07:21,170 >> La dua afero estas, ke la denaskaj parolantoj havas ankaŭ cerbon ke ĝi 150 00:07:21,170 --> 00:07:23,870 lingvolernado kapablon. 151 00:07:23,870 --> 00:07:27,020 Sed se vi pensas pri tio, cerba estas solida afero. 152 00:07:27,020 --> 00:07:30,450 Kiam vi naskiĝas, ĝi estas jam starigis - 153 00:07:30,450 --> 00:07:31,320 ĉi tio estas via cerbo. 154 00:07:31,320 --> 00:07:34,660 Kaj kiel vi kresku, vi simple akiri pli enigo de la lingvo kaj eble nutraĵoj 155 00:07:34,660 --> 00:07:35,960 kaj aliajn vazojn. 156 00:07:35,960 --> 00:07:38,170 Sed preskaux via cerbo estas solida afero. 157 00:07:38,170 --> 00:07:41,290 >> Do vi povas diri, nu, eble vi povas konstrui komputilon, kiu havas faskon da 158 00:07:41,290 --> 00:07:45,890 funkcioj kaj metodoj kiu simple imiti lingvolernado kapablon. 159 00:07:45,890 --> 00:07:49,630 Do en tiu senco, vi povus diri, bone, mi povas havi komputilon, kiu havas la tutan 160 00:07:49,630 --> 00:07:52,270 Tion mi bezonas por lerni lingvon. 161 00:07:52,270 --> 00:07:56,200 Kaj la lasta afero estas ke denaska parolanto lernas de provo kaj eraro. 162 00:07:56,200 --> 00:08:01,090 Do esence alia grava afero en lingvolernado estas ke vi afabla 163 00:08:01,090 --> 00:08:05,340 de lernu aĵojn por fari ĝeneraligoj de kion vi auxdos. 164 00:08:05,340 --> 00:08:10,280 >> Do kiel vi kreskas supren vi lernas ke kelkaj vortoj estas pli kiel substantivoj, 165 00:08:10,280 --> 00:08:11,820 iuj aliaj aĵoj estas adjektivoj. 166 00:08:11,820 --> 00:08:14,250 Kaj vi ne devas havi ajnan scio de lingvistiko 167 00:08:14,250 --> 00:08:15,040 por kompreni tion. 168 00:08:15,040 --> 00:08:18,560 Sed vi nur scias ke estas kelkaj vortoj estas lokitaj en iu parto de la 169 00:08:18,560 --> 00:08:22,570 frazo kaj kelkaj aliaj en aliajn partoj de la frazo. 170 00:08:22,570 --> 00:08:26,110 >> Kaj ke kiam vi faros iun kiu estas kiel frazo, kiu ne estas ĝusta - 171 00:08:26,110 --> 00:08:28,770 eble pro tro ĝeneraligo ekzemple. 172 00:08:28,770 --> 00:08:32,210 Eble kiam vi kreskis, vi rimarkos ke la plurala formo estas kutime 173 00:08:32,210 --> 00:08:35,809 formata per meto S ĉe la fino de la vorto. 174 00:08:35,809 --> 00:08:40,042 Kaj tiam vi provos fari la pluralo de "Cervo" kiel "cervoj" aŭ "denton", kiel 175 00:08:40,042 --> 00:08:44,780 "Tooths." Do tiam viaj gepatroj aŭ iu korektas vi kaj diras, ne, la 176 00:08:44,780 --> 00:08:49,020 pluralo de "cervo" estas "cervo", kaj la pluralo de "dento" estas "la dentoj". Kaj poste 177 00:08:49,020 --> 00:08:50,060 vi lerni tiujn aferojn. 178 00:08:50,060 --> 00:08:51,520 Do vi lerni de provo kaj eraro. 179 00:08:51,520 --> 00:08:53,100 >> Sed vi ankaŭ povas fari tion kun komputilo. 180 00:08:53,100 --> 00:08:55,310 Vi povas havi iun nomita plifortigo lernado. 181 00:08:55,310 --> 00:08:58,560 Kio estas esence same kiel donanta komputilo rekompenco krom se ĝi faras 182 00:08:58,560 --> 00:08:59,410 io korekte. 183 00:08:59,410 --> 00:09:04,710 Kaj donante al ĝi la malo de rekompenco kaj kiam ŝi faras ion malbonan. 184 00:09:04,710 --> 00:09:07,410 Vi povas fakte vidi ke se vi iros al Google Translate kaj vi provos 185 00:09:07,410 --> 00:09:10,220 traduki frazon, ĝi petas vin pro sugestoj. 186 00:09:10,220 --> 00:09:13,240 Do se vi diras, ho, tie estas pli bona traduko por tiu frazo. 187 00:09:13,240 --> 00:09:18,140 Vi povas tajpi ĝin supren kaj poste, se multaj popolon subteni dirante ke estas pli bone 188 00:09:18,140 --> 00:09:21,560 traduko, gxi simple lernas ke devus uzi tiun tradukadon anstataŭ 189 00:09:21,560 --> 00:09:22,960 unu estis doni. 190 00:09:22,960 --> 00:09:28,830 >> Do, ĝi estas tre filozofia demando Por vidi, cxu komputiloj tuj estos 191 00:09:28,830 --> 00:09:30,340 kapablas paroli aux ne en la estonteco. 192 00:09:30,340 --> 00:09:34,440 Sed mi havas altajn esperojn, ke ili povas nur bazitaj sur tiuj argumentoj. 193 00:09:34,440 --> 00:09:38,570 Sed tio estas nur pli filozofian demando. 194 00:09:38,570 --> 00:09:43,460 >> Do dum komputiloj ankoraŭ ne povas paroli, kio estas la aferoj, kiujn ni povas fari? 195 00:09:43,460 --> 00:09:47,070 Kelkaj vere malvarmeta aferoj estas datumoj klasifiko. 196 00:09:47,070 --> 00:09:53,210 Do, ekzemple, vi infanoj scias ke retpoŝto servoj fari, por 197 00:09:53,210 --> 00:09:55,580 Ekzemple, spamado filtrado. 198 00:09:55,580 --> 00:09:59,070 Do kiam ajn vi ricevas spamon, tio provas filtri al alia skatolo. 199 00:09:59,070 --> 00:10:00,270 Do kiel ghi faru tion? 200 00:10:00,270 --> 00:10:06,080 Tio ne ŝatas la komputilo nur scias kio retadresoj sendas spamon. 201 00:10:06,080 --> 00:10:09,130 Do ĝi estas pli bazita sur la enhavo de La mesaĝo, aŭ eble la titolo, aŭ 202 00:10:09,130 --> 00:10:11,310 eble iuj ŝablono kiun vi havos. 203 00:10:11,310 --> 00:10:15,690 >> Do, esence, kion vi povas fari estas akiri Multaj datumoj de retmesaĝoj kiuj estas spamado, 204 00:10:15,690 --> 00:10:19,980 retmesaĝoj kiuj ne estas spamado, kaj lernu, kion speco de ŝablonoj vi havas en la 205 00:10:19,980 --> 00:10:21,000 kiuj estas spamado. 206 00:10:21,000 --> 00:10:23,260 Kaj tio estas parto de komputa lingvistiko. 207 00:10:23,260 --> 00:10:24,720 Ĝi nomiĝas datumoj klasifiko. 208 00:10:24,720 --> 00:10:28,100 Kaj ni reale iras vidi Ekzemplo de tiu en la proksimaj diapozitivoj. 209 00:10:28,100 --> 00:10:32,910 >> La dua afero estas natura lingvo prilaborado kio estas la afero, ke la 210 00:10:32,910 --> 00:10:36,580 Diagramo Serĉu faras el lasanta vi skribas frazo. 211 00:10:36,580 --> 00:10:38,690 Kaj ĝi konfidas al vi kompreni, kion Estas la signifon kaj donas 212 00:10:38,690 --> 00:10:39,940 vi pli bonan rezulton. 213 00:10:39,940 --> 00:10:43,880 Efektive, se vi iros al Google aŭ Bing kaj vi serĉu iun kiel Damo 214 00:10:43,880 --> 00:10:47,060 Gaga alteco, vi vere iras akiri 5 '1 "anstataŭ informoj 215 00:10:47,060 --> 00:10:50,170 de ŝi ĉar ĝi vere komprenas kio vi parolas. 216 00:10:50,170 --> 00:10:52,140 Do tio estas parto de natura lingvo prilaborado. 217 00:10:52,140 --> 00:10:57,000 >> Aŭ ankaŭ kiam vi uzas Siri, unue vi havas algoritmon kiu provas 218 00:10:57,000 --> 00:11:01,130 traduki kion vi diras en vortojn, en teksto. 219 00:11:01,130 --> 00:11:03,690 Kaj tiam ĝi provas traduki ke en signifo. 220 00:11:03,690 --> 00:11:06,570 Do tiu estas ĉiu parto de naturaj lingvo prilaborado. 221 00:11:06,570 --> 00:11:08,320 >> Tiam vi havas maŝintraduko - 222 00:11:08,320 --> 00:11:10,300 kio estas fakte unu de miaj favorataj - 223 00:11:10,300 --> 00:11:14,060 kio estas ĝuste traduki el lingvo al alia. 224 00:11:14,060 --> 00:11:17,950 Do vi povas pensi, ke, kiam vi faras maŝintraduko, vi havas 225 00:11:17,950 --> 00:11:19,750 senfinaj ebloj de frazoj. 226 00:11:19,750 --> 00:11:22,960 Do estas neniu maniero de simple stokante ĉiu ununura traduko. 227 00:11:22,960 --> 00:11:27,440 Do vi devos veni supren kun interesaj algoritmoj por povi 228 00:11:27,440 --> 00:11:30,110 traduki ĉiun solan frazo iel. 229 00:11:30,110 --> 00:11:32,483 >> Vi infanoj havas demandojn ĝis nun? 230 00:11:32,483 --> 00:11:34,450 Neniu? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Do kio estas ni tuj vidos hodiaŭ? 233 00:11:36,900 --> 00:11:39,300 Unue, mi iras por paroli pri la klasifiko problemon. 234 00:11:39,300 --> 00:11:41,440 Do kiu mi estis dirante pri spamado. 235 00:11:41,440 --> 00:11:46,820 Kion mi faros estas, donitaj literoj al kanto, vi povas provi elkompreni 236 00:11:46,820 --> 00:11:49,810 kun alta probablo kiu estas la kantisto? 237 00:11:49,810 --> 00:11:53,590 Ni diru, ke mi havas kantoj el Sinjorino Gaga kaj Katy Perry, se mi donos al vi 238 00:11:53,590 --> 00:11:58,130 nova kanto, ĉu vi povas diveni, se ĝi estas Katy Perry aŭ Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> La dua, mi simple tuj paroli pri la segmentación problemon. 240 00:12:01,490 --> 00:12:05,780 Do mi ne scias se vi uloj scias, sed Ĉina, japana, aliaj orient-aziaj 241 00:12:05,780 --> 00:12:08,090 lingvojn, kaj aliajn lingvojn ĝenerale, ne havas 242 00:12:08,090 --> 00:12:09,830 spacoj inter vortoj. 243 00:12:09,830 --> 00:12:13,540 Kaj tiam se vi pensas pri la vojo, kiun via komputilo speco de provas 244 00:12:13,540 --> 00:12:18,600 kompreni naturan lingvon prilaborado, ĝi aspektas ĉe la vortoj kaj 245 00:12:18,600 --> 00:12:21,500 provas kompreni la rilatojn inter ili, ĉu ne? 246 00:12:21,500 --> 00:12:25,440 Sed tiam, se vi havas la ĉina, kaj vi havi nulo spacoj, estas vere malfacile 247 00:12:25,440 --> 00:12:28,360 eltrovi kio estas la rilato inter vortojn, ĉar ili ne havas ajnan 248 00:12:28,360 --> 00:12:29,530 vortoj ĉe la komenco. 249 00:12:29,530 --> 00:12:32,600 Do vi devos fari ion nomatan segmentación kiu signifas nur metante 250 00:12:32,600 --> 00:12:36,490 spacojn inter kion ni volas voki vortoj en tiuj lingvoj. 251 00:12:36,490 --> 00:12:37,740 Havas sencon? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Kaj poste ni iras al paroli pri sintakso. 254 00:12:41,540 --> 00:12:44,050 Do nur iom pri naturaj lingvo prilaborado. 255 00:12:44,050 --> 00:12:45,420 Ĝi tuj estos nur superrigardon. 256 00:12:45,420 --> 00:12:50,700 Do hodiaŭ, esence tion, kion mi volas fari estas doni al vi knaboj iomete de 257 00:12:50,700 --> 00:12:53,930 ene de kio estas la eblecoj ke vi povas fari kun komputa 258 00:12:53,930 --> 00:12:54,960 lingvistiko. 259 00:12:54,960 --> 00:13:00,410 Kaj tiam vi povas vidi kion vi opinias is cool inter tiuj aĵoj. 260 00:13:00,410 --> 00:13:02,270 Kaj eble vi povas pensi pri projekto kaj venis paroli kun mi. 261 00:13:02,270 --> 00:13:05,260 Kaj mi povas doni al vi konsilon pri kiel realigi ĝin. 262 00:13:05,260 --> 00:13:09,060 >> Do sintakso tuj estos iomete pri Diagramo Serĉu kaj maŝino 263 00:13:09,060 --> 00:13:09,670 tradukado. 264 00:13:09,670 --> 00:13:13,650 Mi simple tuj doni ekzemplon de kiel vi povus, ekzemple, traduki 265 00:13:13,650 --> 00:13:16,020 io el portugala al angla. 266 00:13:16,020 --> 00:13:17,830 Sonas bone? 267 00:13:17,830 --> 00:13:19,293 >> Do unue, la klasifika problemo. 268 00:13:19,293 --> 00:13:23,590 Mi tion diri, ke ĉi tiu parto de la seminario tuj estos la plej defia 269 00:13:23,590 --> 00:13:27,560 oni simple ĉar tie okazas esti iu kodigo. 270 00:13:27,560 --> 00:13:29,470 Sed ĝi tuj estos Pitono. 271 00:13:29,470 --> 00:13:34,380 Mi scias, vi uloj ne scias Pitono, do Mi simple tuj klarigi la altan 272 00:13:34,380 --> 00:13:35,750 ras, kion mi faras. 273 00:13:35,750 --> 00:13:40,900 Kaj vi ne devas vere zorgi tro multe pri la sintakso pro tio 274 00:13:40,900 --> 00:13:42,140 io vi uloj povas lerni. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Sonas bone. 277 00:13:43,580 --> 00:13:46,020 >> Do kio estas la klasifika problemo? 278 00:13:46,020 --> 00:13:49,140 Do vi estas donitaj iuj literoj al kanton, kaj vi volas diveni 279 00:13:49,140 --> 00:13:50,620 Kiu kantas ĝin. 280 00:13:50,620 --> 00:13:54,045 Kaj tio povas esti por iu ajn speco de aliaj problemoj. 281 00:13:54,045 --> 00:13:59,980 Do ĝi povas, ekzemple, vi havas prezidanta kampanjo kaj vi havos 282 00:13:59,980 --> 00:14:02,610 parolado, kaj vi volas trovi ĉu tio estis, ekzemple, 283 00:14:02,610 --> 00:14:04,470 Obama aŭ Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Aŭ vi povas havi faskon de retmesaĝoj kaj vi volas eltrovi, se ili estas 285 00:14:07,700 --> 00:14:08,890 spamon aŭ ne. 286 00:14:08,890 --> 00:14:11,440 Do ĝi estas nur klasifiki iun datumoj bazitaj sur la vortojn 287 00:14:11,440 --> 00:14:13,790 ke vi havas tie. 288 00:14:13,790 --> 00:14:16,295 >> Do fari tion, vi devos fari iujn supozojn. 289 00:14:16,295 --> 00:14:20,570 Do multe pri komputa lingvistiko faras supozojn, 290 00:14:20,570 --> 00:14:24,100 kutime inteligenta supozoj, por ke vi povas akiri bonajn rezultojn. 291 00:14:24,100 --> 00:14:26,670 Klopodi krei modelon por ĝi. 292 00:14:26,670 --> 00:14:31,290 Kaj tiam provi ĝin kaj vidi se funkcias, se gxi donas al vi bonan precizeco. 293 00:14:31,290 --> 00:14:33,940 Kaj se jes, tiam vi provi plibonigi ĝin. 294 00:14:33,940 --> 00:14:37,640 Se ĝi ne, vi estas kiel, nu bone, mi eble faradu malsama supozo. 295 00:14:37,640 --> 00:14:44,030 >> Do la supozo, ke ni tuj fari estas, ke artisto kutime kantas 296 00:14:44,030 --> 00:14:49,220 pri temo plurfoje, kaj eble uzas vortojn plurfoje nur 297 00:14:49,220 --> 00:14:50,270 ĉar ili estas uzataj por tio. 298 00:14:50,270 --> 00:14:51,890 Vi povas nur pensi pri via amiko. 299 00:14:51,890 --> 00:14:57,350 Mi certas ke vi uloj ĉiuj havas amikojn kiuj diras sian subskribon frazo, 300 00:14:57,350 --> 00:14:59,260 laŭvorte por ĉiu sola frazo - 301 00:14:59,260 --> 00:15:02,660 kvazaŭ iu specifa vorto aŭ iu specifa frazo kiun ili diros al 302 00:15:02,660 --> 00:15:04,020 ĉiu unuopa frazo. 303 00:15:04,020 --> 00:15:07,920 >> Kaj kion vi povas diri estas, ke se vi vidos frazo kiu havas subskribon 304 00:15:07,920 --> 00:15:11,450 frazo, vi povas diveni ke probable via amiko estas la 305 00:15:11,450 --> 00:15:13,310 oni ĝin dirante, ĉu ne? 306 00:15:13,310 --> 00:15:18,410 Do vi faras tiun supozon kaj poste tiel estas kiel vi krei modelon. 307 00:15:18,410 --> 00:15:24,440 >> La ekzemplo, kiun mi tuj donos estas ĉe kiel Lady Gaga, ekzemple, la homoj 308 00:15:24,440 --> 00:15:27,430 diri, ke ŝi uzas "baby" ĉar sxia tuta numero unu kantoj. 309 00:15:27,430 --> 00:15:32,270 Kaj efektive tio estas video kiu shows sxin dirante la vorton "bebo" por 310 00:15:32,270 --> 00:15:33,410 malsamaj kantoj. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO reprodukto] 312 00:15:33,860 --> 00:15:34,310 >> - (Kantante) Bebo. 313 00:15:34,310 --> 00:15:36,220 Bebo. 314 00:15:36,220 --> 00:15:37,086 Bebo. 315 00:15:37,086 --> 00:15:37,520 Bebo. 316 00:15:37,520 --> 00:15:37,770 Bebo. 317 00:15:37,770 --> 00:15:38,822 Infaneto. 318 00:15:38,822 --> 00:15:39,243 Bebo. 319 00:15:39,243 --> 00:15:40,085 Bebo. 320 00:15:40,085 --> 00:15:40,510 Bebo. 321 00:15:40,510 --> 00:15:40,850 Bebo. 322 00:15:40,850 --> 00:15:41,090 >> [FINO VIDEO reprodukto- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Freitas: Tiel estas, mi kredas, 40 kantoj tie, en kiuj ŝi diras la 324 00:15:44,020 --> 00:15:48,690 vorton "bebo." Do vi povas esence diveni ke se vi vidas kanto kiu havas 325 00:15:48,690 --> 00:15:52,180 la vorton "bebo", ekzistas kelkaj altaj probablo ke ghi estas Sinjorino Gaga. 326 00:15:52,180 --> 00:15:56,450 Sed ni provu evoluigi ĉi plui pli formale. 327 00:15:56,450 --> 00:16:00,470 >> Do jen estas litero de kantoj de Lady Gaga kaj Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Do vi rigardas al Sinjorino Gaga, vi vidas ili havas multe da aperoj de "bebo", a 329 00:16:04,120 --> 00:16:07,710 multajn spritaĵojn de "vojo". Kaj poste Katy Perry havas multajn spritaĵojn de 330 00:16:07,710 --> 00:16:10,360 "La", multajn spritaĵojn de "fajro". 331 00:16:10,360 --> 00:16:14,560 >> Do esence kion ni volas fari estas, vi ricevas lirikaj. 332 00:16:14,560 --> 00:16:20,480 Ni diru, ke vi ricevas lirikaj por kanto ke estas "bebo", nur "bebo." Se 333 00:16:20,480 --> 00:16:24,750 vi ĵus ricevas la vorton "bebo", kaj tio estas ĉiuj la datumoj kiujn vi havas de 334 00:16:24,750 --> 00:16:27,880 Lady Gaga kaj Katy Perry, kiu farus vi diveni estas la persono 335 00:16:27,880 --> 00:16:29,370 kiuj kantas la kanton? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga aŭ Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, ĉu ne? 338 00:16:33,150 --> 00:16:37,400 Ĉar ŝi estas la sola kiu diras "Bebo." Ĉi sonas stulta, ĉu ne? 339 00:16:37,400 --> 00:16:38,760 OK, tiu estas vere facila. 340 00:16:38,760 --> 00:16:41,860 Mi ĵus rigardis la du kantojn kaj de Kompreneble, ŝi estas la sola kiu havas 341 00:16:41,860 --> 00:16:42,660 "Bebo." 342 00:16:42,660 --> 00:16:44,740 >> Sed kion se vi havas faskon da vortoj? 343 00:16:44,740 --> 00:16:50,900 Se vi havas la veran lirikaj, iu kiel, "bebo, mi simple 344 00:16:50,900 --> 00:16:51,610 iris al vidas [? CFT?] 345 00:16:51,610 --> 00:16:54,020 lekcio ", aŭ ion similan, kaj tiam vi vere devas eltrovi - 346 00:16:54,020 --> 00:16:55,780 bazita sur cxiujn tiujn vortojn - 347 00:16:55,780 --> 00:16:58,350 kiu estas la artisto kiu probable kantis cxi tiun kanton? 348 00:16:58,350 --> 00:17:01,860 Do ni provu evoluigi tio iom pli. 349 00:17:01,860 --> 00:17:05,630 >> OK, tiom bazita ĝuste sur la datumoj kiujn ni ricevis, ŝajnas ke Gaga estas probable 350 00:17:05,630 --> 00:17:06,260 la kantistino. 351 00:17:06,260 --> 00:17:07,904 Sed kiel ni povas skribi tiu pli formale? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Kaj tuj estos iom iom da statistiko. 354 00:17:13,140 --> 00:17:15,880 Do se vi perdiĝas, nur provu por kompreni la koncepton. 355 00:17:15,880 --> 00:17:18,700 Ne gravas, se vi komprenas la ekvacioj perfekte. 356 00:17:18,700 --> 00:17:22,150 Tio estas cxiuj tuj estos en linio. 357 00:17:22,150 --> 00:17:25,490 >> Do esence kion mi kalkulanta estas la probablo ke tiu kanto estas per 358 00:17:25,490 --> 00:17:28,040 Sinjorino Gaga donita, ke - 359 00:17:28,040 --> 00:17:30,660 tial tiu trinkejo signifas donita, ke - 360 00:17:30,660 --> 00:17:33,680 Mi vidis la vorton "bebo." Ĉu tio havas sencon? 361 00:17:33,680 --> 00:17:35,540 Do mi provas kalkuli ke probablo. 362 00:17:35,540 --> 00:17:38,540 >> Do tie estas jena teoremo nomata Bayes teoremo kiu diras, ke la 363 00:17:38,540 --> 00:17:43,330 probablo de A donita B, estas la probablo de B donita A, tempoj la 364 00:17:43,330 --> 00:17:47,660 probablo de A, super la probablo de B. Ĉi tio estas longa ekvacio. 365 00:17:47,660 --> 00:17:51,970 Sed kion vi devas kompreni el tio estas, ke ĉi tiu estas kion mi volas 366 00:17:51,970 --> 00:17:52,830 kalkuli, ĉu ne? 367 00:17:52,830 --> 00:17:56,570 Do la probablo, ke tiu kanto estas per Sinjorino Gaga donita, ke mi vidis la vorton 368 00:17:56,570 --> 00:17:58,230 "Bebo." 369 00:17:58,230 --> 00:18:02,960 >> Kaj nun kion mi ricevas estas la probablo de la vorto "bebo" donita 370 00:18:02,960 --> 00:18:04,390 ke mi havas Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Kaj kio estas, ke esence? 372 00:18:07,220 --> 00:18:10,500 Kion tio signifas estas, kio estas la probablo de vidanta la vorton "bebo" 373 00:18:10,500 --> 00:18:12,130 en Gaga literojn? 374 00:18:12,130 --> 00:18:16,240 Se mi volas kalkuli ke en tre simpla maniero, ĝi estas nur la nombro de 375 00:18:16,240 --> 00:18:23,640 fojoj mi vidas "bebo" super la tuta nombro de vortoj en Gaga literoj, ĉu ne? 376 00:18:23,640 --> 00:18:27,600 Kio estas la ofteco kiujn mi vidas Tiun vorton en Gaga laboro? 377 00:18:27,600 --> 00:18:30,530 Havas sencon? 378 00:18:30,530 --> 00:18:33,420 >> La dua termino estas la probablo de Gaga. 379 00:18:33,420 --> 00:18:34,360 Kion tio signifas? 380 00:18:34,360 --> 00:18:38,550 Kiu esence signifas, kio estas la probablo klasifikado 381 00:18:38,550 --> 00:18:40,690 iuj literoj kiel Gaga? 382 00:18:40,690 --> 00:18:45,320 Kaj tio estas iomete bizara, sed ni pensu pri ekzemplo. 383 00:18:45,320 --> 00:18:49,230 Do diru ke la probablo de havante "bebo" en tiu kanto estas la sama 384 00:18:49,230 --> 00:18:51,760 por Gaga kaj Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Sed Britney Spears havas dufoje pli kantojn ol Sinjorino Gaga. 386 00:18:54,950 --> 00:19:00,570 Do se iu nur hazardo donas al vi literoj de "bebo", la unua afero kiun vi 387 00:19:00,570 --> 00:19:04,710 rigardi estas, kio estas la probablo de havante "bebo" en Gaga kanto, "bebo" 388 00:19:04,710 --> 00:19:05,410 en Britney kanto? 389 00:19:05,410 --> 00:19:06,460 Kaj ĝi estas la sama afero. 390 00:19:06,460 --> 00:19:10,040 >> Do la dua afero, kiun vi vidos estas, bone, kio estas la probablo de 391 00:19:10,040 --> 00:19:13,770 ĉi lirikaj per sin esti Gaga lirikaj, kaj kio estas la probablo de 392 00:19:13,770 --> 00:19:15,380 esti Britney lirika? 393 00:19:15,380 --> 00:19:18,950 Do ekde Britney havas tiom da pli literoj ol Gaga, vi verŝajne 394 00:19:18,950 --> 00:19:21,470 diru, bone, tio estas probable Britney lirikaj. 395 00:19:21,470 --> 00:19:23,340 Do jen kial ni havas ĉi terminon ĝuste ĉi tie. 396 00:19:23,340 --> 00:19:24,670 Probablo de Gaga. 397 00:19:24,670 --> 00:19:26,950 Havas sencon? 398 00:19:26,950 --> 00:19:28,660 Ĉu ĝi? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Kaj la lasta estas nur la probablo de "bebo", kiu ne 401 00:19:33,500 --> 00:19:34,810 vere materio kiu multe. 402 00:19:34,810 --> 00:19:39,940 Sed estas la probablo de vidante "bebo" en la angla. 403 00:19:39,940 --> 00:19:42,725 Ni kutime ne gravas ke multe pri tiu termino. 404 00:19:42,725 --> 00:19:44,490 Ĉu tio havas sencon? 405 00:19:44,490 --> 00:19:48,110 Do la probablo de Gaga estas vokis la antaŭaj probabloj 406 00:19:48,110 --> 00:19:49,530 de la klaso Gaga. 407 00:19:49,530 --> 00:19:53,840 Pro tio nur signifas, ke, kio estas la probablo de havi tiun klason - 408 00:19:53,840 --> 00:19:55,520 kio estas Gaga - 409 00:19:55,520 --> 00:19:59,350 nur ĝenerale, nur sen kondiĉoj. 410 00:19:59,350 --> 00:20:02,560 >> Kaj poste, kiam mi havas probablon de Gaga donita "bebo", ni nomas ĝin pli 411 00:20:02,560 --> 00:20:06,160 teary probablodistribuo ĉar ĝi estas la probablo de estante 412 00:20:06,160 --> 00:20:08,300 Gaga donitaj iuj pruvoj. 413 00:20:08,300 --> 00:20:11,050 Do mi donas al vi la evidenteco ke mi vidis la vorton bebo kaj 414 00:20:11,050 --> 00:20:12,690 La kanto havas sencon? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Do se mi kalkulas, ke por ĉiu de la kantoj por Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 kion tio estus - 419 00:20:25,916 --> 00:20:27,730 Ŝajne, mi ne povas movi ĉi. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 La probablo de Gaga estos io kiel, 2 pli ol 24 fojojn 1/2, 422 00:20:36,920 --> 00:20:38,260 super 2 pli ol 53. 423 00:20:38,260 --> 00:20:40,640 Ne gravas, se vi scias kion tiuj nombroj estas venanta el. 424 00:20:40,640 --> 00:20:44,750 Sed tio estas nur numero kiu tuj esti pli ol 0, ĉu ne? 425 00:20:44,750 --> 00:20:48,610 >> Kaj poste, kiam mi faras Katy Perry, la probablo de "bebo" donita Katy estas 426 00:20:48,610 --> 00:20:49,830 Jam 0, ĉu ne? 427 00:20:49,830 --> 00:20:52,820 Ĉar ekzistas ne "bebo" en Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Tial do tio igas 0, kaj Gaga venkoj, kio signifas ke Gaga estas 429 00:20:56,360 --> 00:20:57,310 probable la kantistino. 430 00:20:57,310 --> 00:20:58,560 Ĉu tio havas sencon? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Do se mi volas fari tion pli oficiala, Mi povas efektive fari modelon 435 00:21:11,750 --> 00:21:12,700 por multnombraj vortoj. 436 00:21:12,700 --> 00:21:14,610 Do diru ke mi havas ion kiel, "bebo, mi estas 437 00:21:14,610 --> 00:21:16,030 sur fajro, "aŭ io. 438 00:21:16,030 --> 00:21:17,760 Do ĝi havas plurajn vortojn. 439 00:21:17,760 --> 00:21:20,880 Kaj en ĉi tiu kazo, vi povas vidi ke la "bebo" estas en Gaga, 440 00:21:20,880 --> 00:21:21,710 sed ĝi ne estas en Katy. 441 00:21:21,710 --> 00:21:24,940 Kaj "fajro" estas en Katy, sed ĝi ne estas en Gaga, ĉu ne? 442 00:21:24,940 --> 00:21:27,200 Do ĝi Fariĝas trickier, ĉu ne? 443 00:21:27,200 --> 00:21:31,440 Ĉar ŝajnas ke vi preskaŭ havas egalecon inter la du. 444 00:21:31,440 --> 00:21:36,980 >> Do, kion vi devas fari estas supozi independency inter la vortoj. 445 00:21:36,980 --> 00:21:41,210 Do esence kion tio signifas, ke Mi simple kalkuli, kia estas la 446 00:21:41,210 --> 00:21:44,330 probablo de vidante "bebo", kio estas la probablo de vidante "Mi," kaj 447 00:21:44,330 --> 00:21:46,670 "Estas", kaj "je" kaj "fajro", ĉiuj aparte. 448 00:21:46,670 --> 00:21:48,670 Tiam mi multiplikante ĉiuj el ili. 449 00:21:48,670 --> 00:21:52,420 Kaj mi vidas, kio estas la probablo vidi la tutan frazon. 450 00:21:52,420 --> 00:21:55,210 Havas sencon? 451 00:21:55,210 --> 00:22:00,270 >> Do esence, se mi havas nur unu vorton: kion mi volas trovi estas la arg maks, 452 00:22:00,270 --> 00:22:05,385 kio signifas, kio estas la klaso, kiu estas donante al mi la plej alta probablo? 453 00:22:05,385 --> 00:22:10,010 Do kio estas la klaso, kiu donas mi la plej alta probablo por 454 00:22:10,010 --> 00:22:11,940 probablo de klaso donita vorto. 455 00:22:11,940 --> 00:22:17,610 Do, en tiu kazo, Gaga donita "bebo." Aŭ Katy donita "bebo." Havas sencon? 456 00:22:17,610 --> 00:22:21,040 >> Kaj ĝuste de Bayes, ke ekvacio kiun mi montris, 457 00:22:21,040 --> 00:22:24,780 ni kreu ĉi frakcio. 458 00:22:24,780 --> 00:22:28,750 La sola afero, kiun vi vidas, ke la probablo de vorto donita la 459 00:22:28,750 --> 00:22:31,370 klaso ŝanĝoj depende en la klaso, ĉu ne? 460 00:22:31,370 --> 00:22:34,260 La nombro de "bebo" s, ke mi devas en Gaga estas malsama de Katy. 461 00:22:34,260 --> 00:22:37,640 La probablo de la klaso ankaŭ ŝanĝoj, ĉar ĝi estas nur la nombro 462 00:22:37,640 --> 00:22:39,740 de kantoj ĉiu el ili havas. 463 00:22:39,740 --> 00:22:43,980 >> Sed la probableco de la vorto mem tuj estos la sama por ĉiuj 464 00:22:43,980 --> 00:22:44,740 artistoj, right? 465 00:22:44,740 --> 00:22:47,150 Do la probablo de la vorto estas justa, kio estas la probablo de 466 00:22:47,150 --> 00:22:49,820 vidante, ke vorto en la Angla lingvo? 467 00:22:49,820 --> 00:22:51,420 Do ĝi estas la sama por ĉiuj el ili. 468 00:22:51,420 --> 00:22:55,790 Do ekde ĉi estas konstanto, ni povas nur Versxigxos ĉi kaj ne zorgas pri ĝi. 469 00:22:55,790 --> 00:23:00,230 Do tiu estos efektive la ekvacio, ni serĉas. 470 00:23:00,230 --> 00:23:03,360 >> Kaj se mi havas plurajn vortojn, mi estas ankoraŭ tuj havi la antaŭan 471 00:23:03,360 --> 00:23:04,610 probablo tie. 472 00:23:04,610 --> 00:23:06,980 La nura afero estas ke mi multiplikante la probablo de 473 00:23:06,980 --> 00:23:08,490 ĉiuj aliaj vortoj. 474 00:23:08,490 --> 00:23:10,110 Do mi multiplikante ĉiuj el ili. 475 00:23:10,110 --> 00:23:12,610 Havas sencon? 476 00:23:12,610 --> 00:23:18,440 Ĝi aspektas stranga sed esence signifas, Kalkuli la antaŭan de la klaso, kaj 477 00:23:18,440 --> 00:23:22,100 tiam multiplikas per la probablo de ĉiu de la vortoj estas en tiu klaso. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Kaj vi scias ke la probablo de vorto donita klaso tuj estos la 480 00:23:29,150 --> 00:23:34,520 nombro da fojoj vi vidas, ke vorto en tiu klaso, dividita per la nombro de 481 00:23:34,520 --> 00:23:37,020 vortoj havas en tiu klaso ĝenerale. 482 00:23:37,020 --> 00:23:37,990 Havas sencon? 483 00:23:37,990 --> 00:23:41,680 Ĝi estas simple kiel "bebo" estis 2 pli la nombro da vortoj kiujn 484 00:23:41,680 --> 00:23:43,020 Mi havis en la literoj. 485 00:23:43,020 --> 00:23:45,130 Do nur la frekvencon. 486 00:23:45,130 --> 00:23:46,260 >> Sed estas unu afero. 487 00:23:46,260 --> 00:23:51,250 Memoru, kiel mi montris, ke la probablo de "bebo" esti literoj 488 00:23:51,250 --> 00:23:56,350 de Katy Perry estis 0 nur ĉar Katy Perry ne havas "bebo" ĉe ĉiu? 489 00:23:56,350 --> 00:24:04,900 Sed sonas iom severa justaj simple diri ke la literoj ne povas esti el 490 00:24:04,900 --> 00:24:10,040 artisto simple ĉar ili ne havas Tiun vorton en aparta en ajna momento. 491 00:24:10,040 --> 00:24:13,330 >> Do vi povus nur diri, bone, se vi ne havas tiun vorton, mi tuj 492 00:24:13,330 --> 00:24:15,640 doni al vi pli malalta probablo, sed mi simple ne tuj 493 00:24:15,640 --> 00:24:17,420 doni al vi 0 tuj. 494 00:24:17,420 --> 00:24:21,040 Ĉar eble estis io kiel, "Fajro, fajro, fajro, fajro," kiu estas 495 00:24:21,040 --> 00:24:21,990 tute Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Kaj tiam "bebo", kaj ĝi nur iras al 0 tuj ĉar tie estis unu 497 00:24:26,060 --> 00:24:27,250 "Bebo." 498 00:24:27,250 --> 00:24:31,440 >> Do esence kion ni faras estas io vokis Laplaca suavización. 499 00:24:31,440 --> 00:24:36,260 Kaj tio nur signifas, ke mi donas iu probablo eĉ la vortojn 500 00:24:36,260 --> 00:24:37,850 ke ne ekzistas. 501 00:24:37,850 --> 00:24:43,170 Do kion mi faras estas ke kiam mi estas kalkulanta tion, mi ĉiam aldonas 1 al 502 00:24:43,170 --> 00:24:44,180 la numeratoro. 503 00:24:44,180 --> 00:24:48,060 Do eĉ se la vorto ne ekzistas, en ĉi tiu kazo, se tiu estas 0, mi estas ankoraŭ 504 00:24:48,060 --> 00:24:51,250 kalkuli tion kiel 1 pli ol la tuteca nombro de vortoj. 505 00:24:51,250 --> 00:24:55,060 Alie, mi alvenas kiom da vortoj Mi havas kaj mi aldonas 1. 506 00:24:55,060 --> 00:24:58,300 Do mi rakontante por ambaŭ kazoj. 507 00:24:58,300 --> 00:25:00,430 Havas sencon? 508 00:25:00,430 --> 00:25:03,060 >> Do nun ni fari kelkajn kodigon. 509 00:25:03,060 --> 00:25:06,440 Mi tuj devos fari ĝin sufiĉe rapide, sed ĝi estas nur gravas, ke vi 510 00:25:06,440 --> 00:25:08,600 knaboj komprenas la konceptojn. 511 00:25:08,600 --> 00:25:13,450 Do, kion ni provas fari Estas ĝuste apliki ĉi 512 00:25:13,450 --> 00:25:14,330 afero, kiun mi ĵus diris - 513 00:25:14,330 --> 00:25:19,110 Mi volas vin meti literojn el Lady Gaga kaj Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Kaj la programo tuj povos diri cxu tiuj novaj literoj estas de Gaga 515 00:25:22,980 --> 00:25:24,170 aŭ Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Havas sencon? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Do mi havas tiun programon mi iros voki classify.py. 519 00:25:30,710 --> 00:25:31,970 Do tiu estas Pitono. 520 00:25:31,970 --> 00:25:34,210 Ĝi estas nova programlingvo. 521 00:25:34,210 --> 00:25:38,020 Ĝi estas tre simila en iu vojojn al C kaj PHP. 522 00:25:38,020 --> 00:25:43,180 Ĝi estas simila, ĉar se vi volas lernu Pitono ekkoninte C, ĝi estas 523 00:25:43,180 --> 00:25:46,270 vere ne multo de defio nur ĉar Python estas multe pli facile 524 00:25:46,270 --> 00:25:47,520 ol C, antaux cxio. 525 00:25:47,520 --> 00:25:49,370 Kaj multe da aferoj estas jam implementado por vi. 526 00:25:49,370 --> 00:25:56,820 Do, kiom kiel PHP havas funkciojn ke ordigi liston, aŭ append ion 527 00:25:56,820 --> 00:25:58,780 al tabelo, aŭ bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python havas ĉiujn el tiuj tiel. 529 00:26:00,690 --> 00:26:05,960 >> Do mi simple tuj klarigos rapide kiel ni povus fari la klasifiko 530 00:26:05,960 --> 00:26:07,860 problemo por tie. 531 00:26:07,860 --> 00:26:13,230 Do diru ke en tiu kazo, mi devas literojn de Gaga kaj Katy Perry. 532 00:26:13,230 --> 00:26:21,880 La vojo, kiun mi havas tiujn literojn estas ke la unua vorto de la literoj estas 533 00:26:21,880 --> 00:26:25,250 la nomo de la artisto, kaj la resto estas la literoj. 534 00:26:25,250 --> 00:26:29,470 Do diru ke mi havas ĉi listo en kiuj la unua estas litero de Gaga. 535 00:26:29,470 --> 00:26:31,930 Do ĉi tie mi estas sur la ĝusta vojo. 536 00:26:31,930 --> 00:26:35,270 Kaj la sekvantan estas Katy, kaj ĝi havas ankaŭ la literojn. 537 00:26:35,270 --> 00:26:38,040 >> Do jen kiel vi rakontu variablo en Pitono. 538 00:26:38,040 --> 00:26:40,200 Vi ne devas doni la datumtipo. 539 00:26:40,200 --> 00:26:43,150 Vi nur skribi "literoj" speco de like en PHP. 540 00:26:43,150 --> 00:26:44,890 Havas sencon? 541 00:26:44,890 --> 00:26:47,770 >> Do kio estas la aferoj, kiujn mi devas kalkuli por povi kalkuli la 542 00:26:47,770 --> 00:26:49,360 probabloj? 543 00:26:49,360 --> 00:26:55,110 Mi devas kalkuli la "priores" de ĉiu el la diversaj 544 00:26:55,110 --> 00:26:56,710 klasoj kiuj mi havas. 545 00:26:56,710 --> 00:27:06,680 Mi devas kalkuli la "posteriors" aux preskaux la probablojn de 546 00:27:06,680 --> 00:27:12,150 ĉiu el la diversaj vortoj kiuj Mi povas havi por ĉiu artisto. 547 00:27:12,150 --> 00:27:17,210 Do ene Gaga, ekzemple, Mi iras havi liston de kiom da fojoj mi vidas 548 00:27:17,210 --> 00:27:19,250 cxiu el la vortoj. 549 00:27:19,250 --> 00:27:20,760 Havas sencon? 550 00:27:20,760 --> 00:27:25,370 >> Kaj fine, mi simple tuj havos listo nomata "vortoj" kiuj estas simple irante 551 00:27:25,370 --> 00:27:29,780 havi kiom da vortoj mi havas por ĉiu artisto. 552 00:27:29,780 --> 00:27:33,760 Do por Gaga, ekzemple, kiam mi rigardas al la literoj, mi havis, mi pensas, 24 553 00:27:33,760 --> 00:27:34,750 vortoj entute. 554 00:27:34,750 --> 00:27:38,970 Do tiu listo estas ĝuste tuj havi Gaga 24, kaj Katy alian numeron. 555 00:27:38,970 --> 00:27:40,130 Havas sencon? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Do nun, fakte, ni iru al la kodigo. 558 00:27:42,530 --> 00:27:45,270 Do en Python, vi povas efektive redonas amaseton da malsamaj 559 00:27:45,270 --> 00:27:46,630 aferojn de funkcio. 560 00:27:46,630 --> 00:27:50,810 Do mi iros por krei ĉi tiun funkcion nomata "kondicionalo", kiu tuj 561 00:27:50,810 --> 00:27:53,890 reveni ĉiu el tiuj aferoj, la "Priores", la "probablo" kaj la 562 00:27:53,890 --> 00:28:05,690 "Vortojn." Do "kondicionalo," kaj ĝi estas tuj estos nomante en "literoj." 563 00:28:05,690 --> 00:28:11,510 >> Do nun mi volas ke vi efektive skribi al ĉi tiu funkcio. 564 00:28:11,510 --> 00:28:17,750 Do la vojo, kiun mi povas skribi ĉi Funkcio estas mi nur difinis ĉi 565 00:28:17,750 --> 00:28:20,620 funkcii kun "def". Do mi faris "def kondicionalo, "kaj ĝin preni 566 00:28:20,620 --> 00:28:28,700 "Literoj." Kaj kion tio tuj fari Estas, unue, mi havas mian priores 567 00:28:28,700 --> 00:28:31,030 ke mi volas kalkuli. 568 00:28:31,030 --> 00:28:34,330 >> Do la vojo, kiun mi povas fari ĉi tion estas krei vortaro en Python, kio 569 00:28:34,330 --> 00:28:37,320 estas preskaux la samo kiel hash tablo, aŭ ĝi estas kiel ripeta 570 00:28:37,320 --> 00:28:40,480 tabelo en PHP. 571 00:28:40,480 --> 00:28:44,150 Jen kiel mi deklaras vortaron. 572 00:28:44,150 --> 00:28:53,580 Kaj esence kion tio signifas, ke priores de Gaga estas 0.5, por ekzemplo, se 573 00:28:53,580 --> 00:28:57,200 50% de la literoj estas de Gaga, 50% estas de Katy. 574 00:28:57,200 --> 00:28:58,450 Havas sencon? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Do mi devos eltrovi kiel kalkuli la priores. 577 00:29:03,680 --> 00:29:07,120 >> La proksimaj ke mi devas fari, ankaŭ, estas la probabloj kaj la vortojn. 578 00:29:07,120 --> 00:29:17,100 Do la probablojn de Gaga estas la listo de ĉiuj probabloj, ke mi 579 00:29:17,100 --> 00:29:19,160 havas por cxiu el la vortoj por Gaga. 580 00:29:19,160 --> 00:29:23,880 Do, se mi iras al probabloj de Gaga "Bebo", ekzemple, gxin donos al mi 581 00:29:23,880 --> 00:29:28,750 iu kiel 2 pli ol la 24 en tiu kazo. 582 00:29:28,750 --> 00:29:30,070 Havas sencon? 583 00:29:30,070 --> 00:29:36,120 Do mi iros al "probabloj," iru al la "Gaga" sitelo kiu havas liston de ĉiuj 584 00:29:36,120 --> 00:29:40,550 la Gaga vortojn, tiam mi iros al "bebo", kaj mi vidas la probablo. 585 00:29:40,550 --> 00:29:45,940 >> Kaj fine mi havas ĉi "Vortoj" vortaro. 586 00:29:45,940 --> 00:29:53,620 Do jen, "probabloj." Kaj poste "Vortojn." Do, se mi faras "vortoj", "Gaga," 587 00:29:53,620 --> 00:29:58,330 kio okazos estas ke ĝi estas tuj donu al mi 24, dirante, ke mi 588 00:29:58,330 --> 00:30:01,990 havi 24 vortojn ene literojn el Gaga. 589 00:30:01,990 --> 00:30:04,110 Havas sencon? 590 00:30:04,110 --> 00:30:07,070 Do jen, "vortoj" egalas dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Do kion mi tuj faros estas Mi tuj persisti super ĉiu de la literoj, tiel 593 00:30:12,210 --> 00:30:14,490 ĉiu de la kordoj, ke Mi havas en la listo. 594 00:30:14,490 --> 00:30:18,040 Kaj mi iros por kalkuli tiujn aferojn por ĉiu el la kandidatoj. 595 00:30:18,040 --> 00:30:19,950 Havas sencon? 596 00:30:19,950 --> 00:30:21,700 Do mi devas fari por buklo. 597 00:30:21,700 --> 00:30:26,300 >> Do en Python, kion mi povas fari estas "por linio en literoj. "La sama afero kiel 598 00:30:26,300 --> 00:30:28,000 "Por ĉiu" deklaron en PHP. 599 00:30:28,000 --> 00:30:33,420 Memoru, kiel se ĝi estis PHP mi povis diru "por ĉiu litero, kiel 600 00:30:33,420 --> 00:30:35,220 linio. "Makes senco? 601 00:30:35,220 --> 00:30:38,900 Do mi prenas unu el la linioj, en tiu kazo, tiu ŝnuro kaj la sekvantan 602 00:30:38,900 --> 00:30:44,540 ŝnuro tiel por ĉiu el la linioj, kio mi estas tuj fari estas unue, mi tuj 603 00:30:44,540 --> 00:30:49,150 fendi jenan linion en listo de vortoj apartigita per spacoj. 604 00:30:49,150 --> 00:30:53,730 >> Do la malvarmeta afero pri Pitono estas ke vi povus simple Google kiel "Kiel mi povos 605 00:30:53,730 --> 00:30:58,220 fendi ĉenon en vortojn? "Kaj ĝi estas tuj rakontos al vi kiel fari ĝin. 606 00:30:58,220 --> 00:31:04,890 Kaj la maniero por fari ĝin, ĝi estas nur "linio = Line.split () ", kaj ĝi estas esence 607 00:31:04,890 --> 00:31:08,640 tuj donos al vi liston kun la cxiu el la vortoj ĉi tie. 608 00:31:08,640 --> 00:31:09,620 Havas sencon? 609 00:31:09,620 --> 00:31:15,870 Do nun, ke mi faris por ke mi volas scii kiu estas la kantisto de tiu kanto. 610 00:31:15,870 --> 00:31:20,130 Kaj fari tion mi nur devos akiri unua ero de la tabelo, right? 611 00:31:20,130 --> 00:31:26,390 Do mi povas nur diri ke mi "kantisto = Linio (0) "Makes senco? 612 00:31:26,390 --> 00:31:32,010 >> Kaj tiam tion, kion mi devas fari estas, antaŭ ĉiuj, Mi tuj ĝisdatigi kiom 613 00:31:32,010 --> 00:31:36,130 vortoj Mi havas sub "Gaga." tial mi estas nur tuj kalkuli kiom da vortoj mi 614 00:31:36,130 --> 00:31:38,690 havas en tiu listo, right? 615 00:31:38,690 --> 00:31:41,910 Ĉar ĉi tiu estas kiom da vortoj mi devas en la literojn kaj mi simple tuj 616 00:31:41,910 --> 00:31:44,120 aldonu ĝin al la "Gaga" tabelo. 617 00:31:44,120 --> 00:31:47,090 Ĉu tio havas sencon? 618 00:31:47,090 --> 00:31:49,010 Ne enfokusigi tro multe pri la sintakso. 619 00:31:49,010 --> 00:31:50,430 Pensu pli pri la konceptoj. 620 00:31:50,430 --> 00:31:52,400 Tio estas la plej grava parto. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Do kion mi povas fari estas, se "Gaga" estas Jam en tiu listo, tiel ", se kantisto en 623 00:32:00,260 --> 00:32:03,190 vortoj "kio signifas ke mi jam havas vortojn de Gaga. 624 00:32:03,190 --> 00:32:06,640 Mi nur volas aldoni la aldona vortojn por tio. 625 00:32:06,640 --> 00:32:15,810 Do kion mi faras estas "vortoj (kantistino) + = Len (linio) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Kaj tiam mi povas nur fari la lauxlonge de la linio. 627 00:32:18,250 --> 00:32:21,860 Do kiom da elementoj mi havas en la tabelo. 628 00:32:21,860 --> 00:32:27,060 Kaj mi devas fari minus 1 simple ĉar la unua elemento de la tabelo estas nur 629 00:32:27,060 --> 00:32:29,180 kantistino kaj tiuj ne estas literoj. 630 00:32:29,180 --> 00:32:31,420 Havas sencon? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Alie" signifas ke mi volas reale enŝovu Gaga en la listo. 633 00:32:35,820 --> 00:32:45,990 Do mi simple faras "vortojn (kantistino) = Len (linio) - 1, "sorry. 634 00:32:45,990 --> 00:32:49,200 Do la sola diferenco inter la du linioj estas ke ĉi tiu, ĝi ne 635 00:32:49,200 --> 00:32:51,080 ekzistas tamen, tial mi estas nur inicializar ĝin. 636 00:32:51,080 --> 00:32:53,820 Ĉi unu mi fakte aldono. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Do tio estis aldono al vortoj. 639 00:32:59,480 --> 00:33:03,040 >> Nun mi volas aldoni al la priores. 640 00:33:03,040 --> 00:33:05,480 Do kiel mi kalkulas la priores? 641 00:33:05,480 --> 00:33:11,580 La priores povas esti kalkulita per kiom da fojoj. 642 00:33:11,580 --> 00:33:15,340 Do, kiom da fojoj vi vidas, ke kantisto inter ĉiu de la kantistoj, ke vi 643 00:33:15,340 --> 00:33:16,380 havi, ĉu ne? 644 00:33:16,380 --> 00:33:18,810 Do por Gaga kaj Katy Perry, en tiu kazo, mi vidas Gaga 645 00:33:18,810 --> 00:33:20,570 unufoje, Katy Perry unufoje. 646 00:33:20,570 --> 00:33:23,320 >> Do esence la priores por Gaga kaj por Katy Perry farus 647 00:33:23,320 --> 00:33:24,390 nur unu, ĉu ne? 648 00:33:24,390 --> 00:33:26,500 Vi nur, kiom da fojoj Mi vidas la artisto. 649 00:33:26,500 --> 00:33:28,740 Do tio estas tre facila al kalkuli. 650 00:33:28,740 --> 00:33:34,100 Mi povas apenaŭ ion similan funkcion kiel "se kantisto en priores, "mi simple irante 651 00:33:34,100 --> 00:33:38,970 aldoni 1 al iliaj priores skatolo. 652 00:33:38,970 --> 00:33:51,000 Do, "priores (kanti)" + = 1 "kaj poste" pli " Mi iras al fari "priores (kantistino) 653 00:33:51,000 --> 00:33:55,000 = 1. "Makes senco? 654 00:33:55,000 --> 00:34:00,080 >> Do, se ĝi ne ekzistas mi ĵus metis kiel 1, alie mi simple aldoni 1. 655 00:34:00,080 --> 00:34:11,280 OK, do nun ĉion, kion mi lasis fari Estas ankaŭ aldoni ĉiu el la vortoj al la 656 00:34:11,280 --> 00:34:12,290 probabloj. 657 00:34:12,290 --> 00:34:14,889 Do mi devos kalkuli kiom da fojoj Mi revidos unu el la vortoj. 658 00:34:14,889 --> 00:34:18,780 Do mi simple devos fari alian por buklo en la linio. 659 00:34:18,780 --> 00:34:25,190 >> Do unua afero, kiun mi tuj fari estas kontroli, ĉu la kantistino jam havas 660 00:34:25,190 --> 00:34:26,969 probabloj tabelo. 661 00:34:26,969 --> 00:34:31,739 Do mi kontrolanta se la kantisto ne havi probabloj tabelo, mi estas nur 662 00:34:31,739 --> 00:34:34,480 tuj pravalorizi unu por ili. 663 00:34:34,480 --> 00:34:36,400 Ĝi ne estas eĉ tabelo, sorry, ĝi estas vortaro. 664 00:34:36,400 --> 00:34:43,080 Do la probablojn de kantistino tuj esti malfermita vortaron, do mi estas 665 00:34:43,080 --> 00:34:45,830 nur inicializar vortaron por ĝi. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Kaj nun mi povas efektive fari por buklo kalkuli cxiu el la vortoj ' 668 00:34:58,330 --> 00:35:00,604 probabloj. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Do kion mi povas fari estas por buklo. 671 00:35:04,160 --> 00:35:06,590 Do mi simple tuj persisti super la tabelo. 672 00:35:06,590 --> 00:35:15,320 Do la vojo, kiun mi povas fari tion en Python Estas "por i en rango." De 1 673 00:35:15,320 --> 00:35:19,200 ĉar mi volas komenci en la dua elemento, ĉar la unua estas la 674 00:35:19,200 --> 00:35:20,260 kantistino nomo. 675 00:35:20,260 --> 00:35:24,990 Do el unu ĝis la lauxlonge de la linio. 676 00:35:24,990 --> 00:35:29,760 Kaj kiam mi iras gxi efektive iru el kiel tie de 1 ĝis len de la 677 00:35:29,760 --> 00:35:30,740 linio minus 1. 678 00:35:30,740 --> 00:35:33,810 Do ĝi jam faras tion fari n minus 1 por arrays kiu estas tre 679 00:35:33,810 --> 00:35:35,500 oportuna. 680 00:35:35,500 --> 00:35:37,850 Havas sencon? 681 00:35:37,850 --> 00:35:42,770 >> Do por ĉiu el tiuj, kion Mi tuj fari estas, ĝuste kiel en la aliaj unu, 682 00:35:42,770 --> 00:35:50,320 Mi iras al kontroli, ĉu la vorto en tiu pozicio en la linio estas jam en 683 00:35:50,320 --> 00:35:51,570 probabloj. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Kaj tiam mi diris tie ĉi, probabloj vortoj, kiel en mi metis 686 00:35:57,260 --> 00:35:58,400 "Probabloj (kantistino)". 687 00:35:58,400 --> 00:35:59,390 Do la nomo de la kantisto. 688 00:35:59,390 --> 00:36:03,450 Do, se ĝi estas jam en "Probabilit (kantistino)", tio signifas, ke mi 689 00:36:03,450 --> 00:36:11,960 volas aldoni 1 al ĝi, do mi tuj do "probabloj (kantistino)", kaj la 690 00:36:11,960 --> 00:36:14,100 vorto nomas "linia (i)". 691 00:36:14,100 --> 00:36:22,630 Mi tuj aldonos 1 kaj "pli" Mi estas nur tuj pravalorizi ĝin al 1. 692 00:36:22,630 --> 00:36:23,880 "Linio (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Havas sencon? 695 00:36:28,420 --> 00:36:30,180 >> Do, mi kalkulis ĉiujn arrays. 696 00:36:30,180 --> 00:36:36,580 Do, nun ĉio, kion mi devas fari por ĉi tiu estas nur "reveni priores, 697 00:36:36,580 --> 00:36:43,230 probabloj kaj vortoj. "Atendu rigardu, cxu tie estas iu, OK. 698 00:36:43,230 --> 00:36:45,690 Ŝajnas ĉio laboras ĝis nun. 699 00:36:45,690 --> 00:36:46,900 Do, tio sencas? 700 00:36:46,900 --> 00:36:47,750 Iel? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Do nun mi havas cxiujn probabloj. 703 00:36:51,980 --> 00:36:55,100 Do nun la sola afero, kiun mi forlasis estas nur por havi tiun aferon, ke 704 00:36:55,100 --> 00:36:58,650 kalkulas la produto de ĉiuj probabloj kiam mi ricevas la literon. 705 00:36:58,650 --> 00:37:06,270 >> Do diru ke mi volas nun nomas tiun funkcion "klasifiki ()", kaj la 706 00:37:06,270 --> 00:37:08,880 afero, kiun funkcion prenas estas nur argumento. 707 00:37:08,880 --> 00:37:13,170 Diru "Baby, I am on Fire" kaj ĝi estas tuj diveni kio estas la 708 00:37:13,170 --> 00:37:14,490 probablo ke tiu estas Gaga? 709 00:37:14,490 --> 00:37:16,405 Kio estas la probablo ke tio estas Katie? 710 00:37:16,405 --> 00:37:19,690 Sonas bone? 711 00:37:19,690 --> 00:37:25,750 Do mi simple tuj devas krei nova funkcio nomita "klasifiki ()", kaj 712 00:37:25,750 --> 00:37:29,180 ĝi tuj preni iun literon tiel. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Kaj krom la literoj mi ankaŭ devas sendi la priores, la 715 00:37:36,160 --> 00:37:37,700 probabloj kaj la vortojn. 716 00:37:37,700 --> 00:37:44,000 Do mi tuj sendos literoj, priores, probabloj, vortoj. 717 00:37:44,000 --> 00:37:51,840 >> Do tiu prenas literon, priores, probabloj, vortoj. 718 00:37:51,840 --> 00:37:53,530 Do, kion signifas tio fari? 719 00:37:53,530 --> 00:37:57,180 Ĝi esence tuj iros tra ĉiuj La eblaj kandidatoj, kiujn vi 720 00:37:57,180 --> 00:37:58,510 havi kiel kantisto. 721 00:37:58,510 --> 00:37:59,425 Kaj kie estas tiuj kandidatoj? 722 00:37:59,425 --> 00:38:01,020 Ili estas en la priores, right? 723 00:38:01,020 --> 00:38:02,710 Do mi havas cxiujn el tiuj ekzistas. 724 00:38:02,710 --> 00:38:07,870 Do mi tuj havos vortaro de ĉiuj eblaj kandidatoj. 725 00:38:07,870 --> 00:38:14,220 Kaj tiam por ĉiu kandidato en la priores, do tio signifas ke ĝi estas tuj 726 00:38:14,220 --> 00:38:17,740 esti Gaga, Katie se mi havis plu estus pli. 727 00:38:17,740 --> 00:38:20,410 Mi iras al komencu kalkuli tiu probablo. 728 00:38:20,410 --> 00:38:28,310 La probablo, kiel ni vidis en la PowerPoint estas la antaŭan fojojn la 729 00:38:28,310 --> 00:38:30,800 produkto de ĉiu el la aliaj probabloj. 730 00:38:30,800 --> 00:38:32,520 >> Do mi povas fari la saman ĉi tie. 731 00:38:32,520 --> 00:38:36,330 Mi povas nur fari probablo estas komence nur la antaŭan. 732 00:38:36,330 --> 00:38:40,340 Do priores de la kandidato. 733 00:38:40,340 --> 00:38:40,870 Ĝuste? 734 00:38:40,870 --> 00:38:45,360 Kaj nun mi devas persisti super ĉiuj vortoj kiujn mi havas en la literoj estos 735 00:38:45,360 --> 00:38:48,820 povos aldoni la probablo por ĉiu el ili, OK? 736 00:38:48,820 --> 00:38:57,900 Do, "ĉar vorto en literoj" kion mi iros fari estas, se la vorto estas en 737 00:38:57,900 --> 00:39:01,640 "Probabloj (kandidato)", kiu signifas ke ĝi estas vorto, kiun la 738 00:39:01,640 --> 00:39:03,640 kandidato havas en siaj literoj - 739 00:39:03,640 --> 00:39:05,940 ekzemple, "bebo" por Gaga - 740 00:39:05,940 --> 00:39:11,710 kion mi tuj faros estas, ke la probablo tuj pligrandigxu 741 00:39:11,710 --> 00:39:22,420 per 1 plus la probablojn de la kandidato por tiu vorto. 742 00:39:22,420 --> 00:39:25,710 Kaj ĝi nomiĝas "vorto". 743 00:39:25,710 --> 00:39:32,440 Ĉi dividita per la nombro de vortoj ke mi havas por tiu kandidato. 744 00:39:32,440 --> 00:39:37,450 La tuta nombro de vortoj kiujn mi ne havas cxar la kantistino, ke mi rigardas. 745 00:39:37,450 --> 00:39:40,290 >> "Else." tio signifas ke ĝi estas nova vorto tial ĝi estus kiel ekzemple 746 00:39:40,290 --> 00:39:41,860 "Fajro" por Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Do mi simple volas fari 1 pli "Vorto (kandidato)". 748 00:39:45,760 --> 00:39:47,710 Do mi ne volas meti tiun terminon tie. 749 00:39:47,710 --> 00:39:50,010 >> Do ĝi tuj estos esence transskribado kaj alglui ĉi. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Sed mi tuj forigi tiun parton. 752 00:39:56,000 --> 00:39:57,610 Do ĝi estas ĝuste tuj estos 1 pli ol tio. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Sonas bone? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Kaj nun, je la fino, mi simple tuj presi la nomon de la kandidato kaj 757 00:40:09,700 --> 00:40:15,750 la probablo, ke vi havas de havanta la S en siaj tekstoj. 758 00:40:15,750 --> 00:40:16,200 Havas sencon? 759 00:40:16,200 --> 00:40:18,390 Kaj mi vere ne eĉ bezonas tiun vortaron. 760 00:40:18,390 --> 00:40:19,510 Havas sencon? 761 00:40:19,510 --> 00:40:21,810 >> Do, ni vidu, se tio vere funkcias. 762 00:40:21,810 --> 00:40:24,880 Do se mi kuros ĉi tion, ĝi ne funkcias. 763 00:40:24,880 --> 00:40:26,130 Atendi unu sekundo. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Vortoj (kandidato)", "vortoj (kandidato)", tio estas 766 00:40:31,720 --> 00:40:33,750 la nomo de la tabelo. 767 00:40:33,750 --> 00:40:41,435 OK Do, ĝi diras, ke estas kelkaj korektoj por kandidato en priores. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Lasu min nur chill iomete. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Ni provu. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Do ĝi donas Katy Perry havas ĉi probablo de ĉi fojojn 10 al la 774 00:40:58,710 --> 00:41:02,200 minus 7, kaj Gaga havas ĉi fojojn 10 al la minus 6. 775 00:41:02,200 --> 00:41:05,610 Do vi vidas en gxi montras ke Gaga havas pli alta probablo. 776 00:41:05,610 --> 00:41:09,260 Do "Baby, mi estas on Fire" estas probable Gaga kanto. 777 00:41:09,260 --> 00:41:10,580 Havas sencon? 778 00:41:10,580 --> 00:41:12,030 Do ĉi tiu estas kion ni faris. 779 00:41:12,030 --> 00:41:16,010 >> Tiu kodo estas tuj estos eldonitaj en linio, tiel vi uloj povas kontroli ĝin. 780 00:41:16,010 --> 00:41:20,720 Eble uzu iom da ĝi por se vi volas fari projekton aŭ io simila. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Tio estis nur por montri kio komputa 783 00:41:25,930 --> 00:41:27,230 lingvistiko kodo aspektas. 784 00:41:27,230 --> 00:41:33,040 Sed nun ni iru al pli alta nivelo vazaro. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Do la aliaj problemoj Mi parolis pri - 787 00:41:35,150 --> 00:41:37,550 la segmentación problemo estas la unua el ili. 788 00:41:37,550 --> 00:41:40,820 Do vi havas ĉi tie la japana. 789 00:41:40,820 --> 00:41:43,420 Kaj tiam vi vidos, ke ne ekzistas spacoj. 790 00:41:43,420 --> 00:41:49,110 Do tiu estas esence signifas ke ĝi estas la supro de la seĝo, right? 791 00:41:49,110 --> 00:41:50,550 Vi parolas japane? 792 00:41:50,550 --> 00:41:52,840 Ĝi estas la supron de la seĝo, ĉu ne? 793 00:41:52,840 --> 00:41:54,480 >> Lernanto: Mi ne scias kion la kanji tie estas. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Freitas: Ĝi estas [parolante japana] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Do ĝi esence signifas seĝo de supro. 797 00:42:00,960 --> 00:42:03,620 Do se vi devis meti spaco estus tie. 798 00:42:03,620 --> 00:42:05,970 Kaj tiam vi havos [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Kiu esence signifas ro Ueda. 800 00:42:09,040 --> 00:42:13,180 Kaj vi vidas, ke "Ueda" kaj vi havos spaco kaj tiam "sankta". Do vi vidas, ke 801 00:42:13,180 --> 00:42:15,470 tie vi "ue" estas kiel por si mem. 802 00:42:15,470 --> 00:42:17,750 Kaj jen ĝi havas karakteron apud tio. 803 00:42:17,750 --> 00:42:21,720 >> Do gxi ne estas kvazaý en tiuj lingvoj karakteroj signifante vorton tiel vi 804 00:42:21,720 --> 00:42:23,980 nur metis multajn spacojn. 805 00:42:23,980 --> 00:42:25,500 Signoj rilati al ĉiu alia. 806 00:42:25,500 --> 00:42:28,680 Kaj ili povas esti kune kiel du, tri, tiu. 807 00:42:28,680 --> 00:42:34,520 Do vi fakte devas krei ian de maniero meti tiujn spacojn. 808 00:42:34,520 --> 00:42:38,850 >> Kaj tiu afero estas ke kiam vi ricevas datumojn de tiuj aziaj lingvoj, 809 00:42:38,850 --> 00:42:40,580 ĉiu venas unsegmented. 810 00:42:40,580 --> 00:42:45,940 Ĉar neniu, kiu skribas la japana aŭ ĉinoj skribas per spacoj. 811 00:42:45,940 --> 00:42:48,200 Kiam ajn vi skribas ĉina, Japana vi simple skribos ĉio 812 00:42:48,200 --> 00:42:48,710 sen spacoj. 813 00:42:48,710 --> 00:42:52,060 Ĝi eĉ ne havas sencon meti spacojn. 814 00:42:52,060 --> 00:42:57,960 Do tiam, kiam vi ricevas datumojn de, iuj Orienta azia lingvo, se vi volas 815 00:42:57,960 --> 00:43:00,760 efektive fari ion kun tiu vi devas segmento unue. 816 00:43:00,760 --> 00:43:05,130 >> Pensu pri fari la ekzemplo de la literojn sen spacoj. 817 00:43:05,130 --> 00:43:07,950 Do la sola litero ke vi havas Estos frazoj, ĉu ne? 818 00:43:07,950 --> 00:43:09,470 Apartigita per periodoj. 819 00:43:09,470 --> 00:43:13,930 Sed tiam havanta nur la frazo volo ne vere helpas je donante informojn 820 00:43:13,930 --> 00:43:17,760 el kiuj tiuj literoj estas de. 821 00:43:17,760 --> 00:43:18,120 Ĝuste? 822 00:43:18,120 --> 00:43:20,010 Do vi devus metas spacojn unue. 823 00:43:20,010 --> 00:43:21,990 Do kiel vi povas fari tion? 824 00:43:21,990 --> 00:43:24,920 >> Do tiam venas la ideo de lingvo modelon kiu estas io vere 825 00:43:24,920 --> 00:43:26,870 grava por komputa lingvistiko. 826 00:43:26,870 --> 00:43:32,790 Do lingvon modelo estas esence tablo de probabloj ke shows 827 00:43:32,790 --> 00:43:36,260 antaŭ ĉio, kio estas la probablo havi la vorton en lingvo? 828 00:43:36,260 --> 00:43:39,590 Do montrante kiom ofta vorto estas. 829 00:43:39,590 --> 00:43:43,130 Kaj tiam ankaŭ montras la rilaton inter la vortoj en frazo. 830 00:43:43,130 --> 00:43:51,500 >> Do la ĉefa ideo estas, se fremdulo venis al vi kaj diris frazo por 831 00:43:51,500 --> 00:43:55,600 vi, kio estas la probablo ke, pro Ekzemple, "ĉi tiu estas mia fratino [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 Estis la frazo ke la persono diris? 833 00:43:57,480 --> 00:44:00,380 Do evidente iuj frazoj estas pli komuna ol aliaj. 834 00:44:00,380 --> 00:44:04,450 Ekzemple, "bonan matenon", aŭ "bonaj nokto "aŭ" hey tie, "estas multe pli 835 00:44:04,450 --> 00:44:08,260 komuna ol plej frazoj ke ni havas la anglan. 836 00:44:08,260 --> 00:44:11,060 Do kial estas tiuj frazoj pli ofta? 837 00:44:11,060 --> 00:44:14,060 >> Unue, ĝi estas ĉar vi havas vortoj, kiuj estas pli ofta. 838 00:44:14,060 --> 00:44:20,180 Do, ekzemple, se vi diras, la hundo estas granda, kaj la hundo estas giganta, vi 839 00:44:20,180 --> 00:44:23,880 kutime probable aŭdi la hundo estas granda pli ofte pro "granda" estas pli 840 00:44:23,880 --> 00:44:27,260 oftaj en Esperanto ol "gigantaj". Do, unu el la 841 00:44:27,260 --> 00:44:30,100 tio estas la vorto de ofteco. 842 00:44:30,100 --> 00:44:34,490 >> La dua afero kiu estas vere grava estas gxuste la 843 00:44:34,490 --> 00:44:35,490 ordo de la vortoj. 844 00:44:35,490 --> 00:44:39,500 Do, ĝi estas komuna al diri "la kato estas interne de la skatolo. "sed vi ne kutimas 845 00:44:39,500 --> 00:44:44,250 vidi en "La skatolo ene estas la kato." tiom vi vidas, ke tie estas iuj graveco 846 00:44:44,250 --> 00:44:46,030 en la ordo de la vortoj. 847 00:44:46,030 --> 00:44:50,160 Vi ne povas simple diri ke tiuj du frazoj havas la sama probablo 848 00:44:50,160 --> 00:44:53,010 nur ĉar ili havas la samajn vortojn. 849 00:44:53,010 --> 00:44:55,550 Vi vere devas zorgi pri ordo kiel bone. 850 00:44:55,550 --> 00:44:57,650 Havas sencon? 851 00:44:57,650 --> 00:44:59,490 >> Do kion ni faru? 852 00:44:59,490 --> 00:45:01,550 Do, kion mi povus provi atingi vin? 853 00:45:01,550 --> 00:45:04,400 Mi provas akiri al vi, kion ni vokas la n-gramo modeloj. 854 00:45:04,400 --> 00:45:09,095 Do la n-gramo modeloj baze supozi kiu por ĉiu vorto, kiu 855 00:45:09,095 --> 00:45:10,960 vi havas en frazo. 856 00:45:10,960 --> 00:45:15,020 Ĝi estas la probablo de havi tiun vorto tie dependas ne nur de la 857 00:45:15,020 --> 00:45:18,395 ofteco de tiu vorto en la lingvo, sed ankaŭ en la vortoj, ke 858 00:45:18,395 --> 00:45:19,860 ili ĉirkaŭas ĝin. 859 00:45:19,860 --> 00:45:25,810 >> Do ekzemple, kutime, kiam vi vidos iu kiel sur aŭ ĉe vi estas 860 00:45:25,810 --> 00:45:28,040 probable tuj vidas substantivo post ĝin, ĉu ne? 861 00:45:28,040 --> 00:45:31,750 Ĉar, kiam vi havas prepozicion kutime prenas substantivon post tio. 862 00:45:31,750 --> 00:45:35,540 Aŭ se vi havas verbon, kiu estas transitiva vi kutime tuj 863 00:45:35,540 --> 00:45:36,630 havas substantiva frazparto. 864 00:45:36,630 --> 00:45:38,780 Do ĝi tuj devos substantiva ie ĉirkaŭ ĝi. 865 00:45:38,780 --> 00:45:44,950 >> Do, esence, kio faras estas ke gxi konsideras la probablo de estante 866 00:45:44,950 --> 00:45:47,960 vortoj apud la alia, kiam vi kalkuli la 867 00:45:47,960 --> 00:45:49,050 probablo de frazo. 868 00:45:49,050 --> 00:45:50,960 Kaj tio estas kia lingvo modelo estas esence. 869 00:45:50,960 --> 00:45:54,620 Nur por diri kio estas la probablo havi specifan 870 00:45:54,620 --> 00:45:57,120 frazo en lingvo? 871 00:45:57,120 --> 00:45:59,110 Do kial estas tiom utila, esence? 872 00:45:59,110 --> 00:46:02,390 Kaj antaŭ ĉio, kio estas n-gramo modelo, do? 873 00:46:02,390 --> 00:46:08,850 >> Do n-gramo modelo signifas ke ĉiu vorto dependas de la 874 00:46:08,850 --> 00:46:12,700 sekvanta N minus 1 vortoj. 875 00:46:12,700 --> 00:46:18,150 Do, esence, tio signifas, ke se mi rigardas, ekzemple, ĉe la CS50 TF kiam 876 00:46:18,150 --> 00:46:21,500 Mi kalkulas la probablecon de la frazo, vi estos kiel "la 877 00:46:21,500 --> 00:46:25,280 probablo de estante la vorto "la" tempoj la probablo de estante "la 878 00:46:25,280 --> 00:46:31,720 CS50 "tempoj la probablo de estante "La CS50 TF." Do, esence, mi rigardas 879 00:46:31,720 --> 00:46:35,720 ĉiuj eblaj vojoj de streĉanta ĝin. 880 00:46:35,720 --> 00:46:41,870 >> Kaj tiam kutime kiam vi faras tion, kiel en projekto, vi metis N por esti 881 00:46:41,870 --> 00:46:42,600 malaltan valoron. 882 00:46:42,600 --> 00:46:45,930 Do, ĝenerale havas bigrams aŭ trigrams. 883 00:46:45,930 --> 00:46:51,090 Por ke vi simple kalkuli du vortoj, grupo de du vortoj, aŭ tri vortoj, 884 00:46:51,090 --> 00:46:52,620 nur por lego temoj. 885 00:46:52,620 --> 00:46:56,395 Kaj ankaŭ ĉar eble se vi havas iu kiel "La CS50 TF." Kiam vi 886 00:46:56,395 --> 00:47:00,510 havi "TF," ĝi estas tre grava ke "CS50" estas pli proksima al ĝi, ĉu ne? 887 00:47:00,510 --> 00:47:04,050 Tiuj du aferoj estas kutime apud la alia. 888 00:47:04,050 --> 00:47:06,410 >> Se vi pensas pri "TF," gxi estas probable tuj havas, kion 889 00:47:06,410 --> 00:47:07,890 klaso ĝi estas TF'ing por. 890 00:47:07,890 --> 00:47:11,330 Ankaŭ "la" estas vere grava por CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Sed se vi havas ion kiel "La CS50 TF iris al klaso, kaj donis siajn 892 00:47:14,570 --> 00:47:20,060 studentoj kelkaj dolĉaĵoj. "" Frandaĵo "kaj" la " havas nenian rilaton vere, ĉu ne? 893 00:47:20,060 --> 00:47:23,670 Ili estas tiel malproksimaj unu de alia, kiun ĝi ne vere gravas kion 894 00:47:23,670 --> 00:47:25,050 vortoj vi havas. 895 00:47:25,050 --> 00:47:31,210 >> Do per faras bigram aux trigram, ĝi nur signifas, ke vi estas limiganta 896 00:47:31,210 --> 00:47:33,430 vin al iuj vortoj ke estas ĉirkaŭ. 897 00:47:33,430 --> 00:47:35,810 Havas sencon? 898 00:47:35,810 --> 00:47:40,630 Do, kiam vi volas fari segmentación, esence, kion vi volas fari estas vidi 899 00:47:40,630 --> 00:47:44,850 kio estas ĉiuj eblaj manieroj kiuj vi povas segmenti la frazo. 900 00:47:44,850 --> 00:47:49,090 >> Tia, ke vi vidis, kio estas la probablo de ĉiu el tiuj frazoj 901 00:47:49,090 --> 00:47:50,880 ekzistantaj en la lingvo? 902 00:47:50,880 --> 00:47:53,410 Do, kion vi faras estas kiel, nu, ni Mi provos meti spacon ĉi tie. 903 00:47:53,410 --> 00:47:55,570 Do vi metu spacon tie kaj vi vidos, kia estas la 904 00:47:55,570 --> 00:47:57,590 probablo de tiu frazo? 905 00:47:57,590 --> 00:48:00,240 Do vi estas kiel, nu bone, eble kiu ne estis tio bona. 906 00:48:00,240 --> 00:48:03,420 Do mi metis spacon tie kaj spaco tie, kaj vi kalkuli la 907 00:48:03,420 --> 00:48:06,240 probablo nun, kaj vi vidos ke ĝi estas pli alta probablo. 908 00:48:06,240 --> 00:48:12,160 >> Do tiu estas algoritmo nomata TANGO segmentación algoritmo, kiu estas 909 00:48:12,160 --> 00:48:14,990 efektive io kiu estus vere cool por projekto, kiun 910 00:48:14,990 --> 00:48:20,860 baze prenas unsegmented teksto kiun povas esti japano aŭ ĉino aŭ eble 911 00:48:20,860 --> 00:48:26,080 Angla sen spacoj kaj klopodas meti spacoj inter vortoj kaj ĝi faras 912 00:48:26,080 --> 00:48:29,120 ke per uzado de lingvo modelo kaj klopodi por vidi kio estas la plej alta 913 00:48:29,120 --> 00:48:31,270 probablo vi povas akiri. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Do tiu estas segmentación. 916 00:48:33,800 --> 00:48:35,450 >> Nun sintakso. 917 00:48:35,450 --> 00:48:40,940 Do, sintakso estas uzata por tiom multajn aferojn ĝuste nun. 918 00:48:40,940 --> 00:48:44,880 Do por Diagramo Search, por Siri por preskaux iu ajn speco de natura 919 00:48:44,880 --> 00:48:46,490 lingvo prilaborado vi havas. 920 00:48:46,490 --> 00:48:49,140 Do kio estas la grava aferojn pri sintakso? 921 00:48:49,140 --> 00:48:52,390 Do, frazoj ĝenerale havas kion ni nomas voĉdonantoj. 922 00:48:52,390 --> 00:48:57,080 Kio estas speco de kiel grupoj de vortoj ke havi funkcion en la frazo. 923 00:48:57,080 --> 00:49:02,220 Kaj oni ne povas vere esti aparte de ĉiu alia. 924 00:49:02,220 --> 00:49:07,380 >> Do, se mi diros, ekzemple, "Lauren amas Milo. "Mi scias ke" Lauren "estas 925 00:49:07,380 --> 00:49:10,180 konsistaj kaj tiam "amoj Milo "estas ankaŭ alia. 926 00:49:10,180 --> 00:49:16,860 Ĉar oni ne povas diri kiel "Lauren Milo loves "havi la saman signifon. 927 00:49:16,860 --> 00:49:18,020 Oni ne tuj havos la saman signifon. 928 00:49:18,020 --> 00:49:22,500 Aŭ mi ne povas diri kiel "Milo Lauren amas. "Ne ĉiu havas la saman 929 00:49:22,500 --> 00:49:25,890 signifanta fari tion. 930 00:49:25,890 --> 00:49:31,940 >> Do la du pli gravaj aferoj pri sintakso estas la leksika tipoj kiu estas 931 00:49:31,940 --> 00:49:35,390 esence la funkcio kiun vi havas por vortoj per si mem. 932 00:49:35,390 --> 00:49:39,180 Do vi devas scii ke "Lauren" kaj "Milo" estas substantivoj. 933 00:49:39,180 --> 00:49:41,040 "Amo" estas verbo. 934 00:49:41,040 --> 00:49:45,660 Kaj la dua grava afero estas ke ili estas phrasal tipoj. 935 00:49:45,660 --> 00:49:48,990 Do vi scias, ke "amas Milo" estas fakte parola frazo. 936 00:49:48,990 --> 00:49:52,390 Do kiam mi diras "Lauren," mi scias, ke Lauren estas faranta ion. 937 00:49:52,390 --> 00:49:53,620 Kio ŝi faras? 938 00:49:53,620 --> 00:49:54,570 Ŝi ama Milo. 939 00:49:54,570 --> 00:49:56,440 Do ĝi estas tuta afero. 940 00:49:56,440 --> 00:50:01,640 Sed lia komponantoj estas substantivo kaj verbo. 941 00:50:01,640 --> 00:50:04,210 Sed kune, ili faru verbon frazon. 942 00:50:04,210 --> 00:50:08,680 >> Do, kion ni povas efektive fari kun komputa lingvistiko? 943 00:50:08,680 --> 00:50:13,810 Do, se mi havas ion por ekzemplo "Amikoj de Allison." Mi vidas, se mi ĝuste 944 00:50:13,810 --> 00:50:17,440 cxu sintaksa arbo mi scius ke "Amikoj" estas substantivo frazon estas 945 00:50:17,440 --> 00:50:21,480 substantivo kaj tiam "de Allison" estas prepozicia frazo en kiu "el" estas 946 00:50:21,480 --> 00:50:24,810 propozicio kaj "Allison" estas substantivo. 947 00:50:24,810 --> 00:50:30,910 Kion mi povus fari estas instrui mia komputilo ke kiam mi havas substantiva frazon kaj 948 00:50:30,910 --> 00:50:33,080 tiam prepozicia frazo. 949 00:50:33,080 --> 00:50:39,020 Do, en tiu kazo, "amikojn" kaj poste "de Milo "Mi scias, ke ĉi tio signifas ke 950 00:50:39,020 --> 00:50:43,110 NP2, la dua, posedas NP1. 951 00:50:43,110 --> 00:50:47,680 >> Do mi povas krei ian rilaton, iu speco de funkcio por ĝi. 952 00:50:47,680 --> 00:50:52,370 Do kiam mi vidas tiun strukturon, kiu kongruas ekzakte kun "amikoj de 953 00:50:52,370 --> 00:50:56,030 Allison, "mi scias kiu Allison posedas la amikojn. 954 00:50:56,030 --> 00:50:58,830 Do la amikoj estas io kiu Allison havas. 955 00:50:58,830 --> 00:50:59,610 Havas sencon? 956 00:50:59,610 --> 00:51:01,770 Do tiu estas esence kion Diagramo Serĉu faras. 957 00:51:01,770 --> 00:51:04,360 Ĝi nur kreas regulojn cxar multe da aĵoj. 958 00:51:04,360 --> 00:51:08,190 Do "amikoj de Allison", "miaj geamikoj kiuj loĝas en Kembriĝo, "" miaj geamikoj 959 00:51:08,190 --> 00:51:12,970 kiu iras al Harvard. "Ĝi kreas reguloj por ĉiuj el tiuj aferoj. 960 00:51:12,970 --> 00:51:14,930 >> Nun maŝino tradukado. 961 00:51:14,930 --> 00:51:18,850 Do, maŝintraduko estas ankaŭ io statistikaj. 962 00:51:18,850 --> 00:51:21,340 Kaj efektive, se vi ricevas implikitaj en komputa lingvistiko, multajn 963 00:51:21,340 --> 00:51:23,580 viajn necesajxojn tuj estos statistiko. 964 00:51:23,580 --> 00:51:26,670 Do kiel mi estis faranta la ekzemplo kun amaso de probabloj, ke mi estis 965 00:51:26,670 --> 00:51:30,540 kalkuli, kaj tiam vi atingos ĉi tre malgranda nombro kiu estas la fino 966 00:51:30,540 --> 00:51:33,180 probablo, kaj tio estas kio donas al vi la respondon. 967 00:51:33,180 --> 00:51:37,540 Maŝintraduko ankaŭ uzas statistika modelo. 968 00:51:37,540 --> 00:51:44,790 Kaj se vi volas pensi de maŝino traduko en la plej simpla ebla 969 00:51:44,790 --> 00:51:48,970 vojo, kion vi povas pensi estas nur traduki vorton post vorto, ĉu ne? 970 00:51:48,970 --> 00:51:52,150 >> Kiam vi lernas lingvon por la unua fojo, ke estas kutime kio 971 00:51:52,150 --> 00:51:52,910 vi faras, ĉu ne? 972 00:51:52,910 --> 00:51:57,050 Se vi volas vi povas traduki frazon en via lingvo en la lingvo 973 00:51:57,050 --> 00:52:00,060 vi lernas, kutime unue, vi traduki cxiu el la vortoj 974 00:52:00,060 --> 00:52:03,180 individue, kaj tiam vi provi meti la vortojn en lokon. 975 00:52:03,180 --> 00:52:07,100 >> Do, se mi volis traduki ĉi, [Parolas la portugalan] 976 00:52:07,100 --> 00:52:10,430 kiu signifas "la blanka kato kuris for." Se mi volas traduki ĝin el 977 00:52:10,430 --> 00:52:13,650 Portugala al angla, kion mi povus fari estas, unue, mi simple 978 00:52:13,650 --> 00:52:14,800 traduki vorton post vorto. 979 00:52:14,800 --> 00:52:20,570 Do "o" estas "la", "kato", "kato", "Branco", "blanka", kaj tiam "fugio" estas 980 00:52:20,570 --> 00:52:21,650 »Forkuris." 981 00:52:21,650 --> 00:52:26,130 >> Tial do mi havas cxiujn vortojn ĉi tie, sed ili ne estas en ordo. 982 00:52:26,130 --> 00:52:29,590 Estas kiel "la kato blanka forkuris" kio estas ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Do, tiam mi povas havi duan paŝon, kiun tuj estos trovi la idealan 984 00:52:34,490 --> 00:52:36,610 pozicio por ĉiu el la vortoj. 985 00:52:36,610 --> 00:52:40,240 Do mi scias, ke mi vere volas havi "Blanka kato" anstataŭ "kato blanka." Do 986 00:52:40,240 --> 00:52:46,050 kion mi povas fari estas, la plej naiva maniero estus krei ĉiuj 987 00:52:46,050 --> 00:52:49,720 ebla permutoj de vortoj de pozicioj. 988 00:52:49,720 --> 00:52:53,300 Kaj tiam vidos ke unu havas la alta probablo laŭ 989 00:52:53,300 --> 00:52:54,970 al mia lingvo modelon. 990 00:52:54,970 --> 00:52:58,390 Kaj poste, kiam mi trovas la unu kiu havas la plej alta probablo, kiu estas 991 00:52:58,390 --> 00:53:01,910 probable "la blanka kato kuris for," jen mia traduko. 992 00:53:01,910 --> 00:53:06,710 >> Kaj tio estas simpla maniero klarigi kiom multe da maŝintraduko 993 00:53:06,710 --> 00:53:07,910 algoritmoj labori. 994 00:53:07,910 --> 00:53:08,920 Ĉu tio havas sencon? 995 00:53:08,920 --> 00:53:12,735 Tiu estas ankaŭ io vere ekscita ke vi uloj povas eble esplori por 996 00:53:12,735 --> 00:53:13,901 fina projekto, jes? 997 00:53:13,901 --> 00:53:15,549 >> Lernanto: Nu, vi diris ke estis la naiva maniero, do kio estas 998 00:53:15,549 --> 00:53:17,200 la ne-naiva maniero? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Freitas: La ne-naiva maniero? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Do la unua afero, kiu estas malbona pri ĉi tiu metodo estas ke mi ĵus tradukis 1002 00:53:22,860 --> 00:53:24,330 vortoj, vorto post vorto. 1003 00:53:24,330 --> 00:53:30,570 Sed foje ni havas vortojn kiuj povas havi plurajn tradukojn. 1004 00:53:30,570 --> 00:53:32,210 Mi tuj provos pensi de io. 1005 00:53:32,210 --> 00:53:37,270 Ekzemple, "maniko" en portugala tedaĵo ĉu esti "mangle" aŭ "maniko". Do 1006 00:53:37,270 --> 00:53:40,450 kiam vi provas traduki vorton post vorto, tio povus esti donante al vi 1007 00:53:40,450 --> 00:53:42,050 iu kiu ne faras sencon. 1008 00:53:42,050 --> 00:53:45,770 >> Do vi fakte volas vin rigardi cxiujn eblajn tradukojn de la 1009 00:53:45,770 --> 00:53:49,840 vortoj kaj vidas, antaŭ ĉio, kio estas la ordo. 1010 00:53:49,840 --> 00:53:52,000 Ni parolis pri permutating la aferojn? 1011 00:53:52,000 --> 00:53:54,150 Por vidi ĉiujn eblajn ordonoj kaj elekti unu de la plej alta 1012 00:53:54,150 --> 00:53:54,990 probablo? 1013 00:53:54,990 --> 00:53:57,860 Vi povas ankaŭ elekti ĉiujn eblajn tradukoj por ĉiu 1014 00:53:57,860 --> 00:54:00,510 vorto kaj tiam vidi - 1015 00:54:00,510 --> 00:54:01,950 kombinita kun la permutoj - 1016 00:54:01,950 --> 00:54:03,710 kion oni havas la plej alta probablo. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, vi ankaŭ povas rigardi ne nur vortoj sed frazoj. 1018 00:54:08,590 --> 00:54:11,700 tial vi povas analizi la rilatojn inter la vortoj kaj tiam preni 1019 00:54:11,700 --> 00:54:13,210 bona traduko. 1020 00:54:13,210 --> 00:54:16,690 Ankaŭ ion alian, do ĉi semestro Mi fakte faras esploron en 1021 00:54:16,690 --> 00:54:19,430 Ĉina-angla maŝintraduko, tiel traduki el 1022 00:54:19,430 --> 00:54:20,940 Ĉina al la angla. 1023 00:54:20,940 --> 00:54:26,760 >> Kaj ion ni devas fari estas, krom uzi statistika modelo, kiu estas nur 1024 00:54:26,760 --> 00:54:30,570 vidante la probablojn de vidante iu pozicio en frazo, mi estas 1025 00:54:30,570 --> 00:54:35,360 fakte ankaŭ aldoni kelkajn sintakson por mia modelo, dirante: Ho, se mi vidas tiun afabla 1026 00:54:35,360 --> 00:54:39,420 de konstruo, ĉi tiu estas kion mi volas ŝanĝi ĝin al kiam mi tradukas. 1027 00:54:39,420 --> 00:54:43,880 Do vi povas ankaŭ aldoni ian ero de sintakso por fari la 1028 00:54:43,880 --> 00:54:47,970 tradukado pli efika kaj pli preciza. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Do kiel vi povas akiri komencita, se vi volas fari ion en komputa 1031 00:54:51,010 --> 00:54:51,980 lingvistiko? 1032 00:54:51,980 --> 00:54:54,560 >> Unue, elektu projekto kiu implikas lingvoj. 1033 00:54:54,560 --> 00:54:56,310 Do, ne estas tiel multaj tie. 1034 00:54:56,310 --> 00:54:58,420 Estas tiom da aferoj vi povas fari. 1035 00:54:58,420 --> 00:55:00,510 Kaj do povas pensi pri modelo ke vi povas uzi. 1036 00:55:00,510 --> 00:55:04,710 Kutime tio signifas pensadon de supozoj, kiel kiel, oh, kiam mi estis 1037 00:55:04,710 --> 00:55:05,770 kiel pensadon de la literoj. 1038 00:55:05,770 --> 00:55:09,510 Mi estis kiel, bone, se mi volas kompreni ekster kiuj skribis tion, mi probable volas 1039 00:55:09,510 --> 00:55:15,400 rigardi la vortojn de la persono uzis kaj vidi kiu uzas tiun vorton tre ofte. 1040 00:55:15,400 --> 00:55:18,470 Do provu fari supozojn kaj provu pensi pri modeloj. 1041 00:55:18,470 --> 00:55:21,395 Kaj tiam vi ankaŭ povas serĉi rete por la specon de problemo, kiun vi havas, 1042 00:55:21,395 --> 00:55:24,260 kaj gxi tuj sugestus al vi modeloj kiuj eble 1043 00:55:24,260 --> 00:55:26,560 modelita ke afero bone. 1044 00:55:26,560 --> 00:55:29,080 >> Kaj ankaŭ vi povas ĉiam retposxtu min. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Kaj mi povas nur respondi viajn demandojn. 1047 00:55:34,940 --> 00:55:38,600 Ni povas ecx povus renkontiĝas tiel mi povas doni sugestojn pri formoj de 1048 00:55:38,600 --> 00:55:41,490 efektivigo via projekto. 1049 00:55:41,490 --> 00:55:45,610 Kaj mi volas diri, se vi povas partopreni per komputa lingvistiko, ĝi okazas 1050 00:55:45,610 --> 00:55:46,790 esti granda. 1051 00:55:46,790 --> 00:55:48,370 Vi tuj vidos tie Estas tiom da potencialo. 1052 00:55:48,370 --> 00:55:52,060 Kaj la industrio volas dungi Vi estas tiel malbona pro tio. 1053 00:55:52,060 --> 00:55:54,720 Do mi esperas ke vi uloj ĝuis ĉi. 1054 00:55:54,720 --> 00:55:57,030 Se vi uloj havas demandojn, Vi povas demandi min post tio. 1055 00:55:57,030 --> 00:55:58,280 Sed dankon. 1056 00:55:58,280 --> 00:56:00,150