1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> Lucas Freitas: Hey. 3 00:00:08,870 --> 00:00:09,980 Ongietorria guztiontzat. 4 00:00:09,980 --> 00:00:11,216 Nire izena Lucas Freitas da. 5 00:00:11,216 --> 00:00:15,220 Ikasten [INAUDIBLE] junior bat naiz ordenadorean ikuspegi batekin zientzia 6 00:00:15,220 --> 00:00:16,410 linguistika konputazionala. 7 00:00:16,410 --> 00:00:19,310 Beraz, nire bigarren mailako hizkuntza da eta hizkuntz teoria. 8 00:00:19,310 --> 00:00:21,870 Benetan ari naiz, ilusioa you guys irakasteko eremua buruz pixka bat. 9 00:00:21,870 --> 00:00:24,300 Zonalde oso zirraragarria izatea ikasi da. 10 00:00:24,300 --> 00:00:27,260 Halaber potentzial asko etorkizunerako. 11 00:00:27,260 --> 00:00:30,160 Beraz, benetan ari naiz, ilusioa duzu guys diren proiektuak kontuan 12 00:00:30,160 --> 00:00:31,160 linguistika konputazionala. 13 00:00:31,160 --> 00:00:35,460 Eta zoriontsu izateko aholkatu baino gehiago izango naiz duzun edozein erabakitzen baduzu nahi 14 00:00:35,460 --> 00:00:37,090 horietako bat erdiestea. 15 00:00:37,090 --> 00:00:40,010 >> Beraz, zer dira konputazional guztien lehen linguistika? 16 00:00:40,010 --> 00:00:44,630 Linguistika beraz konputazionalak da linguistika eta arteko elkargunean 17 00:00:44,630 --> 00:00:46,390 informatika. 18 00:00:46,390 --> 00:00:47,415 Beraz, zer da linguistika? 19 00:00:47,415 --> 00:00:48,490 Zer da informatika? 20 00:00:48,490 --> 00:00:51,580 Beno linguistika batetik, zer hizkuntzak dira hartuko dugu. 21 00:00:51,580 --> 00:00:54,960 Beraz, linguistika, benetan azterketaren oro har, hizkuntza naturala. 22 00:00:54,960 --> 00:00:58,330 Hizkuntza hain natural - buruz hitz egiten dugu benetan erabili dugun hizkuntza 23 00:00:58,330 --> 00:00:59,770 elkarrekin komunikatzeko. 24 00:00:59,770 --> 00:01:02,200 Beraz, ez zehazki hizketan C edo Java buruz. 25 00:01:02,200 --> 00:01:05,900 Eta ingelesez buruz gehiago hitz egiten ari gara Hizkuntzak txinera eta beste dugun 26 00:01:05,900 --> 00:01:07,780 elkarren artean komunikatzeko erabiltzen. 27 00:01:07,780 --> 00:01:12,470 >> Horri buruzko erronka zera da, oraintxe dugu ia 7.000 28 00:01:12,470 --> 00:01:14,260 munduko hizkuntzak. 29 00:01:14,260 --> 00:01:19,520 Beraz, ez dira barietate handiko bat nahiko duten aztertzeko aukera izango dugu hizkuntzen. 30 00:01:19,520 --> 00:01:22,600 Eta gero uste duzu dela seguruenik Oso zaila egin, esate baterako, 31 00:01:22,600 --> 00:01:26,960 hizkuntza batetik itzulpena egin beste, kontuan hartu behar duzula 32 00:01:26,960 --> 00:01:28,240 Ia 7.000 horietako. 33 00:01:28,240 --> 00:01:31,450 Beraz, itzulpena egiteko uste baduzu hizkuntza batetik bestera duzu 34 00:01:31,450 --> 00:01:35,840 dute ia milioi bat baino gehiago duten konbinazio desberdinak egin ahal izango dituzu 35 00:01:35,840 --> 00:01:37,330 hizkuntzatik hizkuntza behar. 36 00:01:37,330 --> 00:01:40,820 Beraz, benetan batzuk egiteko erronka itzulpena adibidez sistema motatako 37 00:01:40,820 --> 00:01:43,540 hizkuntza bakoitza. 38 00:01:43,540 --> 00:01:47,120 >> Beraz, linguistika sintaxia tratatzen, semantika, pragmatika. 39 00:01:47,120 --> 00:01:49,550 Zaudete ez zehazki behar zer ari diren jakin nahi du. 40 00:01:49,550 --> 00:01:55,090 Baina gauza oso interesgarria dela jatorrizko hiztun bat, noiz ikasten duzu 41 00:01:55,090 --> 00:01:59,010 hizkuntza umearen gisa, benetan ikasten duzu sintaxia semantika - gauza horiek guztiak 42 00:01:59,010 --> 00:02:00,500 eta pragmatika - 43 00:02:00,500 --> 00:02:01,430 bakarrik. 44 00:02:01,430 --> 00:02:04,820 Eta inork ez du zuretzat sintaxia irakastea esaldiak zer moduz ulertu duzu 45 00:02:04,820 --> 00:02:05,290 egituratuta. 46 00:02:05,290 --> 00:02:07,980 Beraz, benetan interesgarria delako datorren Oso zerbait da 47 00:02:07,980 --> 00:02:10,389 senez. 48 00:02:10,389 --> 00:02:13,190 >> Eta zer ari zaren etik hartuta informatikako du? 49 00:02:13,190 --> 00:02:16,700 Beno, garrantzitsuena dugula informatikako dute lehen da 50 00:02:16,700 --> 00:02:19,340 guztiak, adimen artifizialeko eta ikasketa automatikoa. 51 00:02:19,340 --> 00:02:22,610 Beraz, zer egiten saiatzen ari gara linguistika konputazionalaren irakastea da 52 00:02:22,610 --> 00:02:26,990 zure ordenagailuan zerbait nola egin hizkuntzarekin. 53 00:02:26,990 --> 00:02:28,630 >> Beraz, adibidez, makina batean itzulpena. 54 00:02:28,630 --> 00:02:32,490 Nire ordenagailuan nola irakasten saiatzen ari naiz nola bat trantsizioa ezagutzeko 55 00:02:32,490 --> 00:02:33,310 beste hizkuntza. 56 00:02:33,310 --> 00:02:35,790 Beraz, funtsean gustatzen irakaskuntza Ordenagailu bat bi hizkuntzetan. 57 00:02:35,790 --> 00:02:38,870 Hizkuntzaren tratamendu egin badut, horietatik adibidez kasua da 58 00:02:38,870 --> 00:02:41,810 Facebook en grafikoa bilatu, irakasteko Zure ordenagailuan nola ulertzen 59 00:02:41,810 --> 00:02:42,730 kontsultak ondo. 60 00:02:42,730 --> 00:02:48,130 >> Beraz, "esan duzu erresidentzia bada nire lagunak. "Facebook ez du tratatzen duten 61 00:02:48,130 --> 00:02:51,130 kate oso bat duela jo besterik hitz mordo bat. 62 00:02:51,130 --> 00:02:56,020 Benetan erlazioa ulertzen du "argazkiak" eta "nire lagunak" eta arteko 63 00:02:56,020 --> 00:02:59,620 ulertzen "argazkiak" dira jabetza "nire lagunak." 64 00:02:59,620 --> 00:03:02,350 >> Beraz, horren zati bat da, adibidez, hizkuntzaren tratamendu. 65 00:03:02,350 --> 00:03:04,790 Honez ulertzen saiatzen da zer arteko erlazioa da 66 00:03:04,790 --> 00:03:07,520 esaldi bateko hitzak. 67 00:03:07,520 --> 00:03:11,170 Eta big galdera da, ahal duzun nola hitz egiten ordenagailu bat irakasteko 68 00:03:11,170 --> 00:03:12,650 oro har, hizkuntza bat? 69 00:03:12,650 --> 00:03:17,810 Zein galdera oso interesgarria da Nik uste, balitz bezala, agian, etorkizunean, 70 00:03:17,810 --> 00:03:19,930 gai izango zaren Zure telefono mugikorra hitz. 71 00:03:19,930 --> 00:03:23,290 Motatako zer egin Siri dugu baina atsegin zerbait gehiago bezala, benetan ahal duzun 72 00:03:23,290 --> 00:03:25,690 esan nahi duzuna eta telefonoa da guztia ulertu behar. 73 00:03:25,690 --> 00:03:28,350 Eta galderei jarraipena izan daiteke eta mantendu hitz egiten. 74 00:03:28,350 --> 00:03:30,880 Duten zerbait benetan zirraragarria da, nire ustez. 75 00:03:30,880 --> 00:03:33,070 >> Beraz, hizkuntza naturaletan buruz zerbait. 76 00:03:33,070 --> 00:03:36,220 Zerbait benetan interesgarria hizkuntzak naturala da, eta hau da, 77 00:03:36,220 --> 00:03:38,470 nire hizkuntzalaritza irakaslea, kreditu, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Adibide bat jartzen du eta nik uste benetan interesgarria da. 79 00:03:40,830 --> 00:03:47,060 Hizkuntza ikasten dugulako denean etik jaio gara eta, ondoren, gure ama- 80 00:03:47,060 --> 00:03:49,170 hizkuntza motatako gaituzu hazten. 81 00:03:49,170 --> 00:03:52,570 >> Eta, funtsean, hizkuntza ikasten duzu gutxieneko sarreratik, ezta? 82 00:03:52,570 --> 00:03:56,700 Zu besterik sarrera lortzean zure Hizkuntza zer soinuak gurasoak 83 00:03:56,700 --> 00:03:58,770 gustatzen eta ikasi besterik ez duzu. 84 00:03:58,770 --> 00:04:02,240 Beraz, interesgarria delako begiratuz gero Esaldi horietan, adibidez. 85 00:04:02,240 --> 00:04:06,980 Begiratzea, "Mary beroki bat behin jartzen denbora etxea uzten zuen. " 86 00:04:06,980 --> 00:04:10,650 >> Kasu honetan, posible da egin behar du hitza "zuen" Mary aipatzeko, ezta? 87 00:04:10,650 --> 00:04:13,500 Esan dezakezu "Mary armarria baten gainean jartzen Mary uzten den bakoitzean duen 88 00:04:13,500 --> 00:04:14,960 etxea. "beraz hori da isuna. 89 00:04:14,960 --> 00:04:19,370 Baina orduan begiratzen baduzu esaldi at "Jartzen armarria baten gainean zuen aldi bakoitzean Mary 90 00:04:19,370 --> 00:04:22,850 etxea uzten. "Badakizu da ezinezkoa duenez, "zuen" dela esateko 91 00:04:22,850 --> 00:04:24,260 Mary aipatuz. 92 00:04:24,260 --> 00:04:27,070 >> Ez da ez dela "Mary jartzen esaten modu beroki bat Mary uzten den bakoitzean 93 00:04:27,070 --> 00:04:30,790 etxea. "Beraz, interesgarria delako hau intuizio mota da 94 00:04:30,790 --> 00:04:32,890 jatorrizko hiztun bakoitzak ditu. 95 00:04:32,890 --> 00:04:36,370 Eta inork irakasten zen hori ez dela Bide sintaxia lan egiten duen. 96 00:04:36,370 --> 00:04:41,930 Eta zuk "zuen" hau bakarrik izan ditzake Mary aipatuz lehen kasu honetan, 97 00:04:41,930 --> 00:04:44,260 eta egia esan, beste honetan ere bai, baina ez oraingo honetan. 98 00:04:44,260 --> 00:04:46,500 Baina denek motatako lortzen Erantzuna beraren aldean. 99 00:04:46,500 --> 00:04:48,580 Denek horretan ados. 100 00:04:48,580 --> 00:04:53,280 Beraz, benetan interesgarria da nola nahiz Zuk ez arau guztiak ezagutzen 101 00:04:53,280 --> 00:04:55,575 zure hizkuntzan duzun mota ulertzen hizkuntza nola funtzionatzen duen. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Hain natural gauzarik interesgarriena hizkuntza da ez duzula behar 104 00:05:01,530 --> 00:05:06,970 Badakizu edozein sintaxia jakin bada esaldi bat da gramatika edo gramatikalak egiteko 105 00:05:06,970 --> 00:05:08,810 Kasu gehienetan. 106 00:05:08,810 --> 00:05:13,220 Horrek uste duzu agian zer gertatzen da hori zure bizitzan zehar, zuk 107 00:05:13,220 --> 00:05:17,410 besterik ez mantentzeko, gero eta gehiago lortzean esaldiak duzu esan. 108 00:05:17,410 --> 00:05:19,800 Eta orduan ikasi mantentzeko duzu esaldiak guztia. 109 00:05:19,800 --> 00:05:24,230 Eta gero, norbaitek esaten dizu denean zerbait, esaldi hori entzuten baduzu eta 110 00:05:24,230 --> 00:05:27,040 begiratu zure hiztegia-n zaude Esaldi eta ikusten baduzu 111 00:05:27,040 --> 00:05:28,270 esaldi hori hor dago. 112 00:05:28,270 --> 00:05:29,830 Eta han da baduzu esan gramatikala da. 113 00:05:29,830 --> 00:05:31,740 Ez bada esan duzu da gramatikalak. 114 00:05:31,740 --> 00:05:35,150 >> Beraz, kasu horretan, esan nahi duzun, oi, beraz, guztien zerrenda handi bat behar duzu 115 00:05:35,150 --> 00:05:36,140 posible esaldiak. 116 00:05:36,140 --> 00:05:38,240 Eta orduan, esaldi bat entzuterakoan, badakizu gramatikala da edo bada 117 00:05:38,240 --> 00:05:39,450 ez dela oinarritzen. 118 00:05:39,450 --> 00:05:42,360 Gauza da begiratzen baduzu esaldi bat, adibidez, "The 119 00:05:42,360 --> 00:05:47,540 bost buru CS50 TFS itsu egosi olagarro NAES mug bat erabiliz. "Da 120 00:05:47,540 --> 00:05:49,630 betiko ez esaldi bat entzun aurretik duzula. 121 00:05:49,630 --> 00:05:52,380 Baina, aldi berean, badakizu da nahiko askoz gramatikala, ezta? 122 00:05:52,380 --> 00:05:55,570 Ez dago gramatika-akatsak eta esan dezakezu 123 00:05:55,570 --> 00:05:57,020 posible esaldi bat da. 124 00:05:57,020 --> 00:06:01,300 >> Baietz uste gurekin egiten duten benetan Modu hizkuntza ikasten dugu, hau da, ez bakarrik 125 00:06:01,300 --> 00:06:07,090 Posible datu-base erraldoi bat izatea hitzak edo esaldiak, baina gehiago 126 00:06:07,090 --> 00:06:11,490 arteko erlazioa ulertzeko Esaldi horietan hitz. 127 00:06:11,490 --> 00:06:14,570 Ez duela zentzurik? 128 00:06:14,570 --> 00:06:19,370 Beraz, orduan galdera da, ahal ordenagailuak hizkuntzak ikasteko? 129 00:06:19,370 --> 00:06:21,490 Daiteke hizkuntza irakasten dugu ordenagailuak? 130 00:06:21,490 --> 00:06:24,230 >> Beraz, bere pentsatzeko aldea utzi hizkuntza baten hiztun baten arteko 131 00:06:24,230 --> 00:06:25,460 eta ordenagailu bat. 132 00:06:25,460 --> 00:06:27,340 Beraz, zer gertatzen den hiztunaren nahi? 133 00:06:27,340 --> 00:06:30,430 Beno, jatorrizko hiztun ikasten a da esposizio hizkuntza. 134 00:06:30,430 --> 00:06:34,200 Normalean bere haurtzaroko lehen urteetan. 135 00:06:34,200 --> 00:06:38,570 Beraz, funtsean, besterik ez duzu haurtxo bat, eta harekin hitz egitea mantendu duzu, eta hura 136 00:06:38,570 --> 00:06:40,540 besterik ikasten nola hitz egiten hizkuntza, ezta? 137 00:06:40,540 --> 00:06:42,660 Beraz, funtsean, ari zaren emanez haurra sarrera. 138 00:06:42,660 --> 00:06:45,200 Beraz, orduan argudiatu dezakezu ordenagailua Gauza bera egin ahal izango da, ezta? 139 00:06:45,200 --> 00:06:49,510 Besterik ez dezakezu hizkuntza eman ordenagailua sarrera bezala. 140 00:06:49,510 --> 00:06:53,410 >> Adibidez fitxategiak sorta bat duten liburuak izan ingelesez. 141 00:06:53,410 --> 00:06:56,190 Agian modu bat duzula izan ziurrenik irakatsi bat 142 00:06:56,190 --> 00:06:57,850 ordenagailu ingelesa, ezta? 143 00:06:57,850 --> 00:07:01,000 Eta hain zuzen ere, hari buruzko uste baduzu, zuk agian hartzen du pare bat 144 00:07:01,000 --> 00:07:02,680 liburu bat irakurri egunetan. 145 00:07:02,680 --> 00:07:05,760 Ordenagailu baten bigarren bat hartzen da liburu bat hitz guztiak begiratu. 146 00:07:05,760 --> 00:07:10,810 Beraz, hori izan daiteke uste dezakezu besterik honetan Zure inguruan sarrera argumentua, 147 00:07:10,810 --> 00:07:15,440 hori ez da nahikoa hori, eta esan behar zerbait gizakiak bakarrik egin ahal izango duten. 148 00:07:15,440 --> 00:07:17,680 Ordenagailuak uste dezakezu ere sarrera eskuratu ahal izango dira. 149 00:07:17,680 --> 00:07:21,170 >> Bigarren gauza da jatorrizko hiztunen ere duela garunean izan 150 00:07:21,170 --> 00:07:23,870 hizkuntzak ikasteko gaitasuna. 151 00:07:23,870 --> 00:07:27,020 Baina hari buruzko uste baduzu, burmuina gauza ona da. 152 00:07:27,020 --> 00:07:30,450 Noiz jaio zaren, dagoeneko ezarri da - 153 00:07:30,450 --> 00:07:31,320 Kokapen hau zure garuna da. 154 00:07:31,320 --> 00:07:34,660 Eta hazi ahala, lortu besterik ez duzu gehiago hizkuntzaren sarrera eta agian nutrienteak 155 00:07:34,660 --> 00:07:35,960 eta beste gauzak. 156 00:07:35,960 --> 00:07:38,170 Baina nahiko askoz zure garuna gauza ona da. 157 00:07:38,170 --> 00:07:41,290 >> Beraz, esan dezakezu, bai, agian, ahal duzun duten mordo bat du ordenagailu bat eraikitzeko 158 00:07:41,290 --> 00:07:45,890 funtzioak eta hori besterik ez imitatzen metodoak hizkuntzak ikasteko gaitasuna. 159 00:07:45,890 --> 00:07:49,630 Beraz, zentzu horretan, esan dezakegu, bai, dut hori guztia ordenagailu bat izan dezake 160 00:07:49,630 --> 00:07:52,270 Gauzak hizkuntza ikasi behar dut. 161 00:07:52,270 --> 00:07:56,200 Eta azken gauza da jaiotzez hizlari trial eta akats ikasten. 162 00:07:56,200 --> 00:08:01,090 Beraz, funtsean, beste gauza garrantzitsua hizkuntzak ikasteko duzula nolako 163 00:08:01,090 --> 00:08:05,340 gauzak ikasi eginez zer entzuten duzun orokortzeak. 164 00:08:05,340 --> 00:08:10,280 >> Beraz gisa hazi zaren ikasten dela Hitz batzuk gehiago izenen bezalakoak dira, 165 00:08:10,280 --> 00:08:11,820 batzuk beste batzuk adjektiboak dira. 166 00:08:11,820 --> 00:08:14,250 Eta ez duzu edozein izan hizkuntzalaritzaren jakintza 167 00:08:14,250 --> 00:08:15,040 duten ulertzeko. 168 00:08:15,040 --> 00:08:18,560 Baina jakin besterik ez duzu hitz batzuk ez dago dira zati batzuetan kokatu 169 00:08:18,560 --> 00:08:22,570 esaldi eta beste batean beste batzuk esaldi zatiak. 170 00:08:22,570 --> 00:08:26,110 >> Eta hori denean dela zerbait egin duzu hori ez da zuzena esaldi bat bezala - 171 00:08:26,110 --> 00:08:28,770 agian delako baino gehiago orokortzen adibidez. 172 00:08:28,770 --> 00:08:32,210 Agian denean hazi zaren, nabarituko duzu plurala izan ohi da 173 00:08:32,210 --> 00:08:35,809 S bat jarriz at osatutako hitzaren amaieran. 174 00:08:35,809 --> 00:08:40,042 Eta gero plurala egiten saiatzen zara "Oreinak" "oreinak" edo "hortz" gisa 175 00:08:40,042 --> 00:08:44,780 "Tooths." Orduan, zure guraso edo norbait zuzentzen duzu eta dio, ez, da 176 00:08:44,780 --> 00:08:49,020 "oreinak" plurala "oreinak", da, eta of "hortz" plural "hortzak". da Eta gero 177 00:08:49,020 --> 00:08:50,060 gauza horiek ikasten duzu. 178 00:08:50,060 --> 00:08:51,520 Beraz ikasi trial eta akats etik duzu. 179 00:08:51,520 --> 00:08:53,100 >> Baina, aldi berean egin ahal izango duzun ordenagailu batekin. 180 00:08:53,100 --> 00:08:55,310 Izeneko zerbait izan dezakezu ikasketa indartua. 181 00:08:55,310 --> 00:08:58,560 Hau da, funtsean bat emanez bezala ordenagailu saria direnean gertatzen 182 00:08:58,560 --> 00:08:59,410 zerbait behar bezala. 183 00:08:59,410 --> 00:09:04,710 Eta sari baten kontrakoa emanez eta zerbait gaizki egiten du. 184 00:09:04,710 --> 00:09:07,410 Benetan ikusi ahal izango duzula joan bada Google Translate eta saiatu duzu 185 00:09:07,410 --> 00:09:10,220 Esaldi bat itzultzeko, hura galdetzen du iritzia. 186 00:09:10,220 --> 00:09:13,240 Beraz, esan baduzu, ai, ez da hobea esaldi honen itzulpena. 187 00:09:13,240 --> 00:09:18,140 Idatzi egin dezakezu eta gero, bada asko Jende mantendu dela hobea esanez 188 00:09:18,140 --> 00:09:21,560 itzulpena, ikasten besterik ez dela ordez itzulpen hori erabili beharko 189 00:09:21,560 --> 00:09:22,960 bat ematea zen. 190 00:09:22,960 --> 00:09:28,830 >> Beraz, galdera oso filosofiko bat da ordenagailuak dira ahal bada ikusteko 191 00:09:28,830 --> 00:09:30,340 hitz egiteko edo ez etorkizunean gai. 192 00:09:30,340 --> 00:09:34,440 Baina esperantza handia daukat ezin dutela besterik oinarritutako argudio horiek. 193 00:09:34,440 --> 00:09:38,570 Baina besterik filosofiko bat gehiago da galdera. 194 00:09:38,570 --> 00:09:43,460 >> Beraz, ordenagailuak oraindik ezin hitz egin bitartean, zer dira hori egin ahal izango dugu gauzak? 195 00:09:43,460 --> 00:09:47,070 Benetan cool gauza batzuk daude Datuen sailkapena. 196 00:09:47,070 --> 00:09:53,210 Beraz, adibidez, you guys ezagutzen email zerbitzuak Horretarako, bost 197 00:09:53,210 --> 00:09:55,580 Adibidez, spam iragazketa. 198 00:09:55,580 --> 00:09:59,070 Spam jaso duzu beraz, betiere, hura koadroan bestera iragazi saiatuko. 199 00:09:59,070 --> 00:10:00,270 Beraz, nola da hori egiten da? 200 00:10:00,270 --> 00:10:06,080 Ez da ordenagailua besterik ez daki helbideak zer email spam bidaltzen ari. 201 00:10:06,080 --> 00:10:09,130 Beraz, gehiago da oinarritutako edukiaren mezuan, edo agian titulua, edo 202 00:10:09,130 --> 00:10:11,310 agian patroi batzuk duzula. 203 00:10:11,310 --> 00:10:15,690 >> Beraz, funtsean, zer egin dezakezu get a spam dira emailak datu asko, 204 00:10:15,690 --> 00:10:19,980 ez dira spam, eta ikasteko zer emailak ereduak mota duzu 205 00:10:19,980 --> 00:10:21,000 spam direnak. 206 00:10:21,000 --> 00:10:23,260 Eta hau konputazional parte da linguistika. 207 00:10:23,260 --> 00:10:24,720 Honez datuak sailkapena deitzen. 208 00:10:24,720 --> 00:10:28,100 Eta benetan ari gara ikusteko dut bat hurrengo diapositibak in horren adibide. 209 00:10:28,100 --> 00:10:32,910 >> Bigarren gauza hizkuntza naturala da prozesatzeko gauza da hori 210 00:10:32,910 --> 00:10:36,580 Grafikoa bilatu uzteko egiten ari da esaldi bat idazten duzu. 211 00:10:36,580 --> 00:10:38,690 Eta ulertzen duzu fidagarritzat zer esanahia da eta ematen 212 00:10:38,690 --> 00:10:39,940 duzu emaitza hobea. 213 00:10:39,940 --> 00:10:43,880 Egia esan, bazoaz Google edo Bing eta Lady antzeko zerbait bilatu 214 00:10:43,880 --> 00:10:47,060 Gaga en altuera, benetan ari zaren joan 5 '1 "informazio ordez lortzeko 215 00:10:47,060 --> 00:10:50,170 bere benetan ulertzen duelako zertaz ari zaren. 216 00:10:50,170 --> 00:10:52,140 Beraz, naturala parte da hizkuntza prozesatzeko. 217 00:10:52,140 --> 00:10:57,000 >> Edo ere denean Siri erabiltzen ari zara, lehenengo duten saiatzen algoritmo bat behar duzu 218 00:10:57,000 --> 00:11:01,130 itzultzeko esaten duzunak hitzak sartu, testu batean. 219 00:11:01,130 --> 00:11:03,690 Eta gero itzultzeko saiatzen da esanahi sartu duten. 220 00:11:03,690 --> 00:11:06,570 Beraz, hori da dena natural zati hizkuntza prozesatzeko. 221 00:11:06,570 --> 00:11:08,320 >> Ondoren, itzulpen automatikoa duzu - 222 00:11:08,320 --> 00:11:10,300 hau da, benetan bat Nire gogokoetara - 223 00:11:10,300 --> 00:11:14,060 hau da, besterik gabe, itzultzean beste hizkuntza bat. 224 00:11:14,060 --> 00:11:17,950 Beraz, hori egiten denean ari zaren uste dezakezu itzulpen automatikoa, duzu 225 00:11:17,950 --> 00:11:19,750 Esaldi aukerak infinitua. 226 00:11:19,750 --> 00:11:22,960 Beraz, ez dago besterik gordetzeko modu itzulpena bakoitza. 227 00:11:22,960 --> 00:11:27,440 Beraz, etorri interesgarria duzu algoritmoak ahal izateko 228 00:11:27,440 --> 00:11:30,110 itzultzeko bakoitza nolabait esaldia. 229 00:11:30,110 --> 00:11:32,483 >> Zaudete edozein zalantza orain arte? 230 00:11:32,483 --> 00:11:34,450 Ez? 231 00:11:34,450 --> 00:11:34,830 Ados. 232 00:11:34,830 --> 00:11:36,900 >> Beraz, zer ari gara gaur ikusiko? 233 00:11:36,900 --> 00:11:39,300 Lehenik eta behin, hitz noa sailkapenaren arazoa. 234 00:11:39,300 --> 00:11:41,440 Beraz, bat izan zen I spam buruz esaten. 235 00:11:41,440 --> 00:11:46,820 Zer egin noa da, eman lyrics Abesti bat, ezin irudikatu saiatzen zara 236 00:11:46,820 --> 00:11:49,810 probabilitate handia duten nork abeslaria da? 237 00:11:49,810 --> 00:11:53,590 Demagun Lady abestiak que tengo Gaga eta Katy Perry, ematen dizut bat bada 238 00:11:53,590 --> 00:11:58,130 abesti berria, ezin irudikatu duzu bada da Katy Perry edo Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Bigarren bat, besterik ez dut hitz egingo segmentazio arazoa buruz. 240 00:12:01,490 --> 00:12:05,780 Beraz, ez dakit you guys ezagutzen bada, baina Txineraz, japonieraz, beste Asian East 241 00:12:05,780 --> 00:12:08,090 hizkuntzak, eta beste hizkuntza oro har, ez dute 242 00:12:08,090 --> 00:12:09,830 hitzen arteko espazioak. 243 00:12:09,830 --> 00:12:13,540 Eta, ondoren, modu hori pentsatzen baduzu Zure ordenagailuan saiatzen mota 244 00:12:13,540 --> 00:12:18,600 hizkuntzaren tratamendu ulertzen, itxura hitzak aztertu da eta 245 00:12:18,600 --> 00:12:21,500 erlazioak ulertzen saiatzen haien artean, ezta? 246 00:12:21,500 --> 00:12:25,440 Baina orduan Chinese baduzu, eta zuk zero tarterik izan, benetan zaila 247 00:12:25,440 --> 00:12:28,360 jakin zer arteko erlazioa da hitzak, ez baitute izan inolako 248 00:12:28,360 --> 00:12:29,530 lehen hitzak. 249 00:12:29,530 --> 00:12:32,600 Deituriko zerbait egin behar duzu segmentazioa besterik gabe esan nahi jarriz 250 00:12:32,600 --> 00:12:36,490 zer deitzen dugun arteko espazioak hizkuntza horietan hitz. 251 00:12:36,490 --> 00:12:37,740 Zentzurik? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Eta gero ari gara joan sintaxia buruz hitz egiteko. 254 00:12:41,540 --> 00:12:44,050 Naturalei buruz pixka bat, beraz, besterik gabe, hizkuntza prozesatzeko. 255 00:12:44,050 --> 00:12:45,420 Besterik ez da ikuspegi orokor bat izango da. 256 00:12:45,420 --> 00:12:50,700 Beraz, gaur egun, funtsean, zer egin nahi dut da bat pixka bat emango dizu guys 257 00:12:50,700 --> 00:12:53,930 zer dira aukerak barrutik konputazional rekin egin ditzakezun 258 00:12:53,930 --> 00:12:54,960 linguistika. 259 00:12:54,960 --> 00:13:00,410 Eta gero, zer uste duzu ikusi ahal izango duzu is cool gauza horiek artean. 260 00:13:00,410 --> 00:13:02,270 Eta, agian, zuk proiektu bat dela pentsa dezakezu eta etorri nirekin hitz. 261 00:13:02,270 --> 00:13:05,260 Eta aholkuak emango dizut nola ezartzeko da. 262 00:13:05,260 --> 00:13:09,060 >> Beraz sintaxia pixka bat izango da joan bilatu eta makina grafikoa buruz 263 00:13:09,060 --> 00:13:09,670 itzulpena. 264 00:13:09,670 --> 00:13:13,650 Besterik ez naiz nola adibide bat emateko joan ezin duzu, adibidez, itzuli 265 00:13:13,650 --> 00:13:16,020 portugesa zerbait ingelesera. 266 00:13:16,020 --> 00:13:17,830 Soinuak ona? 267 00:13:17,830 --> 00:13:19,293 >> Beraz, lehenengo, sailkapenaren arazoa. 268 00:13:19,293 --> 00:13:23,590 Esango dut mintegi zati honetan da gehien Challenging izango da 269 00:13:23,590 --> 00:13:27,560 bat besterik ez delako, ez da joan kodifikazioa batzuk izan. 270 00:13:27,560 --> 00:13:29,470 Baina Python izango. 271 00:13:29,470 --> 00:13:34,380 Ezagutzen dut you guys ezagutzen ez Python, beraz Besterik ez dut goi on azaltzeko joan 272 00:13:34,380 --> 00:13:35,750 maila zer egiten ari naiz. 273 00:13:35,750 --> 00:13:40,900 Eta ez duzu benetan axola gehiegi sintaxia buruzko askoz hori delako 274 00:13:40,900 --> 00:13:42,140 zerbait guys ikas daiteke. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Soinuak ona. 277 00:13:43,580 --> 00:13:46,020 >> Beraz, zer da sailkapenaren arazoa? 278 00:13:46,020 --> 00:13:49,140 Beraz zenbait lyrics zauden jakin Abesti bat, eta asmatzen nahi baduzu 279 00:13:49,140 --> 00:13:50,620 nor da abesten. 280 00:13:50,620 --> 00:13:54,045 Eta hau ezin inolako izango bestelako arazoak. 281 00:13:54,045 --> 00:13:59,980 Beraz daiteke, adibidez, bat duzu presidentetzarako kanpaina eta bat duzu 282 00:13:59,980 --> 00:14:02,610 hitzaldian, eta bilatu nahi duzun zen bada, adibidez, 283 00:14:02,610 --> 00:14:04,470 Obama edo Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Edo emailak mordo bat izan dezakezu eta irudikatu nahi dute bada nahi duzun 285 00:14:07,700 --> 00:14:08,890 spam edo ez. 286 00:14:08,890 --> 00:14:11,440 Beraz, besterik gabe, zenbait sailkatzen oinarritutako hitzak buruzko datuak 287 00:14:11,440 --> 00:14:13,790 han duzula. 288 00:14:13,790 --> 00:14:16,295 >> Beraz, ez da egin behar, izan nahi duzu hipotesi batzuk egiteko. 289 00:14:16,295 --> 00:14:20,570 Beraz, linguistika konputazionalaren buruz asko da hipotesiak eginez, 290 00:14:20,570 --> 00:14:24,100 hipotesi normalean smart, horrela emaitza onak lortu ahal izateko. 291 00:14:24,100 --> 00:14:26,670 Duen eredu bat sortu nahian. 292 00:14:26,670 --> 00:14:31,290 Eta gero, proba ezazu eta ikusi lan egiten bada, duzun doitasun ona ematen bada. 293 00:14:31,290 --> 00:14:33,940 Eta ez bada, orduan saiatu hobetzeko. 294 00:14:33,940 --> 00:14:37,640 Ez du, ez bazaude, bezalako OK, agian I ezberdinak hipotesi bat egin behar du. 295 00:14:37,640 --> 00:14:44,030 >> Beraz, nahi dugun hipotesi egin da artista bat izan ohi duen abesten 296 00:14:44,030 --> 00:14:49,220 inguru baten gaia behin baino gehiagotan, eta, agian, hitzak behin baino gehiagotan erabiltzen du, besterik 297 00:14:49,220 --> 00:14:50,270 dute erabiltzen delako ari da. 298 00:14:50,270 --> 00:14:51,890 Besterik ez duzu zure laguna dela pentsa dezakezu. 299 00:14:51,890 --> 00:14:57,350 Ziurtatu guztiak guys duzu lagunekin nago bere sinadura Esaldi esan hori, 300 00:14:57,350 --> 00:14:59,260 literalki esaldi bakoitza - 301 00:14:59,260 --> 00:15:02,660 Hitz zehatz batzuk edo zehatz batzuk bezala Esaldi hori esaten dute 302 00:15:02,660 --> 00:15:04,020 esaldi bakoitza. 303 00:15:04,020 --> 00:15:07,920 >> Eta zer esan dezakezu dela ikusten baduzu duten sinadura bat du esaldi bat 304 00:15:07,920 --> 00:15:11,450 Esaldi, asmatzen duzun ziurrenik zure laguna da 305 00:15:11,450 --> 00:15:13,310 inork esaten, ezta? 306 00:15:13,310 --> 00:15:18,410 Beraz, hipotesi hori egin duzu eta, ondoren, duen eredu bat nola sortu duzu. 307 00:15:18,410 --> 00:15:24,440 >> Adibide hori ez dut eman gertatzen ari da nola Lady Gaga, adibidez, pertsona 308 00:15:24,440 --> 00:15:27,430 "haurra" erabiltzen duen zuen esan bere zenbaki bat abesti guztiak. 309 00:15:27,430 --> 00:15:32,270 Eta benetan hau bideo bat da, ikuskizunak bere hitza "haurra" esaten 310 00:15:32,270 --> 00:15:33,410 abesti ezberdinak. 311 00:15:33,410 --> 00:15:33,860 >> [Bideo-erreprodukzioa] 312 00:15:33,860 --> 00:15:34,310 >> - (KANTU) Baby. 313 00:15:34,310 --> 00:15:36,220 Haurra. 314 00:15:36,220 --> 00:15:37,086 Haurra. 315 00:15:37,086 --> 00:15:37,520 Haurra. 316 00:15:37,520 --> 00:15:37,770 Haurra. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Haurra. 319 00:15:39,243 --> 00:15:40,085 Haurra. 320 00:15:40,085 --> 00:15:40,510 Haurra. 321 00:15:40,510 --> 00:15:40,850 Haurra. 322 00:15:40,850 --> 00:15:41,090 >> [END bideo-erreprodukzioa- 323 00:15:41,090 --> 00:15:44,020 >> Lucas Freitas: Beraz, ez dira, nire ustez, 40 abesti hemen bertan, azaldu du 324 00:15:44,020 --> 00:15:48,690 "haurra." hitza Beraz, funtsean dezakezu asmatzeko duten duela abesti bat ikusten baduzu, 325 00:15:48,690 --> 00:15:52,180 ez da altua batzuen hitza "haurra," probabilitatea dela Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Baina dezagun hau garatzen saiatu aurrerago gehiago formalki. 327 00:15:56,450 --> 00:16:00,470 >> Beraz hemen abestiak lyrics by Lady Gaga eta Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Beraz, begiratu Lady Gaga at duzu, dute ikusten duzu agerraldi asko izan "haurra," a 329 00:16:04,120 --> 00:16:07,710 agerraldi asko "bidea." Eta gero Katy Perry agerraldi asko ditu 330 00:16:07,710 --> 00:16:10,360 "Du," agerraldi asko "sua". 331 00:16:10,360 --> 00:16:14,560 >> Beraz, funtsean, zer nahi dugu egin da, liriko bat lortzen duzu. 332 00:16:14,560 --> 00:16:20,480 Demagun bat liriko bat lortu duzu duenez, "haurra," besterik "haurra." da abestia Bada 333 00:16:20,480 --> 00:16:24,750 idatziz gero, "haurra," eta hau lortuko duzu hori izan dituzun datu guztiak da 334 00:16:24,750 --> 00:16:27,880 Lady Gaga eta Katy Perry, nor litzateke asmatzen duzun da pertsonaren 335 00:16:27,880 --> 00:16:29,370 duten abestia abesten? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga edo Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, ezta? 338 00:16:33,150 --> 00:16:37,400 Bakarra nork dio delako "Haurra". Honetan soinuak ergelak, ezta? 339 00:16:37,400 --> 00:16:38,760 Ados, hau da, benetan erraza. 340 00:16:38,760 --> 00:16:41,860 Besterik ez dut bi abesti hartan eta honen bila nabil Jakina, bakarra nork ditu zuen 341 00:16:41,860 --> 00:16:42,660 "Haurra". 342 00:16:42,660 --> 00:16:44,740 >> Baina zer hitz mordo bat duzu bada? 343 00:16:44,740 --> 00:16:50,900 Benetako lirikoa, zerbait bat izanez gero bezala, "haurra, besterik ez dut 344 00:16:50,900 --> 00:16:51,610 joan [bat ikusteko? CFT?] 345 00:16:51,610 --> 00:16:54,020 hitzaldia, "edo horrelako zerbait, eta orduan dute benetan duzu irudikatu - 346 00:16:54,020 --> 00:16:55,780 oinarritutako hitz horiek guztiak on - 347 00:16:55,780 --> 00:16:58,350 duten artista da seguruenik nork abesti hau kantatu? 348 00:16:58,350 --> 00:17:01,860 Hargatik garatzen saiatu hau pixka bat gehiago. 349 00:17:01,860 --> 00:17:05,630 >> Ados, beraz oinarritutako besterik datuei buruzko dugula got, Gaga da seguruenik badirudi 350 00:17:05,630 --> 00:17:06,260 abeslaria. 351 00:17:06,260 --> 00:17:07,904 Baina, nola idatziko dugu hau formalki? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Eta ez da apur bat izango da joan estatistikak pixka. 354 00:17:13,140 --> 00:17:15,880 Beraz duzu galdu bada, saiatu kontzeptua ulertzeko. 355 00:17:15,880 --> 00:17:18,700 Ez du axola ulertzen baduzu primeran ekuazioak. 356 00:17:18,700 --> 00:17:22,150 Hori guztia online izango da. 357 00:17:22,150 --> 00:17:25,490 >> Beraz, funtsean, zer kalkulatzeko naiz da probabilitatea abesti hau da 358 00:17:25,490 --> 00:17:28,040 Lady Gaga eman duten - 359 00:17:28,040 --> 00:17:30,660 beraz taberna hau esan nahi du eman duten - 360 00:17:30,660 --> 00:17:33,680 Hitza ikusi nuen "haurra". Ez duela zentzurik? 361 00:17:33,680 --> 00:17:35,540 Beraz kalkulatzeko saiatzen ari naiz probabilitatea duten. 362 00:17:35,540 --> 00:17:38,540 >> Beraz, ez dago izeneko teorema hau da Bayes teorema dela dio 363 00:17:38,540 --> 00:17:43,330 A emandako B probabilitatea, da B probabilitatea ematen du, aldiz 364 00:17:43,330 --> 00:17:47,660 bat probabilitatea, probabilitatea baino gehiago B. Horrek ekuazioa luzea da. 365 00:17:47,660 --> 00:17:51,970 Baina zer ulertu behar duzu hori da, hori da, zer nahi dut 366 00:17:51,970 --> 00:17:52,830 kalkulatzeko, ezta? 367 00:17:52,830 --> 00:17:56,570 Beraz probabilitatea Abesti hori da Lady Gaga emandako hitza ikusi dut 368 00:17:56,570 --> 00:17:58,230 "Haurra". 369 00:17:58,230 --> 00:18:02,960 >> Eta orain, zer naiz da hitza "haurra" probabilitatea eman 370 00:18:02,960 --> 00:18:04,390 Lady Gaga izan dut. 371 00:18:04,390 --> 00:18:07,220 Eta zer da, funtsean? 372 00:18:07,220 --> 00:18:10,500 Zer esan nahi da, zer da hitza "haurra" ikusten probabilitatea 373 00:18:10,500 --> 00:18:12,130 Gaga letra batean? 374 00:18:12,130 --> 00:18:16,240 Duten kalkulatzeko oso bat nahi badut modu erraz, besterik zenbakia da 375 00:18:16,240 --> 00:18:23,640 aldiz, guztizko kopurua baino gehiago "haurra" ikusten dut Gaga hitzak hitz baten, ezta? 376 00:18:23,640 --> 00:18:27,600 Zer da maiztasuna dudala ikusi Gaga obran hitz hori? 377 00:18:27,600 --> 00:18:30,530 Zentzurik? 378 00:18:30,530 --> 00:18:33,420 >> Bigarren terminoa da Gaga probabilitatea. 379 00:18:33,420 --> 00:18:34,360 Zer esan nahi du? 380 00:18:34,360 --> 00:18:38,550 Funtsean esan nahi du, zer da sailkatzeko probabilitatea 381 00:18:38,550 --> 00:18:40,690 Zenbait letra Gaga bezala? 382 00:18:40,690 --> 00:18:45,320 Eta hori da, bitxi mota, baina dezagun uste adibide bat. 383 00:18:45,320 --> 00:18:49,230 Hargatik esaten duten probabilitatea abesti batean "haurra" izatea bera da 384 00:18:49,230 --> 00:18:51,760 Gaga eta Britney Spears da. 385 00:18:51,760 --> 00:18:54,950 Baina Britney Spears birritan ditu Lady Gaga baino abesti gehiago. 386 00:18:54,950 --> 00:19:00,570 Beraz, norbaitek besterik ausaz ematen dizu bada lyrics of "haurra," lehenengo gauza duzu 387 00:19:00,570 --> 00:19:04,710 look at da, zer probabilitatea da Gaga abesti batean "haurra" izatea, "haurra" 388 00:19:04,710 --> 00:19:05,410 Britney abesti batean? 389 00:19:05,410 --> 00:19:06,460 Eta gauza bera da. 390 00:19:06,460 --> 00:19:10,040 >> Beraz, ikusiko duzu bigarren gauza da, ondo, zer probabilitatea da 391 00:19:10,040 --> 00:19:13,770 berak lyric hau Gaga liriko bat izanik, eta zer probabilitatea da 392 00:19:13,770 --> 00:19:15,380 Britney lyric izateaz? 393 00:19:15,380 --> 00:19:18,950 Beraz Britney hainbeste gehiago lyrics geroztik Gaga baino, seguraski egiten duzun 394 00:19:18,950 --> 00:19:21,470 esan, ondo, hau da, ziurrenik Britney liriko bat. 395 00:19:21,470 --> 00:19:23,340 Beraz, horregatik hau dugu hementxe epe. 396 00:19:23,340 --> 00:19:24,670 Gaga probabilitatea. 397 00:19:24,670 --> 00:19:26,950 Zentzua? 398 00:19:26,950 --> 00:19:28,660 Ez? 399 00:19:28,660 --> 00:19:29,370 Ados. 400 00:19:29,370 --> 00:19:33,500 >> Eta azkena besterik ez egoteko probabilitatea da "haurra" ren horrek ez du 401 00:19:33,500 --> 00:19:34,810 benetan axola askoz. 402 00:19:34,810 --> 00:19:39,940 Baina probabilitatea da ingelesez "haurra" ikusten. 403 00:19:39,940 --> 00:19:42,725 Ez normalean ez dugu zaintzen epe horri buruz askoz. 404 00:19:42,725 --> 00:19:44,490 Ez duela zentzurik? 405 00:19:44,490 --> 00:19:48,110 Beraz Gaga probabilitatea da aurretiko probabilitatea deitzen 406 00:19:48,110 --> 00:19:49,530 klase Gaga du. 407 00:19:49,530 --> 00:19:53,840 Da besterik gabe esan nahi duelako, zer da klase hori izatearen probabilitatea - 408 00:19:53,840 --> 00:19:55,520 horrek Gaga da - 409 00:19:55,520 --> 00:19:59,350 besterik ez, oro har, aski baldintzarik gabe. 410 00:19:59,350 --> 00:20:02,560 >> Eta orduan probabilitatea daukat Gaga eman "haurra," deitzen dugun plus 411 00:20:02,560 --> 00:20:06,160 malkotsua probabilitatea, da delako izatearen probabilitatea 412 00:20:06,160 --> 00:20:08,300 Gaga froga batzuk eman. 413 00:20:08,300 --> 00:20:11,050 Beraz, ebidentzia ematen dizut Hitz haurra ikusi dut eta 414 00:20:11,050 --> 00:20:12,690 Abestiaren zentzurik? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 Ados. 417 00:20:16,410 --> 00:20:22,400 >> I kalkulatzen Hala bada duten bakoitzeko Lady Gaga abestiak du, 418 00:20:22,400 --> 00:20:25,916 zer izango litzateke - 419 00:20:25,916 --> 00:20:27,730 itxuraz, ezin dut mugitu honetan. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Gaga probabilitatea izango antzeko zerbait, 2 24 baino gehiago, bider 1/2, 422 00:20:36,920 --> 00:20:38,260 2 baino gehiago 53 baino gehiago. 423 00:20:38,260 --> 00:20:40,640 Ez du axola badakizu zer Zenbaki horiek dira datozen. 424 00:20:40,640 --> 00:20:44,750 Baina hori gertatzen zenbaki bat besterik ez da 0 baino gehiago izan, ezta? 425 00:20:44,750 --> 00:20:48,610 >> Eta gero, ez dut Katy Perry, "haurra" probabilitatea eman Katy da 426 00:20:48,610 --> 00:20:49,830 Dagoeneko 0, ezta? 427 00:20:49,830 --> 00:20:52,820 Ez delako "haurra" Katy Perry in. 428 00:20:52,820 --> 00:20:56,360 Beraz, orduan hau bihurtzen 0, eta Gaga garaipen, eta horrek esan nahi Gaga dela 429 00:20:56,360 --> 00:20:57,310 Ziurrenik kantaria. 430 00:20:57,310 --> 00:20:58,560 Ez duela zentzurik? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 Ados. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Beraz ofizial gehiago hau egin nahi badut, Benetan dut eredu bat egin ahal 435 00:21:11,750 --> 00:21:12,700 Hitz bat baino gehiago da. 436 00:21:12,700 --> 00:21:14,610 Beraz, demagun zerbait que tengo bezala, "haurra, ni naiz 437 00:21:14,610 --> 00:21:16,030 sua ", edo horrelako zerbait. 438 00:21:16,030 --> 00:21:17,760 Beraz, hitz bat baino gehiago ditu. 439 00:21:17,760 --> 00:21:20,880 Eta, kasu honetan, ikusi ahal izango duzu hori "haurra" Gaga da, 440 00:21:20,880 --> 00:21:21,710 baina ez da Katy in. 441 00:21:21,710 --> 00:21:24,940 Eta "su" Katy da, baina Ez da Gaga da, ezta? 442 00:21:24,940 --> 00:21:27,200 Beraz trickier lortzean da, ezta? 443 00:21:27,200 --> 00:21:31,440 Badirudi delako duzula ia Bien arteko berdinketa bat. 444 00:21:31,440 --> 00:21:36,980 >> Beraz, zer egin behar duzun da, bere gain hartzen hitzen artean independentzia. 445 00:21:36,980 --> 00:21:41,210 Beraz, funtsean, zer esan nahi duen Besterik ez dut zer den kalkulatzeko 446 00:21:41,210 --> 00:21:44,330 ikusten probabilitatea "haurra," zer da ikusten probabilitatea "dut", eta 447 00:21:44,330 --> 00:21:46,670 "Ni" eta "on", eta "su", guztiak banan-banan. 448 00:21:46,670 --> 00:21:48,670 Ondoren denak biderkatzeko naiz. 449 00:21:48,670 --> 00:21:52,420 Eta zer probabilitatea da ikusten dut dagoen esaldi osoa ikustea. 450 00:21:52,420 --> 00:21:55,210 Zentzurik? 451 00:21:55,210 --> 00:22:00,270 >> Beraz, funtsean, hitz bat besterik ez badut, zer aurkitu nahi nuen arg max da, 452 00:22:00,270 --> 00:22:05,385 horrek esan nahi du, zer klase dela da me probabilitatea altuena emanez? 453 00:22:05,385 --> 00:22:10,010 Beraz, zer klase emanez dela niretzat probabilitatea altuena 454 00:22:10,010 --> 00:22:11,940 klase probabilitatea emandako hitza. 455 00:22:11,940 --> 00:22:17,610 Beraz, kasu honetan, Gaga eman "haurra". Edo Katy eman "haurra". Zentzurik? 456 00:22:17,610 --> 00:22:21,040 >> Eta besterik Bayes eragozteko, agian ekuazio dudala erakutsi, 457 00:22:21,040 --> 00:22:24,780 frakzio hau sortzen dugu. 458 00:22:24,780 --> 00:22:28,750 Gauza bakarra da ikusten duzun Hitz probabilitatea ematen du 459 00:22:28,750 --> 00:22:31,370 klase aldaketen arabera klasea da, ezta? 460 00:22:31,370 --> 00:22:34,260 S "haurra" que tengo kopuruak Gaga in Katy desberdinak. 461 00:22:34,260 --> 00:22:37,640 Klasea probabilitatea ere besterik zenbakia da aldaketa delako 462 00:22:37,640 --> 00:22:39,740 abesti horietako bakoitzak. 463 00:22:39,740 --> 00:22:43,980 >> Baina hitza bera probabilitatea da berdinak izatea guztiak ezkerraldetik 464 00:22:43,980 --> 00:22:44,740 artistek, ezta? 465 00:22:44,740 --> 00:22:47,150 Beraz, hitza probabilitatea da besterik gabe, zer probabilitatea da 466 00:22:47,150 --> 00:22:49,820 hitz hori ikusten diren Ingelesa hizkuntza? 467 00:22:49,820 --> 00:22:51,420 Beraz, horiek guztiak bera da. 468 00:22:51,420 --> 00:22:55,790 Hau da, konstante beraz geroztik, ezin dugu besterik askatu eta hau ez da arduratu. 469 00:22:55,790 --> 00:23:00,230 Beraz, hau benetan izango da ekuazio bilatzen ari gara. 470 00:23:00,230 --> 00:23:03,360 >> Eta hitz bat baino gehiago izan banu, naiz oraindik ere aurretik izan da joan 471 00:23:03,360 --> 00:23:04,610 probabilitatea hemen. 472 00:23:04,610 --> 00:23:06,980 Gauza bakarra da biderkatzailea naiz probabilitatea 473 00:23:06,980 --> 00:23:08,490 beste hitz guztiak. 474 00:23:08,490 --> 00:23:10,110 Beraz, horiek guztiak biderkatu naiz. 475 00:23:10,110 --> 00:23:12,610 Zentzurik? 476 00:23:12,610 --> 00:23:18,440 Arraroa dirudi, baina funtsean esan nahi du, klasearen aurretik eta kalkulatu 477 00:23:18,440 --> 00:23:22,100 ondoren, bakoitzaren probabilitatea bider Hitzak klase horretan egoteko. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Eta badakiela baten probabilitatea Hitz klase bat eman izango da, joan den 480 00:23:29,150 --> 00:23:34,520 in hitz hori ikusten duzu zenbat aldiz klase horretan, kopuruaren arabera banatzen 481 00:23:34,520 --> 00:23:37,020 Hitz horretan duzu oro har, klase. 482 00:23:37,020 --> 00:23:37,990 Zentzurik? 483 00:23:37,990 --> 00:23:41,680 Besterik ez da "haurra" nola izan zen 2 baino gehiago hitz kopurua duten 484 00:23:41,680 --> 00:23:43,020 Izan lyrics in dut. 485 00:23:43,020 --> 00:23:45,130 Beraz, besterik maiztasuna. 486 00:23:45,130 --> 00:23:46,260 >> Baina gauza bat da. 487 00:23:46,260 --> 00:23:51,250 Gogoratu nola erakusten ari nintzen hori "haurra" lyrics izatearen probabilitatea 488 00:23:51,250 --> 00:23:56,350 Katy Perry 0tik zen soilik delako Katy Perry ez dute "haurra" guztietan? 489 00:23:56,350 --> 00:24:04,900 Baina apur bat besterik ez gogorra soinuak besterik gabe esan lyrics ezin izango 490 00:24:04,900 --> 00:24:10,040 ez dute ez bakarrik delako izan artista bat bereziki, hitz horren edozein unetan. 491 00:24:10,040 --> 00:24:13,330 >> Beraz, besterik gabe esan ahal izango duzu, bai, zuk ez dute hitz hori izan, noa joan 492 00:24:13,330 --> 00:24:15,640 probabilitatea txikiagoa ematen dizute, baina besterik ez dut ez joatea 493 00:24:15,640 --> 00:24:17,420 ematen dizute 0 berehala. 494 00:24:17,420 --> 00:24:21,040 Agian delako zen zerbait bezala, "Sua, sua, sua, sua," hau da, 495 00:24:21,040 --> 00:24:21,990 erabat Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Eta, ondoren, "haurra", eta besterik ez doa 0 berehala ez zen bat delako 497 00:24:26,060 --> 00:24:27,250 "Haurra". 498 00:24:27,250 --> 00:24:31,440 >> Beraz, funtsean, zer egiten dugun zerbait da Laplace leuntzea deritzo. 499 00:24:31,440 --> 00:24:36,260 Eta hori esan nahi emanez naiz duten I nahiz eta hitz egiteko probabilitatea batzuk 500 00:24:36,260 --> 00:24:37,850 hori ez da existitzen. 501 00:24:37,850 --> 00:24:43,170 Beraz, egiten dudana da, orduan naiz hau kalkulatzeko, gehitu dut beti 1era 502 00:24:43,170 --> 00:24:44,180 zenbakitzailea. 503 00:24:44,180 --> 00:24:48,060 Hitza ez bada beraz, nahiz eta existitzen, in Kasu honetan, hau da, 0 bada, naiz oraindik 504 00:24:48,060 --> 00:24:51,250 gainetik 1 gisa hau kalkulatzeko guztira hitz kopurua. 505 00:24:51,250 --> 00:24:55,060 Bestela, I get zenbat hitz Daukat eta gehitu dut 1. 506 00:24:55,060 --> 00:24:58,300 Beraz, bi kasuetan eman dut kontatuta naiz. 507 00:24:58,300 --> 00:25:00,430 Zentzurik? 508 00:25:00,430 --> 00:25:03,060 >> Beraz, orain egin dezagun kodifikazioa batzuk utzi. 509 00:25:03,060 --> 00:25:06,440 Nahiko azkar egin behar noa, baina besterik garrantzitsua da duzula 510 00:25:06,440 --> 00:25:08,600 guys ulertzeko kontzeptuak. 511 00:25:08,600 --> 00:25:13,450 Beraz, zer egiten saiatzen ari gara da zehazki ezartzea honetan 512 00:25:13,450 --> 00:25:14,330 Gauza hori besterik esan nuen - 513 00:25:14,330 --> 00:25:19,110 Hitzak jarri behar duzu nahi dut Lady Gaga eta Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Eta programa gai izango da letrak horiek Gaga etatik diren adierazi 515 00:25:22,980 --> 00:25:24,170 edo Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Zentzurik? 517 00:25:25,800 --> 00:25:27,530 Ados. 518 00:25:27,530 --> 00:25:30,710 >> Beraz, programa honetan noa daukat classify.py deitzeko. 519 00:25:30,710 --> 00:25:31,970 Beraz, hau Python da. 520 00:25:31,970 --> 00:25:34,210 Da programazio-lengoaia berri bat. 521 00:25:34,210 --> 00:25:38,020 Batzuk oso antzekoa da C eta PHP modu. 522 00:25:38,020 --> 00:25:43,180 Antzeko izan nahi duelako baduzu ikasi Python C ezagutu ondoren, ez da 523 00:25:43,180 --> 00:25:46,270 benetan ez duten erronka bat askoz Python askoz errazagoa da, besterik ez delako 524 00:25:46,270 --> 00:25:47,520 C baino, lehenik eta behin. 525 00:25:47,520 --> 00:25:49,370 Eta gauza asko daude dagoeneko zuretzat ezarri. 526 00:25:49,370 --> 00:25:56,820 Beraz, besterik gabe, nola PHP bezalako funtzio duten zerrenda bat ordenatu, edo zerbait erantsi 527 00:25:56,820 --> 00:25:58,780 array bat, edo blah, blah, blah izateko. 528 00:25:58,780 --> 00:26:00,690 Python horiek guztiak ditu baita. 529 00:26:00,690 --> 00:26:05,960 >> Naiz, beraz, azkar azaltzeko joan sailkapena nola egin genezake 530 00:26:05,960 --> 00:26:07,860 Hemen arazo. 531 00:26:07,860 --> 00:26:13,230 Beraz, demagun kasu honetan, daukat lyrics Gaga eta Katy Perry from. 532 00:26:13,230 --> 00:26:21,880 Bide pertsonak letra horiek daukat dela lyrics lehen hitza da 533 00:26:21,880 --> 00:26:25,250 Artistaren izena, eta gainerako letra da. 534 00:26:25,250 --> 00:26:29,470 Beraz, demagun zerrenda honetan que tengo en horietatik lehena lyrics Gaga egilea da. 535 00:26:29,470 --> 00:26:31,930 Beraz, hemen nago bide onetik dut. 536 00:26:31,930 --> 00:26:35,270 Eta hurrengo bat Katy da, eta halaber, letra ditu. 537 00:26:35,270 --> 00:26:38,040 >> Beraz, hau da, nola aldarrikatu duzu Python-en aldagai bat. 538 00:26:38,040 --> 00:26:40,200 Ez duzu datu-mota emateko. 539 00:26:40,200 --> 00:26:43,150 Idazten duzun besterik ez "hitzak," motatako PHP gustatzen. 540 00:26:43,150 --> 00:26:44,890 Zentzurik? 541 00:26:44,890 --> 00:26:47,770 >> Beraz, zer dira duten daukat gauzak egiteko kalkulatzeko kalkulatzeko gai izan behar du 542 00:26:47,770 --> 00:26:49,360 probabilitate? 543 00:26:49,360 --> 00:26:55,110 The "prioreen" kalkulatu behar dut desberdina du bakoitzaren 544 00:26:55,110 --> 00:26:56,710 eskolak que tengo. 545 00:26:56,710 --> 00:27:06,680 The "posteriors," kalkulatu behar dut edo nahiko askoz probabilitateak 546 00:27:06,680 --> 00:27:12,150 desberdinak hitz bakoitzak Artista bakoitzeko ezin dut izan. 547 00:27:12,150 --> 00:27:17,210 Beraz Gaga barruan, adibidez, noa zenbat aldiz ikusi dut zerrenda bat izatea 548 00:27:17,210 --> 00:27:19,250 hitz guztiek. 549 00:27:19,250 --> 00:27:20,760 Zentzurik? 550 00:27:20,760 --> 00:27:25,370 >> Eta, azkenik, besterik ez dut behar joan a "Hitzak" izeneko zerrenda hori besterik joan 551 00:27:25,370 --> 00:27:29,780 behar zenbat hitz dut artista bakoitzeko dute. 552 00:27:29,780 --> 00:27:33,760 Beraz Gaga, adibidez, noiz begiratu nuen letra egiteko, nuen, uste dut, 24 553 00:27:33,760 --> 00:27:34,750 guztira hitz. 554 00:27:34,750 --> 00:27:38,970 Beraz zerrenda hau besterik ez da behar joan Gaga 24, eta Katy zenbaki batera. 555 00:27:38,970 --> 00:27:40,130 Zentzurik? 556 00:27:40,130 --> 00:27:40,560 Ados. 557 00:27:40,560 --> 00:27:42,530 >> Beraz, gaur egun, benetan, dezagun kodetze joan. 558 00:27:42,530 --> 00:27:45,270 Beraz, Python, benetan ahal duzun desberdin mordo bat itzultzeko 559 00:27:45,270 --> 00:27:46,630 funtzio bat gauzak. 560 00:27:46,630 --> 00:27:50,810 Naiz, beraz, funtzio hau sortzen joan "baldintzapeko," horrek va izeneko 561 00:27:50,810 --> 00:27:53,890 gauza horiek guztiak itzuli behar du, "Priores," "probabilitate", eta 562 00:27:53,890 --> 00:28:05,690 "Hitzak." Beraz, "baldintzapeko," eta hori da sartu beharreko deituz going "hitzak." 563 00:28:05,690 --> 00:28:11,510 >> Beraz, gaur egun, benetan nahi dut Funtzio hau idazteko. 564 00:28:11,510 --> 00:28:17,750 Beraz, hori dut hau idatzi ahal bidea funtzioa besterik ez da definitzen dut 565 00:28:17,750 --> 00:28:20,620 hauekin funtziona "def." Beraz, egin nuen "def baldintzapeko, "eta zer hartzen ari da 566 00:28:20,620 --> 00:28:28,700 "Letra." Eta zer egin behar da joan da, lehenik eta behin, nire prioreen daukat 567 00:28:28,700 --> 00:28:31,030 kalkulatu nahi dut. 568 00:28:31,030 --> 00:28:34,330 >> Beraz, hau egin ahal naiz bidea da sortu Python, hiztegi batean eta horrek 569 00:28:34,330 --> 00:28:37,320 nahiko askoz hash gisa gauza bera da mahaia, edo etorriko da bat bezalakoa da 570 00:28:37,320 --> 00:28:40,480 PHP array. 571 00:28:40,480 --> 00:28:44,150 Hau da, hiztegi bat nola deklaratzen dut. 572 00:28:44,150 --> 00:28:53,580 Eta, batez ere, zer esan nahi duen Gaga prioreen 0,5 da, adibidez, bada 573 00:28:53,580 --> 00:28:57,200 Lyrics% 50 dira Gaga, Katy% 50 dira. 574 00:28:57,200 --> 00:28:58,450 Zentzurik? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Beraz, irudikatu nahi izan dut nola prioreen kalkulatzeko. 577 00:29:03,680 --> 00:29:07,120 >> Duten egin behar dut hurrengo direnak, halaber, probabilitate eta hitzak dira. 578 00:29:07,120 --> 00:29:17,100 Beraz Gaga probabilitateak zerrenda da probabilitate guztien dudala 579 00:29:17,100 --> 00:29:19,160 Gaga for hitz guztiek dute. 580 00:29:19,160 --> 00:29:23,880 Joaten naiz Gaga probabilitateak nahi hala bada "Haurra", esate baterako, eman egingo da niretzat 581 00:29:23,880 --> 00:29:28,750 2 24 baino gehiago kasu horretan antzeko zerbait. 582 00:29:28,750 --> 00:29:30,070 Zentzurik? 583 00:29:30,070 --> 00:29:36,120 Beraz, joan nintzen eta "probabilitate," joan den Duten guztien zerrenda bat dauka "Gaga" ontzi 584 00:29:36,120 --> 00:29:40,550 Gaga hitzetan, gero joan naiz "haurra," eta probabilitatea ikusten dut. 585 00:29:40,550 --> 00:29:45,940 >> Eta azkenik, hau dut "Hitz" hiztegia. 586 00:29:45,940 --> 00:29:53,620 Beraz, hemen, "probabilitate". Eta gero "Hitzak." Beraz, "hitz", "Gaga," egin badut 587 00:29:53,620 --> 00:29:58,330 zer gertatuko da da dela me emateko 24 joan, esaten dut 588 00:29:58,330 --> 00:30:01,990 lyrics Gaga barruan 24 hitz izan. 589 00:30:01,990 --> 00:30:04,110 Zentzua? 590 00:30:04,110 --> 00:30:07,070 Beraz, hemen, "hitzak" dah-dah-dah berdin. 591 00:30:07,070 --> 00:30:07,620 Ados 592 00:30:07,620 --> 00:30:12,210 >> Beraz, zer egin noa da noa letra bakoitzean zehar batetik bestera joateko eta, beraz, 593 00:30:12,210 --> 00:30:14,490 kateak bakoitzak Izan zerrendan dut. 594 00:30:14,490 --> 00:30:18,040 Eta ez dut gauza horiek kalkulatzeko joan hautagaien bakoitzeko. 595 00:30:18,040 --> 00:30:19,950 Zentzua? 596 00:30:19,950 --> 00:30:21,700 Beraz, bat egin behar begizta daukat. 597 00:30:21,700 --> 00:30:26,300 >> Beraz, Python, zer egin ahal izango dut "linea; lyrics in. "gisa ere gauza bera 598 00:30:26,300 --> 00:30:28,000 PHP adierazpena "bakoitzeko". 599 00:30:28,000 --> 00:30:33,420 Gogoratu nola PHP bada nuen esan "letra bakoitzean bezala 600 00:30:33,420 --> 00:30:35,220 lerroan. "Makes zentzurik? 601 00:30:35,220 --> 00:30:38,900 Beraz, lerro bakoitzean hartu dut, hau kasuan, katea hau eta hurrengoan 602 00:30:38,900 --> 00:30:44,540 kate beraz, lerro zer naiz bakoitzerako joan egiten da lehenik, noa joan 603 00:30:44,540 --> 00:30:49,150 zatitu lerro hau zerrenda bat sartu zuriunez bereizita hitz. 604 00:30:49,150 --> 00:30:53,730 >> Beraz Python buruz cool gauza dela duzun izan besterik Google bezala "nola egin dezaket 605 00:30:53,730 --> 00:30:58,220 zatitu kate bat hitz sartu? "Eta hori da esango nola egin behar. 606 00:30:58,220 --> 00:31:04,890 Eta bidean egin behar den, besterik lerroan "da = Line.split () "eta da funtsean 607 00:31:04,890 --> 00:31:08,640 zurekin zerrenda bat ematera joan Hitzak hemen bakoitzean. 608 00:31:08,640 --> 00:31:09,620 Zentzua? 609 00:31:09,620 --> 00:31:15,870 Beraz, orain, jakin nahi dut nik duten abesti hori kantaria da. 610 00:31:15,870 --> 00:31:20,130 Eta hori besterik ez dut lortu egin matrizearen lehen elementua, ezta? 611 00:31:20,130 --> 00:31:26,390 Beraz, besterik ez dut esan ahal izango dut "abeslaria = Line (0) "Makes zentzurik? 612 00:31:26,390 --> 00:31:32,010 >> Eta gero, zer egin behar dut, lehen guztiak, naiz eguneratzeko noa zenbat 613 00:31:32,010 --> 00:31:36,130 Hitz pean daukat "Gaga." beraz nago besterik kalkulatzeko joan zenbat hitz dut 614 00:31:36,130 --> 00:31:38,690 Zerrenda honetan izan da, ezta? 615 00:31:38,690 --> 00:31:41,910 Hau da, zenbat hitz daukat delako letra eta besterik ez naiz joan 616 00:31:41,910 --> 00:31:44,120 gehitu du "Gaga" array izateko. 617 00:31:44,120 --> 00:31:47,090 Ez duela zentzurik? 618 00:31:47,090 --> 00:31:49,010 Ez zentratu gehiegi sintaxia da. 619 00:31:49,010 --> 00:31:50,430 Uste gehiago kontzeptuak buruz. 620 00:31:50,430 --> 00:31:52,400 Duen zatirik garrantzitsuena da. 621 00:31:52,400 --> 00:31:52,720 Ados. 622 00:31:52,720 --> 00:32:00,260 >> Beraz, zer I egin ahal da "Gaga" bada Dagoeneko zerrenda horretan, beraz, "bada abeslari hasi 623 00:32:00,260 --> 00:32:03,190 hitzak "horrek esan nahi dut dagoeneko hitzak izan Gaga arabera. 624 00:32:03,190 --> 00:32:06,640 Besterik osagarriak gehitu nahi dut duten hitzak. 625 00:32:06,640 --> 00:32:15,810 Beraz, egiten dudana hitzak "(abeslaria) da + = Len (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Eta gero, besterik ez dut egin ahal izango du lerroaren luzera. 627 00:32:18,250 --> 00:32:21,860 Elementu beraz zenbat dut array dute. 628 00:32:21,860 --> 00:32:27,060 Eta egin behar dut ken 1 besterik ez delako matrizearen lehen elementua besterik ez da 629 00:32:27,060 --> 00:32:29,180 abeslari eta horiek ez dira letrak. 630 00:32:29,180 --> 00:32:31,420 Zentzua? 631 00:32:31,420 --> 00:32:32,780 Ados. 632 00:32:32,780 --> 00:32:35,820 >> "Bestela," nahi dut esan nahi du benetan txertatzeko Gaga zerrendan sartu. 633 00:32:35,820 --> 00:32:45,990 Horrela egin dut, besterik gabe "hitz (abeslaria) = Len (line) - 1, "sentitzen. 634 00:32:45,990 --> 00:32:49,200 Beraz, bien arteko desberdintasun bakarra lerro bat da hori, ez du 635 00:32:49,200 --> 00:32:51,080 existitzen oraindik, naiz, beraz, du hasieratzean. 636 00:32:51,080 --> 00:32:53,820 Ko hau dut benetan gehituz naiz. 637 00:32:53,820 --> 00:32:55,570 Ados. 638 00:32:55,570 --> 00:32:59,480 Hain zen honetan hitz gehituz. 639 00:32:59,480 --> 00:33:03,040 >> Orain gehitu Priores nahi dut. 640 00:33:03,040 --> 00:33:05,480 Beraz, nola ez prioreen kalkulatu dut? 641 00:33:05,480 --> 00:33:11,580 Prioreen kalkulatu daiteke zenbat bider. 642 00:33:11,580 --> 00:33:15,340 Abeslari, beraz, zenbat aldiz ikusi duzu abeslari duzula guztien artean 643 00:33:15,340 --> 00:33:16,380 izan, ezta? 644 00:33:16,380 --> 00:33:18,810 Gaga eta Katy Perry, beraz, kasu honetan, ikusten dut Gaga 645 00:33:18,810 --> 00:33:20,570 behin, Katy Perry behin. 646 00:33:20,570 --> 00:33:23,320 >> Beraz, funtsean Gaga for Priores eta Katy Perry litzateke 647 00:33:23,320 --> 00:33:24,390 bakar bat izango da, ezta? 648 00:33:24,390 --> 00:33:26,500 Zuk besterik ez zenbat aldiz Artistak ikusten dut. 649 00:33:26,500 --> 00:33:28,740 Beraz, hau da kalkulatu oso erraza da. 650 00:33:28,740 --> 00:33:34,100 I can zerbait antzekoa bezala "balitz bezala prioreen abeslari, "Besterik ez naiz joan 651 00:33:34,100 --> 00:33:38,970 gehitzeko 1 euren prioreen kutxa da. 652 00:33:38,970 --> 00:33:51,000 Beraz, "prioreen (kantatzen)" + = 1 "eta ondoren", bestela " "Prioreen (kantaria) egin nahi dut 653 00:33:51,000 --> 00:33:55,000 = 1. "Makes zentzurik? 654 00:33:55,000 --> 00:34:00,080 >> Beraz, ez badago jarri besterik ez dut 1 bezala, bestela gehitu besterik ez dut 1. 655 00:34:00,080 --> 00:34:11,280 Ados, beraz, gaur egun hori guztia utzi dut egin da ere gehi hitz guztiek egindako 656 00:34:11,280 --> 00:34:12,290 probabilitate. 657 00:34:12,290 --> 00:34:14,889 Beraz, zenbatu behar dut zenbat aldiz Hitz bakoitzean ikusten dut. 658 00:34:14,889 --> 00:34:18,780 Beraz, besterik ez dut beste modu batez lerroan begizta. 659 00:34:18,780 --> 00:34:25,190 >> Duten ez dut egingo, beraz lehenengo gauza da check abeslariaren dagoeneko badu bat 660 00:34:25,190 --> 00:34:26,969 probabilitate array. 661 00:34:26,969 --> 00:34:31,739 Beraz dut egiaztapena abeslaria ez bada probabilitate array bat, besterik ez naiz 662 00:34:31,739 --> 00:34:34,480 beraientzat bat abiarazi nahi du. 663 00:34:34,480 --> 00:34:36,400 Ez da, nahiz eta array bat da, barkatu, hiztegi bat da. 664 00:34:36,400 --> 00:34:43,080 Beraz, abeslaria probabilitateak va hiztegi ireki bat izan nahi du, beraz, naiz 665 00:34:43,080 --> 00:34:45,830 besterik ez da hiztegi bat hasieratzeko. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Eta orain dut benetan egiten loop hitz guztiek 'kalkulatzeko 668 00:34:58,330 --> 00:35:00,604 probabilitate. 669 00:35:00,604 --> 00:35:01,540 Ados. 670 00:35:01,540 --> 00:35:04,160 Beraz, zer egin ahal izango dut begizta. 671 00:35:04,160 --> 00:35:06,590 Beraz, besterik ez dut batetik bestera joateko joan array zehar. 672 00:35:06,590 --> 00:35:15,320 Beraz, hori egin ahal izango dut Python modu da "sorta i da." 1etik 673 00:35:15,320 --> 00:35:19,200 bigarren urtean hasi nahi nuelako lehenengoa da elementu delako 674 00:35:19,200 --> 00:35:20,260 abeslaria izena. 675 00:35:20,260 --> 00:35:24,990 Beraz batetik erabakitzen ditu lerroaren luzera. 676 00:35:24,990 --> 00:35:29,760 Eta noiz bitartekoa dut benetan aurrera joan hemen bezala 1etik du len izateko 677 00:35:29,760 --> 00:35:30,740 line ken 1. 678 00:35:30,740 --> 00:35:33,810 Hori egiteko gauza dela dagoeneko egiten du n ken 1 arrayak egiteko eta hori oso 679 00:35:33,810 --> 00:35:35,500 erosoa. 680 00:35:35,500 --> 00:35:37,850 Zentzua? 681 00:35:37,850 --> 00:35:42,770 >> Beraz, horietako bakoitzean, zer noa joan egin da, besterik gabe, beste bat bezala, 682 00:35:42,770 --> 00:35:50,320 Egiaztatu noa bada honetako hitza marraren posizioan da dagoeneko in 683 00:35:50,320 --> 00:35:51,570 probabilitate. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Eta gero, hemen esan dut, probabilitate gisa hitzak, gisa I jarri 686 00:35:57,260 --> 00:35:58,400 "Probabilitate (abeslaria)". 687 00:35:58,400 --> 00:35:59,390 Beraz abeslariaren izenean. 688 00:35:59,390 --> 00:36:03,450 Beraz, dagoeneko ez da bada "PROBABILIT (abeslaria)", da esan nahi dut 689 00:36:03,450 --> 00:36:11,960 gehitzeko 1 ez da nahi, beraz, noa joan "probabilitate (abeslaria)", eta burutu 690 00:36:11,960 --> 00:36:14,100 hitza "lerroa (i)" deritzo. 691 00:36:14,100 --> 00:36:22,630 Gehitzeko 1 noa eta "bestela" Besterik ez dut abiarazi 1 joatea. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Zentzua? 695 00:36:28,420 --> 00:36:30,180 >> Beraz, array guztia kalkulatzen dut. 696 00:36:30,180 --> 00:36:36,580 Beraz, gaur egun guztiak hori egin behar dut hau bat besterik ez da "prioreen itzultzeko, 697 00:36:36,580 --> 00:36:43,230 probabilitate eta hitzak. "dezagun Ikusten baldin badaude, Ados. 698 00:36:43,230 --> 00:36:45,690 Guztia, orain arte lanean ari dela dirudi. 699 00:36:45,690 --> 00:36:46,900 Beraz, zentzua? 700 00:36:46,900 --> 00:36:47,750 Nolabait? 701 00:36:47,750 --> 00:36:49,280 Ados. 702 00:36:49,280 --> 00:36:51,980 Beraz, gaur egun probabilitate guztia daukat. 703 00:36:51,980 --> 00:36:55,100 Beraz, orain utzi nuen gauza bakarra besterik ez da gauza izan zela 704 00:36:55,100 --> 00:36:58,650 guztien biderkaketa kalkulatzen du probabilitateak denean letra lortu dut. 705 00:36:58,650 --> 00:37:06,270 >> Beraz, demagun orain deitu nahi dut funtzio hau "sailkatzea ()" eta 706 00:37:06,270 --> 00:37:08,880 Gauza funtzio hori hartzen argumentu bat besterik ez da. 707 00:37:08,880 --> 00:37:13,170 Demagun "Baby, Ni sutan dut", eta hura da irudikatu zer da joan 708 00:37:13,170 --> 00:37:14,490 Probabilitate hori Gaga da? 709 00:37:14,490 --> 00:37:16,405 Zer probabilitate hori da Katie? 710 00:37:16,405 --> 00:37:19,690 Soinuak ona? 711 00:37:19,690 --> 00:37:25,750 Naiz, beraz, sortu izan du bat izeneko funtzio berria "sailkatzea ()" eta 712 00:37:25,750 --> 00:37:29,180 Da pixka bat hartu du lyrics baita. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Eta letra gain nik ere Priores bidali behar du, 715 00:37:36,160 --> 00:37:37,700 probabilitate eta hitzak. 716 00:37:37,700 --> 00:37:44,000 Beraz, ez dut lyrics, prioreen bidaltzen dizkiguzun, probabilitate, hitzak. 717 00:37:44,000 --> 00:37:51,840 >> Beraz, hau da letrak, prioreen hartuz, probabilitate, hitzak. 718 00:37:51,840 --> 00:37:53,530 Beraz, zer egin du? 719 00:37:53,530 --> 00:37:57,180 Funtsean da guztietan barrena joan balizko hautagaien duzula 720 00:37:57,180 --> 00:37:58,510 abeslari gisa izan. 721 00:37:58,510 --> 00:37:59,425 Eta non dira hautagai horiek? 722 00:37:59,425 --> 00:38:01,020 Oraindik Priores In dute, ezta? 723 00:38:01,020 --> 00:38:02,710 Beraz, ez dago horiek guztiak ditut. 724 00:38:02,710 --> 00:38:07,870 Beraz, ez dut hiztegi bat izan da joan balizko hautagai guztien. 725 00:38:07,870 --> 00:38:14,220 Eta, ondoren, hautagai bakoitzeko Priores, dela joan esan nahi du, beraz, 726 00:38:14,220 --> 00:38:17,740 izan Gaga, Katie banu gehiago gehiago izango litzateke. 727 00:38:17,740 --> 00:38:20,410 Kalkulatzeko hasteko noa probabilitatea hau. 728 00:38:20,410 --> 00:38:28,310 Probabilitatea ikusi bezala dugun PowerPoint aurretik aldiz da 729 00:38:28,310 --> 00:38:30,800 bakoitzaren produktua beste probabilitate. 730 00:38:30,800 --> 00:38:32,520 >> Beraz, gauza bera egin dezaket hemen. 731 00:38:32,520 --> 00:38:36,330 Besterik ez dut egin ahal probabilitatea da Hasieran besterik ez aurretik. 732 00:38:36,330 --> 00:38:40,340 Beraz, hautagaiak prioreen. 733 00:38:40,340 --> 00:38:40,870 Ezta? 734 00:38:40,870 --> 00:38:45,360 Eta orain arte guztian zehar batetik bestera joateko behar dut hori izango dute letra dut hitz 735 00:38:45,360 --> 00:38:48,820 gai probabilitatea gehitzeko Horietako bakoitzerako, OK? 736 00:38:48,820 --> 00:38:57,900 Beraz, "hitzak hitzak for" zer noa da egiteko, hitza bada 737 00:38:57,900 --> 00:39:01,640 "Probabilitate (hautagai)", horrek esan nahi du, hitz bat da hori da hori 738 00:39:01,640 --> 00:39:03,640 Hautagaiak bere hitzak ditu - 739 00:39:03,640 --> 00:39:05,940 adibidez, "haurra" Gaga for - 740 00:39:05,940 --> 00:39:11,710 zer egin behar dut zera dela, probabilitatea dago biderkatu egingo da 741 00:39:11,710 --> 00:39:22,420 1 eta plus probabilitate du hitz hori hautagai. 742 00:39:22,420 --> 00:39:25,710 Eta "hitza" deitu zion. 743 00:39:25,710 --> 00:39:32,440 Honek hitz kopuruaren arabera banatzen hautagai hori izan dut. 744 00:39:32,440 --> 00:39:37,450 Guztira hitz kopurua que tengo hori bilatzen ari naiz abeslaria da. 745 00:39:37,450 --> 00:39:40,290 >> "Bestela." esan nahi du, hitz berri bat da beraz, adibidez atsegin litzaidake izan 746 00:39:40,290 --> 00:39:41,860 "Su" Lady Gaga da. 747 00:39:41,860 --> 00:39:45,760 Beraz, besterik egin 1 baino gehiago nahi dut "Hitza (hautagai)". 748 00:39:45,760 --> 00:39:47,710 Beraz, ez dut nahi legealdi honetan jarri behar da hemen. 749 00:39:47,710 --> 00:39:50,010 >> Beraz, funtsean izango da kopiatzeko eta itsasteko hau. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Baina nik zati hau ezabatu noa. 752 00:39:56,000 --> 00:39:57,610 Beraz, besterik ez da 1 hori baino gehiago izango. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Soinuak ona? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Eta amaieran, gaur egun, besterik ez naiz joan hautagaiaren izena eta inprimatu 757 00:40:09,700 --> 00:40:15,750 probabilitatea horren duzu Beren lyrics on S izatea. 758 00:40:15,750 --> 00:40:16,200 Zentzua? 759 00:40:16,200 --> 00:40:18,390 Eta benetan ez ere egin dut hiztegi hau behar. 760 00:40:18,390 --> 00:40:19,510 Zentzua? 761 00:40:19,510 --> 00:40:21,810 >> Beraz, ikus dezagun hau benetan lan egiten bada. 762 00:40:21,810 --> 00:40:24,880 Beraz, hau exekutatu bada, ez du funtzionatzen. 763 00:40:24,880 --> 00:40:26,130 Itxaron segundo bat. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Hitzak (hautagai)", "hitz (hautagai)", hori da 766 00:40:31,720 --> 00:40:33,750 array baten izena. 767 00:40:33,750 --> 00:40:41,435 Ados Beraz, ez dago akatsen batzuk ekarriko dio prioreen in hautagairik. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Utzi chill besterik nau pixka bat. 770 00:40:48,760 --> 00:40:50,360 Ados. 771 00:40:50,360 --> 00:40:51,305 Dezagun saiatu. 772 00:40:51,305 --> 00:40:51,720 Ados. 773 00:40:51,720 --> 00:40:58,710 >> Beraz, ematen du Katy Perry du hau aldiz hau 10 to probabilitatea 774 00:40:58,710 --> 00:41:02,200 ken 7, eta Gaga ditu honek aldiz 10 ken 6ra. 775 00:41:02,200 --> 00:41:05,610 Beraz, ikusi duzuna erakusten duten Gaga probabilitatea handiagoa du. 776 00:41:05,610 --> 00:41:09,260 Beraz, "Baby, naiz on Fire dut" da Ziurrenik Gaga abesti bat. 777 00:41:09,260 --> 00:41:10,580 Zentzua? 778 00:41:10,580 --> 00:41:12,030 Beraz, hau da zer egin genuen. 779 00:41:12,030 --> 00:41:16,010 >> Kode hau da online posted egingo da, beraz, you guys da kontsultatu dezakezu. 780 00:41:16,010 --> 00:41:20,720 Agian erabili da batzuk nahi badituzu proiektu bat edo antzeko zerbait egin. 781 00:41:20,720 --> 00:41:22,150 Ados. 782 00:41:22,150 --> 00:41:25,930 Hau izan zen besterik ez erakusteko zer konputazionalak 783 00:41:25,930 --> 00:41:27,230 linguistika kodea itxura. 784 00:41:27,230 --> 00:41:33,040 Baina orain utzi joan gehiagotara en maila handiko stuff. 785 00:41:33,040 --> 00:41:33,340 Ados. 786 00:41:33,340 --> 00:41:35,150 >> Beraz, beste arazo dut buruz hitz egiten - 787 00:41:35,150 --> 00:41:37,550 segmentazio arazoa Horietako lehenengoa da. 788 00:41:37,550 --> 00:41:40,820 Beraz, hemen duzu japoniarrak. 789 00:41:40,820 --> 00:41:43,420 Eta gero ikusten duzun daude tarterik gabe. 790 00:41:43,420 --> 00:41:49,110 Beraz, funtsean da hau esan nahi dela aulki goialdean, ezta? 791 00:41:49,110 --> 00:41:50,550 Japoniar hitz egiten duzu? 792 00:41:50,550 --> 00:41:52,840 Aulki goialdean da, ezta? 793 00:41:52,840 --> 00:41:54,480 >> STUDENT: ez dakit zer kanji gainetik dago. 794 00:41:54,480 --> 00:41:57,010 >> Lucas Freitas: Honez [JAPONIAKO SPEAKING] 795 00:41:57,010 --> 00:41:57,950 Ados. 796 00:41:57,950 --> 00:42:00,960 Beraz, funtsean, goi aulkia esan nahi du. 797 00:42:00,960 --> 00:42:03,620 Espazio bat jarri behar izan zuen, beraz, baduzu Hemen izango litzateke. 798 00:42:03,620 --> 00:42:05,970 Eta, ondoren, duzu [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Horrek esanahi du, jauna Ueda. 800 00:42:09,040 --> 00:42:13,180 Eta ikusten duzu, eta hori "Ueda" duzu baten espazioa eta, ondoren, "san". Beraz, ikusi duzula 801 00:42:13,180 --> 00:42:15,470 Hemen duzu "EB" berez bezalakoa da. 802 00:42:15,470 --> 00:42:17,750 Eta hemen pertsonaia bat du ondoan. 803 00:42:17,750 --> 00:42:21,720 >> Beraz, ez da hizkuntza horietan gustatzen pertsonaiak hitz bat duzu beraz, zentzua 804 00:42:21,720 --> 00:42:23,980 besterik jarri espazio asko. 805 00:42:23,980 --> 00:42:25,500 Pertsonaiak elkarren artean erlazionatzeko. 806 00:42:25,500 --> 00:42:28,680 Eta elkarrekin izan daitezke bezalako bi, hiru, bat. 807 00:42:28,680 --> 00:42:34,520 Beraz, benetan behar duzun mota batzuk sortzeko modu-espazio horietan jarriz. 808 00:42:34,520 --> 00:42:38,850 >> Eta gauza hau da, bakoitzean lortzen duzu Asian horiek hizkuntzak dira datuak, 809 00:42:38,850 --> 00:42:40,580 guztia dator unsegmented. 810 00:42:40,580 --> 00:42:45,940 Zeren inork ez nork idazten du japoniarrak edo Txinako espazio batera idazten. 811 00:42:45,940 --> 00:42:48,200 Idazten ari zarenean, txinera, Japoniar idazten duzun besterik ez dena 812 00:42:48,200 --> 00:42:48,710 tarterik gabe. 813 00:42:48,710 --> 00:42:52,060 Ez du, nahiz zentzurik gune jarri. 814 00:42:52,060 --> 00:42:57,960 Beraz, orduan, datuak lortuko duzu aurrera, zenbait Asiako ekialdean hizkuntza, nahi baduzu 815 00:42:57,960 --> 00:43:00,760 benetan egiten zerbait horrekin lehenengoa izan segmentu behar duzu. 816 00:43:00,760 --> 00:43:05,130 >> Adibidea egiteko uste letra espaziorik gabe. 817 00:43:05,130 --> 00:43:07,950 Beraz duzula lyrics bakarrik esaldiak izango da, ezta? 818 00:43:07,950 --> 00:43:09,470 Puntuz bereizita. 819 00:43:09,470 --> 00:43:13,930 Baina, ondoren, esaldi besterik ez izatea izango ez benetan informazioa ematen laguntzeko 820 00:43:13,930 --> 00:43:17,760 nor letra horiek dira. 821 00:43:17,760 --> 00:43:18,120 Ezta? 822 00:43:18,120 --> 00:43:20,010 Beraz, espazioak lehen jartzen, behar duzu. 823 00:43:20,010 --> 00:43:21,990 Beraz, nola egin daiteke hori? 824 00:43:21,990 --> 00:43:24,920 >> Beraz, ondoren, hizkuntza baten ideia dator Eredu benetan gauza da 825 00:43:24,920 --> 00:43:26,870 konputazional garrantzitsua linguistika. 826 00:43:26,870 --> 00:43:32,790 Beraz, hizkuntza-eredu bat da, funtsean, probabilitate-taula duen ikuskizunak 827 00:43:32,790 --> 00:43:36,260 zer probabilitatea da lehenik eta behin hitzaren beharrik hizkuntza batean? 828 00:43:36,260 --> 00:43:39,590 Beraz erakutsiz hitz bat nola maiz da. 829 00:43:39,590 --> 00:43:43,130 Eta gero ere erlazioa erakutsiz esaldi bat hitz artean. 830 00:43:43,130 --> 00:43:51,500 >> Beraz, ideia nagusia da, arrotz bat zen bada duzu eta esaldi bat esan nahi 831 00:43:51,500 --> 00:43:55,600 duzun, zer probabilitatea da, aldeko Adibidez, "hau da nire ahizpa [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 esaldia Pertsona horrek esan zen? 833 00:43:57,480 --> 00:44:00,380 Beraz, jakina, esaldi batzuk dira besteak baino gehiago. 834 00:44:00,380 --> 00:44:04,450 Adibidez, "ona goizean," edo "ona Gauean, "edo" hey there, "askoz ere 835 00:44:04,450 --> 00:44:08,260 Esaldi gehienak baino komun English bat dugula. 836 00:44:08,260 --> 00:44:11,060 Beraz, zergatik esaldi horiek dira maizago? 837 00:44:11,060 --> 00:44:14,060 >> Lehenik eta behin, ez da duzu delako gero eta ohikoagoak dira hitzak. 838 00:44:14,060 --> 00:44:20,180 Beraz, adibidez, esaten baduzu, txakurra handi, eta txakur erraldoia da, zuk 839 00:44:20,180 --> 00:44:23,880 normalean seguruenik entzun txakurra handiegia da "big" gehiago da maizago delako 840 00:44:23,880 --> 00:44:27,260 ingelesez maiz "erraldoi." baino Beraz, bat 841 00:44:27,260 --> 00:44:30,100 gauzak hitzaren maiztasuna da. 842 00:44:30,100 --> 00:44:34,490 >> Bigarren gauza hau da, benetan Garrantzitsua da besterik 843 00:44:34,490 --> 00:44:35,490 hitzen ordena. 844 00:44:35,490 --> 00:44:39,500 Beraz, ohikoa da "katua da esatea kutxa barruan. "baina ez duzu normalean 845 00:44:39,500 --> 00:44:44,250 ikusten "Laukiaren barruan katua da." beraz ikusten duzu ez dagoela garrantzia batzuk 846 00:44:44,250 --> 00:44:46,030 hitzen ordena. 847 00:44:46,030 --> 00:44:50,160 Ezin duzu besterik esaten, bi horiek Esaldi probabilitate bera dute 848 00:44:50,160 --> 00:44:53,010 hitz bera izan dute, besterik ez delako. 849 00:44:53,010 --> 00:44:55,550 Benetan zaintzeko duzu ordena buruz baita. 850 00:44:55,550 --> 00:44:57,650 Zentzurik? 851 00:44:57,650 --> 00:44:59,490 >> Beraz, zer egiten dugu? 852 00:44:59,490 --> 00:45:01,550 Beraz, zer gerta daitekeen saiatzen naiz? 853 00:45:01,550 --> 00:45:04,400 Zer dugu lortu saiatzen ari naiz n-gramo ereduak deitu. 854 00:45:04,400 --> 00:45:09,095 Beraz, n-gramo modeloak funtsean suposatuko den hitz bakoitzeko duen 855 00:45:09,095 --> 00:45:10,960 Esaldi bat duzu. 856 00:45:10,960 --> 00:45:15,020 Izatearen probabilitatea da que hitza ez dago ez bakarrik araberakoa on the 857 00:45:15,020 --> 00:45:18,395 hizkuntzan hitz horren maiztasuna, baina, halaber, hitz on duten 858 00:45:18,395 --> 00:45:19,860 dira inguratzen. 859 00:45:19,860 --> 00:45:25,810 >> Beraz, adibidez, normalean ere ikusita on edo Oraindik at antzeko zerbait 860 00:45:25,810 --> 00:45:28,040 Ziurrenik bat ikusteko joan izen da ondoren, ezta? 861 00:45:28,040 --> 00:45:31,750 Delako preposizio bat duzu normalean izen bat hartzen du ondoren. 862 00:45:31,750 --> 00:45:35,540 Edo hori iragankorra da aditz bat baduzu duzun izan ohi dira joan 863 00:45:35,540 --> 00:45:36,630 Izen Sintagma bat izan. 864 00:45:36,630 --> 00:45:38,780 Beraz, izen bat izan behar da inguruan nonbait. 865 00:45:38,780 --> 00:45:44,950 >> Beraz, funtsean, zer egiten dela izatearen probabilitatea jotzen 866 00:45:44,950 --> 00:45:47,960 Hitzak bata bestearen ondoan, noiz kalkulatzeko ari zaren 867 00:45:47,960 --> 00:45:49,050 esaldi baten probabilitatea. 868 00:45:49,050 --> 00:45:50,960 Eta hori zer da hizkuntza bat eredua da, funtsean. 869 00:45:50,960 --> 00:45:54,620 Besterik zer probabilitate esanez eremu zehatz bat izatea 870 00:45:54,620 --> 00:45:57,120 hizkuntza batean esaldi? 871 00:45:57,120 --> 00:45:59,110 Beraz, zergatik da erabilgarria, funtsean? 872 00:45:59,110 --> 00:46:02,390 Eta lehenik eta behin, zer da n-gramo eredu bat, orduan? 873 00:46:02,390 --> 00:46:08,850 >> Beraz, n-gramo eredu bat esan nahi du, hitz bakoitzaren araberakoa da 874 00:46:08,850 --> 00:46:12,700 hurrengo N ken 1 hitz. 875 00:46:12,700 --> 00:46:18,150 Beraz, funtsean, hori dut begiratzen bada, esan nahi du, adibidez, CS50 TF hartan 876 00:46:18,150 --> 00:46:21,500 Probabilitatea kalkulatzeko naiz esaldia, atsegin izango dituzu "du 877 00:46:21,500 --> 00:46:25,280 "eta" hitza izatearen probabilitatea izatearen probabilitatea bider "da 878 00:46:25,280 --> 00:46:31,720 Izatearen probabilitatea CS50 "aldiz "CS50 TF du." Beraz, funtsean, I zenbatu 879 00:46:31,720 --> 00:46:35,720 da luzatzen ahalik eta modu guztietan. 880 00:46:35,720 --> 00:46:41,870 >> Eta, ondoren, normalean hori egiten ari zarenean, proiektu batean bezala, N jarri duzu izango 881 00:46:41,870 --> 00:46:42,600 balioa baxua dela. 882 00:46:42,600 --> 00:46:45,930 Beraz, normalean bigrams edo trigrams. 883 00:46:45,930 --> 00:46:51,090 Beraz, bi hitz, bat zenbatu besterik ez duzu bi hitz, edo hiru hitz-multzoa, 884 00:46:51,090 --> 00:46:52,620 besterik performance gaiak. 885 00:46:52,620 --> 00:46:56,395 Eta, gainera, zeren agian baduzu antzeko zerbait "CS50 TF du." Duzunean 886 00:46:56,395 --> 00:47:00,510 izan "TF," oso garrantzitsua da "CS50" ondoan dago, ezta? 887 00:47:00,510 --> 00:47:04,050 Bi gauza horiek izan ohi dira bata bestearen ondoan. 888 00:47:04,050 --> 00:47:06,410 >> Pentsatzen baduzu "TF," seguruenik behar zer 889 00:47:06,410 --> 00:47:07,890 klasea nik eman TF'ing. 890 00:47:07,890 --> 00:47:11,330 Ere "eta" benetan garrantzitsua CS50 TF da. 891 00:47:11,330 --> 00:47:14,570 Baina "CS50 The antzeko zerbait baldin baduzu TF klase joan zen eta eman beren 892 00:47:14,570 --> 00:47:20,060 ikasleek gozoki batzuk. "" Candy "eta" du " ez dute harremana benetan, ezta? 893 00:47:20,060 --> 00:47:23,670 Beraz, elkarrengandik urrun daudela duten ez du benetan axola zer 894 00:47:23,670 --> 00:47:25,050 Hitz duzu. 895 00:47:25,050 --> 00:47:31,210 >> Beraz bigram bat edo trigram bat eginez, hura besterik esan nahi du zaren mugatuz 896 00:47:31,210 --> 00:47:33,430 zeuk Zenbait hitz inguruan daudela. 897 00:47:33,430 --> 00:47:35,810 Zentzurik? 898 00:47:35,810 --> 00:47:40,630 Beraz, segmentazio egin nahi duzula, Funtsean, zer egin nahi duzun da ikusten 899 00:47:40,630 --> 00:47:44,850 zer dira ahalik eta modu guztiek segmentu esaldia ahal duzun. 900 00:47:44,850 --> 00:47:49,090 >> Hala nola, zer da ikusten duzula Esaldi horietako bakoitzaren probabilitatea 901 00:47:49,090 --> 00:47:50,880 hizkuntzan existitzen den? 902 00:47:50,880 --> 00:47:53,410 Beraz, zer egin duzun bezala, ondo, utzi espazio bat hemen jartzea saiatu me. 903 00:47:53,410 --> 00:47:55,570 Beraz, espazio bat jarri duzu han eta zer den ikusten duzu 904 00:47:55,570 --> 00:47:57,590 esaldi hori probabilitatea? 905 00:47:57,590 --> 00:48:00,240 Ondoren daude, bezala OK, agian zuk hori ez zela ona. 906 00:48:00,240 --> 00:48:03,420 Beraz, espazio bat espazio bat jarri dut eta han eta kalkulatu dituzun 907 00:48:03,420 --> 00:48:06,240 probabilitatea, gaur egun, eta ikusi duzula probabilitatea handiagoa da. 908 00:48:06,240 --> 00:48:12,160 >> Beraz, hau TANGO izeneko algoritmo bat da segmentazio algoritmoa, hau da, 909 00:48:12,160 --> 00:48:14,990 benetan zerbait benetan izango litzateke proiektu bat, cool eta horrek 910 00:48:14,990 --> 00:48:20,860 funtsean unsegmented testua hartzen du eta horrek Japoniako edo Txinako edo agian izan daiteke 911 00:48:20,860 --> 00:48:26,080 English tarterik gabe eta jarri saiatzen hitzak eta gertatzen arteko espazioak 912 00:48:26,080 --> 00:48:29,120 duten hizkuntza-eredu bat erabiliz, eta egindako zer den altuena ikusi nahian 913 00:48:29,120 --> 00:48:31,270 probabilitatea lor dezakezu. 914 00:48:31,270 --> 00:48:32,230 Ados. 915 00:48:32,230 --> 00:48:33,800 Beraz, hau segmentazio da. 916 00:48:33,800 --> 00:48:35,450 >> Orain sintaxia. 917 00:48:35,450 --> 00:48:40,940 Beraz, sintaxia da erabiltzen ari hainbeste gauza oraintxe. 918 00:48:40,940 --> 00:48:44,880 Beraz Search grafikoa egiteko, Siri for nahiko askoz edozein natural moduko 919 00:48:44,880 --> 00:48:46,490 hizkuntza prozesatzeko duzu. 920 00:48:46,490 --> 00:48:49,140 Beraz, zer dira garrantzitsuena sintaxia buruzko gauza? 921 00:48:49,140 --> 00:48:52,390 Beraz, oro har, esaldi izan osagai deitzen dugun. 922 00:48:52,390 --> 00:48:57,080 Diren mota horretako hitz multzoak bezalako duten esaldi batean funtzio bat dute. 923 00:48:57,080 --> 00:49:02,220 Eta ezin dute benetan elkarrengandik aparte. 924 00:49:02,220 --> 00:49:07,380 >> Beraz, esan badut, adibidez, "Lauren maite Milo. "Ezagutzen dut" Lauren "da bat 925 00:49:07,380 --> 00:49:10,180 osagai eta ondoren "amodio Milo "beste bat ere badago. 926 00:49:10,180 --> 00:49:16,860 Ezin duzu "Lauren Milo bezala esaten duelako maite "esanahi bera dute. 927 00:49:16,860 --> 00:49:18,020 Ez da behar joan esanahi bera. 928 00:49:18,020 --> 00:49:22,500 Edo ezin dut "Milo Lauren bezala esan maite. "Guztia ez berdina du 929 00:49:22,500 --> 00:49:25,890 egiten zentzua. 930 00:49:25,890 --> 00:49:31,940 >> Beraz, bi gauza garrantzitsuagoak sintaxia lexiko mota hau da, are 931 00:49:31,940 --> 00:49:35,390 funtsean funtzioa duzula hitz eman dute beren kabuz. 932 00:49:35,390 --> 00:49:39,180 Beraz, jakin behar duzu hori "Lauren" eta "Milo" izenetik dira. 933 00:49:39,180 --> 00:49:41,040 "Love" aditza da. 934 00:49:41,040 --> 00:49:45,660 Eta bigarren garrantzitsuena da phrasal mota Oraindik dutela. 935 00:49:45,660 --> 00:49:48,990 Beraz, badakizu "Milo maite" da, benetan hitzezko esaldi bat. 936 00:49:48,990 --> 00:49:52,390 Beraz, esango dizut "Lauren," ezagutzen dut Lauren zerbait egiten da. 937 00:49:52,390 --> 00:49:53,620 Zer ari da egiten? 938 00:49:53,620 --> 00:49:54,570 She Milo maitekorra da. 939 00:49:54,570 --> 00:49:56,440 Beraz, oro har, gauza bat da. 940 00:49:56,440 --> 00:50:01,640 Baina bere osagai dira izen eta aditz bat. 941 00:50:01,640 --> 00:50:04,210 Baina elkarrekin, aditza esaldi bat egiten dute. 942 00:50:04,210 --> 00:50:08,680 >> Beraz, zer egin dezaket benetan egin dugu konputazional linguistika? 943 00:50:08,680 --> 00:50:13,810 Beraz, adibidez, zerbait badut "Allison lagunak." Ikusten badut dut besterik 944 00:50:13,810 --> 00:50:17,440 zuten zuhaitz sintaktiko bat jakingo nuke "Lagun" izen sintagma bat da da bat 945 00:50:17,440 --> 00:50:21,480 izen eta ondoren "Allison of" da bat zeinetan Esaldi preposizio "of" da 946 00:50:21,480 --> 00:50:24,810 Proposamen bat eta "Allison" izen bat da. 947 00:50:24,810 --> 00:50:30,910 Zer egin nezakeen dira nire ordenagailuan irakasteko denean izen sintagma bat daukat bat eta 948 00:50:30,910 --> 00:50:33,080 ondoren preposizio esaldi bat. 949 00:50:33,080 --> 00:50:39,020 Beraz, kasu honetan, "lagunak" eta ondoren "ren Milo "ezagutzen dut hori esan nahi du, 950 00:50:39,020 --> 00:50:43,110 IS2, bigarren bat, jabea IS1. 951 00:50:43,110 --> 00:50:47,680 >> Beraz, erlazio mota batzuk sortu ahal izango dut, funtzioa nolabaiteko da. 952 00:50:47,680 --> 00:50:52,370 Beraz, betiere egitura hori ikusten dut, eta horrek datorrenean zehazki batera "lagunak 953 00:50:52,370 --> 00:50:56,030 Allison, "ezagutzen dut Allison lagunak jabea. 954 00:50:56,030 --> 00:50:58,830 Beraz, lagunak zerbait dira duten Allison ditu. 955 00:50:58,830 --> 00:50:59,610 Zentzua? 956 00:50:59,610 --> 00:51:01,770 Beraz, hau da, funtsean, zer Grafikoa bilatu du. 957 00:51:01,770 --> 00:51:04,360 Besterik arauak sortzen da gauza asko egiteko. 958 00:51:04,360 --> 00:51:08,190 Beraz, "Allison lagunak", "nire lagunak Cambridge nire lagunak bizi diren "," 959 00:51:08,190 --> 00:51:12,970 Harvard joan. "arauak sortzen du gauza horiek guztiak egiteko. 960 00:51:12,970 --> 00:51:14,930 >> Orain itzulpen automatikoa. 961 00:51:14,930 --> 00:51:18,850 Beraz, itzulpen automatikoa da, halaber, zerbait estatistika. 962 00:51:18,850 --> 00:51:21,340 Eta, benetan parte hartzen baduzu linguistika konputazionala, asko 963 00:51:21,340 --> 00:51:23,580 zure stuff da estatistikak izango. 964 00:51:23,580 --> 00:51:26,670 Adibidea nintzen egiten, beraz, gisa batera probabilitate asko izan dut 965 00:51:26,670 --> 00:51:30,540 , kalkulatzeko eta, ondoren, honek aukera ematen dizu kopurua oso txikia duten finalean da 966 00:51:30,540 --> 00:51:33,180 probabilitatea, eta hori zer erantzuna ematen dizu. 967 00:51:33,180 --> 00:51:37,540 Itzulpen automatikoa ere erabiltzen eredu estatistiko bat. 968 00:51:37,540 --> 00:51:44,790 Eta makina pentsatu nahi baduzu ahalik errazena itzulpena 969 00:51:44,790 --> 00:51:48,970 bidea, zer uste dezakezu besterik ez da itzultzeko hitza, ezta? 970 00:51:48,970 --> 00:51:52,150 >> Hizkuntza bat ikasten ari zaren egiteko lehen aldia, izan ohi da, zer 971 00:51:52,150 --> 00:51:52,910 , ez al duzu ezta? 972 00:51:52,910 --> 00:51:57,050 Nahi izanez gero esaldi bat itzuli duzu Hizkuntza den hizkuntzan 973 00:51:57,050 --> 00:52:00,060 , ikasten ari zaren horretarako lehenbizi, zuk hitz guztiek itzultzeko 974 00:52:00,060 --> 00:52:03,180 banaka eta ondoren saiatu duzu hitzak jarri behar tokian. 975 00:52:03,180 --> 00:52:07,100 >> Hala bada hau itzultzeko nahi nuen, [SPEAKING PORTUGALGO] 976 00:52:07,100 --> 00:52:10,430 horrek esan nahi du "katu zuri ihes egin." Itzuli nahi badut 977 00:52:10,430 --> 00:52:13,650 English Portuguesa, zer dut egin izan da, lehenik eta behin, besterik ez dut 978 00:52:13,650 --> 00:52:14,800 itzultzeko hitza. 979 00:52:14,800 --> 00:52:20,570 Beraz, "o" "du", "gato", "katua", da "Branco", "zuria", eta ondoren "fugio" da 980 00:52:20,570 --> 00:52:21,650 "Ihes egin zuten." 981 00:52:21,650 --> 00:52:26,130 >> Beraz, ondoren, hitz guztia daukat hemen, baina ez dira ordenan. 982 00:52:26,130 --> 00:52:29,590 , Gauzak bezala "katu zuri ran away" hau da-gramatikalak. 983 00:52:29,590 --> 00:52:34,490 Beraz, ondoren, bigarren urrats bat, izan ahal dut da be aproposa aurkitzeko joan 984 00:52:34,490 --> 00:52:36,610 Hitz bakoitzaren posizioa. 985 00:52:36,610 --> 00:52:40,240 Beraz, ezagutzen dut nik, benetan izan nahi "Katu zuria" ordez "Katu zuria." Beraz 986 00:52:40,240 --> 00:52:46,050 zer egin ahal izango dut, gehien inozoa metodoa sortu izango litzateke guztia 987 00:52:46,050 --> 00:52:49,720 permutazio posible hitzak, posizioak. 988 00:52:49,720 --> 00:52:53,300 Eta, ondoren, ikusi zein bat dauka Probabilitate altuena arabera 989 00:52:53,300 --> 00:52:54,970 nire hizkuntza eredua da. 990 00:52:54,970 --> 00:52:58,390 Eta orduan, bat duela iruditzen zait probabilitate altuena da, hau da, 991 00:52:58,390 --> 00:53:01,910 seguruenik "katu zuri ran away," nire itzulpena da. 992 00:53:01,910 --> 00:53:06,710 >> Eta hau azaltzeko modu sinple bat da nola itzulpen automatikoa asko 993 00:53:06,710 --> 00:53:07,910 algoritmoak lan egiteko. 994 00:53:07,910 --> 00:53:08,920 Ez duela zentzurik? 995 00:53:08,920 --> 00:53:12,735 Hori ere zerbait benetan zirraragarria duzu guys daiteke agian bat esploratzeko 996 00:53:12,735 --> 00:53:13,901 azken proiektua, bai? 997 00:53:13,901 --> 00:53:15,549 >> STUDENT: Beno, izan zen esan duzu inozoa modu, beraz, zer da 998 00:53:15,549 --> 00:53:17,200 ez-inozoa modurik? 999 00:53:17,200 --> 00:53:18,400 >> Lucas Freitas: ez inozoa Bidea? 1000 00:53:18,400 --> 00:53:19,050 Ados. 1001 00:53:19,050 --> 00:53:22,860 Beraz, lehen dela buruz txarra gauza Metodo hau da itzulitako dudala besterik 1002 00:53:22,860 --> 00:53:24,330 hitz, hitza by hitza. 1003 00:53:24,330 --> 00:53:30,570 Baina batzuetan hitz duzula anitz itzulpenak izan ditzake. 1004 00:53:30,570 --> 00:53:32,210 Pentsatzen saiatu noa zerbait. 1005 00:53:32,210 --> 00:53:37,270 Adibidez, "manga" can portugesez bai "mangle" edo "manga". Beraz 1006 00:53:37,270 --> 00:53:40,450 hitza itzultzeko saiatzen ari zaren hitza, ahal duzun eman zitekeen 1007 00:53:40,450 --> 00:53:42,050 zerbait ez du zentzurik. 1008 00:53:42,050 --> 00:53:45,770 >> Beraz, benetan nahi duzun guztietan begiratzen duzu itzulpenak ahalik 1009 00:53:45,770 --> 00:53:49,840 hitzak ikusi eta, lehenik eta behin, zer ordena da. 1010 00:53:49,840 --> 00:53:52,000 Permutating buruz ari ginen hizketan gauzak? 1011 00:53:52,000 --> 00:53:54,150 Ahalik aginduak ikusteko eta aukeratu altuena duena 1012 00:53:54,150 --> 00:53:54,990 probabilitatea? 1013 00:53:54,990 --> 00:53:57,860 Ere posible guztien aukeratu ahal bakoitzeko itzulpenak 1014 00:53:57,860 --> 00:54:00,510 hitza eta ondoren ikusi - 1015 00:54:00,510 --> 00:54:01,950 permutazioak konbinatuta - 1016 00:54:01,950 --> 00:54:03,710 zein probabilitatea altuena du. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, zuk ere ez begira dezakezu Hitz baina esaldi bakarra. 1018 00:54:08,590 --> 00:54:11,700 beraz arteko erlazioak aztertzeko dezakezu Hitzak eta ondoren get a 1019 00:54:11,700 --> 00:54:13,210 itzulpena hobea. 1020 00:54:13,210 --> 00:54:16,690 Halaber, beste zerbait, beraz, seihileko honetan Benetan ikerketa ari naiz egiten 1021 00:54:16,690 --> 00:54:19,430 Chinese-English itzulpen automatikoa, beraz itzultzean 1022 00:54:19,430 --> 00:54:20,940 Ingelesera txinatarra. 1023 00:54:20,940 --> 00:54:26,760 >> Eta zerbait egiten dugu, erabiliz gain eredu estatistiko bat, besterik ez da 1024 00:54:26,760 --> 00:54:30,570 ikusten probabilitateak ikusten esaldi batean posizio batzuk, naiz 1025 00:54:30,570 --> 00:54:35,360 benetan ere sintaxia batzuk gehituz nire eredua, esaten, oi, ikusten dut mota honetan bada 1026 00:54:35,360 --> 00:54:39,420 eraikuntza, hau da, zer egin nahi dut hura aldatzeko naizenean itzultzeko. 1027 00:54:39,420 --> 00:54:43,880 Beraz, mota batzuk ere gehitu ahal izango dituzu sintaxia elementu egin du 1028 00:54:43,880 --> 00:54:47,970 itzulpena eraginkorragoa eta zehatzagoak. 1029 00:54:47,970 --> 00:54:48,550 Ados. 1030 00:54:48,550 --> 00:54:51,010 >> Beraz, nola egin dezaket duzu Hasteko, nahi baduzu zerbait egin behar konputazional batean 1031 00:54:51,010 --> 00:54:51,980 linguistika? 1032 00:54:51,980 --> 00:54:54,560 >> Lehenik eta behin, proiektu bat aukeratzen duzu duten hizkuntzak dakar. 1033 00:54:54,560 --> 00:54:56,310 Beraz, ez da hainbeste daude. 1034 00:54:56,310 --> 00:54:58,420 Ez da egin ahal izango duzu hainbeste gauza. 1035 00:54:58,420 --> 00:55:00,510 Eta gero daiteke eredu bat pentsatu hori erabili ahal izango dituzu. 1036 00:55:00,510 --> 00:55:04,710 Ohi duten pentsatzeko esan nahi hipotesi,, oh bezala, noiz izan dudan bezala 1037 00:55:04,710 --> 00:55:05,770 letra pentsamendu bezala. 1038 00:55:05,770 --> 00:55:09,510 Zen bezala, bai, dut irudikatu nahi badut a nork idatzi hau da, ziurrenik, nahi dut 1039 00:55:09,510 --> 00:55:15,400 Hitz begiratzeko erabiltzen da, eta pertsonaren ikusten duten hitz hori erabiltzen du, oso maiz. 1040 00:55:15,400 --> 00:55:18,470 Beraz, saiatu hipotesi egin eta saiatzeko ereduak uste. 1041 00:55:18,470 --> 00:55:21,395 Eta orduan ere bila ditzakezu konektatuta arazo mota duzula, 1042 00:55:21,395 --> 00:55:24,260 eta nik iradoki joan duzun eredu hori agian 1043 00:55:24,260 --> 00:55:26,560 moldatu gauza ondo. 1044 00:55:26,560 --> 00:55:29,080 >> Eta, gainera, zuk beti email dezakezu nirekin. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Eta besterik ez dut zure galderei erantzun ahal izango. 1047 00:55:34,940 --> 00:55:38,600 Dezakegu, are gehiago bete dezake beraz, ezin dut modu iradokitzen dute 1048 00:55:38,600 --> 00:55:41,490 Zure proiektua gauzatzeko. 1049 00:55:41,490 --> 00:55:45,610 Eta esan nahi dut parte hartzea lortu baduzu linguistika konputazionala, joan da 1050 00:55:45,610 --> 00:55:46,790 handia izan. 1051 00:55:46,790 --> 00:55:48,370 Han ikusten ari zara hainbeste potentziala da. 1052 00:55:48,370 --> 00:55:52,060 Eta industrian kontratatu nahi duzun hain txarra delako hori. 1053 00:55:52,060 --> 00:55:54,720 Beraz, espero dut you guys gozatu hau. 1054 00:55:54,720 --> 00:55:57,030 You guys edozein zalantza izanez gero, eskatzen ahal duzu me honen ondoren. 1055 00:55:57,030 --> 00:55:58,280 Baina eskerrik asko. 1056 00:55:58,280 --> 00:56:00,150