1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> Lucas Freitas: Uy. 3 00:00:08,870 --> 00:00:09,980 Maligayang pagdating sa lahat. 4 00:00:09,980 --> 00:00:11,216 Ang pangalan ko ay Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Ako ay isang junior sa [hindi marinig] pag-aaral computer science na may pagtuon sa 6 00:00:15,220 --> 00:00:16,410 computational aghamwika. 7 00:00:16,410 --> 00:00:19,310 Kaya ang aking pangalawang ay sa wika at wika teorya. 8 00:00:19,310 --> 00:00:21,870 Talagang ako ay nasasabik na magturo sa iyo guys Medyo tungkol sa mga patlang. 9 00:00:21,870 --> 00:00:24,300 Ito ay isang napaka-kapana-panabik na lugar sa pag-aaral. 10 00:00:24,300 --> 00:00:27,260 Gayundin na may maraming mga potensyal na para sa hinaharap. 11 00:00:27,260 --> 00:00:30,160 Kaya, talagang ako ay nasasabik na kayo guys isinasaalang-alang ang mga proyekto sa 12 00:00:30,160 --> 00:00:31,160 computational aghamwika. 13 00:00:31,160 --> 00:00:35,460 At kukunin ko na maging mas kaysa masaya na payuhan anuman sa iyo kung ikaw ay magpapasiyang 14 00:00:35,460 --> 00:00:37,090 ituloy ang isa sa mga iyon. 15 00:00:37,090 --> 00:00:40,010 >> Kaya una sa lahat ano ang mga computational aghamwika? 16 00:00:40,010 --> 00:00:44,630 Kaya computational aghamwika ay ang intersection sa pagitan ng aghamwika at 17 00:00:44,630 --> 00:00:46,390 computer science. 18 00:00:46,390 --> 00:00:47,415 Kaya, ano ang aghamwika? 19 00:00:47,415 --> 00:00:48,490 Ano ang computer science? 20 00:00:48,490 --> 00:00:51,580 Well mula aghamwika, kung ano tinitingnan namin ang mga wika. 21 00:00:51,580 --> 00:00:54,960 Kaya aghamwika ay aktwal na ang pag-aaral natural na wika sa pangkalahatan. 22 00:00:54,960 --> 00:00:58,330 Kaya natural na wika - makipag-usap namin tungkol sa wika na talaga naming gamitin upang 23 00:00:58,330 --> 00:00:59,770 makipag-komunikasyon sa bawat isa. 24 00:00:59,770 --> 00:01:02,200 Kaya hindi eksakto naming pinag-uusapan tungkol sa C o Java. 25 00:01:02,200 --> 00:01:05,900 Kami ay pakikipag-usap nang higit pa tungkol sa Ingles at Chinese at iba pang mga wika na aming 26 00:01:05,900 --> 00:01:07,780 gamitin upang makipag-komunikasyon sa bawat isa. 27 00:01:07,780 --> 00:01:12,470 >> Ang hamon ang bagay tungkol sa na ay na ngayon kami ay may halos 7,000 28 00:01:12,470 --> 00:01:14,260 mga wika sa mundo. 29 00:01:14,260 --> 00:01:19,520 Kaya may mga medyo isang mataas na iba't-ibang ng mga wika na maaari naming pag-aralan. 30 00:01:19,520 --> 00:01:22,600 At pagkatapos ay sa tingin mo na ito ay marahil napakahirap na gawin, halimbawa, 31 00:01:22,600 --> 00:01:26,960 pagsasalin mula sa isang wika papunta sa isa, isinasaalang-alang na mayroon ka 32 00:01:26,960 --> 00:01:28,240 halos 7,000 sa kanila. 33 00:01:28,240 --> 00:01:31,450 Kaya, kung sa tingin mo ng paggawa ng pagsasaling-wika mula sa isang wika upang ang iba pang mga mo 34 00:01:31,450 --> 00:01:35,840 mayroon nang halos mahigit sa isang milyong iba't ibang mga kumbinasyon na maaari mong 35 00:01:35,840 --> 00:01:37,330 Mayroon mula sa wika sa wika. 36 00:01:37,330 --> 00:01:40,820 Kaya ito talaga ang Hinahamon upang gumawa ng ilang uri ng system halimbawa ng pagsasaling-wika para sa 37 00:01:40,820 --> 00:01:43,540 bawat solong wika. 38 00:01:43,540 --> 00:01:47,120 >> Kaya, aghamwika Treat may syntax, semantika, pragmatics. 39 00:01:47,120 --> 00:01:49,550 Ikaw guys hindi na kailangan ng eksaktong malaman kung ano ang mga ito. 40 00:01:49,550 --> 00:01:55,090 Ngunit ang napaka-kagiliw-giliw na bagay ay na bilang isang katutubong nagsasalita, kapag malaman mo 41 00:01:55,090 --> 00:01:59,010 wika bilang anak, na aktwal mong malaman lahat ng mga bagay - syntax semantika 42 00:01:59,010 --> 00:02:00,500 at pragmatics - 43 00:02:00,500 --> 00:02:01,430 sa pamamagitan ng iyong sarili. 44 00:02:01,430 --> 00:02:04,820 At walang saysay na tao ay may magturo sa iyo syntax para sa sa iyo upang maunawaan kung paano pangungusap ay 45 00:02:04,820 --> 00:02:05,290 nakaayos. 46 00:02:05,290 --> 00:02:07,980 Kaya, ito ay talagang kawili-wiling dahil ito ay isang bagay na ay napaka 47 00:02:07,980 --> 00:02:10,389 intuitively. 48 00:02:10,389 --> 00:02:13,190 >> At kung ano ang mo paglalaan mula sa ang computer science? 49 00:02:13,190 --> 00:02:16,700 Well, ang pinakamahalagang bagay na namin mayroon sa computer science muna ng ay 50 00:02:16,700 --> 00:02:19,340 lahat, artificial intelligence at pagkatuto ng machine. 51 00:02:19,340 --> 00:02:22,610 Kaya, kung ano ang sinusubukan naming ginagawa computational aghamwika ay magturo 52 00:02:22,610 --> 00:02:26,990 iyong computer kung paano gawin ang isang bagay may wika. 53 00:02:26,990 --> 00:02:28,630 >> Kaya, halimbawa, sa makina pagsasalin. 54 00:02:28,630 --> 00:02:32,490 Sinusubukan ko upang magturo ng computer kung paano ang aking malaman kung paano i-transition mula sa isa 55 00:02:32,490 --> 00:02:33,310 wika sa iba. 56 00:02:33,310 --> 00:02:35,790 Kaya, gusto talaga pagtuturo isang computer ng dalawang wika. 57 00:02:35,790 --> 00:02:38,870 Kung gagawin ko pagpoproseso ng natural na wika, kung saan ay ang kaso para sa halimbawa ng 58 00:02:38,870 --> 00:02:41,810 Graph ng Paghahanap Facebook ni, magturo sa iyo iyong computer kung paano upang maunawaan 59 00:02:41,810 --> 00:02:42,730 mga query na rin. 60 00:02:42,730 --> 00:02:48,130 >> Kaya, kung sinabi mong "ang mga larawan ng aking mga mga kaibigan. "ay hindi ituturing ng Facebook na 61 00:02:48,130 --> 00:02:51,130 bilang isang buo string na may lamang ng grupo ng mga salita. 62 00:02:51,130 --> 00:02:56,020 Ito talaga nauunawaan ang kaugnayan sa pagitan ng "mga larawan" at "aking mga kaibigan" at 63 00:02:56,020 --> 00:02:59,620 nauunawaan na "mga larawan" ay ari-arian ng "aking mga kaibigan." 64 00:02:59,620 --> 00:03:02,350 >> Kaya, na bahagi ng, halimbawa, pagproseso ng natural na wika. 65 00:03:02,350 --> 00:03:04,790 Ito ay sinusubukan upang maunawaan kung ano ang ay ang kaugnayan sa pagitan ng 66 00:03:04,790 --> 00:03:07,520 ang mga salita sa isang pangungusap. 67 00:03:07,520 --> 00:03:11,170 At ang malaking tanong ay, maaari mong magturo sa isang computer kung paano makipag-usap 68 00:03:11,170 --> 00:03:12,650 isang wika sa pangkalahatan? 69 00:03:12,650 --> 00:03:17,810 Alin ang isang napaka-kagiliw-giliw na tanong sa sa tingin, na parang siguro sa hinaharap, 70 00:03:17,810 --> 00:03:19,930 ka pagpunta sa magagawang makipag-usap sa iyong cell phone. 71 00:03:19,930 --> 00:03:23,290 Uri ng tulad ng kung ano ang aming ginagawa sa Siri ngunit isang bagay na mas katulad, maaari mo talaga 72 00:03:23,290 --> 00:03:25,690 sabihin ang kahit anong gusto mo at ang telepono Pupunta upang maunawaan ang lahat. 73 00:03:25,690 --> 00:03:28,350 At ito ay maaaring magkaroon ng follow up tanong at panatilihin ang pakikipag-usap. 74 00:03:28,350 --> 00:03:30,880 Iyan ay isang bagay na talagang kapana-panabik, sa aking opinyon. 75 00:03:30,880 --> 00:03:33,070 >> Kaya, isang bagay tungkol sa natural na wika. 76 00:03:33,070 --> 00:03:36,220 Isang bagay na talagang kawili-wiling tungkol sa natural na wika ay na iyon, at ito ay 77 00:03:36,220 --> 00:03:38,470 credit sa aking propesor aghamwika, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Binibigyan niya ng halimbawa at sa tingin ko talaga kawili-wili. 79 00:03:40,830 --> 00:03:47,060 Dahil kami matuto wika mula sa kapag kami ay ipinanganak at pagkatapos ay ang aming mga native 80 00:03:47,060 --> 00:03:49,170 wika uri ng lumalaki sa amin. 81 00:03:49,170 --> 00:03:52,570 >> At isa lamang ka matuto wika mula sa minimal na input, tama? 82 00:03:52,570 --> 00:03:56,700 Lamang ka nakakakuha ng input mula sa iyong mga magulang ng kung ano ang tunog iyong wika 83 00:03:56,700 --> 00:03:58,770 gusto at malaman mo lang ito. 84 00:03:58,770 --> 00:04:02,240 Kaya, ito ay kawili-wili dahil kung titingnan mo sa mga pangungusap, halimbawa. 85 00:04:02,240 --> 00:04:06,980 Inaasahan mo, "naglalagay Maria sa isang amerikana bawat oras siya ay umalis sa bahay. " 86 00:04:06,980 --> 00:04:10,650 >> Sa kasong ito, posibleng magkaroon ng salitang "siya" sumangguni sa Maria, tama? 87 00:04:10,650 --> 00:04:13,500 Maaari mong sabihin ang "Inilalagay ni Maria sa isang amerikana sa bawat oras na nag-iiwan ni Maria ang 88 00:04:13,500 --> 00:04:14,960 bahay. "nang sa gayon ay pinong. 89 00:04:14,960 --> 00:04:19,370 Ngunit pagkatapos ay kung tiningnan mo ang mga pangungusap "Inilalagay niya sa isang amerikana sa tuwing Mary 90 00:04:19,370 --> 00:04:22,850 umalis sa bahay. "Alam mo ito imposible upang sabihin na "siya" ay 91 00:04:22,850 --> 00:04:24,260 nagre-refer sa Mary. 92 00:04:24,260 --> 00:04:27,070 >> Walang paraan ng pagsabi na "naglalagay Maria sa isang amerikana sa bawat oras na nag-iiwan Maria 93 00:04:27,070 --> 00:04:30,790 ang bahay. "Kaya ito ay kawili-wili dahil ito ay ang uri ng intuwisyon 94 00:04:30,790 --> 00:04:32,890 na ang bawat katutubong nagsasalita ay may. 95 00:04:32,890 --> 00:04:36,370 At walang saysay na tao ay itinuro na ito ay ang paraan na gumagana ang syntax. 96 00:04:36,370 --> 00:04:41,930 At maaari ka lamang magkaroon ito "siya" nagre-refer sa Mary sa unang kaso, 97 00:04:41,930 --> 00:04:44,260 at talagang sa iba pang mga Masyadong, ngunit hindi sa isang ito. 98 00:04:44,260 --> 00:04:46,500 Ngunit lahat ng tao uri ng nakakakuha sa parehong sagot. 99 00:04:46,500 --> 00:04:48,580 Ang bawat tao'y ay sumang-ayon sa na. 100 00:04:48,580 --> 00:04:53,280 Kaya ito ay talagang kawili-wiling kung paano bagaman hindi mo alam ang lahat ng mga panuntunan 101 00:04:53,280 --> 00:04:55,575 sa iyong wika uri ng sa iyo na maunawaan kung paano gumagana ang wika. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Kaya ang kagiliw-giliw na bagay tungkol sa natural wika ay hindi mo na kailangang mag- 104 00:05:01,530 --> 00:05:06,970 alam anumang syntax malaman kung ang isang pangungusap ay naaalinsunod sa Balarila o ungrammatical para sa 105 00:05:06,970 --> 00:05:08,810 karamihan ng mga kaso. 106 00:05:08,810 --> 00:05:13,220 Aling gumagawa sa tingin mo na siguro kung ano ang mangyayari ay na sa pamamagitan ng iyong buhay, mo 107 00:05:13,220 --> 00:05:17,410 panatilihin lamang sa pagkuha ng higit pa at higit pa pangungusap na sinabi sa iyo. 108 00:05:17,410 --> 00:05:19,800 At pagkatapos mong mapanatili ang memorizing lahat ng mga pangungusap. 109 00:05:19,800 --> 00:05:24,230 At pagkatapos ay kapag may isang taong nagsasabi sa iyo isang bagay, maririnig mo na pangungusap at 110 00:05:24,230 --> 00:05:27,040 kang tumingin sa iyong bokabularyo ng mga pangungusap at tingnan kung 111 00:05:27,040 --> 00:05:28,270 pangungusap na doon. 112 00:05:28,270 --> 00:05:29,830 At kung ito ay doon ka sabihin ito ay naaalinsunod sa Balarila. 113 00:05:29,830 --> 00:05:31,740 Kung ito ay hindi sabihin mo ito ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Kaya, sa kasong iyon, nais mong sabihin, oh, kaya mayroon kang isang malaking listahan ng lahat ng 115 00:05:35,150 --> 00:05:36,140 posibleng mga pangungusap. 116 00:05:36,140 --> 00:05:38,240 At pagkatapos kapag naririnig mo ang isang pangungusap, mo alam kung ito ay naaalinsunod sa Balarila o 117 00:05:38,240 --> 00:05:39,450 hindi batay sa na. 118 00:05:39,450 --> 00:05:42,360 Bagay ay na kung tiningnan mo ang isang pangungusap, halimbawa, "Ang 119 00:05:42,360 --> 00:05:47,540 limang buhok CS50 TFs luto ang bulag pugita gamit ang isang DAPA saro. "Ito ay 120 00:05:47,540 --> 00:05:49,630 Talagang hindi isang pangungusap na iyong narinig bago. 121 00:05:49,630 --> 00:05:52,380 Ngunit sa parehong oras na alam mo ito halos naaalinsunod sa Balarila, tama? 122 00:05:52,380 --> 00:05:55,570 Walang mga naaalinsunod sa Balarila pagkakamali at maaari mong sabihin na 123 00:05:55,570 --> 00:05:57,020 ito ay isang posibleng pangungusap. 124 00:05:57,020 --> 00:06:01,300 >> Kaya ginagawang amin sa tingin na aktwal na ang paraan na malaman namin ang wika ay hindi lamang 125 00:06:01,300 --> 00:06:07,090 sa pamamagitan ng pagkakaroon ng isang malaking database ng mga posibleng mga salita o pangungusap, pero higit pa sa 126 00:06:07,090 --> 00:06:11,490 pag-unawa sa kaugnayan sa pagitan ng mga salita sa mga pangungusap. 127 00:06:11,490 --> 00:06:14,570 Ba na magkaroon ng kahulugan? 128 00:06:14,570 --> 00:06:19,370 Kaya, pagkatapos ay ang tanong ay, maaari mga computer matuto wika? 129 00:06:19,370 --> 00:06:21,490 Puwede ba kaming turuan wika sa mga computer? 130 00:06:21,490 --> 00:06:24,230 >> Kaya, sa tingin ng mga pagkakaiba ipaalam sa pagitan ng isang katutubong nagsasalita ng wika 131 00:06:24,230 --> 00:06:25,460 at isang computer. 132 00:06:25,460 --> 00:06:27,340 Kaya, ano ang mangyayari sa speaker? 133 00:06:27,340 --> 00:06:30,430 Well, ang katutubong nagsasalita natututo ng isang wika mula sa pagkakalantad dito. 134 00:06:30,430 --> 00:06:34,200 Karaniwan nitong unang bahagi ng taon ng pagkabata. 135 00:06:34,200 --> 00:06:38,570 Kaya, talaga, mayroon na lamang kayong isang sanggol, at patuloy mong pakikipag-usap sa ito, at ito 136 00:06:38,570 --> 00:06:40,540 lamang natututo kung paano makipag-usap ang wika, tama? 137 00:06:40,540 --> 00:06:42,660 Kaya, isa lamang ka na nagbibigay sa input upang ang sanggol. 138 00:06:42,660 --> 00:06:45,200 Kaya, pagkatapos ay maaari mong magtaltalan na ang isang computer Maaari gawin ang parehong bagay, tama? 139 00:06:45,200 --> 00:06:49,510 Maaari mo lamang ibigay wika bilang input sa computer. 140 00:06:49,510 --> 00:06:53,410 >> Bilang halimbawa ng grupo ng mga file na may mga libro sa Ingles. 141 00:06:53,410 --> 00:06:56,190 Siguro iyon ang isang paraan na iyong maaaring posibleng magturo ng 142 00:06:56,190 --> 00:06:57,850 computer na Ingles, tama? 143 00:06:57,850 --> 00:07:01,000 At sa katunayan, kung sa tingin mo ang tungkol dito, na tumagal siguro ng ilang 144 00:07:01,000 --> 00:07:02,680 araw na basahin ang isang libro. 145 00:07:02,680 --> 00:07:05,760 Para sa isang computer tumatagal ng isang segundo upang tumingin sa lahat ng mga salita sa isang aklat. 146 00:07:05,760 --> 00:07:10,810 Kaya maaari mong isipin na maaaring lamang ito argumento ng input mula sa paligid mo, 147 00:07:10,810 --> 00:07:15,440 hindi iyon sapat upang sabihin na iyon isang bagay na magagawa lamang ng mga tao. 148 00:07:15,440 --> 00:07:17,680 Maaari mong isipin na computer Maaari ring makakuha ng pag-input. 149 00:07:17,680 --> 00:07:21,170 >> Ang ikalawang bagay ay na native speaker mayroon din isang utak na may 150 00:07:21,170 --> 00:07:23,870 kakayahan sa pag-aaral ng wika. 151 00:07:23,870 --> 00:07:27,020 Ngunit kung sa tingin mo ang tungkol dito, isang utak ay isang solid na bagay. 152 00:07:27,020 --> 00:07:30,450 Kapag kayo ay ipinanganak, na-set - 153 00:07:30,450 --> 00:07:31,320 ito ay ang iyong utak. 154 00:07:31,320 --> 00:07:34,660 At bilang palaguin mo up, kumuha ka lang nang higit pa input ng wika at siguro nutrients 155 00:07:34,660 --> 00:07:35,960 at iba pang mga bagay-bagay. 156 00:07:35,960 --> 00:07:38,170 Pero halos iyong utak ay isang solid na bagay. 157 00:07:38,170 --> 00:07:41,290 >> Kaya maaari mong sabihin, mahusay, marahil maaari mong bumuo ng isang computer na may isang bungkos ng 158 00:07:41,290 --> 00:07:45,890 mga pag-andar at mga pamamaraan na gayahin lamang kakayahan sa pag-aaral ng wika. 159 00:07:45,890 --> 00:07:49,630 Kaya sa na kahulugan, maaari mong sabihin, mahusay, ako ay maaaring magkaroon ng isang computer na mayroon ng lahat ng 160 00:07:49,630 --> 00:07:52,270 mga bagay na kailangan kong malaman wika. 161 00:07:52,270 --> 00:07:56,200 At ang huling bagay ay na ang isang katutubong speaker natututo mula sa pagsubok at error. 162 00:07:56,200 --> 00:08:01,090 Kaya isa lamang ng isa pang mahalagang bagay sa pag-aaral ng wika ay na uri 163 00:08:01,090 --> 00:08:05,340 ng matuto ng mga bagay sa pamamagitan ng paggawa generalizations ng kung ano ang iyong naririnig. 164 00:08:05,340 --> 00:08:10,280 >> Kaya bilang mo ay lumalaki ng hanggang malaman mo na ang ilang mga salita ay mas katulad nouns, 165 00:08:10,280 --> 00:08:11,820 ilang iba pang alin ang adjectives. 166 00:08:11,820 --> 00:08:14,250 At hindi mo na kailangang magkaroon ng anumang kaalaman ng aghamwika 167 00:08:14,250 --> 00:08:15,040 na maunawaan na. 168 00:08:15,040 --> 00:08:18,560 Pero alam mo lamang mayroong ilang mga salita ay nakaposisyon sa ilang bahagi ng 169 00:08:18,560 --> 00:08:22,570 pangungusap at ilang iba sa iba pang mga mga bahagi ng pangungusap. 170 00:08:22,570 --> 00:08:26,110 >> At na kapag gumawa ka ng isang bagay na tulad ng isang pangungusap na hindi tama - 171 00:08:26,110 --> 00:08:28,770 siguro dahil sa isang higit sa kalahatan halimbawa. 172 00:08:28,770 --> 00:08:32,210 Siguro kapag tapos ka na lumalagong up, napansin mo na ang maramihan ay karaniwang 173 00:08:32,210 --> 00:08:35,809 nabuo sa pamamagitan ng paglalagay ng isang S sa sa dulo ng salita. 174 00:08:35,809 --> 00:08:40,042 At pagkatapos ay subukan mong gawin ang pangmaramihang ng "Usa" bilang "deers" o "ngipin" bilang 175 00:08:40,042 --> 00:08:44,780 "Tooths." Kaya pagkatapos ay sa iyong mga magulang o isang tao corrects mo at sabi, walang, ang 176 00:08:44,780 --> 00:08:49,020 plural ng "usa" ay "usa," at ang plural ng "ngipin" ay "ngipin." At pagkatapos ay 177 00:08:49,020 --> 00:08:50,060 mong malaman ang mga bagay-bagay. 178 00:08:50,060 --> 00:08:51,520 Kaya matuto ka mula sa pagsubok at error. 179 00:08:51,520 --> 00:08:53,100 >> Ngunit maaari mo ring gawin iyon may isang computer. 180 00:08:53,100 --> 00:08:55,310 Maaari kang magkaroon ng isang bagay na tinatawag na dagdag na mga kagamitan sa pag-aaral. 181 00:08:55,310 --> 00:08:58,560 Aling ay isa lamang tulad ng ibinigay na isang computer ng isang gantimpala sa tuwing ginagawa nito 182 00:08:58,560 --> 00:08:59,410 isang bagay nang tama. 183 00:08:59,410 --> 00:09:04,710 At pagbibigay ito ng kabaligtaran ng isang gantimpala at kapag ginagawa nito ng isang bagay na mali. 184 00:09:04,710 --> 00:09:07,410 Maaari mong aktwal na makita na kung pumunta ka sa Google Translate at mong subukan ang upang 185 00:09:07,410 --> 00:09:10,220 isalin ang isang pangungusap, ito humihiling sa iyo para sa puna. 186 00:09:10,220 --> 00:09:13,240 Kaya kung sabihin mo, oh, mayroong isang mas mahusay na translation para sa pangungusap na ito. 187 00:09:13,240 --> 00:09:18,140 Maaari mo itong i-type up at pagkatapos ay kung ng maraming mga tao panatilihin na nagsasabi na ang isang mas mahusay na 188 00:09:18,140 --> 00:09:21,560 pagsasalin, lamang nalalaman nito na ito dapat gumamit ng pagsasaling-wika na sa halip ng 189 00:09:21,560 --> 00:09:22,960 ang isa ito ay nagbibigay sa. 190 00:09:22,960 --> 00:09:28,830 >> Kaya, ito ay isang napaka pilosopiko tanong upang makita kung ang mga computer ay pagpunta sa maging 191 00:09:28,830 --> 00:09:30,340 makakapag-usap o hindi sa hinaharap. 192 00:09:30,340 --> 00:09:34,440 Ngunit Mayroon akong mataas na pag-asa na maaari nilang lamang batay sa mga argumento. 193 00:09:34,440 --> 00:09:38,570 Ngunit ito ay higit pa lamang ng isang pilosopiko tanong. 194 00:09:38,570 --> 00:09:43,460 >> Kaya habang computer pa rin ay hindi maaaring makipag-usap, ano ang mga bagay na maaari naming gawin? 195 00:09:43,460 --> 00:09:47,070 Ang ilang mga talagang cool na bagay ang pag-uuri ng data. 196 00:09:47,070 --> 00:09:53,210 Kaya, halimbawa, alam mo guys na mga serbisyo sa email gawin, para sa 197 00:09:53,210 --> 00:09:55,580 Halimbawa, pag-filter ng spam. 198 00:09:55,580 --> 00:09:59,070 Kaya sa tuwing makakatanggap ka ng spam, ito Sinusubukan upang i-filter sa isa pang box. 199 00:09:59,070 --> 00:10:00,270 Kaya paano nito gawin iyon? 200 00:10:00,270 --> 00:10:06,080 Hindi ito gusto lang alam ang computer anong email address ay pagpapadala ng spam. 201 00:10:06,080 --> 00:10:09,130 Kaya ito ay higit batay sa nilalaman ng ang mensahe, o marahil ang pamagat, o 202 00:10:09,130 --> 00:10:11,310 siguro ilang mga pattern na mayroon ka. 203 00:10:11,310 --> 00:10:15,690 >> Kaya, talaga, kung ano ang maaari mong gawin ay ang makakuha ng isang maraming data ng mga email na spam, 204 00:10:15,690 --> 00:10:19,980 mga email na hindi spam, at alamin kung ano ang uri ng mga pattern na mayroon ka sa 205 00:10:19,980 --> 00:10:21,000 mga bago na spam. 206 00:10:21,000 --> 00:10:23,260 At ito ay bahagi ng computational aghamwika. 207 00:10:23,260 --> 00:10:24,720 Ito ay tinatawag na pag-uuri ng data. 208 00:10:24,720 --> 00:10:28,100 At talagang kami ay pagpunta upang makita ang isang halimbawa ng na sa susunod na mga slide. 209 00:10:28,100 --> 00:10:32,910 >> Ang ikalawang bagay ay ang natural na wika processing kung saan ay ang bagay na ang 210 00:10:32,910 --> 00:10:36,580 Graph ng Paghahanap ay ang paggawa ng pagpapaalam sumulat ka ng isang pangungusap. 211 00:10:36,580 --> 00:10:38,690 At ito trusts sa iyo na maunawaan kung ano ang ay ang kahulugan at nagbibigay sa 212 00:10:38,690 --> 00:10:39,940 sa iyo ng mas mahusay na resulta. 213 00:10:39,940 --> 00:10:43,880 Talaga, kung pumunta ka sa Google o Bing at maghanap ka ng isang bagay tulad ng Lady 214 00:10:43,880 --> 00:10:47,060 Taas mangha, ang aktwal na pagpunta upang makakuha ng 5 '1 "sa halip na impormasyon 215 00:10:47,060 --> 00:10:50,170 mula sa kanya dahil talaga ito naiintindihan kung ano ang pinag-uusapan mo tungkol sa. 216 00:10:50,170 --> 00:10:52,140 Kaya na ay bahagi ng likas na pagproseso ng wika. 217 00:10:52,140 --> 00:10:57,000 >> O kaya naman din kapag gumagamit ka ng Siri, una mayroon kang isang algorithm na sumusubok na 218 00:10:57,000 --> 00:11:01,130 isalin kung ano ang sinasabi mo sa salita, sa teksto. 219 00:11:01,130 --> 00:11:03,690 At pagkatapos nito sinusubukang i-translate na sa kahulugan. 220 00:11:03,690 --> 00:11:06,570 Kaya na ang lahat ng mga bahagi ng natural pagproseso ng wika. 221 00:11:06,570 --> 00:11:08,320 >> Pagkatapos ay mayroon kang pagsasalin ng computer - 222 00:11:08,320 --> 00:11:10,300 na kung saan ay talagang isa ng aking mga paborito - 223 00:11:10,300 --> 00:11:14,060 na kung saan ay isinasalin lamang mula sa isang wika patungo sa isa pa. 224 00:11:14,060 --> 00:11:17,950 Kaya maaari mong isipin na kapag ikaw ay gumagawa ng pagsasalin ng computer, mayroon kang 225 00:11:17,950 --> 00:11:19,750 walang katapusan na posibilidad ng mga pangungusap. 226 00:11:19,750 --> 00:11:22,960 Kaya walang paraan ng pag-iimbak lamang bawat solong pagsasalin. 227 00:11:22,960 --> 00:11:27,440 Kaya mayroon kang makabuo ng mga kawili-wiling algorithm upang ma- 228 00:11:27,440 --> 00:11:30,110 isalin bawat solong pangungusap sa ilang mga paraan. 229 00:11:30,110 --> 00:11:32,483 >> Ikaw guys may mga katanungan sa ngayon? 230 00:11:32,483 --> 00:11:34,450 Walang? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Kaya kung ano ang aming makikita ngayon? 233 00:11:36,900 --> 00:11:39,300 Una sa lahat, ako ng pagpunta sa makipag-usap tungkol sa ang problema pag-uuri. 234 00:11:39,300 --> 00:11:41,440 Kaya ang isa na ako ay sinasabi tungkol sa spam. 235 00:11:41,440 --> 00:11:46,820 Ano pupuntahan ko lang gawin ay, na ibinigay lyrics sa isang kanta, maaari mong subukan upang malaman kung 236 00:11:46,820 --> 00:11:49,810 may mataas na posibilidad sino ay ang mang-aawit? 237 00:11:49,810 --> 00:11:53,590 Sabihin natin na mayroon akong mga kanta mula sa Lady Mangha at Katy Perry, kung bibigyan ko kayo ng isang 238 00:11:53,590 --> 00:11:58,130 bagong kanta, maaari mong malaman kung ito ay Katy Perry o Lady mangha? 239 00:11:58,130 --> 00:12:01,490 >> Ang ikalawang isa, tingin lang ako sa pagpunta sa makipag-usap tungkol sa problema sa pagse-segment. 240 00:12:01,490 --> 00:12:05,780 Kaya hindi ko alam kung ka guys alam, ngunit Chinese, Japanese, iba pang mga East Asian 241 00:12:05,780 --> 00:12:08,090 wika, at iba pang mga wika sa pangkalahatan, walang 242 00:12:08,090 --> 00:12:09,830 puwang sa pagitan ng mga salita. 243 00:12:09,830 --> 00:12:13,540 At pagkatapos ay kung sa tingin mo tungkol sa ang paraan na iyong computer uri ng pagsusubok sa 244 00:12:13,540 --> 00:12:18,600 Nauunawaan natural na pagpoproseso ng wika, tinitingnan nito ang mga salita at 245 00:12:18,600 --> 00:12:21,500 Sinusubukan upang maunawaan ang mga pakikipag-ugnayan sa pagitan ng mga ito, i-right? 246 00:12:21,500 --> 00:12:25,440 Ngunit pagkatapos ay kung mayroon kang Chinese, at mo may zero na mga puwang, ito ay talagang mahirap na 247 00:12:25,440 --> 00:12:28,360 malaman kung ano ang kaugnayan sa pagitan ng salita, sapagkat sila ay walang anumang 248 00:12:28,360 --> 00:12:29,530 mga salita sa unang. 249 00:12:29,530 --> 00:12:32,600 Kaya kailangan mong gawin ang isang bagay na tinatawag na segmentation na lamang ay nangangahulugan na ang paglalagay ng 250 00:12:32,600 --> 00:12:36,490 puwang sa pagitan ng kung ano ang nais naming tawagan mga salita sa mga wikang iyon. 251 00:12:36,490 --> 00:12:37,740 Magkaroon ng kahulugan? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> At pagkatapos ay kami ay pagpunta sa makipag-usap tungkol sa syntax. 254 00:12:41,540 --> 00:12:44,050 Kaya lang nang kaunti tungkol sa natural pagproseso ng wika. 255 00:12:44,050 --> 00:12:45,420 Ito ay pagpunta sa maging lamang ng isang pangkalahatang-ideya. 256 00:12:45,420 --> 00:12:50,700 Kaya ngayon, isa lamang sa kung ano ang gusto kong gawin ay magbibigay sa iyo ng guys ng kaunting isang 257 00:12:50,700 --> 00:12:53,930 sa loob ng ano ang mga posibilidad na maaari mong gawin sa computational 258 00:12:53,930 --> 00:12:54,960 aghamwika. 259 00:12:54,960 --> 00:13:00,410 At pagkatapos ay makikita mo kung ano sa tingin mo ay cool na kasama ng mga bagay. 260 00:13:00,410 --> 00:13:02,270 At marahil maaari mong isipin ang isang proyekto at dumating makipag-usap sa akin. 261 00:13:02,270 --> 00:13:05,260 At maaari kong bigyan ka ng payo sa kung paano ipatupad ito. 262 00:13:05,260 --> 00:13:09,060 >> Kaya syntax ay magiging kaunti tungkol sa Paghahanap ng graph at mga machine 263 00:13:09,060 --> 00:13:09,670 pagsasalin. 264 00:13:09,670 --> 00:13:13,650 Lamang ako ng pagpunta sa bigyan ang isang halimbawa kung paano maaari mong, halimbawa, isalin 265 00:13:13,650 --> 00:13:16,020 isang bagay mula sa Portuges sa Ingles. 266 00:13:16,020 --> 00:13:17,830 Magaling? 267 00:13:17,830 --> 00:13:19,293 >> Kaya una, ang problema pag-uuri. 268 00:13:19,293 --> 00:13:23,590 Sasabihin kong ang bahaging ito ng pantas-aral ay magiging ang pinaka-mapaghamong 269 00:13:23,590 --> 00:13:27,560 isa dahil lamang doon ang nangyayari sa ilang mga coding. 270 00:13:27,560 --> 00:13:29,470 Ngunit ito ay pagpunta sa maging Python. 271 00:13:29,470 --> 00:13:34,380 Alam ko ka guys ay hindi alam Python, kaya Lamang ako ng pagpunta sa ipaliwanag sa mga matataas 272 00:13:34,380 --> 00:13:35,750 antas kung ano ako ng paggawa. 273 00:13:35,750 --> 00:13:40,900 At wala kang masyadong upang talagang pakialam magkano ang tungkol sa syntax dahil na 274 00:13:40,900 --> 00:13:42,140 isang bagay na maaaring matutunan mo guys. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Magaling. 277 00:13:43,580 --> 00:13:46,020 >> Kaya kung ano ay ang problema pag-uuri? 278 00:13:46,020 --> 00:13:49,140 Kaya binibigyan ka ng ilang lyrics sa ng kanta, at gusto mong hulaan 279 00:13:49,140 --> 00:13:50,620 sino ang kumanta nito. 280 00:13:50,620 --> 00:13:54,045 At ito ay maaaring maging para sa anumang uri ng iba pang mga problema. 281 00:13:54,045 --> 00:13:59,980 Kaya ito ay maaaring, halimbawa, mayroon kang isang pampanguluhan kampanya at mayroon kang isang 282 00:13:59,980 --> 00:14:02,610 pananalita, at nais mong hanapin kung ito ay, halimbawa, 283 00:14:02,610 --> 00:14:04,470 Obama o glab sa beisbol Romney. 284 00:14:04,470 --> 00:14:07,700 O maaari kang magkaroon ng grupo ng mga e-mail at gusto mong malaman kung ang mga ito 285 00:14:07,700 --> 00:14:08,890 spam o hindi. 286 00:14:08,890 --> 00:14:11,440 Kaya ito ay lamang ng ilang mga pag-uuri data batay sa mga salita 287 00:14:11,440 --> 00:14:13,790 na mayroon ka doon. 288 00:14:13,790 --> 00:14:16,295 >> Kaya upang gawin iyon, kailangan mong gumawa ng ilang mga pagpapalagay. 289 00:14:16,295 --> 00:14:20,570 Kaya marami tungkol sa computational aghamwika ay gumagawa pagpapalagay, 290 00:14:20,570 --> 00:14:24,100 karaniwan na smart pagpapalagay, upang maaari kang makakuha ng mahusay na mga resulta. 291 00:14:24,100 --> 00:14:26,670 Sinusubukang upang lumikha ng isang modelo para dito. 292 00:14:26,670 --> 00:14:31,290 At pagkatapos ay subukan ito at makita kung ito gumagana, kung binibigyan ka nito mahusay na katumpakan. 293 00:14:31,290 --> 00:14:33,940 At kung ginagawa nito, pagkatapos ay i-mo subukan upang mapagbuti ito. 294 00:14:33,940 --> 00:14:37,640 Kung hindi ito, ikaw ay tulad, OK, siguro ako dapat na gumawa ng ibang palagay. 295 00:14:37,640 --> 00:14:44,030 >> Kaya ang palagay na kami ay pagpunta sa gumawa ay ang isang artist karaniwang SINGS 296 00:14:44,030 --> 00:14:49,220 tungkol sa isang paksa nang maraming beses, at siguro ay gumagamit ng mga salita maraming beses lamang 297 00:14:49,220 --> 00:14:50,270 dahil ang mga ito ay ginagamit upang ito. 298 00:14:50,270 --> 00:14:51,890 Maaari mong isipin lang sa iyong mga kaibigan. 299 00:14:51,890 --> 00:14:57,350 Ako ba mo guys sa lahat ng may mga kaibigang na sabihin ang kanilang mga parirala na lagda, 300 00:14:57,350 --> 00:14:59,260 Literal na para sa bawat solong pangungusap - 301 00:14:59,260 --> 00:15:02,660 tulad ng ilang mga tukoy na salita o ilang mga tukoy na parirala na sinasabi nila para sa 302 00:15:02,660 --> 00:15:04,020 bawat solong pangungusap. 303 00:15:04,020 --> 00:15:07,920 >> At kung ano ang maaari mong sabihin ay kung makita mo isang pangungusap na may lagda 304 00:15:07,920 --> 00:15:11,450 parirala, maaari mong hulaan na marahil ang iyong mga kaibigan ay ang 305 00:15:11,450 --> 00:15:13,310 isa na sinasabi ito, tama? 306 00:15:13,310 --> 00:15:18,410 Kaya gumawa ka na pagkukunwari at pagkatapos ay na kung paano ka lumikha ng isang modelo. 307 00:15:18,410 --> 00:15:24,440 >> Ang halimbawa na pupuntahan ko bigyan ay sa paano Lady mangha, halimbawa, mga tao 308 00:15:24,440 --> 00:15:27,430 sabihin na gumagamit siya ng "sanggol" para sa lahat ng kanyang mga numero ng isa kanta. 309 00:15:27,430 --> 00:15:32,270 At talagang ito ay isang video na palabas ang kanyang sinasabi ang salitang "sanggol" para sa 310 00:15:32,270 --> 00:15:33,410 iba't ibang kanta. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO sa pag-playback] 312 00:15:33,860 --> 00:15:34,310 >> - (Awit) Baby. 313 00:15:34,310 --> 00:15:36,220 Baby. 314 00:15:36,220 --> 00:15:37,086 Baby. 315 00:15:37,086 --> 00:15:37,520 Baby. 316 00:15:37,520 --> 00:15:37,770 Baby. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Baby. 319 00:15:39,243 --> 00:15:40,085 Baby. 320 00:15:40,085 --> 00:15:40,510 Baby. 321 00:15:40,510 --> 00:15:40,850 Baby. 322 00:15:40,850 --> 00:15:41,090 >> [END VIDEO sa pag-playback- 323 00:15:41,090 --> 00:15:44,020 >> Lucas Freitas: Kaya may mga, sa palagay ko, 40 kanta dito kung saan sabi niya ang 324 00:15:44,020 --> 00:15:48,690 salitang "sanggol." Kaya maaari mong talaga hulaan na kung makakita ka ng isang kanta na may 325 00:15:48,690 --> 00:15:52,180 ang salitang "sanggol," mayroong ilang mga mataas posibilidad na ito ay Lady mangha. 326 00:15:52,180 --> 00:15:56,450 Ngunit Subukan upang bumuo ito ipaalam karagdagang higit pa pormal. 327 00:15:56,450 --> 00:16:00,470 >> Kaya ito ay mga lyrics sa kanta ni Lady mangha at Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Kaya tumingin ka sa Lady mangha, makikita mo sila magkaroon ng maraming mga pagkakaroon ng "sanggol," isang 329 00:16:04,120 --> 00:16:07,710 maraming pangyayari ng "paraan." At pagkatapos ay Katy Perry ay may napakaraming mga pangyayari ng 330 00:16:07,710 --> 00:16:10,360 "Ang," ng maraming mga pagkakaroon ng "apoy." 331 00:16:10,360 --> 00:16:14,560 >> Kaya talaga kung ano ang gusto naming gawin ay, kumuha ka ng isang tula ng damdamin. 332 00:16:14,560 --> 00:16:20,480 Sabihin natin na kumuha ka ng isang tula ng damdamin para sa isang kanta na ay "sanggol," "sanggol." lamang Kung 333 00:16:20,480 --> 00:16:24,750 mong makuha ang salitang "sanggol," at ito ay ang lahat ng mga data na mayroon ka mula sa 334 00:16:24,750 --> 00:16:27,880 Lady mangha at Katy Perry, na gagawin ikaw hulaan ay ang tao 335 00:16:27,880 --> 00:16:29,370 sino SINGS ang kanta? 336 00:16:29,370 --> 00:16:32,360 Lady mangha o Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady mangha, tama? 338 00:16:33,150 --> 00:16:37,400 Dahil siya ang isa lamang na nag-sabi "Sanggol." Ito tunog estupido, tama? 339 00:16:37,400 --> 00:16:38,760 OK, ito ay talagang madali. 340 00:16:38,760 --> 00:16:41,860 Lamang Naghahanap ako sa dalawang kanta at ng Siyempre, siya ang isa lamang kung sino ang may 341 00:16:41,860 --> 00:16:42,660 "Sanggol." 342 00:16:42,660 --> 00:16:44,740 >> Ngunit ano kung mayroon kang isang bungkos ng mga salita? 343 00:16:44,740 --> 00:16:50,900 Kung mayroon kang isang aktwal na tula ng damdamin, isang bagay tulad ng, "sanggol, ako lamang 344 00:16:50,900 --> 00:16:51,610 nagpunta upang makita ang isang [? CFT?] 345 00:16:51,610 --> 00:16:54,020 magbigay ng panayam, "o isang bagay tulad na, at pagkatapos mo talagang may upang malaman kung - 346 00:16:54,020 --> 00:16:55,780 batay sa lahat ng mga salitang iyon - 347 00:16:55,780 --> 00:16:58,350 sino ang artist na marahil kumanta ang kantang ito? 348 00:16:58,350 --> 00:17:01,860 Kaya Subukan upang bumuo ipaalam ito ng kaunti pa. 349 00:17:01,860 --> 00:17:05,630 >> OK, kaya batay lamang sa data na namin Nakakuha, tila na mangha ay marahil 350 00:17:05,630 --> 00:17:06,260 ang mang-aawit. 351 00:17:06,260 --> 00:17:07,904 Ngunit kung paano maaari naming magsulat ito ang nalalaman pormal? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 At doon pupuntahan maging ng kaunti bit ng istatistika. 354 00:17:13,140 --> 00:17:15,880 Kaya kung mawala, subukan lamang upang maunawaan ang mga konsepto. 355 00:17:15,880 --> 00:17:18,700 Hindi mahalaga kung nauunawaan mo ang mga equation perpektong na rin. 356 00:17:18,700 --> 00:17:22,150 Ito ay lahat ng pagpunta sa maging online. 357 00:17:22,150 --> 00:17:25,490 >> Kaya talaga kung ano ako sa pagkalkula ay ang posibilidad na mangyari na ang kantang ito ay sa pamamagitan ng 358 00:17:25,490 --> 00:17:28,040 Lady mangha naibigay na - 359 00:17:28,040 --> 00:17:30,660 kaya ang bar na ito ay nangangahulugan naibigay na - 360 00:17:30,660 --> 00:17:33,680 Nakita ko ang salitang "sanggol." Ba na magkaroon ng kahulugan? 361 00:17:33,680 --> 00:17:35,540 Kaya sinusubukan ko upang makalkula na bagay na maaaring mangyari. 362 00:17:35,540 --> 00:17:38,540 >> Kaya mayroong ito teorama na tinatawag na Bayes teorama na nagsasabing na ang 363 00:17:38,540 --> 00:17:43,330 posibilidad ng isang naibigay na B, ay ang posibilidad ng B ibinigay na A, beses ang 364 00:17:43,330 --> 00:17:47,660 posibilidad ng A, sa ibabaw ng probabilidad ng B. Ito ay isang mahaba ang equation. 365 00:17:47,660 --> 00:17:51,970 Ngunit ano ang mayroon ka upang maunawaan mula sa na na ito ang gusto kong i- 366 00:17:51,970 --> 00:17:52,830 kalkulahin, tama? 367 00:17:52,830 --> 00:17:56,570 Kaya ang posibilidad na mangyari na ang kanta ay sa pamamagitan ng Lady mangha naibigay na nakita ko ang salitang 368 00:17:56,570 --> 00:17:58,230 "Sanggol." 369 00:17:58,230 --> 00:18:02,960 >> At ngayon kung ano Nakakakuha ako ay ang posibilidad ng ang salitang "sanggol" na ibinigay 370 00:18:02,960 --> 00:18:04,390 na mayroon akong Lady mangha. 371 00:18:04,390 --> 00:18:07,220 At kung ano ay ang isa lamang? 372 00:18:07,220 --> 00:18:10,500 Ano paraan iyon ay, kung ano ang posibilidad na makakita ng salitang "sanggol" 373 00:18:10,500 --> 00:18:12,130 sa mangha lyrics? 374 00:18:12,130 --> 00:18:16,240 Kung gusto ko upang kalkulahin na sa isang napaka- simpleng paraan, ito ay lamang ang bilang ng mga 375 00:18:16,240 --> 00:18:23,640 beses nakakakita ng "sanggol" sa ibabaw ang kabuuang bilang ng mga salita sa mangha lyrics, tama? 376 00:18:23,640 --> 00:18:27,600 Ano ay ang dalas na nakikita ko ang salitang iyon sa trabaho mangha ni? 377 00:18:27,600 --> 00:18:30,530 Magkaroon ng kahulugan? 378 00:18:30,530 --> 00:18:33,420 >> Ang ikalawang termino ay ang posibilidad ng mangha. 379 00:18:33,420 --> 00:18:34,360 Ano ang ibig sabihin na? 380 00:18:34,360 --> 00:18:38,550 Iyon talaga ay nangangahulugan, ano ang posibilidad ng pag-uuri 381 00:18:38,550 --> 00:18:40,690 ilang lyrics bilang mangha? 382 00:18:40,690 --> 00:18:45,320 At iyon ay uri ng kakaiba, ngunit ni sa tingin ng isang halimbawa ipaalam. 383 00:18:45,320 --> 00:18:49,230 Kaya sabihin nating na ang posibilidad ng pagkakaroon ng "sanggol" sa isang kanta ay pareho 384 00:18:49,230 --> 00:18:51,760 para sa mangha at Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Ngunit Britney Spears ay may dalawang beses higit pang mga kanta kaysa Lady mangha. 386 00:18:54,950 --> 00:19:00,570 Kaya kung may isang taong random na lamang ay nagbibigay sa iyo lyrics ng "sanggol," ang unang bagay na sa iyo 387 00:19:00,570 --> 00:19:04,710 tumingin sa ay, kung ano ay ang posibilidad ng pagkakaroon ng "sanggol" sa isang mangha kanta, "sanggol" 388 00:19:04,710 --> 00:19:05,410 sa isang Britney kanta? 389 00:19:05,410 --> 00:19:06,460 At ito ay ang parehong bagay. 390 00:19:06,460 --> 00:19:10,040 >> Kaya ang ikalawang bagay na makikita mo ay, well, ano ang posibilidad ng 391 00:19:10,040 --> 00:19:13,770 tula ng damdamin ito sa pamamagitan ng sarili nito sa pagiging isang mangha tula ng damdamin, at kung ano ay ang posibilidad ng 392 00:19:13,770 --> 00:19:15,380 pagiging isang Britney tula ng damdamin? 393 00:19:15,380 --> 00:19:18,950 Kaya mula noong Britney ay may kaya marami pang lyrics kaysa mangha, gagawin mo marahil 394 00:19:18,950 --> 00:19:21,470 sabihin nating, na rin, ito ay marahil isang Britney tula ng damdamin. 395 00:19:21,470 --> 00:19:23,340 Kaya na ang dahilan kung bakit mayroon kaming ito TERM dito mismo. 396 00:19:23,340 --> 00:19:24,670 Posibilidad ng mangha. 397 00:19:24,670 --> 00:19:26,950 Saysay ang? 398 00:19:26,950 --> 00:19:28,660 Gumagana ba ito? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> At ang huli lamang ang posibilidad ng "sanggol" na hindi 401 00:19:33,500 --> 00:19:34,810 talagang bagay na magkano. 402 00:19:34,810 --> 00:19:39,940 Ngunit ito ay ang posibilidad ng nakakakita ng "sanggol" sa Ingles. 403 00:19:39,940 --> 00:19:42,725 Namin karaniwang hindi pinapahalagahan na magkano ang tungkol sa term na iyon. 404 00:19:42,725 --> 00:19:44,490 Ba na magkaroon ng kahulugan? 405 00:19:44,490 --> 00:19:48,110 Kaya ang posibilidad ng mangha ay na tinatawag na ang bago probabilidad 406 00:19:48,110 --> 00:19:49,530 ng klase mangha. 407 00:19:49,530 --> 00:19:53,840 Dahil nangangahulugan ito na lang, ano ang posibilidad ng pagkakaroon ng klase na - 408 00:19:53,840 --> 00:19:55,520 na kung saan ay mangha - 409 00:19:55,520 --> 00:19:59,350 lamang sa pangkalahatan, lamang na walang mga kundisyon. 410 00:19:59,350 --> 00:20:02,560 >> At pagkatapos ay kapag mayroon akong posibilidad ng Mangha ibinigay na "sanggol," tawagan namin ito plus 411 00:20:02,560 --> 00:20:06,160 teary isang posibilidad na mangyari ito dahil ito ay ang posibilidad ng pagkakaroon 412 00:20:06,160 --> 00:20:08,300 Mangha ibinigay na ang ilang patunay. 413 00:20:08,300 --> 00:20:11,050 Kaya ako nagbibigay sa iyo ng katibayan na nakita ko ang salitang sanggol at 414 00:20:11,050 --> 00:20:12,690 ang kanta magkaroon ng kahulugan? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Kaya Kung ako kinakalkula na para sa bawat ng mga kanta para sa Lady mangha, 418 00:20:22,400 --> 00:20:25,916 ano na magiging - 419 00:20:25,916 --> 00:20:27,730 sa malas, hindi ako maaaring ilipat ito. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Ang posibilidad ng mangha ay magiging isang bagay tulad ng, 2 sa paglipas ng 24, beses 1/2, 422 00:20:36,920 --> 00:20:38,260 sa paglipas ng 2 sa ibabaw 53. 423 00:20:38,260 --> 00:20:40,640 Hindi mahalaga kung alam mo kung ano ang ang mga numero ay nagmumula sa. 424 00:20:40,640 --> 00:20:44,750 Ngunit ito ay isang numero lamang na pagpunta na maging mas kaysa sa 0, tama? 425 00:20:44,750 --> 00:20:48,610 >> At pagkatapos ay kapag gagawin ko Katy Perry, ang posibilidad ng "sanggol" ibinigay na Katy ay 426 00:20:48,610 --> 00:20:49,830 na 0, tama? 427 00:20:49,830 --> 00:20:52,820 Dahil walang "sanggol" sa Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Kaya pagkatapos ito ay nagiging 0, at mangha panalo, na nangangahulugan na mangha ay 429 00:20:56,360 --> 00:20:57,310 marahil ang mang-aawit. 430 00:20:57,310 --> 00:20:58,560 Ba na magkaroon ng kahulugan? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Kaya kapag gusto kong gumawa ito nang higit pa opisyal, Maaari ko talagang gawin ang isang modelo 435 00:21:11,750 --> 00:21:12,700 para sa maramihang salita. 436 00:21:12,700 --> 00:21:14,610 Kaya sabihin nating na mayroon akong isang bagay tulad ng, "sanggol, Ako 437 00:21:14,610 --> 00:21:16,030 sa sunog, "o isang bagay. 438 00:21:16,030 --> 00:21:17,760 Kaya mayroon itong maraming salita. 439 00:21:17,760 --> 00:21:20,880 At sa kasong ito, maaari mong makita ang na "sanggol" ay nasa mangha, 440 00:21:20,880 --> 00:21:21,710 pero hindi sa Katy. 441 00:21:21,710 --> 00:21:24,940 At "apoy" ay nasa Katy, ngunit hindi ito sa mangha, tama? 442 00:21:24,940 --> 00:21:27,200 Kaya nakakakuha ito ng trickier, tama? 443 00:21:27,200 --> 00:21:31,440 Dahil ito ay tila na sa iyo halos mayroon ang kurbatang sa pagitan ng dalawang. 444 00:21:31,440 --> 00:21:36,980 >> Kaya kung ano ang kailangan mo lang gawin ay ipinapalagay malayang bansa kabilang sa mga salita. 445 00:21:36,980 --> 00:21:41,210 Kaya talaga kung ano ang ibig sabihin nito ay ay na Lang ako sa pagkalkula ng kung ano ang 446 00:21:41,210 --> 00:21:44,330 posibilidad na makakita ng "sanggol," kung ano ang ang posibilidad na makakita ng "ko," at 447 00:21:44,330 --> 00:21:46,670 "Kasama", at "sa," at "apoy," lahat nang hiwalay. 448 00:21:46,670 --> 00:21:48,670 Pagkatapos ako ng pag-multiply ang lahat ng mga ito. 449 00:21:48,670 --> 00:21:52,420 At ako nakakakita ng ano ay ang probabilidad na makita ang buong pangungusap. 450 00:21:52,420 --> 00:21:55,210 Magkaroon ng kahulugan? 451 00:21:55,210 --> 00:22:00,270 >> Kaya talaga, kung mayroon akong salita ng isa lang, kung ano ang gusto kong makahanap ay ang ARG max, 452 00:22:00,270 --> 00:22:05,385 na nangangahulugan, ano ang class na iyon ay pagbibigay sa akin ng pinakamataas na posibilidad? 453 00:22:05,385 --> 00:22:10,010 Kaya kung ano ay ang klase na nagbibigay sa sa akin ang pinakamataas na posibilidad para sa 454 00:22:10,010 --> 00:22:11,940 posibilidad ng klase ibinigay na salita. 455 00:22:11,940 --> 00:22:17,610 Kaya sa kasong ito, mangha ibinigay na "sanggol." O Katy ibinigay na "sanggol." Magkaroon ng kahulugan? 456 00:22:17,610 --> 00:22:21,040 >> At lamang mula Bayes, na equation na ako ay nagpakita, 457 00:22:21,040 --> 00:22:24,780 lumikha namin ito fraction. 458 00:22:24,780 --> 00:22:28,750 Ang tanging bagay ay na nakikita mo na ang posibilidad ng salita na nabigyan ng 459 00:22:28,750 --> 00:22:31,370 pagbabago klase depende sa klase, tama? 460 00:22:31,370 --> 00:22:34,260 Ang bilang ng mga "sanggol" s na mayroon akong sa mangha ay naiiba mula sa Katy. 461 00:22:34,260 --> 00:22:37,640 Ang posibilidad ng klase din pagbabago dahil ito ay lamang ang bilang 462 00:22:37,640 --> 00:22:39,740 ng kanta bawat isa sa kanila ay may. 463 00:22:39,740 --> 00:22:43,980 >> Ngunit ang posibilidad ng mga salita mismo ay magiging pareho sa lahat ng mga 464 00:22:43,980 --> 00:22:44,740 artist, tama? 465 00:22:44,740 --> 00:22:47,150 Kaya ang posibilidad ng ang salita ay lamang, ano ang posibilidad ng 466 00:22:47,150 --> 00:22:49,820 nakikita na salita sa Ingles wika? 467 00:22:49,820 --> 00:22:51,420 Kaya ito ang parehong para sa lahat ng mga ito. 468 00:22:51,420 --> 00:22:55,790 Kaya dahil ito ay pare-pareho, kaya namin lamang i-drop ito at hindi na mahalaga ang tungkol dito. 469 00:22:55,790 --> 00:23:00,230 Kaya ito ay magiging talagang ang equation kaming naghahanap ng para sa. 470 00:23:00,230 --> 00:23:03,360 >> At kung mayroon akong maramihang mga salita, ako pagpunta pa rin na magkaroon ng bago 471 00:23:03,360 --> 00:23:04,610 bagay na maaaring mangyari dito. 472 00:23:04,610 --> 00:23:06,980 Ang tanging bagay ay na ako multiply ang posibilidad ng 473 00:23:06,980 --> 00:23:08,490 lahat ng iba pang mga salita. 474 00:23:08,490 --> 00:23:10,110 Kaya ako multiply lahat ng mga ito. 475 00:23:10,110 --> 00:23:12,610 Magkaroon ng kahulugan? 476 00:23:12,610 --> 00:23:18,440 Mukhang kakaiba ngunit isa lamang ay nangangahulugan, kalkulahin ang naunang ng klase, at 477 00:23:18,440 --> 00:23:22,100 pagkatapos ay i-multiply sa pamamagitan ng ang posibilidad ng bawat sa mga salita na nasa loob ng klase na iyon. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> At alam mo na ang posibilidad ng isang ibinigay na isang klase ng salita ay magiging ang 480 00:23:29,150 --> 00:23:34,520 dami ng beses na nakikita mo na ang salita sa class na iyon, na hinati sa bilang ng mga 481 00:23:34,520 --> 00:23:37,020 mga salita na mayroon ka sa na class na sa pangkalahatan. 482 00:23:37,020 --> 00:23:37,990 Magkaroon ng kahulugan? 483 00:23:37,990 --> 00:23:41,680 Ito ay lamang kung paano "sanggol" ay 2 sa ibabaw ang bilang ng mga salita na 484 00:23:41,680 --> 00:23:43,020 Nagkaroon na ako sa lyrics. 485 00:23:43,020 --> 00:23:45,130 Kaya lang ang dalas. 486 00:23:45,130 --> 00:23:46,260 >> Subalit mayroong isang bagay. 487 00:23:46,260 --> 00:23:51,250 Natatandaan kung paano ako ay ipinapakita na ang posibilidad ng "sanggol" pagiging lyrics 488 00:23:51,250 --> 00:23:56,350 mula Katy Perry ay 0 dahil lang sa Katy Perry ay walang "sanggol" sa lahat? 489 00:23:56,350 --> 00:24:04,900 Ngunit ito tunog ng kaunti masakit sa tainga upang lamang sabihin lang na lyrics ay hindi maaaring maging mula sa 490 00:24:04,900 --> 00:24:10,040 isang artist dahil lang wala silang na salita sa partikular na sa anumang oras. 491 00:24:10,040 --> 00:24:13,330 >> Kaya maaari mo lamang sabihin, na rin, kung ikaw walang salitang ito, ako pagpunta sa 492 00:24:13,330 --> 00:24:15,640 bigyan ka ng isang mas mababang posibilidad na mangyari, ngunit ako lamang ay hindi pagpunta sa 493 00:24:15,640 --> 00:24:17,420 magbibigay sa iyo ng 0 agad-agad. 494 00:24:17,420 --> 00:24:21,040 Dahil siguro ito ay isang bagay tulad ng, "Sunog, sunog, sunog, sunog," kung saan ay 495 00:24:21,040 --> 00:24:21,990 lahat-lahat Katy Perry. 496 00:24:21,990 --> 00:24:26,060 At pagkatapos ay ang "sanggol," at ito lamang ang papunta sa 0 kaagad dahil nagkaroon ng isa 497 00:24:26,060 --> 00:24:27,250 "Sanggol." 498 00:24:27,250 --> 00:24:31,440 >> Kaya talaga kung ano ang ginagawa namin ay isang bagay tinatawag Laplace smoothing. 499 00:24:31,440 --> 00:24:36,260 At ito lamang ay nangangahulugan na ako ng pagbibigay sa ang ilang mga bagay na maaaring mangyari kahit na sa mga salita 500 00:24:36,260 --> 00:24:37,850 na hindi umiiral. 501 00:24:37,850 --> 00:24:43,170 Kaya kung ano ang gagawin ko ay na kapag ako ay nagkakalkula ito, palaging ako magdagdag ng 1 sa 502 00:24:43,170 --> 00:24:44,180 ang tagabilang. 503 00:24:44,180 --> 00:24:48,060 Kaya kahit na ang salita ay hindi umiiral, sa kasong ito, kung ito ay 0, pa rin ako 504 00:24:48,060 --> 00:24:51,250 nagkakalkula ito ng 1 sa ibabaw ng kabuuang bilang ng mga salita. 505 00:24:51,250 --> 00:24:55,060 Kung hindi man, nakakatanggap ako ng kung gaano karaming mga salita Mayroon akong at idagdag ko 1. 506 00:24:55,060 --> 00:24:58,300 Kaya ako ng pagbibilang para sa parehong mga kaso. 507 00:24:58,300 --> 00:25:00,430 Magkaroon ng kahulugan? 508 00:25:00,430 --> 00:25:03,060 >> Kaya gawin ng ilang mga coding ngayon hayaan. 509 00:25:03,060 --> 00:25:06,440 Pupunta ako sa mayroon na gawin ito medyo mabilis, ngunit mahalagang lamang na 510 00:25:06,440 --> 00:25:08,600 guys maintindihan ang konsepto. 511 00:25:08,600 --> 00:25:13,450 Kaya kung ano ang sinusubukan naming gawin ay eksakto ipatupad ang 512 00:25:13,450 --> 00:25:14,330 bagay na ko lang ang sinabi - 513 00:25:14,330 --> 00:25:19,110 Gusto ko mong ilagay lyrics mula sa Lady mangha at Katy Perry. 514 00:25:19,110 --> 00:25:22,980 At ang mga programa ay pagpunta sa magagawang sabihin kung ang mga bagong lyrics ay mula sa mangha 515 00:25:22,980 --> 00:25:24,170 o Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Magkaroon ng kahulugan? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Kaya Mayroon akong ito programa pupuntahan ko upang tumawag classify.py. 519 00:25:30,710 --> 00:25:31,970 Kaya ito ay Python. 520 00:25:31,970 --> 00:25:34,210 Ito ay isang bagong wika programming. 521 00:25:34,210 --> 00:25:38,020 Ito ay katulad na katulad sa ilan mga paraan upang C at PHP. 522 00:25:38,020 --> 00:25:43,180 Ito ay katulad dahil kung nais mong matuto Python pagkatapos ng pag-alam C, ito ay 523 00:25:43,180 --> 00:25:46,270 talagang hindi na karami ng isang hamon dahil lang sa Python ay lubhang mas madaling 524 00:25:46,270 --> 00:25:47,520 kaysa C, una sa lahat. 525 00:25:47,520 --> 00:25:49,370 At may maraming mga bagay ang na ipinapatupad para sa iyo. 526 00:25:49,370 --> 00:25:56,820 Kaya lang kung paano tulad ng PHP ay may mga pag-andar na -uri-uriin ang listahan, o magkabit ng isang bagay 527 00:25:56,820 --> 00:25:58,780 sa isang array, o blah, blah, blah. 528 00:25:58,780 --> 00:26:00,690 Python ay pati na rin ang lahat ng mga iyon. 529 00:26:00,690 --> 00:26:05,960 >> Kaya ako lamang ang pagpunta sa ipaliwanag mabilis paano namin magagawa ang pag-uuri 530 00:26:05,960 --> 00:26:07,860 problema para dito. 531 00:26:07,860 --> 00:26:13,230 Kaya sabihin nating na sa kasong ito, mayroon akong lyrics mula mangha at Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Ang paraan na mayroon akong mga lyrics ay na ang unang salita ng lyrics ay 533 00:26:21,880 --> 00:26:25,250 ang pangalan ng artist, at ang natitira ay ang lyrics. 534 00:26:25,250 --> 00:26:29,470 Kaya sabihin nating na mayroon akong listahan na ito sa kung saan ang unang isa ay lyrics ng mangha. 535 00:26:29,470 --> 00:26:31,930 Kaya dito ako sa kanan track. 536 00:26:31,930 --> 00:26:35,270 At sa susunod na isa ay Katy, at ito ay may lyrics din. 537 00:26:35,270 --> 00:26:38,040 >> Kaya ito ay kung paano mo idedeklara isang variable sa Python. 538 00:26:38,040 --> 00:26:40,200 Hindi mo kailangang ibigay ang uri ng data. 539 00:26:40,200 --> 00:26:43,150 Isulat mo lang ang "lyrics," uri ng nais sa PHP. 540 00:26:43,150 --> 00:26:44,890 Magkaroon ng kahulugan? 541 00:26:44,890 --> 00:26:47,770 >> Kaya ano ang mga bagay na mayroon akong upang kalkulahin upang magagawang upang makalkula ang 542 00:26:47,770 --> 00:26:49,360 probabilities? 543 00:26:49,360 --> 00:26:55,110 Mayroon akong upang makalkula ang "priors" ng bawat isa sa mga iba't ibang 544 00:26:55,110 --> 00:26:56,710 mga klase na mayroon akong. 545 00:26:56,710 --> 00:27:06,680 Mayroon akong upang makalkula ang "posteriors," o medyo magkano ang probabilities ng 546 00:27:06,680 --> 00:27:12,150 bawat isa sa mga iba't ibang mga salita na Maaari ba akong magkaroon ng para sa bawat artist. 547 00:27:12,150 --> 00:27:17,210 Kaya sa loob mangha, halimbawa, pupuntahan ko upang magkaroon ng isang listahan ng kung gaano karaming beses nakikita ko 548 00:27:17,210 --> 00:27:19,250 bawat isa sa mga salita. 549 00:27:19,250 --> 00:27:20,760 Magkaroon ng kahulugan? 550 00:27:20,760 --> 00:27:25,370 >> At sa wakas, ako lamang ang pagpunta upang magkaroon ng isang listahan na tinatawag na "salita" na lamang ng pagpunta 551 00:27:25,370 --> 00:27:29,780 upang magkaroon ng kung gaano karaming mga salita ko mayroon para sa bawat artist. 552 00:27:29,780 --> 00:27:33,760 Kaya para sa mangha, halimbawa, kapag tumingin ako sa lyrics, ako ay, sa palagay ko, 24 553 00:27:33,760 --> 00:27:34,750 mga salita sa kabuuan. 554 00:27:34,750 --> 00:27:38,970 Kaya list na ito ay lamang ng pagpunta sa may Mangha 24, at Katy ibang numero. 555 00:27:38,970 --> 00:27:40,130 Magkaroon ng kahulugan? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Kaya ngayon, talaga, sabihin pumunta sa coding. 558 00:27:42,530 --> 00:27:45,270 Kaya sa Python, maaari mo talaga bumalik ng grupo ng mga iba't ibang 559 00:27:45,270 --> 00:27:46,630 mga bagay mula sa isang function. 560 00:27:46,630 --> 00:27:50,810 Kaya ako pupunta upang likhain ang function na na tinatawag na "kondisyon," na kung saan ay pagpunta 561 00:27:50,810 --> 00:27:53,890 upang bumalik sa lahat ng mga bagay, ang "Priors," ang "probabilities," at ang 562 00:27:53,890 --> 00:28:05,690 "Salita." Kaya "kondisyon," at ito ay pagpunta sa ay pagtawag sa mga "lyrics." 563 00:28:05,690 --> 00:28:11,510 >> Kaya ngayon ay nais ko sa iyo upang aktwal na isulat ito function. 564 00:28:11,510 --> 00:28:17,750 Kaya ang paraan na maaari kong isulat ito function ay natukoy ko lang ito 565 00:28:17,750 --> 00:28:20,620 function na may "def." Kaya ginawa ko "def may pasubali, "at tumatagal 566 00:28:20,620 --> 00:28:28,700 "Lyrics." At kung ano ito ay pagpunta sa gawin ay, una sa lahat, mayroon ko ang aking priors 567 00:28:28,700 --> 00:28:31,030 na gusto kong kalkulahin. 568 00:28:31,030 --> 00:28:34,330 >> Kaya ang paraan na maaari kong gawin ito ay lumikha isang diksyunaryo sa Python, na 569 00:28:34,330 --> 00:28:37,320 ay medyo magkano ang parehong bagay bilang isang hash talahanayan, o ito ay tulad ng isang umuulit 570 00:28:37,320 --> 00:28:40,480 array sa PHP. 571 00:28:40,480 --> 00:28:44,150 Ito ay kung paano Ipinahahayag ko isang diksiyunaryo. 572 00:28:44,150 --> 00:28:53,580 At talaga kung ano ang ibig sabihin nito ay na priors ng mangha ay 0.5, halimbawa, kung 573 00:28:53,580 --> 00:28:57,200 50% ng mga lyrics ay mula sa Mangha, 50% ay mula sa Katy. 574 00:28:57,200 --> 00:28:58,450 Magkaroon ng kahulugan? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Kaya kailangan kong malaman kung paano upang makalkula ang priors. 577 00:29:03,680 --> 00:29:07,120 >> Ang susunod na mga bago na kailangan kong gawin, din, ang mga probabilities at ang mga salita. 578 00:29:07,120 --> 00:29:17,100 Kaya ang probabilities ng mangha ay ang listahan ng lahat ng mga probabilities na ako 579 00:29:17,100 --> 00:29:19,160 mayroon para sa bawat isa sa mga salita para sa mangha. 580 00:29:19,160 --> 00:29:23,880 Kaya kung pumunta ako sa probabilities ng mangha "Sanggol," halimbawa, ito makikita ninyo ako 581 00:29:23,880 --> 00:29:28,750 isang bagay tulad ng 2 sa paglipas ng 24 sa kasong iyon. 582 00:29:28,750 --> 00:29:30,070 Magkaroon ng kahulugan? 583 00:29:30,070 --> 00:29:36,120 Kaya pumunta ako sa "probabilities," pumunta sa "Mangha" bucket na may isang listahan ng lahat ng 584 00:29:36,120 --> 00:29:40,550 ang mangha salita, pagkatapos ay pumunta ako sa "sanggol," at nakikita ko ang posibilidad. 585 00:29:40,550 --> 00:29:45,940 >> At sa wakas Mayroon akong na ito "Salita" na diksiyunaryo. 586 00:29:45,940 --> 00:29:53,620 Kaya dito, "probabilities." At pagkatapos ay "Salita." Kaya kung gagawin ko "salita," "mangha," 587 00:29:53,620 --> 00:29:58,330 kung ano ang mangyayari ay na ito pagpunta sa magbibigay sa akin 24, nagsasabi na ako 588 00:29:58,330 --> 00:30:01,990 may 24 salita sa loob lyrics mula sa mangha. 589 00:30:01,990 --> 00:30:04,110 Saysay ang? 590 00:30:04,110 --> 00:30:07,070 Kaya dito, "salita" ay katumbas ng dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> Kaya kung ano pupuntahan ko lang gawin ay pupuntahan ko umulit sa paglipas ng bawat isa sa mga lyrics, kaya 593 00:30:12,210 --> 00:30:14,490 bawat isa sa mga string na Mayroon akong sa listahan. 594 00:30:14,490 --> 00:30:18,040 At ako pupunta upang makalkula ang mga bagay para sa bawat isa sa mga kandidato. 595 00:30:18,040 --> 00:30:19,950 Saysay ang? 596 00:30:19,950 --> 00:30:21,700 Kaya kailangan kong gawin para sa isang loop. 597 00:30:21,700 --> 00:30:26,300 >> Kaya sa Python kung ano ang maaari kong gawin ay "para sa mga line sa lyrics. "Ang parehong bagay bilang isang 598 00:30:26,300 --> 00:30:28,000 "Para sa bawat" na statement sa PHP. 599 00:30:28,000 --> 00:30:33,420 Natatandaan kung paano kung ito ay PHP ng dati ko sabihin "para sa bawat lyrics bilang 600 00:30:33,420 --> 00:30:35,220 linya. "Gumagawa kahulugan? 601 00:30:35,220 --> 00:30:38,900 Kaya ako pagkuha sa bawat isa sa mga linya, sa ganitong kaso, ang string na ito at ang susunod na 602 00:30:38,900 --> 00:30:44,540 string kaya para sa bawat isa sa mga linya ng kung ano ako pagpunta sa gawin ay una, pupuntahan ko 603 00:30:44,540 --> 00:30:49,150 hatiin ang linyang ito sa isang listahan ng mga salita pinaghiwalay ng mga puwang. 604 00:30:49,150 --> 00:30:53,730 >> Kaya ang mga cool na bagay tungkol sa Python ay na maaari mo lamang ng Google tulad ng "paano maaari ako 605 00:30:53,730 --> 00:30:58,220 hatiin isang string sa mga salita? "At ito ay pagpunta sa sabihin sa iyo kung paano ito gawin. 606 00:30:58,220 --> 00:31:04,890 At ang paraan upang gawin ito, ito ay linya lang ang " = Line.split () "at ito ay isa lamang 607 00:31:04,890 --> 00:31:08,640 pagpunta sa magbibigay sa iyo ng isang listahan na may bawat isa sa mga salita dito. 608 00:31:08,640 --> 00:31:09,620 Saysay ang? 609 00:31:09,620 --> 00:31:15,870 Kaya ngayon na ginawa ko na gusto kong malaman sino ay ang mang-aawit ng na kanta. 610 00:31:15,870 --> 00:31:20,130 At gawin na akong magkaroon lamang upang makuha ang unang elemento ng array, tama? 611 00:31:20,130 --> 00:31:26,390 Kaya ko maaaring lamang sabihin na ako "mang-aawit = Linya (0) "Gumagawa kahulugan? 612 00:31:26,390 --> 00:31:32,010 >> At pagkatapos ay kung ano ang kailangan kong gawin ay, una sa lahat, ako pagpunta sa i-update ang kung gaano karaming 613 00:31:32,010 --> 00:31:36,130 salita Mayroon akong sa ilalim ng "mangha." kaya ako lamang pagpunta sa kalkulahin kung gaano karaming mga salita ko 614 00:31:36,130 --> 00:31:38,690 mayroon sa listahang ito, tama? 615 00:31:38,690 --> 00:31:41,910 Dahil ito kung gaano karaming mga salita Mayroon akong sa lyrics at lang pupuntahan ko 616 00:31:41,910 --> 00:31:44,120 idagdag ito sa ang "mangha" array. 617 00:31:44,120 --> 00:31:47,090 Ba na magkaroon ng kahulugan? 618 00:31:47,090 --> 00:31:49,010 Huwag tumutok masyadong maraming sa syntax. 619 00:31:49,010 --> 00:31:50,430 Mag-isip nang higit pa tungkol sa mga konsepto. 620 00:31:50,430 --> 00:31:52,400 Iyan ang pinaka-mahalagang bahagi. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Kaya kung ano ang maaari kong gawin ito kung "mangha" ay Nasa listahan na iyon, kaya "kung mang-aawit sa 623 00:32:00,260 --> 00:32:03,190 mga salitang "na nangangahulugang ko na may mga salita sa pamamagitan ng mangha. 624 00:32:03,190 --> 00:32:06,640 Gusto ko lang upang idagdag ang mga karagdagang mga salita sa na. 625 00:32:06,640 --> 00:32:15,810 Kaya kung ano ang gagawin ko ay "salita (mang-aawit) + = Len (linya) - 1 ". 626 00:32:15,810 --> 00:32:18,250 At pagkatapos ay ako maaaring lamang gawin ang haba ng linya. 627 00:32:18,250 --> 00:32:21,860 Kaya kung gaano karaming mga elemento ko mayroon sa array. 628 00:32:21,860 --> 00:32:27,060 At kailangan kong gawin minus 1 dahil lang sa unang elemento ng array ay lamang 629 00:32:27,060 --> 00:32:29,180 isang mang-aawit at mga hindi lyrics. 630 00:32:29,180 --> 00:32:31,420 Saysay ang? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Iba Pa," ang ibig sabihin nito na gusto kong talaga isingit mangha sa listahan. 633 00:32:35,820 --> 00:32:45,990 Kaya lang gagawin ko "salita (mang-aawit) = Len (linya) - 1, "paumanhin. 634 00:32:45,990 --> 00:32:49,200 Kaya ang tanging pagkakaiba sa pagitan ng dalawang mga linya ay na ang isang ito, hindi 635 00:32:49,200 --> 00:32:51,080 umiiral pa, kaya ako lamang Sinisimulan ito. 636 00:32:51,080 --> 00:32:53,820 Isa ito ako talaga ng pagdaragdag. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Kaya ito ay pagdaragdag sa mga salita. 639 00:32:59,480 --> 00:33:03,040 >> Ngayon gusto kong magdagdag sa priors. 640 00:33:03,040 --> 00:33:05,480 Kaya paano ko makalkula ang priors? 641 00:33:05,480 --> 00:33:11,580 Ang priors maaaring kalkulahin sa pamamagitan ng kung gaano karaming beses. 642 00:33:11,580 --> 00:33:15,340 Kaya kung gaano karaming beses mo makita na mang-aawit sa lahat ng mga mang-aawit na 643 00:33:15,340 --> 00:33:16,380 mayroon, i-right? 644 00:33:16,380 --> 00:33:18,810 Kaya para sa mangha at Katy Perry, sa kasong ito, nakikita ko mangha 645 00:33:18,810 --> 00:33:20,570 isang beses, Katy Perry-sabay. 646 00:33:20,570 --> 00:33:23,320 >> Kaya isa lamang ang priors para sa mangha at para sa Katy Perry gagawin 647 00:33:23,320 --> 00:33:24,390 maging isa lamang, tama? 648 00:33:24,390 --> 00:33:26,500 Ikaw lang kung paano maraming beses Nakikita ko ang artist. 649 00:33:26,500 --> 00:33:28,740 Kaya ito ay mas madali upang kalkulahin. 650 00:33:28,740 --> 00:33:34,100 Maaari akong magkaroon lamang katulad na bilang tulad ng "kung mang-aawit sa priors, "ako lamang ng pagpunta 651 00:33:34,100 --> 00:33:38,970 magdagdag ng 1 sa kanilang mga kahon priors. 652 00:33:38,970 --> 00:33:51,000 Kaya, "priors (kumanta)" + = 1 "at pagkatapos ay" iba pa " Pupunta ako sa ginagawa "priors (mang-aawit) 653 00:33:51,000 --> 00:33:55,000 = 1. "Gumagawa kahulugan? 654 00:33:55,000 --> 00:34:00,080 >> Kaya kung hindi nito umiiral kong ilagay lamang bilang 1, kung hindi, idagdag ko lang 1. 655 00:34:00,080 --> 00:34:11,280 OK, kaya ngayon lahat na ako ang natitira upang gawin ay idagdag din sa bawat isa sa mga salita sa 656 00:34:11,280 --> 00:34:12,290 probabilities. 657 00:34:12,290 --> 00:34:14,889 Kaya Mayroon akong upang mabilang kung gaano karaming beses Nakikita ko sa bawat isa sa mga salita. 658 00:34:14,889 --> 00:34:18,780 Kaya Mayroon akong lamang na gawin ang isa pang para sa loop sa linya. 659 00:34:18,780 --> 00:34:25,190 >> Kaya unang bagay na ako pagpunta sa gawin ay suriin kung ang mang-aawit ay mayroon nang 660 00:34:25,190 --> 00:34:26,969 probabilities ng array. 661 00:34:26,969 --> 00:34:31,739 Kaya Lalabas na ako kung ang mang-aawit ay hindi magkaroon ng isang probabilities array, lamang ako 662 00:34:31,739 --> 00:34:34,480 pagpunta sa pagsisimula ng isa para sa kanila. 663 00:34:34,480 --> 00:34:36,400 Ito ay hindi kahit na isang array, paumanhin, ito ay isang diksiyunaryo. 664 00:34:36,400 --> 00:34:43,080 Kaya ang probabilities ng mang-aawit ay pagpunta upang maging isang bukas na diksyonaryo, kaya ako ay 665 00:34:43,080 --> 00:34:45,830 Sinisimulan lamang ng isang diksyunaryo para sa mga ito. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> At ngayon ko maaaring aktwal na gawin ang isang para sa loop upang makalkula ang bawat isa sa mga salitang ' 668 00:34:58,330 --> 00:35:00,604 probabilities. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Kaya kung ano ang maaari kong gawin ay isang para sa loop. 671 00:35:04,160 --> 00:35:06,590 Kaya ako lamang ang pagpunta upang umulit sa ibabaw ng array. 672 00:35:06,590 --> 00:35:15,320 Kaya ang paraan na maaari kong gawin na sa Python ay "para i sa range." Mula sa 1 673 00:35:15,320 --> 00:35:19,200 dahil gusto ko bang magsimula sa pangalawang elemento dahil ang una ay ang 674 00:35:19,200 --> 00:35:20,260 pangalan ng mang-aawit. 675 00:35:20,260 --> 00:35:24,990 Kaya mula sa isa hanggang sa ang haba ng linya. 676 00:35:24,990 --> 00:35:29,760 At talagang kapag ako Iba't ito pumunta mula sa tulad dito mula 1 hanggang Len ng 677 00:35:29,760 --> 00:35:30,740 linya minus 1. 678 00:35:30,740 --> 00:35:33,810 Kaya na gagawin nito na bagay ng paggawa n minus 1 para sa array na higit na 679 00:35:33,810 --> 00:35:35,500 maginhawa. 680 00:35:35,500 --> 00:35:37,850 Saysay ang? 681 00:35:37,850 --> 00:35:42,770 >> Kaya para sa bawat isa sa mga, ano ang pupuntahan ko gawin ay, tulad ng sa mga iba pang isa, 682 00:35:42,770 --> 00:35:50,320 Pupunta ako upang suriin kung ang mga salita sa ito posisyon sa linya ay nasa 683 00:35:50,320 --> 00:35:51,570 probabilities. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 At pagkatapos ng sinabi ko dito, probabilities mga salita, tulad ng sa ilagay ko 686 00:35:57,260 --> 00:35:58,400 "Probabilities (mang-aawit)". 687 00:35:58,400 --> 00:35:59,390 Kaya ang pangalan ng mang-aawit. 688 00:35:59,390 --> 00:36:03,450 Kaya kung ito ay nasa "Probabilit (mang-aawit)", nangangahulugan ito na ako 689 00:36:03,450 --> 00:36:11,960 nais na magdagdag ng 1 dito, kaya pupuntahan ko gawin "probabilities (mang-aawit)", at ang 690 00:36:11,960 --> 00:36:14,100 salita ay tinatawag na "linya (i)". 691 00:36:14,100 --> 00:36:22,630 Pupunta ako sa magdagdag ng 1 at "iba" Ako lamang pagpunta sa initialize ito upang 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Saysay ang? 695 00:36:28,420 --> 00:36:30,180 >> Kaya, kinalkula ko ang lahat ng mga array. 696 00:36:30,180 --> 00:36:36,580 Kaya, ngayon lahat na kailangan kong gawin para sa ang isang ito ay "bumalik lamang priors, 697 00:36:36,580 --> 00:36:43,230 probabilities at mga salita Sabihin. " makita kung mayroong anumang, OK. 698 00:36:43,230 --> 00:36:45,690 Mukhang lahat ng bagay ay gumagana sa ngayon. 699 00:36:45,690 --> 00:36:46,900 Kaya, na ang may katuturan? 700 00:36:46,900 --> 00:36:47,750 Sa ilang mga paraan? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Kaya ngayon mayroon akong ang lahat ng mga probabilities. 703 00:36:51,980 --> 00:36:55,100 Kaya ngayon ang tanging bagay na ako sa kaliwa ay ang magkaroon lamang bagay na iyon 704 00:36:55,100 --> 00:36:58,650 Kinakalkula ang produkto ng lahat ng mga probabilities kapag nakukuha ko ang lyrics. 705 00:36:58,650 --> 00:37:06,270 >> Kaya sabihin nating na gusto kong tumawag ngayon ito function na "-uri-uriin ()" at ang 706 00:37:06,270 --> 00:37:08,880 bagay na function na tumatagal ay isa lamang argumento. 707 00:37:08,880 --> 00:37:13,170 Sabihin nating "Baby, na ako sa apoy" at ito ay pagpunta upang malaman kung ano ang 708 00:37:13,170 --> 00:37:14,490 posibilidad na ito ay mangha? 709 00:37:14,490 --> 00:37:16,405 Ano ang posibilidad na ito ay Katie? 710 00:37:16,405 --> 00:37:19,690 Magaling? 711 00:37:19,690 --> 00:37:25,750 Kaya ako lamang ang pagpunta sa may upang lumikha ng isang bagong function na tinatawag na "-uri-uriin ()" at 712 00:37:25,750 --> 00:37:29,180 ito ay pagpunta sa tumagal ng ilang lyrics pati na rin. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 At bukod sa mga lyrics ko rin kailangang magpadala ang priors, ang 715 00:37:36,160 --> 00:37:37,700 probabilities at ang mga salita. 716 00:37:37,700 --> 00:37:44,000 Kaya pupuntahan ko magpadala lyrics, priors, probabilities, mga salita. 717 00:37:44,000 --> 00:37:51,840 >> Kaya ito ay inaabot lyrics, priors, probabilities, mga salita. 718 00:37:51,840 --> 00:37:53,530 Kaya, ano ang ibig nitong gawin? 719 00:37:53,530 --> 00:37:57,180 Ito talaga ay pagpunta sa pumunta sa pamamagitan ng lahat ang mga posibleng mga kandidato na iyong 720 00:37:57,180 --> 00:37:58,510 mayroon bilang isang mang-aawit. 721 00:37:58,510 --> 00:37:59,425 At kung saan ay ang mga kandidato? 722 00:37:59,425 --> 00:38:01,020 Ang mga ito Sa priors, tama? 723 00:38:01,020 --> 00:38:02,710 Kaya Mayroon akong lahat ng mga doon. 724 00:38:02,710 --> 00:38:07,870 Kaya ako pupunta upang magkaroon ng isang diksyunaryo ng lahat ng posibleng mga kandidato. 725 00:38:07,870 --> 00:38:14,220 At pagkatapos ay para sa bawat kandidato sa priors, kaya ibig sabihin nito na ito pupuntahan 726 00:38:14,220 --> 00:38:17,740 maging mangha, Katie kung mayroon ako higit pa magiging higit pa. 727 00:38:17,740 --> 00:38:20,410 Pupunta ako upang simulan ang pagkalkula ito posibilidad. 728 00:38:20,410 --> 00:38:28,310 Ang posibilidad bilang nakita natin sa PowerPoint ay ang naunang beses ang 729 00:38:28,310 --> 00:38:30,800 produkto ng bawat isa sa mga iba pang mga probabilities. 730 00:38:30,800 --> 00:38:32,520 >> Kaya ang maaari kong gawin ang parehong dito. 731 00:38:32,520 --> 00:38:36,330 Maaari ko lang gawin posibilidad ay sa una lang ang bago. 732 00:38:36,330 --> 00:38:40,340 Kaya priors ng mga kandidato. 733 00:38:40,340 --> 00:38:40,870 Mag-right? 734 00:38:40,870 --> 00:38:45,360 At ngayon, mayroon akong upang umulit sa paglipas ng lahat ng mga mga salita na mayroon akong sa lyrics upang maging 735 00:38:45,360 --> 00:38:48,820 maaari kang magdagdag ng probabilidad para sa bawat isa sa kanila, OK? 736 00:38:48,820 --> 00:38:57,900 Kaya, "para sa salita sa lyrics" kung ano pupuntahan ko gawin ay, kung ang salita ay sa 737 00:38:57,900 --> 00:39:01,640 "Probabilities (kandidato)", na ay nangangahulugan na ito ay isang salita na ang 738 00:39:01,640 --> 00:39:03,640 kandidato ay may sa kanilang lyrics - 739 00:39:03,640 --> 00:39:05,940 halimbawa, "sanggol" para sa mangha - 740 00:39:05,940 --> 00:39:11,710 ano pupuntahan ko lang gawin ay na ang probabilidad ay pagpunta sa ma-multiply 741 00:39:11,710 --> 00:39:22,420 sa pamamagitan ng 1 plus ang probabilities ng ang kandidato para sa salitang iyon. 742 00:39:22,420 --> 00:39:25,710 At ito ay tinatawag na "salita". 743 00:39:25,710 --> 00:39:32,440 Ito na hinati sa pamamagitan ng bilang ng mga salita na mayroon akong para sa kandidato na iyon. 744 00:39:32,440 --> 00:39:37,450 Ang kabuuang bilang ng mga salita na mayroon akong para sa mga mang-aawit na Naghahanap ako sa. 745 00:39:37,450 --> 00:39:40,290 >> "Iba Pa." ang ibig sabihin nito ito ay isang bagong salita kaya nais itong maging tulad ng halimbawa 746 00:39:40,290 --> 00:39:41,860 "Apoy" para sa Lady mangha. 747 00:39:41,860 --> 00:39:45,760 Kaya gusto ko lang gawin 1 sa ibabaw "Salita (kandidato)". 748 00:39:45,760 --> 00:39:47,710 Kaya hindi ko nais upang ilagay ang terminong ito dito. 749 00:39:47,710 --> 00:39:50,010 >> Kaya ito ay pagpunta sa maging isa lamang pagkopya at pag-paste ito. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Pero pupuntahan ko tanggalin ang bahagi na ito. 752 00:39:56,000 --> 00:39:57,610 Kaya ito ay lamang ng pagpunta sa maging 1 sa ibabaw na. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Magaling? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 At ngayon sa dulo, ako lamang ng pagpunta sa i-print ang pangalan ng kandidato at 757 00:40:09,700 --> 00:40:15,750 ang posibilidad na mayroon ka ng pagkakaroon ng S sa kanilang lyrics. 758 00:40:15,750 --> 00:40:16,200 Saysay ang? 759 00:40:16,200 --> 00:40:18,390 At talagang kong gawin hindi kahit na kailangan diksyunaryo ito. 760 00:40:18,390 --> 00:40:19,510 Saysay ang? 761 00:40:19,510 --> 00:40:21,810 >> Kaya, sabihin makita kung ito talaga gumagana. 762 00:40:21,810 --> 00:40:24,880 Kaya kung nagpatakbo ako ng ito, hindi ito gumana. 763 00:40:24,880 --> 00:40:26,130 Maghintay ng isang segundo. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Mga salita (kandidato)", "mga salita (kandidato)", na 766 00:40:31,720 --> 00:40:33,750 ang pangalan ng array. 767 00:40:33,750 --> 00:40:41,435 OK Kaya, sinasabi nito na mayroong ilang mga bug para sa kandidato sa priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Hayaan Chill akin lamang nang kaunti. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Subukan nating Hayaan. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Kaya nagbibigay ito ay may ito Katy Perry posibilidad ng ito beses 10 sa 774 00:40:58,710 --> 00:41:02,200 May ito minus 7, at mangha beses 10 sa minus 6. 775 00:41:02,200 --> 00:41:05,610 Kaya tingnan mo ito nagpapakita na mangha ay may mas mataas na posibilidad. 776 00:41:05,610 --> 00:41:09,260 Kaya "Baby, Ako ay nasa Apoy" ay marahil isang mangha kanta. 777 00:41:09,260 --> 00:41:10,580 Saysay ang? 778 00:41:10,580 --> 00:41:12,030 Kaya ito ay kung ano ang ginawa namin. 779 00:41:12,030 --> 00:41:16,010 >> Ang code na ito ay pagpunta sa-post sa online, kaya ka guys ay maaaring suriin ito. 780 00:41:16,010 --> 00:41:20,720 Siguro gamitin ang ilan ito para sa kung nais mong gawin ang isang proyekto o isang bagay na katulad. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Ito ay upang ipakita lamang ano computational 783 00:41:25,930 --> 00:41:27,230 kamukha aghamwika code. 784 00:41:27,230 --> 00:41:33,040 Ngunit ngayon sabihin pumunta sa higit pa mataas na antas ng mga bagay-bagay. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Kaya ang iba pang mga problema ko ay pakikipag-usap tungkol sa - 787 00:41:35,150 --> 00:41:37,550 ang problema sa pagse-segment ay ang unang ng mga ito. 788 00:41:37,550 --> 00:41:40,820 Kaya mayroon kang dito Hapon. 789 00:41:40,820 --> 00:41:43,420 At pagkatapos ay makita mo na walang mga puwang. 790 00:41:43,420 --> 00:41:49,110 Kaya ito ay isa lamang ay nangangahulugan na ito ay sa tuktok ng upuan, tama? 791 00:41:49,110 --> 00:41:50,550 Nagsasalita ka Hapon? 792 00:41:50,550 --> 00:41:52,840 Ito ay sa tuktok ng upuan, tama? 793 00:41:52,840 --> 00:41:54,480 >> AARAL: Hindi ko alam kung ano ang Kanji banda roon ay. 794 00:41:54,480 --> 00:41:57,010 >> Lucas Freitas: Ito ay [nagsasalita ng wikang Hapon] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Kaya isa lamang ang ibig sabihin nito chair ng tuktok. 797 00:42:00,960 --> 00:42:03,620 Kaya kung kayo ay nagkaroon ng upang ilagay ang isang puwang magiging dito. 798 00:42:03,620 --> 00:42:05,970 At pagkatapos ay mayroon kang [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Aling isa lamang ay nangangahulugan Mr Ueda. 800 00:42:09,040 --> 00:42:13,180 At makikita mo na "Ueda" at mayroon kang isang espasyo at pagkatapos ay "san." Kaya nakikita mo na 801 00:42:13,180 --> 00:42:15,470 dito ay mo ang "Ue" tulad ng sa pamamagitan ng mismo. 802 00:42:15,470 --> 00:42:17,750 At dito ito ay may isang character sa tabi nito. 803 00:42:17,750 --> 00:42:21,720 >> Kaya ito ay hindi nagkagusto sa mga wikang iyon character ibig sabihin ng salitang ito kaya mo 804 00:42:21,720 --> 00:42:23,980 maglagay lamang ng maraming mga puwang. 805 00:42:23,980 --> 00:42:25,500 Nauugnay ang mga character sa bawat isa. 806 00:42:25,500 --> 00:42:28,680 At maaari silang maging magkasama tulad ng dalawa, tatlo, isa. 807 00:42:28,680 --> 00:42:34,520 Kaya mo talagang may upang lumikha ng ilang mga uri ng paraan ng paglalagay ng mga puwang. 808 00:42:34,520 --> 00:42:38,850 >> At bagay na ito ay na sa tuwing makakakuha ka ng data mula sa mga wikang iyon Asyano, 809 00:42:38,850 --> 00:42:40,580 ang lahat ng bagay ay unsegmented. 810 00:42:40,580 --> 00:42:45,940 Dahil walang sinuman na writes Hapon o writes Tsino na may mga puwang. 811 00:42:45,940 --> 00:42:48,200 Tuwing ikaw ay sumusulat Chinese, Hapon isulat mo lamang ang lahat ng bagay 812 00:42:48,200 --> 00:42:48,710 na walang mga puwang. 813 00:42:48,710 --> 00:42:52,060 Ito ay hindi kahit na magkaroon ng kahulugan upang ilagay ang mga puwang. 814 00:42:52,060 --> 00:42:57,960 Kaya pagkatapos ay kapag kumuha ka ng data mula sa, ang ilang mga East Asian na wika, kung nais mong 815 00:42:57,960 --> 00:43:00,760 talagang gawin ang isang bagay na may na Mayroon una mong i-segment. 816 00:43:00,760 --> 00:43:05,130 >> Isipin mo na ginagawa ang halimbawa ng ang lyrics walang mga patlang. 817 00:43:05,130 --> 00:43:07,950 Kaya ang tanging lyrics na mayroon kang Magiging pangungusap, tama? 818 00:43:07,950 --> 00:43:09,470 Pinaghihiwalay ng mga tuldok. 819 00:43:09,470 --> 00:43:13,930 Ngunit pagkatapos ay nagkakaroon lamang ang pangungusap habilin hindi makakatulong talaga sa pagbibigay ng impormasyon 820 00:43:13,930 --> 00:43:17,760 ng kung sino ang mga lyrics ay sa pamamagitan ng. 821 00:43:17,760 --> 00:43:18,120 Mag-right? 822 00:43:18,120 --> 00:43:20,010 Kaya dapat kang unang naglalagay ng mga puwang. 823 00:43:20,010 --> 00:43:21,990 Kaya kung paano mo maaaring gawin iyon? 824 00:43:21,990 --> 00:43:24,920 >> Kaya pagkatapos ay ang ideya ng isang wika modelo na kung saan ay isang bagay na talagang 825 00:43:24,920 --> 00:43:26,870 mahalaga para sa computational aghamwika. 826 00:43:26,870 --> 00:43:32,790 Kaya isang modelo wika ay isa lamang talaan ng mga probabilities na palabas 827 00:43:32,790 --> 00:43:36,260 una sa lahat kung ano ay ang probabilidad ng pagkakaroon ng salita sa isang wika? 828 00:43:36,260 --> 00:43:39,590 Kaya nagpapakita kung paano frequent isang salita ay. 829 00:43:39,590 --> 00:43:43,130 At pagkatapos ay din na ipinapakita ang kaugnayan sa pagitan ng mga salita sa isang pangungusap. 830 00:43:43,130 --> 00:43:51,500 >> Kaya ang pangunahing ideya ay, kapag pumunta ang isang taong hindi kilala sa iyo at sinabi ng isang pangungusap upang 831 00:43:51,500 --> 00:43:55,600 mo, ano ang posibilidad na, para sa Halimbawa, "ito ay ang aking kapatid na babae [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 ay ang pangungusap na sinabi ng tao? 833 00:43:57,480 --> 00:44:00,380 Kaya malinaw naman ang ilang mga pangungusap ay mas karaniwang kaysa sa iba. 834 00:44:00,380 --> 00:44:04,450 Halimbawa, "magandang umaga," o "mahusay gabi, "o" hey doon, "ay higit pa 835 00:44:04,450 --> 00:44:08,260 karaniwan kaysa sa karamihan ng mga pangungusap mayroon kaming isang Ingles. 836 00:44:08,260 --> 00:44:11,060 Kaya bakit ay ang mga pangungusap higit pang mga frequent? 837 00:44:11,060 --> 00:44:14,060 >> Una sa lahat, ito ay dahil mayroon kang mga salita na mas madalas. 838 00:44:14,060 --> 00:44:20,180 Kaya, halimbawa, kung sabihin mo, ang aso ay malaki, at ang aso ay lubhang malaki, sa iyo 839 00:44:20,180 --> 00:44:23,880 Karaniwang malamang marinig ang aso ay malaki nang mas madalas dahil ang "malaki" ay higit pa 840 00:44:23,880 --> 00:44:27,260 madalas sa Ingles kaysa sa "katakut-takot ang laki." Kaya, ang isa sa mga 841 00:44:27,260 --> 00:44:30,100 mga bagay ay ang salita dalas. 842 00:44:30,100 --> 00:44:34,490 >> Ang ikalawang bagay na kung saan ay talagang kahalaga lamang ang 843 00:44:34,490 --> 00:44:35,490 pagkakasunud-sunod ng mga salita. 844 00:44:35,490 --> 00:44:39,500 Kaya, ito ay karaniwang magsabi ng "ang pusa ay sa loob ng kahon. "ngunit hindi mo gawin karaniwan 845 00:44:39,500 --> 00:44:44,250 makita sa "na kahon ang loob ay ang pusa." kaya nakikita mo na mayroong ilang kahalagahan 846 00:44:44,250 --> 00:44:46,030 sa pagkakasunud-sunod ng mga salita. 847 00:44:46,030 --> 00:44:50,160 Hindi mo maaaring lamang sabihin na ang dalawang pangungusap na magkaroon ng parehong bagay na maaaring mangyari 848 00:44:50,160 --> 00:44:53,010 dahil lamang mayroon sila ang parehong mga salita. 849 00:44:53,010 --> 00:44:55,550 Ikaw talaga kailangang pinapahalagahan tungkol sa order pati na rin. 850 00:44:55,550 --> 00:44:57,650 Magkaroon ng kahulugan? 851 00:44:57,650 --> 00:44:59,490 >> Kaya kung ano ang gagawin namin? 852 00:44:59,490 --> 00:45:01,550 Kaya kung ano ang maaaring subukan ko upang makakuha ng sa iyo? 853 00:45:01,550 --> 00:45:04,400 Sinusubukan ko upang makakuha ng sa iyo kung ano ang aming tawagan ang mga modelong n-gramo. 854 00:45:04,400 --> 00:45:09,095 Kaya isa lamang ipagpalagay n-gramo modelo na sa bawat salita na 855 00:45:09,095 --> 00:45:10,960 mayroon ka sa isang pangungusap. 856 00:45:10,960 --> 00:45:15,020 Ito ay ang posibilidad ng pagkakaroon na salita doon ay nakasalalay hindi lamang sa mga 857 00:45:15,020 --> 00:45:18,395 dalas ng salitang iyon sa wika, ngunit pati rin sa mga salita na 858 00:45:18,395 --> 00:45:19,860 ay sa paligid nito. 859 00:45:19,860 --> 00:45:25,810 >> Kaya halimbawa, karaniwan kapag nakita mo isang bagay tulad ng sa o sa ikaw ay 860 00:45:25,810 --> 00:45:28,040 marahil pagpunta upang makita ang isang pangngalan matapos na ito, i-right? 861 00:45:28,040 --> 00:45:31,750 Dahil kapag mayroon kang isang pang-ukol Karaniwang tumatagal ng isang pangngalan pagkatapos nito. 862 00:45:31,750 --> 00:45:35,540 O kaya kung mayroon kang isang pandiwa na palipat na karaniwan mong pupunta sa 863 00:45:35,540 --> 00:45:36,630 magkaroon ng isang pangngalan parirala. 864 00:45:36,630 --> 00:45:38,780 Kaya ito ay pagpunta sa magkaroon ng isang pangngalan sa isang lugar sa paligid nito. 865 00:45:38,780 --> 00:45:44,950 >> Kaya, talaga, kung ano ang ginagawa nito ay tumutulong ito Isinasaalang-alang ang posibilidad ng pagkakaroon 866 00:45:44,950 --> 00:45:47,960 mga salita sa tabi ng bawat isa, kapag ka pagkalkula ng mga 867 00:45:47,960 --> 00:45:49,050 posibilidad ng isang pangungusap. 868 00:45:49,050 --> 00:45:50,960 At iyon ang isang wika modelo ay isa lamang. 869 00:45:50,960 --> 00:45:54,620 Sinasabi lang kung ano ang mga posibilidad ng pagkakaroon ng isang tiyak na 870 00:45:54,620 --> 00:45:57,120 pangungusap sa isang wika? 871 00:45:57,120 --> 00:45:59,110 Kaya bakit ay na kapaki-pakinabang, talaga? 872 00:45:59,110 --> 00:46:02,390 At una sa lahat kung ano ang isang modelo ng n-gramo, pagkatapos? 873 00:46:02,390 --> 00:46:08,850 >> Kaya isang modelo ng n-gramo ay nangangahulugan na bawat salita ay depende sa 874 00:46:08,850 --> 00:46:12,700 susunod N minus 1 salita. 875 00:46:12,700 --> 00:46:18,150 Kaya, talaga, nangangahulugan ito na kung tumingin ako, halimbawa, sa CS50 tf kapag 876 00:46:18,150 --> 00:46:21,500 Ako sa pagkalkula ng ang posibilidad ng ang pangungusap, magiging tulad ng "ang 877 00:46:21,500 --> 00:46:25,280 posibilidad ng pagkakaroon ng salitang "ang" beses ang posibilidad ng pagkakaroon ng "mga 878 00:46:25,280 --> 00:46:31,720 CS50 "beses ang posibilidad ng pagkakaroon "Ang CS50 tf." Kaya, talaga, bilangin ko 879 00:46:31,720 --> 00:46:35,720 lahat ng posibleng paraan ng lumalawak ito. 880 00:46:35,720 --> 00:46:41,870 >> At pagkatapos ay karaniwan kapag ginagawa mo ito, bilang sa isang proyekto, ilagay mo N upang maging 881 00:46:41,870 --> 00:46:42,600 isang mababang halaga. 882 00:46:42,600 --> 00:46:45,930 Kaya, karaniwang may bigrams o trigrams. 883 00:46:45,930 --> 00:46:51,090 Kaya na bilangin mo lamang ang dalawang salita, isang grupo ng mga dalawang salita, o tatlong mga salita, 884 00:46:51,090 --> 00:46:52,620 lamang para sa mga isyu sa pagganap. 885 00:46:52,620 --> 00:46:56,395 At dahil din siguro kung mayroon kang isang bagay tulad ng "Ang CS50 tf." Kapag nag- 886 00:46:56,395 --> 00:47:00,510 mayroon "tf," ito ay napakahalaga na "CS50" ay sa tabi nito, tama? 887 00:47:00,510 --> 00:47:04,050 Yaong dalawang bagay ay karaniwang sa tabi ng bawat isa. 888 00:47:04,050 --> 00:47:06,410 >> Kung sa tingin mo ng "tf," marahil ito ay pagpunta sa may ano 889 00:47:06,410 --> 00:47:07,890 class na ito TF'ing para sa. 890 00:47:07,890 --> 00:47:11,330 Gayundin "ang" ay talagang mahalaga para sa CS50 tf. 891 00:47:11,330 --> 00:47:14,570 Ngunit kung mayroon kang isang bagay tulad ng "Ang CS50 Tf napunta sa mga klase at binigyan ang kanilang 892 00:47:14,570 --> 00:47:20,060 mga mag-aaral ng ilang mga kendi. "" Candy "at" ang " Mayroong ganap na walang kaugnayan, tama? 893 00:47:20,060 --> 00:47:23,670 Ang mga ito ay kaya malayo mula sa bawat isa na ito ay hindi talagang mahalaga kung ano 894 00:47:23,670 --> 00:47:25,050 mga salita na mayroon ka. 895 00:47:25,050 --> 00:47:31,210 >> Kaya sa pamamagitan ng paggawa ng isang bigram o isang trigram, ito Nangangahulugan lamang na kayo ay nililimitahan 896 00:47:31,210 --> 00:47:33,430 ang iyong sarili sa ilan sa mga salita na paligid. 897 00:47:33,430 --> 00:47:35,810 Magkaroon ng kahulugan? 898 00:47:35,810 --> 00:47:40,630 Kaya kapag gusto mong gawin sa pagse-segment, talaga, ano ang gusto mong gawin ay ang tingnan 899 00:47:40,630 --> 00:47:44,850 ano ay ang lahat ng posibleng paraan na maaari mong i-segment ang pangungusap. 900 00:47:44,850 --> 00:47:49,090 >> Ang nasabing na makita mo kung ano ang probabilidad ng bawat isa sa mga pangungusap 901 00:47:49,090 --> 00:47:50,880 umiiral sa wika? 902 00:47:50,880 --> 00:47:53,410 Kaya kung ano ang ginagawa mo ay tulad ng, well, sabihin sa akin subukang maglagay ng espasyo dito. 903 00:47:53,410 --> 00:47:55,570 Kaya kang maglagay ng space doon at iyong makikita kung ano ang 904 00:47:55,570 --> 00:47:57,590 posibilidad ng pangungusap na? 905 00:47:57,590 --> 00:48:00,240 Pagkatapos ay ikaw ay tulad, OK, siguro na noon ay hindi na mahusay. 906 00:48:00,240 --> 00:48:03,420 Kaya ko bang ilagay ang isang puwang doon at isang puwang doon, at kayo na kalkulahin ang 907 00:48:03,420 --> 00:48:06,240 bagay na maaaring mangyari ngayon, at nakikita mo na ito ay isang mas mataas na posibilidad. 908 00:48:06,240 --> 00:48:12,160 >> Kaya ito ay isang algorithm na tinatawag na ang Tango segmentation algorithm, na kung saan ay 909 00:48:12,160 --> 00:48:14,990 talagang isang bagay na magiging talagang cool na para sa isang proyekto, na 910 00:48:14,990 --> 00:48:20,860 talaga tumatagal unsegmented teksto na ay maaaring maging Hapon o Tsino o siguro 911 00:48:20,860 --> 00:48:26,080 Ingles walang mga patlang at sinusubukang upang ilagay puwang sa pagitan ng mga salita at ginagawa nito 912 00:48:26,080 --> 00:48:29,120 na sa pamamagitan ng paggamit ng isang modelo ng wika at sinusubukan upang makita kung ano ay ang pinakamataas na 913 00:48:29,120 --> 00:48:31,270 bagay na maaaring mangyari maaari kang makakuha ng. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Kaya ito ay segmentation. 916 00:48:33,800 --> 00:48:35,450 >> Ngayon syntax. 917 00:48:35,450 --> 00:48:40,940 Kaya, syntax ay ginagamit para sa sa ngayon kaya maraming bagay. 918 00:48:40,940 --> 00:48:44,880 Kaya para sa Graph Search, para sa Siri para sa halos anumang uri ng natural 919 00:48:44,880 --> 00:48:46,490 pagproseso ng wika mayroon ka. 920 00:48:46,490 --> 00:48:49,140 Kaya ano ang mga mahahalagang bagay tungkol sa syntax? 921 00:48:49,140 --> 00:48:52,390 Kaya, mga pangungusap sa pangkalahatan mayroon ang tinatawag naming mga nasasakupan. 922 00:48:52,390 --> 00:48:57,080 Aling mga uri ng tulad ng mga grupo ng mga salita na may isang function sa pangungusap. 923 00:48:57,080 --> 00:49:02,220 At hindi sila talaga ay maaaring maging bukod sa isa't isa. 924 00:49:02,220 --> 00:49:07,380 >> Kaya, kung sinasabi ko, halimbawa, "nagmamahal Lauren Milo. "Alam ko na" Lauren "ay isang 925 00:49:07,380 --> 00:49:10,180 bumubuo at pagkatapos ay "nagmamahal Milo "ay din isa pa. 926 00:49:10,180 --> 00:49:16,860 Dahil hindi ka maaaring sabihin tulad ng "Lauren Milo nagmamahal "na magkaroon ng parehong kahulugan. 927 00:49:16,860 --> 00:49:18,020 Hindi ito pagpunta sa may ang parehong kahulugan. 928 00:49:18,020 --> 00:49:22,500 O kaya hindi ko masabi tulad ng "Milo Lauren nagmamahal. "Hindi lahat ng bagay ay may parehong 929 00:49:22,500 --> 00:49:25,890 ibig sabihin ginagawa na. 930 00:49:25,890 --> 00:49:31,940 >> Kaya ang dalawang higit pang mahahalagang bagay tungkol sa syntax ay ang mga leksiko mga uri na kung saan ay 931 00:49:31,940 --> 00:49:35,390 talaga ang function na sa iyo mayroon sa pamamagitan ng kanilang sarili para sa mga salita. 932 00:49:35,390 --> 00:49:39,180 Kaya kailangan mong malaman na "Lauren" at "Milo" ay nouns. 933 00:49:39,180 --> 00:49:41,040 "Pag-ibig" ay isang pandiwa. 934 00:49:41,040 --> 00:49:45,660 At ang pangalawang mahalagang bagay ay na sila phrasal uri. 935 00:49:45,660 --> 00:49:48,990 Kaya alam mo na "nagmamahal Milo" ay talagang isang pandiwang parirala. 936 00:49:48,990 --> 00:49:52,390 Kaya kapag sinabi ko "Lauren," Alam ko na Lauren ay paggawa ng isang bagay. 937 00:49:52,390 --> 00:49:53,620 Ano ang siya ginagawa? 938 00:49:53,620 --> 00:49:54,570 Siya ay mapagmahal Milo. 939 00:49:54,570 --> 00:49:56,440 Kaya ito ay isang buong bagay. 940 00:49:56,440 --> 00:50:01,640 Ngunit mga bahagi nito ay isang pangngalan at pandiwa. 941 00:50:01,640 --> 00:50:04,210 Ngunit nang magkasama, gumawa sila ng isang pandiwa parirala. 942 00:50:04,210 --> 00:50:08,680 >> Kaya, kung ano ang maaari naming talagang gawin sa computational aghamwika? 943 00:50:08,680 --> 00:50:13,810 Kaya, kung mayroon akong isang bagay halimbawa "Mga kaibigan ng mga Allison." Tingnan ko kung ko lang 944 00:50:13,810 --> 00:50:17,440 ay isang sintaktik puno gusto kong malaman na "Mga kaibigan" ay isang pangngalan parirala ito ay isang 945 00:50:17,440 --> 00:50:21,480 pangngalan at pagkatapos "ng Allison" ay isang preposisyonal parirala na kung saan ang "ng" ay 946 00:50:21,480 --> 00:50:24,810 isang paksa sa pagtatalo at "Allison" ay isang pangngalan. 947 00:50:24,810 --> 00:50:30,910 Ano kaya kong gawin ay turuan ang aking computer na kapag mayroon akong isang pangngalan parirala isa at 948 00:50:30,910 --> 00:50:33,080 pagkatapos a preposisyonal parirala. 949 00:50:33,080 --> 00:50:39,020 Kaya sa kasong ito, "mga kaibigan" at pagkatapos "ng Milo "Alam ko na ito ay nangangahulugan na 950 00:50:39,020 --> 00:50:43,110 NP2, ang pangalawang isa, nagmamay-ari ng NP1. 951 00:50:43,110 --> 00:50:47,680 >> Kaya ang maaari kong lumikha ng ilang mga uri ng kaugnayan, ang ilang mga uri ng pag-andar para sa mga ito. 952 00:50:47,680 --> 00:50:52,370 Kaya sa tuwing nakakakita ako ng istraktura na ito, na eksaktong tumutugma sa "mga kaibigan ng 953 00:50:52,370 --> 00:50:56,030 Allison, "Alam ko na Allison nagmamay-ari ng mga kaibigan. 954 00:50:56,030 --> 00:50:58,830 Kaya ang mga kaibigan ng isang bagay na may Allison. 955 00:50:58,830 --> 00:50:59,610 Saysay ang? 956 00:50:59,610 --> 00:51:01,770 Kaya ito ay isa lamang sa kung ano ang Graph ng Paghahanap gumagana. 957 00:51:01,770 --> 00:51:04,360 Ito ay lumilikha lamang panuntunan para sa maraming mga bagay. 958 00:51:04,360 --> 00:51:08,190 Kaya "mga kaibigan ng mga Allison," "ang aking mga kaibigan na nakatira sa Cambridge, "" ang aking mga kaibigan 959 00:51:08,190 --> 00:51:12,970 sino ang pumunta sa Harvard. "lumilikha ito ng mga panuntunan para sa lahat ng mga bagay. 960 00:51:12,970 --> 00:51:14,930 >> Ngayon machine translation. 961 00:51:14,930 --> 00:51:18,850 Kaya, machine translation ding isang bagay istatistika. 962 00:51:18,850 --> 00:51:21,340 At talagang kung ikaw ay makakuha kasangkot sa computational aghamwika, ng maraming 963 00:51:21,340 --> 00:51:23,580 iyong bagay-bagay ay magiging istatistika. 964 00:51:23,580 --> 00:51:26,670 Kaya bilang ako ay ginagawa sa halimbawa sa ng maraming probabilities na ako ay 965 00:51:26,670 --> 00:51:30,540 pagkalkula, at pagkatapos mong makakuha ng sa na ito napakaliit na bilang iyon ang huling 966 00:51:30,540 --> 00:51:33,180 bagay na maaaring mangyari, at iyon ang Nagbibigay sa iyo ang kasagutan. 967 00:51:33,180 --> 00:51:37,540 Gumagamit din ang pagsasalin ng computer isang statistical modelo. 968 00:51:37,540 --> 00:51:44,790 At kung gusto mong mag-isip ng machine pagsasalin sa pinakasimpleng posibleng 969 00:51:44,790 --> 00:51:48,970 paraan, ano ang maaari mong tingin lamang isalin sa salita sa pamamagitan ng salita, tama? 970 00:51:48,970 --> 00:51:52,150 >> Kapag naka-pag-aaral ng wika para sa unang pagkakataon, na karaniwang kung ano 971 00:51:52,150 --> 00:51:52,910 gagawin mo, tama? 972 00:51:52,910 --> 00:51:57,050 Kung gusto mong ikaw isalin ang isang pangungusap sa iyong wika sa wika 973 00:51:57,050 --> 00:52:00,060 naka-aaral, kadalasang una, ikaw isalin sa bawat isa sa mga salita 974 00:52:00,060 --> 00:52:03,180 isa-isa, at pagkatapos mong subukan upang ilagay ang mga salita sa lugar. 975 00:52:03,180 --> 00:52:07,100 >> Kaya kung nais kong isalin ito, [Nagsasalita Portuges] 976 00:52:07,100 --> 00:52:10,430 na nangangahulugang "ang bumangga ang puting pusa ang layo." Kung Nais kong isalin ito mula sa 977 00:52:10,430 --> 00:52:13,650 Portuges sa Ingles, kung ano ang aking maaaring gawin ay, una, ako lamang 978 00:52:13,650 --> 00:52:14,800 isalin sa salita sa pamamagitan ng salita. 979 00:52:14,800 --> 00:52:20,570 Kaya "o" ay "ang," "gato," "pusa," "Branco," "puti," at pagkatapos ay "fugio" ay 980 00:52:20,570 --> 00:52:21,650 "Ang bumangga ang layo." 981 00:52:21,650 --> 00:52:26,130 >> Kaya pagkatapos Mayroon akong lahat ng mga salita dito, ngunit wala ang mga ito sa pagkakasunud-sunod. 982 00:52:26,130 --> 00:52:29,590 Ito ay tulad ng "ang bumangga ang pusa puti ang layo" na kung saan ay ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Kaya, pagkatapos ay maaari akong magkaroon ng isang pangalawang hakbang, na Pupunta na paghahanap ng isang perpektong 984 00:52:34,490 --> 00:52:36,610 posisyon para sa bawat isa sa mga salita. 985 00:52:36,610 --> 00:52:40,240 Kaya alam ko na talagang gusto kong magkaroon "Puting pusa" sa halip na "pusa puti." Kaya 986 00:52:40,240 --> 00:52:46,050 kung ano ang maaari kong gawin ay, ang pinaka-walang muwang pamamaraan ay magiging upang lumikha ng lahat ng mga 987 00:52:46,050 --> 00:52:49,720 posibleng permutations ng mga salita, ng mga posisyon. 988 00:52:49,720 --> 00:52:53,300 At pagkatapos ay makita kung aling isa ay ang pinakamataas na posibilidad ayon 989 00:52:53,300 --> 00:52:54,970 sa aking modelo wika. 990 00:52:54,970 --> 00:52:58,390 At pagkatapos ay kapag mahanap ko ang isa na may ang pinakamataas na posibilidad na ito, na kung saan ay 991 00:52:58,390 --> 00:53:01,910 marahil "ang bumangga ang puting pusa ang layo," na ang aking pagsasalin. 992 00:53:01,910 --> 00:53:06,710 >> At ito ay isang simpleng paraan ng nagpapaliwanag kung paano ang isang maraming mga pagsasalin ng computer 993 00:53:06,710 --> 00:53:07,910 algorithm gumagana. 994 00:53:07,910 --> 00:53:08,920 Ba na magkaroon ng kahulugan? 995 00:53:08,920 --> 00:53:12,735 Ito ay din ng isang bagay na talagang kapana-panabik na na ka guys maaari siguro galugarin para sa isang 996 00:53:12,735 --> 00:53:13,901 huling proyekto, oo? 997 00:53:13,901 --> 00:53:15,549 >> AARAL: Well, sinabi mo ay ang walang muwang paraan, kaya kung ano ang 998 00:53:15,549 --> 00:53:17,200 ang non-walang muwang paraan? 999 00:53:17,200 --> 00:53:18,400 >> Lucas Freitas: Ang mga non-walang muwang paraan? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Kaya ang unang bagay na masama tungkol sa ang pamamaraan na ito ay na ang ko lang ang na-translate na 1002 00:53:22,860 --> 00:53:24,330 salita, salita ng salita. 1003 00:53:24,330 --> 00:53:30,570 Ngunit minsan mayroon kang mga salita na maaaring magkaroon ng maramihang mga pagsasalin. 1004 00:53:30,570 --> 00:53:32,210 Pupunta ako sa subukang mag-isip ng isang bagay. 1005 00:53:32,210 --> 00:53:37,270 Halimbawa, "Manga" sa Portuges lata alinman maging "sumira" o "manggas." Kaya 1006 00:53:37,270 --> 00:53:40,450 kapag sinusubukan mong i-translate ang salita sa pamamagitan ng salita, maaaring ito ay nagbibigay sa iyo ng 1007 00:53:40,450 --> 00:53:42,050 isang bagay na ginagawang walang kahulugan. 1008 00:53:42,050 --> 00:53:45,770 >> Kaya mo talagang nais na tumingin ka sa lahat ang mga posibleng mga pagsasalin ng 1009 00:53:45,770 --> 00:53:49,840 mga salita at makita, una sa lahat, ano ang order. 1010 00:53:49,840 --> 00:53:52,000 Kami ay pakikipag-usap tungkol sa permutating ang bagay? 1011 00:53:52,000 --> 00:53:54,150 Upang makita ang lahat ng posibleng mga order at piliin ang isa na may pinakamataas na 1012 00:53:54,150 --> 00:53:54,990 bagay na maaaring mangyari? 1013 00:53:54,990 --> 00:53:57,860 Maaari mo ring piliing ang lahat ng posibleng pagsasaling-wika para sa bawat 1014 00:53:57,860 --> 00:54:00,510 salita at pagkatapos ay makita - 1015 00:54:00,510 --> 00:54:01,950 na kasama ng permutations - 1016 00:54:01,950 --> 00:54:03,710 kung alin ang may pinakamataas na posibilidad. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, maaari mo ring tumingin sa hindi lamang mga salita ngunit parirala. 1018 00:54:08,590 --> 00:54:11,700 sa gayon ay maaari mong mapag-aralan ang mga pakikipag-ugnayan sa pagitan ng ang mga salita at pagkatapos ay kumuha ng isang 1019 00:54:11,700 --> 00:54:13,210 mas mahusay na pagsasalin. 1020 00:54:13,210 --> 00:54:16,690 Gayundin ibang bagay, kaya ito semestre Talaga ako paggawa ng pananaliksik sa 1021 00:54:16,690 --> 00:54:19,430 Tsino-Ingles pagsasalin ng computer, kaya isinasalin mula sa 1022 00:54:19,430 --> 00:54:20,940 Tsino sa Ingles. 1023 00:54:20,940 --> 00:54:26,760 >> At isang bagay ang ginagawa namin ay, bukod sa paggamit isang statistical modelo, na kung saan ay lamang 1024 00:54:26,760 --> 00:54:30,570 nakikita ang probabilities na makakita ang ilang mga posisyon sa isang pangungusap, ako 1025 00:54:30,570 --> 00:54:35,360 talaga din ang pagdaragdag ng ilang mga syntax sa aking modelo, na sinasabi, oh, kung makikita ko ang uri na ito 1026 00:54:35,360 --> 00:54:39,420 ng pagbuo, ito ang gusto ko upang baguhin ito sa kapag isalin ko. 1027 00:54:39,420 --> 00:54:43,880 Kaya maaari mo ring idagdag ang ilang mga uri ng elemento ng syntax upang gumawa ng mga 1028 00:54:43,880 --> 00:54:47,970 pagsasalin sa mas mahusay na at mas tumpak na. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Kaya kung paano mo makapagsimula, kung nais mong upang gawin ang isang bagay sa computational 1031 00:54:51,010 --> 00:54:51,980 aghamwika? 1032 00:54:51,980 --> 00:54:54,560 >> Una, pumili ka ng isang proyekto na nagsasangkot ng mga wika. 1033 00:54:54,560 --> 00:54:56,310 Kaya, mayroong maraming mga out doon. 1034 00:54:56,310 --> 00:54:58,420 Mayroong kaya maraming mga bagay na maaari mong gawin. 1035 00:54:58,420 --> 00:55:00,510 At pagkatapos ay maaari mag-isip ng isang modelo na maaari mong gamitin. 1036 00:55:00,510 --> 00:55:04,710 Karaniwan ay nangangahulugan na pag-iisip ng pagpapalagay, bilang tulad, oh, kapag ako ay 1037 00:55:04,710 --> 00:55:05,770 tulad ng pag-iisip ng mga lyrics. 1038 00:55:05,770 --> 00:55:09,510 Ako ay tulad ng, na rin, kapag gusto kong malaman out isang sino ay sumulat na ito, malamang na gusto ko 1039 00:55:09,510 --> 00:55:15,400 upang tingnan ang mga salita na ginamit sa tao at makita kung sino ay gumagamit na salita napakadalas. 1040 00:55:15,400 --> 00:55:18,470 Kaya subukan na gumawa ng mga palagay at subukang mag-isip ng mga modelo. 1041 00:55:18,470 --> 00:55:21,395 At pagkatapos maaari ka ring maghanap online para sa ang uri ng problema na mayroon ka, 1042 00:55:21,395 --> 00:55:24,260 at ito ay pagpunta sa iminumungkahi sa iyo na mga modelo na siguro 1043 00:55:24,260 --> 00:55:26,560 imo-modelo bagay na rin. 1044 00:55:26,560 --> 00:55:29,080 >> At din maaari mong laging-email sa akin. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 At maaari ko lang sagutin ang iyong mga tanong. 1047 00:55:34,940 --> 00:55:38,600 Maaari naming kahit na maaaring makipagkita sa gayon maaari ko bigyan ng mga mungkahi sa mga paraan ng 1048 00:55:38,600 --> 00:55:41,490 pagpapatupad ng iyong proyekto. 1049 00:55:41,490 --> 00:55:45,610 At ibig sabihin ko kung ikaw ay makakuha kasangkot sa computational aghamwika, ito ay pagpunta 1050 00:55:45,610 --> 00:55:46,790 upang maging mahusay. 1051 00:55:46,790 --> 00:55:48,370 Ikaw ay pagpunta upang makita doon ay kaya magkano ang mga potensyal na. 1052 00:55:48,370 --> 00:55:52,060 At ang industriya ay nais na pag-upa sa iyo kaya masama dahil sa na. 1053 00:55:52,060 --> 00:55:54,720 Kaya Umaasa ako mo guys tangkilikin ito. 1054 00:55:54,720 --> 00:55:57,030 Kung ikaw guys ay may anumang mga katanungan, maaari mong hilingin sa akin pagkatapos na ito. 1055 00:55:57,030 --> 00:55:58,280 Ngunit salamat sa iyo. 1056 00:55:58,280 --> 00:56:00,150