1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> ЛУЦАС ФРЕИТАС: Хеј. 3 00:00:08,870 --> 00:00:09,980 Велцоме свима. 4 00:00:09,980 --> 00:00:11,216 Моје име је Луцас Фреитас. 5 00:00:11,216 --> 00:00:15,220 Ја сам млађи, на [ИНАУДИБЛЕ] студирања информатика са фокусом на 6 00:00:15,220 --> 00:00:16,410 рачунска лингвистика. 7 00:00:16,410 --> 00:00:19,310 Тако да је моја секундарна је на језику и лингвистичка теорија. 8 00:00:19,310 --> 00:00:21,870 Стварно сам узбуђен да учи момци мало о терену. 9 00:00:21,870 --> 00:00:24,300 То је веома узбудљиво подручје да студира. 10 00:00:24,300 --> 00:00:27,260 Такође, са пуно потенцијала за будућност. 11 00:00:27,260 --> 00:00:30,160 Дакле, ја сам заиста узбуђена да ви разматрају пројекте у 12 00:00:30,160 --> 00:00:31,160 рачунска лингвистика. 13 00:00:31,160 --> 00:00:35,460 И ја ћу бити више него срећан да саветује неко од вас, ако одлучите да 14 00:00:35,460 --> 00:00:37,090 један од оних који следе. 15 00:00:37,090 --> 00:00:40,010 >> Дакле, прво што су рачунарска лингвистика? 16 00:00:40,010 --> 00:00:44,630 Тако је рачунска лингвистика раскрсница између лингвистике и 17 00:00:44,630 --> 00:00:46,390 информатика. 18 00:00:46,390 --> 00:00:47,415 Дакле, шта је лингвистика? 19 00:00:47,415 --> 00:00:48,490 Шта је информатика? 20 00:00:48,490 --> 00:00:51,580 Па из лингвистике, што узмемо су језици. 21 00:00:51,580 --> 00:00:54,960 Дакле, лингвистика је заправо студија природног језика уопште. 22 00:00:54,960 --> 00:00:58,330 Дакле, природни језик - ми говоримо о језик да ми заправо користимо за 23 00:00:58,330 --> 00:00:59,770 комуницирају једни са другима. 24 00:00:59,770 --> 00:01:02,200 Дакле, ми не говоримо тачно о Ц или Јава. 25 00:01:02,200 --> 00:01:05,900 Говоримо о енглеском и више Кинески и остали језици који смо 26 00:01:05,900 --> 00:01:07,780 користе да комуницирају једни са другима. 27 00:01:07,780 --> 00:01:12,470 >> Изазовно ствар о томе је да је сада имамо скоро 7.000 28 00:01:12,470 --> 00:01:14,260 језици у свету. 29 00:01:14,260 --> 00:01:19,520 Дакле, постоје прилично висока сорта од језика који можемо да проучавамо. 30 00:01:19,520 --> 00:01:22,600 И онда ви мислите да је то вероватно веома тешко урадити, на пример, 31 00:01:22,600 --> 00:01:26,960 превод са једног језика на други, с обзиром да ви имате 32 00:01:26,960 --> 00:01:28,240 скоро 7.000 њих. 33 00:01:28,240 --> 00:01:31,450 Дакле, ако мислите да уради превод са једног језика на други ви 34 00:01:31,450 --> 00:01:35,840 имају скоро више од милион различите комбинације које можете 35 00:01:35,840 --> 00:01:37,330 имају од језика до језика. 36 00:01:37,330 --> 00:01:40,820 Дакле, то је заиста изазов да уради нешто врста преводилачког система за пример 37 00:01:40,820 --> 00:01:43,540 сваки језик. 38 00:01:43,540 --> 00:01:47,120 >> Дакле, лингвистика третира са синтаксом, семантика, прагматика. 39 00:01:47,120 --> 00:01:49,550 Ви не баш треба да знају шта су. 40 00:01:49,550 --> 00:01:55,090 Али веома занимљива ствар је да је као матерњи језик, када сте научили 41 00:01:55,090 --> 00:01:59,010 језик као дете, ви заправо уче сви од тих ствари - синтаксе семантика 42 00:01:59,010 --> 00:02:00,500 и прагматика - 43 00:02:00,500 --> 00:02:01,430 сами. 44 00:02:01,430 --> 00:02:04,820 И нико не мора да научим синтаксу за да схватите колико су реченице 45 00:02:04,820 --> 00:02:05,290 структуриран. 46 00:02:05,290 --> 00:02:07,980 Дакле, то је заиста занимљиво јер то је нешто што долази врло 47 00:02:07,980 --> 00:02:10,389 интуитивно. 48 00:02:10,389 --> 00:02:13,190 >> И шта узимаш од информатика? 49 00:02:13,190 --> 00:02:16,700 Па, најважнија ствар коју смо имати у рачунарству је први од 50 00:02:16,700 --> 00:02:19,340 све, вештачка интелигенција и машинско учење. 51 00:02:19,340 --> 00:02:22,610 Дакле, оно што покушавамо да радимо рачунска лингвистика је теацх 52 00:02:22,610 --> 00:02:26,990 ваш рачунар како да урадите нешто са језиком. 53 00:02:26,990 --> 00:02:28,630 >> Тако, на пример, у машини превод. 54 00:02:28,630 --> 00:02:32,490 Покушавам да научим мој рачунар хов да знате како да прелазак из једне 55 00:02:32,490 --> 00:02:33,310 језика у други. 56 00:02:33,310 --> 00:02:35,790 Дакле, у основи воле наставу компјутерске два језика. 57 00:02:35,790 --> 00:02:38,870 Ако урадим обраду природног језика, што је случај на пример 58 00:02:38,870 --> 00:02:41,810 Фацебоока Графикон претрага, ви научити ваш рачунар како да разумеју 59 00:02:41,810 --> 00:02:42,730 упити добро. 60 00:02:42,730 --> 00:02:48,130 >> Дакле, ако ви кажете "фотографиј мој пријатељи. "Фацебоок не третира да 61 00:02:48,130 --> 00:02:51,130 као цео стринг који има само гомила речи. 62 00:02:51,130 --> 00:02:56,020 То је заправо разуме однос између "Фотографије" и "пријатељима" и 63 00:02:56,020 --> 00:02:59,620 разуме да је "фотографије" су имовина "мојих пријатеља." 64 00:02:59,620 --> 00:03:02,350 >> Дакле, то је део, на пример, обраду природног језика. 65 00:03:02,350 --> 00:03:04,790 Она покушава да разуме шта је однос између 66 00:03:04,790 --> 00:03:07,520 речи у реченици. 67 00:03:07,520 --> 00:03:11,170 А велико је питање, зар не научити рачунар како да говоре 68 00:03:11,170 --> 00:03:12,650 језик уопште? 69 00:03:12,650 --> 00:03:17,810 Што је врло интересантно питање да Мислим, као да можда у будућности, 70 00:03:17,810 --> 00:03:19,930 ћеш бити у стању да разговара на ваш мобилни телефон. 71 00:03:19,930 --> 00:03:23,290 Нешто као што радимо са Сири, али нешто више као, можете заправо 72 00:03:23,290 --> 00:03:25,690 рећи шта год желите и телефон ће разумети све. 73 00:03:25,690 --> 00:03:28,350 И она може имати пратити питања и настави да причаш. 74 00:03:28,350 --> 00:03:30,880 То је нешто заиста узбудљиво, по мом мишљењу. 75 00:03:30,880 --> 00:03:33,070 >> Дакле, нешто о природним језицима. 76 00:03:33,070 --> 00:03:36,220 Нешто заиста занимљиво о природни језици је да, и ово је 77 00:03:36,220 --> 00:03:38,470 кредит на мој професор лингвистике, Марија Полински. 78 00:03:38,470 --> 00:03:40,830 Она даје пример и мислим то је заиста занимљиво. 79 00:03:40,830 --> 00:03:47,060 Зато учимо језик од када смо рођени, а затим наш матерњи 80 00:03:47,060 --> 00:03:49,170 језик врста расте на нас. 81 00:03:49,170 --> 00:03:52,570 >> А у основи ви учите језик од минимално ангажовање, зар не? 82 00:03:52,570 --> 00:03:56,700 Само Постајеш улаз из вашег Родитељи шта ваш језик звучи 83 00:03:56,700 --> 00:03:58,770 волим и само га научити. 84 00:03:58,770 --> 00:04:02,240 Дакле, то је интересантно, јер ако погледате на тим казне, на пример. 85 00:04:02,240 --> 00:04:06,980 Можете погледати, "Мери ставља на капуту сваком време она напушта кућу. " 86 00:04:06,980 --> 00:04:10,650 >> У овом случају, могуће је да имате Реч "она" се односи на Марију, зар не? 87 00:04:10,650 --> 00:04:13,500 Можете рећи "Мери ставља на капуту сваки пут оставља Мери 88 00:04:13,500 --> 00:04:14,960 кућа. ", тако да је у реду. 89 00:04:14,960 --> 00:04:19,370 Али онда, ако се осврнемо на казне "Она ставља на капуту сваки пут Мери 90 00:04:19,370 --> 00:04:22,850 напушта кућу. "Ви знате да је то Немогуће је рећи да је "она" је 91 00:04:22,850 --> 00:04:24,260 који се односи на Марију. 92 00:04:24,260 --> 00:04:27,070 >> Не постоји начин да се каже да је "Марија ставља на капуту сваки пут оставља Мери 93 00:04:27,070 --> 00:04:30,790 кућа. "Значи, то је интересантно, јер ово је врста интуиције 94 00:04:30,790 --> 00:04:32,890 да сваки матерњи има. 95 00:04:32,890 --> 00:04:36,370 И нико није научио да је то начин да синтакса ради. 96 00:04:36,370 --> 00:04:41,930 А то можете само да имате ову "она" позивајући се Марији у овом првом случају, 97 00:04:41,930 --> 00:04:44,260 а заправо у овом другом превише, али не у овом. 98 00:04:44,260 --> 00:04:46,500 Али свако мало добије на исти одговор. 99 00:04:46,500 --> 00:04:48,580 Сви се слажу да на. 100 00:04:48,580 --> 00:04:53,280 Дакле, то је заиста занимљиво како иако Ви не знате сва правила 101 00:04:53,280 --> 00:04:55,575 на вашем језику можете некако разумети како језик функционише. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Дакле, ствар занимљиво о природним језик је да не морате да 104 00:05:01,530 --> 00:05:06,970 знам ни синтаксу да знам да ли реченица је граматичка или неграматички за 105 00:05:06,970 --> 00:05:08,810 већини случајева. 106 00:05:08,810 --> 00:05:13,220 Што мислиш да је можда оно што што се дешава је да кроз свој живот, ви 107 00:05:13,220 --> 00:05:17,410 само наставите да све више и више реченице рекао вама. 108 00:05:17,410 --> 00:05:19,800 И онда наставиш меморисање све реченице. 109 00:05:19,800 --> 00:05:24,230 А онда, када вам неко каже нешто, чујете ту реченицу и 110 00:05:24,230 --> 00:05:27,040 погледате ваш вокабулар казни и видите да ли 111 00:05:27,040 --> 00:05:28,270 та реченица је тамо. 112 00:05:28,270 --> 00:05:29,830 А ако је тамо сте кажу да је граматичка. 113 00:05:29,830 --> 00:05:31,740 Ако то ниси ти рећи да је то неграматички. 114 00:05:31,740 --> 00:05:35,150 >> Дакле, у том случају, ви би рекли, ох, тако да имате огромну листу свих 115 00:05:35,150 --> 00:05:36,140 могуће казне. 116 00:05:36,140 --> 00:05:38,240 А онда када чујете реченицу, Ви знате да ли је граматичка или 117 00:05:38,240 --> 00:05:39,450 не на основу тога. 118 00:05:39,450 --> 00:05:42,360 Ствар је у томе, ако се осврнемо на реченица, на пример, " 119 00:05:42,360 --> 00:05:47,540 пет-главом ЦС50 подгрупа кувано слепе хоботница помоћу ДАПА шољу. "То је 120 00:05:47,540 --> 00:05:49,630 дефинитивно не казна који сте раније чули. 121 00:05:49,630 --> 00:05:52,380 Али у исто време знате да је то прилично граматичка, зар не? 122 00:05:52,380 --> 00:05:55,570 Не постоје граматичке грешке и може се рећи да 123 00:05:55,570 --> 00:05:57,020 то је могуће реченица. 124 00:05:57,020 --> 00:06:01,300 >> Дакле, чини нас мисле да ствари начин да научимо језик није само 125 00:06:01,300 --> 00:06:07,090 тако што огромну базу података могуће речи или реченице, већ више од 126 00:06:07,090 --> 00:06:11,490 разумевање односа између речи у тим реченицама. 127 00:06:11,490 --> 00:06:14,570 Да ли то смисла? 128 00:06:14,570 --> 00:06:19,370 Дакле, онда је питање, може рачунари уче језике? 129 00:06:19,370 --> 00:06:21,490 Можемо научити језик на рачунарима? 130 00:06:21,490 --> 00:06:24,230 >> Дакле, хајде да мислимо о разлици између матерњи језик 131 00:06:24,230 --> 00:06:25,460 и рачунар. 132 00:06:25,460 --> 00:06:27,340 Дакле, шта се дешава са звучника? 133 00:06:27,340 --> 00:06:30,430 Па, учи матерњи језик језик од изложености њега. 134 00:06:30,430 --> 00:06:34,200 Обично њене раном детињству година. 135 00:06:34,200 --> 00:06:38,570 Дакле, у основи, само имам бебу, и стално говорите на њега, и то 136 00:06:38,570 --> 00:06:40,540 само учи како да говоре језик, зар не? 137 00:06:40,540 --> 00:06:42,660 Дакле, ви у суштини давање улаз за бебу. 138 00:06:42,660 --> 00:06:45,200 Дакле, онда можете тврдити да рачунар може да уради исту ствар, зар не? 139 00:06:45,200 --> 00:06:49,510 Можете само да дају језику као улаз на рачунар. 140 00:06:49,510 --> 00:06:53,410 >> Као на пример гомила фајлова да имају књиге на енглеском језику. 141 00:06:53,410 --> 00:06:56,190 Можда је то један од начина да вам би могло научити 142 00:06:56,190 --> 00:06:57,850 рачунар енглески, зар не? 143 00:06:57,850 --> 00:07:01,000 А у ствари, ако мислите о томе, она вас води можда пар 144 00:07:01,000 --> 00:07:02,680 дана да прочита књигу. 145 00:07:02,680 --> 00:07:05,760 За рачунар је потребно да се мало погледајте све речи у књизи. 146 00:07:05,760 --> 00:07:10,810 Дакле, можете да мислите да ово може да буде само аргумент инпута од око вас, 147 00:07:10,810 --> 00:07:15,440 то није довољно да се каже да је то нешто што само људи могу да ураде. 148 00:07:15,440 --> 00:07:17,680 Можете мислити рачунаре Такође можете добити улаз. 149 00:07:17,680 --> 00:07:21,170 >> Друга ствар је да изворни говорници такође имају мозак који има 150 00:07:21,170 --> 00:07:23,870 способност учења језика. 151 00:07:23,870 --> 00:07:27,020 Али, ако мислите о томе, мозак је чврста ствар. 152 00:07:27,020 --> 00:07:30,450 Када се родио, то је већ постављен - 153 00:07:30,450 --> 00:07:31,320 ово је твој мозак. 154 00:07:31,320 --> 00:07:34,660 И док си одрастао, само добијете више улаз језика и можда нутријенти 155 00:07:34,660 --> 00:07:35,960 и друге ствари. 156 00:07:35,960 --> 00:07:38,170 Али прилично ваш мозак је чврста ствар. 157 00:07:38,170 --> 00:07:41,290 >> Дакле, може се рећи, добро, можда можете да изгради рачунар који има гомилу 158 00:07:41,290 --> 00:07:45,890 функције и методе које само имитирају способност учења језика. 159 00:07:45,890 --> 00:07:49,630 Дакле, у том смислу, могло би се рећи, добро, ја може имати рачунар који има све 160 00:07:49,630 --> 00:07:52,270 ствари које треба да науче језик. 161 00:07:52,270 --> 00:07:56,200 И последња ствар је да матерњи говорник учи од покушаја и грешке. 162 00:07:56,200 --> 00:08:01,090 Дакле, у основи још једна важна ствар у учење језика је да сте љубазни 163 00:08:01,090 --> 00:08:05,340 од уче ствари тако што генерализације о томе шта сте чули. 164 00:08:05,340 --> 00:08:10,280 >> Дакле, као што се одрастања сте сазнали да неке речи су више као именица, 165 00:08:10,280 --> 00:08:11,820 неке друге оне су придеви. 166 00:08:11,820 --> 00:08:14,250 И не морате да имате било познавање лингвистике 167 00:08:14,250 --> 00:08:15,040 да схвате да. 168 00:08:15,040 --> 00:08:18,560 Али само да знате има неких речи су позиционирани у неком делу 169 00:08:18,560 --> 00:08:22,570 реченица и неки други у другом делови реченице. 170 00:08:22,570 --> 00:08:26,110 >> И да када радите нешто што је као казна која није тачно - 171 00:08:26,110 --> 00:08:28,770 можда због прекомерне генерализације на пример. 172 00:08:28,770 --> 00:08:32,210 Можда кад си одрастао, приметите да множина је обично 173 00:08:32,210 --> 00:08:35,809 формирао стављањем на С крај речи. 174 00:08:35,809 --> 00:08:40,042 А онда покушате да урадите множина од "јелен" АС "јелена" или "зуба", као 175 00:08:40,042 --> 00:08:44,780 "тоотхс." Па онда твоји родитељи или неко вас исправља и каже, не, 176 00:08:44,780 --> 00:08:49,020 множина од "јелена" је "јелен", а множина од "зуба" је "зуби." А онда 177 00:08:49,020 --> 00:08:50,060 научите те ствари. 178 00:08:50,060 --> 00:08:51,520 Дакле, ви учите од покушаја и грешке. 179 00:08:51,520 --> 00:08:53,100 >> Али такође можете да урадите да са рачунаром. 180 00:08:53,100 --> 00:08:55,310 Можете имати нешто што се зове појачање учење. 181 00:08:55,310 --> 00:08:58,560 Што је у основи као давање рачунар награда кад год се то деси 182 00:08:58,560 --> 00:08:59,410 нешто исправно. 183 00:08:59,410 --> 00:09:04,710 И дајући супротно од награду а када се то деси нешто лоше. 184 00:09:04,710 --> 00:09:07,410 Можете заправо видети да ако идете на Гоогле Транслате и покушате да 185 00:09:07,410 --> 00:09:10,220 превести реченицу, она пита вас за повратне информације. 186 00:09:10,220 --> 00:09:13,240 Дакле, ако ви кажете, ох, ту је бољи превод за ову реченицу. 187 00:09:13,240 --> 00:09:18,140 Можете да га откуцам и онда ако много људи држе говоре да је боље 188 00:09:18,140 --> 00:09:21,560 превод, то је само сазнаје да је треба да уместо користи тај превод 189 00:09:21,560 --> 00:09:22,960 један је давање. 190 00:09:22,960 --> 00:09:28,830 >> Дакле, то је веома филозофско питање да видим да ли рачунари ће бити 191 00:09:28,830 --> 00:09:30,340 у стању да разговарају или не у будућности. 192 00:09:30,340 --> 00:09:34,440 Али ја имам велике наде да могу Управо на основу тих аргумената. 193 00:09:34,440 --> 00:09:38,570 Али то је само још од филозофске питање. 194 00:09:38,570 --> 00:09:43,460 >> Дакле, док рачунари и даље не могу да причам, шта су ствари које можемо да урадимо? 195 00:09:43,460 --> 00:09:47,070 Неке стварно цоол ствари су класификација података. 196 00:09:47,070 --> 00:09:53,210 Тако, на пример, ви знате да услуге е-поште уради, за 197 00:09:53,210 --> 00:09:55,580 пример, филтрирање спама. 198 00:09:55,580 --> 00:09:59,070 Дакле, кад год сте примили спам, она покушава да филтрира на другу кутију. 199 00:09:59,070 --> 00:10:00,270 Па како то да урадим? 200 00:10:00,270 --> 00:10:06,080 То није као компјутер само зна шта адресе е-поште шаљу спам. 201 00:10:06,080 --> 00:10:09,130 Дакле, то је више на основу садржаја порука, или можда наслов, или 202 00:10:09,130 --> 00:10:11,310 можда неки образац који имате. 203 00:10:11,310 --> 00:10:15,690 >> Дакле, у основи, оно што можете да урадите је да се Много података мејлова који су непожељне, 204 00:10:15,690 --> 00:10:19,980 е-поруке које нису спам, и научите шта врста образаца имате у 205 00:10:19,980 --> 00:10:21,000 оне које су непожељне. 206 00:10:21,000 --> 00:10:23,260 И ово је део рачунарских лингвистика. 207 00:10:23,260 --> 00:10:24,720 То се зове класификација података. 208 00:10:24,720 --> 00:10:28,100 И ми заправо идемо да видимо Пример за то у наредним слајдовима. 209 00:10:28,100 --> 00:10:32,910 >> Друга ствар је природни језик обрада која је ствар која 210 00:10:32,910 --> 00:10:36,580 Графикон Тражи се ради о пустити ти написати казну. 211 00:10:36,580 --> 00:10:38,690 И верује да разумете шта је значење и даје 212 00:10:38,690 --> 00:10:39,940 ви бољи резултат. 213 00:10:39,940 --> 00:10:43,880 Заправо, ако одете на Гоогле или Бинг и тражите нешто као Лади 214 00:10:43,880 --> 00:10:47,060 Гага висина, ви заправо дешава да се на 5 '1 "уместо информација 215 00:10:47,060 --> 00:10:50,170 од ње јер она заправо разуме шта причаш. 216 00:10:50,170 --> 00:10:52,140 Дакле, то је део природног обраду језика. 217 00:10:52,140 --> 00:10:57,000 >> Или и када користите Сири, прво имате алгоритам који покушава да 218 00:10:57,000 --> 00:11:01,130 преводити шта говориш у речима, у тексту. 219 00:11:01,130 --> 00:11:03,690 А онда покушава да преведе то у значењу. 220 00:11:03,690 --> 00:11:06,570 Дакле, то је све део природног обраду језика. 221 00:11:06,570 --> 00:11:08,320 >> Онда имате машинско превођење - 222 00:11:08,320 --> 00:11:10,300 који је заправо један од мојих омиљених - 223 00:11:10,300 --> 00:11:14,060 који је управо из превођење језика на други. 224 00:11:14,060 --> 00:11:17,950 Дакле, можете мислити да када радите машински превод, имате 225 00:11:17,950 --> 00:11:19,750 бесконачне могућности реченица. 226 00:11:19,750 --> 00:11:22,960 Дакле, не постоји начин чувања само сваки превод. 227 00:11:22,960 --> 00:11:27,440 Дакле, морате да смисли занимљив алгоритми бити у стању да 228 00:11:27,440 --> 00:11:30,110 транслате сваки реченица на неки начин. 229 00:11:30,110 --> 00:11:32,483 >> Ви имате нека питања до сада? 230 00:11:32,483 --> 00:11:34,450 Не? 231 00:11:34,450 --> 00:11:34,830 У реду. 232 00:11:34,830 --> 00:11:36,900 >> Па шта ћемо да видимо данас? 233 00:11:36,900 --> 00:11:39,300 Пре свега, ја ћу да причам о класификација проблема. 234 00:11:39,300 --> 00:11:41,440 Дакле, онај који сам био говорећи о спам. 235 00:11:41,440 --> 00:11:46,820 Оно што ћу да урадим је, с обзиром на текст на песму, можете покушати да схватите 236 00:11:46,820 --> 00:11:49,810 са великом вероватноћом ко је певачица? 237 00:11:49,810 --> 00:11:53,590 Рецимо да ја имам песме од Лади Гага и Кати Перри, ако ти дам 238 00:11:53,590 --> 00:11:58,130 нова песма, да ли можете да схватите да ли то је Кати Перри или Лади Гага? 239 00:11:58,130 --> 00:12:01,490 >> Други, ја ћу да причам о проблему сегментације. 240 00:12:01,490 --> 00:12:05,780 Дакле, ја не знам да ли ви знате, али Кинески, Јапански, други Исток Азије 241 00:12:05,780 --> 00:12:08,090 језика, и други језици генерално, немају 242 00:12:08,090 --> 00:12:09,830 размака између речи. 243 00:12:09,830 --> 00:12:13,540 А онда, ако мислите о начину на који рачунар врста покушаја да се 244 00:12:13,540 --> 00:12:18,600 разумети обраду природног језика, изгледа на речима и 245 00:12:18,600 --> 00:12:21,500 покушава да разуме односе између њих, зар не? 246 00:12:21,500 --> 00:12:25,440 Али онда, ако имате кинески, а ви имати нула простора, то је заиста тешко да се 247 00:12:25,440 --> 00:12:28,360 сазнати шта је однос између речи, јер немају било 248 00:12:28,360 --> 00:12:29,530 речи на први поглед. 249 00:12:29,530 --> 00:12:32,600 Дакле, морате да урадите нешто што се зове сегментација који само значи стављање 250 00:12:32,600 --> 00:12:36,490 простори између онога што бисмо назвати речи у тим језицима. 251 00:12:36,490 --> 00:12:37,740 Смисла? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> А онда ћемо да говоре о синтакси. 254 00:12:41,540 --> 00:12:44,050 Дакле, само мало о природним обраду језика. 255 00:12:44,050 --> 00:12:45,420 То ће бити само преглед. 256 00:12:45,420 --> 00:12:50,700 Тако данас, у основи оно што ја желим да урадим је вам дам мало 257 00:12:50,700 --> 00:12:53,930 унутар које су могућности да можете да урадите са рачунарском 258 00:12:53,930 --> 00:12:54,960 лингвистика. 259 00:12:54,960 --> 00:13:00,410 А онда можете да видите шта мислите је кул међу тим стварима. 260 00:13:00,410 --> 00:13:02,270 И можда можете да мислите о пројекту и долазе разговара са мном. 261 00:13:02,270 --> 00:13:05,260 И ја могу да ти дам савет о томе како да га спроведе. 262 00:13:05,260 --> 00:13:09,060 >> Дакле, синтакса ће бити мало о Грапх Тражи и машине 263 00:13:09,060 --> 00:13:09,670 превод. 264 00:13:09,670 --> 00:13:13,650 Само ћу да дам пример како можете, на пример, превести 265 00:13:13,650 --> 00:13:16,020 нешто од португалски на енглески. 266 00:13:16,020 --> 00:13:17,830 Звучи добро? 267 00:13:17,830 --> 00:13:19,293 >> Дакле, прво, проблем класификације. 268 00:13:19,293 --> 00:13:23,590 Ја ћу рећи да је овај део семинара ће бити највећи изазов 269 00:13:23,590 --> 00:13:27,560 један само зато што се дешава да буде неки кодирање. 270 00:13:27,560 --> 00:13:29,470 Али то ће бити Питхон. 271 00:13:29,470 --> 00:13:34,380 Знам ви не знате Питхон, тако Само ћу да објасним на висок 272 00:13:34,380 --> 00:13:35,750 ниво шта радим. 273 00:13:35,750 --> 00:13:40,900 И не морате превише да се стварно стало много о синтакси, јер је то 274 00:13:40,900 --> 00:13:42,140 нешто ви можете научити. 275 00:13:42,140 --> 00:13:42,540 ОК? 276 00:13:42,540 --> 00:13:43,580 Звучи добро. 277 00:13:43,580 --> 00:13:46,020 >> Дакле, шта је проблем класификација? 278 00:13:46,020 --> 00:13:49,140 Дакле, ви дали неке текстове за песма, а ви желите да погодите 279 00:13:49,140 --> 00:13:50,620 ко је то певање. 280 00:13:50,620 --> 00:13:54,045 И то може бити за било какву других проблема. 281 00:13:54,045 --> 00:13:59,980 Тако да се може, на пример, имате председничке кампање и имате 282 00:13:59,980 --> 00:14:02,610 говор, и желите да пронађете оут ако је, на пример, 283 00:14:02,610 --> 00:14:04,470 Обама или Мит Ромни. 284 00:14:04,470 --> 00:14:07,700 Или можете имати гомилу мејлова и желите да схватим да ли су 285 00:14:07,700 --> 00:14:08,890 спам или не. 286 00:14:08,890 --> 00:14:11,440 Дакле, то је само неки класификовање подаци на основу речи 287 00:14:11,440 --> 00:14:13,790 да ли тамо има. 288 00:14:13,790 --> 00:14:16,295 >> Тако да се то уради, морате да направити неке претпоставке. 289 00:14:16,295 --> 00:14:20,570 Дакле, доста о рачунарске лингвистике прави претпоставке, 290 00:14:20,570 --> 00:14:24,100 обично смарт претпоставке, тако да можете добити добре резултате. 291 00:14:24,100 --> 00:14:26,670 Покушавајући да створи модел за њега. 292 00:14:26,670 --> 00:14:31,290 А онда га испробате и видите да ли ради, ако вам даје добру прецизност. 293 00:14:31,290 --> 00:14:33,940 А ако се то деси, онда сте покушати да га побољша. 294 00:14:33,940 --> 00:14:37,640 Ако не, ти си као, у реду, можда сам треба направити другачију претпоставку. 295 00:14:37,640 --> 00:14:44,030 >> Дакле, претпоставка да ћемо чине је да уметник пева обично 296 00:14:44,030 --> 00:14:49,220 о теми више пута, и можда користи речи више пута само 297 00:14:49,220 --> 00:14:50,270 јер су навикли на то. 298 00:14:50,270 --> 00:14:51,890 Ви само можете мислити о вашем пријатељу. 299 00:14:51,890 --> 00:14:57,350 Сигуран сам да сте сви имају пријатеље да кажу својим потписом фразу, 300 00:14:57,350 --> 00:14:59,260 буквално за сваки реченицу - 301 00:14:59,260 --> 00:15:02,660 као неке специфичне речи или неким специфичним Фраза да кажу за 302 00:15:02,660 --> 00:15:04,020 сваки реченица. 303 00:15:04,020 --> 00:15:07,920 >> И оно што могу да кажем је да ако видиш реченица која има потпис 304 00:15:07,920 --> 00:15:11,450 фраза, можете да погодите који вероватно Ваш пријатељ је 305 00:15:11,450 --> 00:15:13,310 један је рекао, зар не? 306 00:15:13,310 --> 00:15:18,410 Дакле, ви такву претпоставку а затим тако се створи модел. 307 00:15:18,410 --> 00:15:24,440 >> Пример који ћу да дам је на како Лади Гага, на пример, људи 308 00:15:24,440 --> 00:15:27,430 кажу да она користи "баби" за све њене песме Број један. 309 00:15:27,430 --> 00:15:32,270 А заправо то је видео који показује јој каже реч "беба" за 310 00:15:32,270 --> 00:15:33,410 различите песме. 311 00:15:33,410 --> 00:15:33,860 >> [ВИДЕО РЕПРОДУКЦИЈА] 312 00:15:33,860 --> 00:15:34,310 >> - (Певање) Беби. 313 00:15:34,310 --> 00:15:36,220 Беба. 314 00:15:36,220 --> 00:15:37,086 Беба. 315 00:15:37,086 --> 00:15:37,520 Беба. 316 00:15:37,520 --> 00:15:37,770 Беба. 317 00:15:37,770 --> 00:15:38,822 Бабе. 318 00:15:38,822 --> 00:15:39,243 Беба. 319 00:15:39,243 --> 00:15:40,085 Беба. 320 00:15:40,085 --> 00:15:40,510 Беба. 321 00:15:40,510 --> 00:15:40,850 Беба. 322 00:15:40,850 --> 00:15:41,090 >> [КРАЈ ВИДЕО РЕПРОДУКЦИЈА- 323 00:15:41,090 --> 00:15:44,020 >> ЛУЦАС ФРЕИТАС: Па има, мислим, 40 песме овде у којем она каже 324 00:15:44,020 --> 00:15:48,690 реч "беба." Тако да у основи да погодите да ако видите неку песму која има 325 00:15:48,690 --> 00:15:52,180 реч "беба," постоји нека висока вероватноћа да је Лади Гага. 326 00:15:52,180 --> 00:15:56,450 Али хајде да покушамо да развију ово даље више формално. 327 00:15:56,450 --> 00:16:00,470 >> Дакле, ово су песме лирицс то Лади Гага и Кати Перри. 328 00:16:00,470 --> 00:16:04,120 Тако да погледате Лади Гага, ти виде има много појава које "бебе" 329 00:16:04,120 --> 00:16:07,710 много појава "начин." А онда Кати Перри има много појава 330 00:16:07,710 --> 00:16:10,360 "," Много појава "ватре." 331 00:16:10,360 --> 00:16:14,560 >> Дакле, у основи оно што желимо да урадите је, добијате лириц. 332 00:16:14,560 --> 00:16:20,480 Рецимо да сте добили за лириц песма која је "беба," само "беба." Ако 333 00:16:20,480 --> 00:16:24,750 само се реч "беба", и то је све податке које сте имали са 334 00:16:24,750 --> 00:16:27,880 Лади Гага и Кати Перри, који би ви погодите је особа 335 00:16:27,880 --> 00:16:29,370 ко пева песму? 336 00:16:29,370 --> 00:16:32,360 Лади Гага или Кати Перри? 337 00:16:32,360 --> 00:16:33,150 Лади Гага, зар не? 338 00:16:33,150 --> 00:16:37,400 Зато што је она једина која каже "Беба." Ово звучи глупо, зар не? 339 00:16:37,400 --> 00:16:38,760 Ок, ово је заиста лако. 340 00:16:38,760 --> 00:16:41,860 Ја само гледам две песме и на Наравно, она је једина која има 341 00:16:41,860 --> 00:16:42,660 "Беба." 342 00:16:42,660 --> 00:16:44,740 >> Али шта ако имате гомилу речи? 343 00:16:44,740 --> 00:16:50,900 Ако имате стварну лириц, нешто као, "душо, ја само 344 00:16:50,900 --> 00:16:51,610 отишао да види [? ЦФТ?] 345 00:16:51,610 --> 00:16:54,020 предавање, "или нешто слично, и онда стварно треба да схватим - 346 00:16:54,020 --> 00:16:55,780 на основу свих тих речи - 347 00:16:55,780 --> 00:16:58,350 ко је уметник који вероватно певали ову песму? 348 00:16:58,350 --> 00:17:01,860 Дакле, хајде да покушамо да развију ово мало даље. 349 00:17:01,860 --> 00:17:05,630 >> У реду, тако заснована само на подацима које смо Имам, чини се да је Гага је вероватно 350 00:17:05,630 --> 00:17:06,260 певач. 351 00:17:06,260 --> 00:17:07,904 Али како можемо писати ово више формално? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 И тамо ће бити мало Мало статистике. 354 00:17:13,140 --> 00:17:15,880 Дакле, ако сте се изгубили, само пробајте да разумеју концепт. 355 00:17:15,880 --> 00:17:18,700 Није битно да ли сте разумели једначине савршено и. 356 00:17:18,700 --> 00:17:22,150 То је све ће бити на мрежи. 357 00:17:22,150 --> 00:17:25,490 >> Дакле, у основи оно што ја израчунавања је вероватноћа да је ова песма је од 358 00:17:25,490 --> 00:17:28,040 Лади Гага с обзиром да - 359 00:17:28,040 --> 00:17:30,660 па то бар значи с обзиром да - 360 00:17:30,660 --> 00:17:33,680 Видела сам реч "беба." Да ли то смисла? 361 00:17:33,680 --> 00:17:35,540 Дакле, ја покушавам да израчуна да вероватноћа. 362 00:17:35,540 --> 00:17:38,540 >> Тако да је то теорема зове Бајеса теорема да каже да 363 00:17:38,540 --> 00:17:43,330 вероватноћа датог Б, је вероватноћа Б дао, а 364 00:17:43,330 --> 00:17:47,660 вероватноћа А, преко вероватноће од Б. То је дуг једначина. 365 00:17:47,660 --> 00:17:51,970 Али оно што морате да схватите из то је да је то оно што ја желим да 366 00:17:51,970 --> 00:17:52,830 израчунати, зар не? 367 00:17:52,830 --> 00:17:56,570 Дакле, вероватноћа да је та песма је од Лади Гага с обзиром да сам видео реч 368 00:17:56,570 --> 00:17:58,230 "Беба." 369 00:17:58,230 --> 00:18:02,960 >> И сад шта ја добијам је вероватноћа речи "баби" дато 370 00:18:02,960 --> 00:18:04,390 да ја имам Лади Гага. 371 00:18:04,390 --> 00:18:07,220 А шта је то у основи? 372 00:18:07,220 --> 00:18:10,500 Шта то значи, шта је вероватноћа да виде реч "беба" 373 00:18:10,500 --> 00:18:12,130 у Гага лирицс? 374 00:18:12,130 --> 00:18:16,240 Ако желим да израчуна да је у веома једноставан начин, то је само број 375 00:18:16,240 --> 00:18:23,640 а видим "бебу" у укупном броју речи у Гага лирицс, зар не? 376 00:18:23,640 --> 00:18:27,600 Шта је фреквенција да видим та реч у раду Гага? 377 00:18:27,600 --> 00:18:30,530 Смисла? 378 00:18:30,530 --> 00:18:33,420 >> Други термин је вероватноћа Гага. 379 00:18:33,420 --> 00:18:34,360 Шта то значи? 380 00:18:34,360 --> 00:18:38,550 То практично значи, оно што је вероватноћа класификације 381 00:18:38,550 --> 00:18:40,690 неки текст као Гага? 382 00:18:40,690 --> 00:18:45,320 И то је мало чудно, али Хајде да размислимо о пример. 383 00:18:45,320 --> 00:18:49,230 Дакле, хајде да кажемо да је вероватноћа има "бебу" у песми је иста 384 00:18:49,230 --> 00:18:51,760 за Гага и Бритни Спирс. 385 00:18:51,760 --> 00:18:54,950 Али Бритни Спирс има два пута више песама него Лади Гага. 386 00:18:54,950 --> 00:19:00,570 Дакле, ако неко баш случајно даје лирицс оф "бебе", прва ствар коју 387 00:19:00,570 --> 00:19:04,710 погледајте јест, шта је вероватноћа има "бебу" у песми Гага, "беба" 388 00:19:04,710 --> 00:19:05,410 у песми Бритни? 389 00:19:05,410 --> 00:19:06,460 И то је иста ствар. 390 00:19:06,460 --> 00:19:10,040 >> Дакле, друга ствар коју ћете видети је, добро, шта је вероватноћа 391 00:19:10,040 --> 00:19:13,770 овај лирски по себи бити Гага лириц, а шта је вероватноћа 392 00:19:13,770 --> 00:19:15,380 као Бритнеи лирски? 393 00:19:15,380 --> 00:19:18,950 Дакле, пошто Бритни има толико више лирицс него Гага, вероватно би 394 00:19:18,950 --> 00:19:21,470 рецимо, добро, ово је вероватно Бритни Лириц. 395 00:19:21,470 --> 00:19:23,340 Зато имамо ово назвати овде. 396 00:19:23,340 --> 00:19:24,670 Вероватноћа Гага. 397 00:19:24,670 --> 00:19:26,950 Има смисла? 398 00:19:26,950 --> 00:19:28,660 Да ли је то? 399 00:19:28,660 --> 00:19:29,370 У реду. 400 00:19:29,370 --> 00:19:33,500 >> И последњи је само вероватноћа од "Баби" који не 401 00:19:33,500 --> 00:19:34,810 битно толико. 402 00:19:34,810 --> 00:19:39,940 Али то је вероватноћа види "бебу" на енглеском језику. 403 00:19:39,940 --> 00:19:42,725 Ми обично не маре да много о том року. 404 00:19:42,725 --> 00:19:44,490 Да ли то смисла? 405 00:19:44,490 --> 00:19:48,110 Дакле, вероватноћа Гага је звао пре вероватноћа 406 00:19:48,110 --> 00:19:49,530 од класе Гага. 407 00:19:49,530 --> 00:19:53,840 Јер то само значи да је, оно што је вероватноћа да ту класу - 408 00:19:53,840 --> 00:19:55,520 који је Гага - 409 00:19:55,520 --> 00:19:59,350 само у уопште, само без икаквих услова. 410 00:19:59,350 --> 00:20:02,560 >> И онда када имам вероватноћу Гага даје "беба", ми то зовемо, плус 411 00:20:02,560 --> 00:20:06,160 Теари вероватноћу, јер је то вероватноћа да 412 00:20:06,160 --> 00:20:08,300 Гага даје неке доказе. 413 00:20:08,300 --> 00:20:11,050 Па ја вам дајем доказе да сам видео реч бебу и 414 00:20:11,050 --> 00:20:12,690 песма смисла? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 У реду. 417 00:20:16,410 --> 00:20:22,400 >> Дакле, ако сам израчунао да за сваки од песама за Лади Гага, 418 00:20:22,400 --> 00:20:25,916 шта би то било - 419 00:20:25,916 --> 00:20:27,730 очигледно, ја не могу да се померим ово. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Вероватноћа Гага ће бити нешто слично, 2 преко 24, а 1/2, 422 00:20:36,920 --> 00:20:38,260 преко 2 преко 53. 423 00:20:38,260 --> 00:20:40,640 Није битно да ли знате шта ови бројеви долазе из. 424 00:20:40,640 --> 00:20:44,750 Али то је само број који иде да буде више од 0, зар не? 425 00:20:44,750 --> 00:20:48,610 >> И онда кад ја Кати Перри, вероватноћа "бебе" Кати је дато 426 00:20:48,610 --> 00:20:49,830 већ 0, зар не? 427 00:20:49,830 --> 00:20:52,820 Зато што не постоји "беба" у Кати Перри. 428 00:20:52,820 --> 00:20:56,360 Дакле, онда то постаје 0, а Гага победи, што значи да је Гага је 429 00:20:56,360 --> 00:20:57,310 вероватно певач. 430 00:20:57,310 --> 00:20:58,560 Да ли то смисла? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 У реду. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Дакле, ако желим да ово више званичника, Ја заиста могу да урадим модел 435 00:21:11,750 --> 00:21:12,700 за више речи. 436 00:21:12,700 --> 00:21:14,610 Па рецимо да ја имам нешто као, "душо, ја сам 437 00:21:14,610 --> 00:21:16,030 у пламену, "или нешто. 438 00:21:16,030 --> 00:21:17,760 Тако да има више речи. 439 00:21:17,760 --> 00:21:20,880 И у овом случају, можете да видите да је "беба" је у Гага, 440 00:21:20,880 --> 00:21:21,710 али то није у Кети. 441 00:21:21,710 --> 00:21:24,940 И "ватра" је у Кати, али то није у Гагу, зар не? 442 00:21:24,940 --> 00:21:27,200 Дакле, то је све теже, зар не? 443 00:21:27,200 --> 00:21:31,440 Зато се чини да сте скоро имају везу између та два. 444 00:21:31,440 --> 00:21:36,980 >> Дакле, оно што треба да урадите је да преузме независност међу речима. 445 00:21:36,980 --> 00:21:41,210 Дакле, у основи шта то значи да је Само оно што је израчунавање 446 00:21:41,210 --> 00:21:44,330 вероватноћа да виде бебу "," шта је вероватноћа да виде "И," и 447 00:21:44,330 --> 00:21:46,670 "Ам", и "на" и "ватра" све одвојено. 448 00:21:46,670 --> 00:21:48,670 Онда сам множењем све њих. 449 00:21:48,670 --> 00:21:52,420 И ја видим шта је вероватноћа да виде целу реченицу. 450 00:21:52,420 --> 00:21:55,210 Смисла? 451 00:21:55,210 --> 00:22:00,270 >> Дакле, у основи, ако ја имам само једну реч, оно што желим да пронађу је АРГ макс, 452 00:22:00,270 --> 00:22:05,385 што значи, шта је класа која је дајући ми највећу вероватноћу? 453 00:22:05,385 --> 00:22:10,010 Дакле, шта је класа која се даје ми највиши вероватноћа за 454 00:22:10,010 --> 00:22:11,940 вероватноћа класе дати реч. 455 00:22:11,940 --> 00:22:17,610 Дакле, у овом случају, с обзиром Гага "бебу." Или Кати дато "бебу." Смисла? 456 00:22:17,610 --> 00:22:21,040 >> И управо из Баиес, да једначина које сам показао, 457 00:22:21,040 --> 00:22:24,780 смо креирали овај део. 458 00:22:24,780 --> 00:22:28,750 Једина ствар је да ви видите да вероватноћа речи обзиром 459 00:22:28,750 --> 00:22:31,370 промене класе зависно на класе, зар не? 460 00:22:31,370 --> 00:22:34,260 Број "Баби" с које имам у Гага је другачији од Кати. 461 00:22:34,260 --> 00:22:37,640 Вероватноћа класе такође промене јер то је само број 462 00:22:37,640 --> 00:22:39,740 песама сваки од њих има. 463 00:22:39,740 --> 00:22:43,980 >> Али вероватноћа саме речи ће бити исти за све 464 00:22:43,980 --> 00:22:44,740 уметници, зар не? 465 00:22:44,740 --> 00:22:47,150 Дакле, вероватноћа речи је Само, шта је вероватноћа 466 00:22:47,150 --> 00:22:49,820 видим ту реч у Енглески језик? 467 00:22:49,820 --> 00:22:51,420 Дакле, то је исто за све њих. 468 00:22:51,420 --> 00:22:55,790 Дакле, пошто је то константа, можемо само дроп то и не брине о томе. 469 00:22:55,790 --> 00:23:00,230 Тако ће то бити заправо једначина тражимо. 470 00:23:00,230 --> 00:23:03,360 >> И ако имам више речи, ја сам ипак ће морати пре 471 00:23:03,360 --> 00:23:04,610 вероватноћа овде. 472 00:23:04,610 --> 00:23:06,980 Једина ствар је да сам множењем вероватноћа 473 00:23:06,980 --> 00:23:08,490 све друге речи. 474 00:23:08,490 --> 00:23:10,110 Тако сам множењем све њих. 475 00:23:10,110 --> 00:23:12,610 Смисла? 476 00:23:12,610 --> 00:23:18,440 Изгледа чудно, али заправо значи, израчунати пре класе, и 477 00:23:18,440 --> 00:23:22,100 затим помножити вероватноће сваког од речи бића у тој класи. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> И ви знате да је вероватноћа Реч дата класа ће бити 480 00:23:29,150 --> 00:23:34,520 Колико пута сте видети ту реч у да класа, подељен са бројем 481 00:23:34,520 --> 00:23:37,020 речи имате у то класа уопште. 482 00:23:37,020 --> 00:23:37,990 Смисла? 483 00:23:37,990 --> 00:23:41,680 То је само како "беба" је око 2 број речи које 484 00:23:41,680 --> 00:23:43,020 Имао сам у текстовима. 485 00:23:43,020 --> 00:23:45,130 Дакле, само фреквенција. 486 00:23:45,130 --> 00:23:46,260 >> Али постоји једна ствар. 487 00:23:46,260 --> 00:23:51,250 Сећаш се како сам се показује да вероватноћа "баби" Бити лирицс 488 00:23:51,250 --> 00:23:56,350 од Кати Перри је 0 само зато Кати Пери није имала "беба" уопште? 489 00:23:56,350 --> 00:24:04,900 Али то звучи мало грубо да се само једноставно рећи да текст не може бити од 490 00:24:04,900 --> 00:24:10,040 уметник само зато што немају да реч посебно у било ком тренутку. 491 00:24:10,040 --> 00:24:13,330 >> Тако да само могу рећи, па, ако немају ту реч, ја ћу да 492 00:24:13,330 --> 00:24:15,640 дати вам мању вероватноћу, али ја једноставно не иде на 493 00:24:15,640 --> 00:24:17,420 дати вам 0. одмах. 494 00:24:17,420 --> 00:24:21,040 Јер можда је нешто слично, "Ватра, ватра, ватра, ватра," који је 495 00:24:21,040 --> 00:24:21,990 потпуно Кати Перри. 496 00:24:21,990 --> 00:24:26,060 А онда "беба", и то само иде на 0 одмах јер је био један 497 00:24:26,060 --> 00:24:27,250 "Беба." 498 00:24:27,250 --> 00:24:31,440 >> Дакле, у основи оно што радимо је нешто Лаплас позвао изглађивање. 499 00:24:31,440 --> 00:24:36,260 И то само значи да ја дајем неки чак вероватноћа речима 500 00:24:36,260 --> 00:24:37,850 да не постоје. 501 00:24:37,850 --> 00:24:43,170 Дакле, оно што ја радим је да када сам израчунавање то, увек сам додаје 1 502 00:24:43,170 --> 00:24:44,180 бројилац. 503 00:24:44,180 --> 00:24:48,060 Дакле, чак и ако реч не постоји, у овај случај, ако је ово 0, ја сам још увек 504 00:24:48,060 --> 00:24:51,250 израчунавање ово као 1 над укупан број речи. 505 00:24:51,250 --> 00:24:55,060 Иначе, ја се колико речи Имам и ја додати 1. 506 00:24:55,060 --> 00:24:58,300 Тако Бројим за оба случаја. 507 00:24:58,300 --> 00:25:00,430 Смисла? 508 00:25:00,430 --> 00:25:03,060 >> Дакле, хајде да урадимо нешто кодирање. 509 00:25:03,060 --> 00:25:06,440 Ја ћу то урадити веома брзо, али то је само важно да вам 510 00:25:06,440 --> 00:25:08,600 момци разумеју концепте. 511 00:25:08,600 --> 00:25:13,450 Дакле, оно што ми покушавамо да урадимо се управо имплементира овај 512 00:25:13,450 --> 00:25:14,330 Оно што сам управо рекао - 513 00:25:14,330 --> 00:25:19,110 Желим да ставим текст из Лади Гага и Кати Перри. 514 00:25:19,110 --> 00:25:22,980 А програм ће бити у стању да кажу да ако ови нови текстови су из Гага 515 00:25:22,980 --> 00:25:24,170 или Кати Перри. 516 00:25:24,170 --> 00:25:25,800 Смисла? 517 00:25:25,800 --> 00:25:27,530 У реду. 518 00:25:27,530 --> 00:25:30,710 >> Дакле, имам овај програм ја идем да позове цлассифи.пи. 519 00:25:30,710 --> 00:25:31,970 Дакле, ово је Питхон. 520 00:25:31,970 --> 00:25:34,210 То је нови програмски језик. 521 00:25:34,210 --> 00:25:38,020 Веома је сличан у неким начина да Ц и ПХП. 522 00:25:38,020 --> 00:25:43,180 То је слично, јер ако желите да научите Питхон после знајући Ц, то је 523 00:25:43,180 --> 00:25:46,270 стварно не толико изазов само зато што Питон је много лакше 524 00:25:46,270 --> 00:25:47,520 од Ц, пре свега. 525 00:25:47,520 --> 00:25:49,370 И многе ствари су већ имплементиран за вас. 526 00:25:49,370 --> 00:25:56,820 Дакле, колико има функције као ПХП који сортирали листу, или додате нешто 527 00:25:56,820 --> 00:25:58,780 до низа, или бла, бла, бла. 528 00:25:58,780 --> 00:26:00,690 Питхон има све од оних који су добро. 529 00:26:00,690 --> 00:26:05,960 >> Зато ћу само да брзо објаснити како бисмо могли да урадимо класификацију 530 00:26:05,960 --> 00:26:07,860 проблем овде. 531 00:26:07,860 --> 00:26:13,230 Дакле, хајде да кажемо да је у овом случају, ја имам лирицс фром Гага и Кати Перри. 532 00:26:13,230 --> 00:26:21,880 Начин на који ја имам те лирицс јесте да Прва реч у текстовима је 533 00:26:21,880 --> 00:26:25,250 име уметника, и остало је стихове. 534 00:26:25,250 --> 00:26:29,470 Па рецимо да ја имам овај списак у која је прва лирицс би Гага. 535 00:26:29,470 --> 00:26:31,930 Дакле, овде сам на правом путу. 536 00:26:31,930 --> 00:26:35,270 А следећи је Кати, и она такође има текст. 537 00:26:35,270 --> 00:26:38,040 >> Дакле, ово је како се прогласити променљива у Питхон. 538 00:26:38,040 --> 00:26:40,200 Не морате да дају тип података. 539 00:26:40,200 --> 00:26:43,150 Ти само напиши "текст", Нешто као у ПХП. 540 00:26:43,150 --> 00:26:44,890 Смисла? 541 00:26:44,890 --> 00:26:47,770 >> Дакле, шта су ствари које морам да израчунати да би могао да израчуна 542 00:26:47,770 --> 00:26:49,360 вероватноће? 543 00:26:49,360 --> 00:26:55,110 Морам да израчуна "досије" сваке од различити 544 00:26:55,110 --> 00:26:56,710 класе које имам. 545 00:26:56,710 --> 00:27:06,680 Морам да израчуна "," постериорс или прилично вероватноће 546 00:27:06,680 --> 00:27:12,150 сваки од различитих речи које Ја могу да имам за сваког уметника. 547 00:27:12,150 --> 00:27:17,210 Дакле, у оквиру Гага, на пример, ја идем да имају списак колико пута видим 548 00:27:17,210 --> 00:27:19,250 сваки од речи. 549 00:27:19,250 --> 00:27:20,760 Смисла? 550 00:27:20,760 --> 00:27:25,370 >> И на крају, ја ћу само да имају Листа се зове "речи" које се управо дешава 551 00:27:25,370 --> 00:27:29,780 да имају колико сам речи има за сваког уметника. 552 00:27:29,780 --> 00:27:33,760 Дакле, за Гагу, на пример, када погледам на стихове, сам, ја мислим, 24 553 00:27:33,760 --> 00:27:34,750 речи укупно. 554 00:27:34,750 --> 00:27:38,970 Дакле, ова листа је само да имају Гага 24, а Кати други број. 555 00:27:38,970 --> 00:27:40,130 Смисла? 556 00:27:40,130 --> 00:27:40,560 У реду. 557 00:27:40,560 --> 00:27:42,530 >> Тако сада, у ствари, хајде да идите на кодирање. 558 00:27:42,530 --> 00:27:45,270 Дакле, у Питхон-у, можете заправо врати гомилу другачије 559 00:27:45,270 --> 00:27:46,630 ствари из функције. 560 00:27:46,630 --> 00:27:50,810 Зато ћу да направим ову функцију назива "условни", која се дешава 561 00:27:50,810 --> 00:27:53,890 да се врате све те ствари, "игумани," тхе "," и вероватноће 562 00:27:53,890 --> 00:28:05,690 "речи." Дакле "условни", а то је ће се зове у "лирицс." 563 00:28:05,690 --> 00:28:11,510 >> Дакле, сада желим да вам заправо написати ову функцију. 564 00:28:11,510 --> 00:28:17,750 Дакле, начин на који ја могу да напишем ово Функција је сам дефинисао ово 565 00:28:17,750 --> 00:28:20,620 функционишу са "деф." Тако сам и урадио "деф условно, "а то је узимање 566 00:28:20,620 --> 00:28:28,700 "Текст." А шта ће ово да уради је, пре свега, имам своје досије 567 00:28:28,700 --> 00:28:31,030 да желим да израчунате. 568 00:28:31,030 --> 00:28:34,330 >> Дакле, начин на који ја могу да урадим ово је створити речник у Питхон, који 569 00:28:34,330 --> 00:28:37,320 је прилично иста ствар као хашиш сто, или је то итеративни 570 00:28:37,320 --> 00:28:40,480 низ у ПХП. 571 00:28:40,480 --> 00:28:44,150 То је како ја изјављујем речник. 572 00:28:44,150 --> 00:28:53,580 А у суштини шта то значи да је Приорс оф Гагу је 0,5, на пример, ако 573 00:28:53,580 --> 00:28:57,200 50% од текстова су из Гага, 50% су од Кати. 574 00:28:57,200 --> 00:28:58,450 Смисла? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Зато морам да схватим како за израчунавање досије. 577 00:29:03,680 --> 00:29:07,120 >> Наредних оне које морам да урадим, такође, су вероватноће и речи. 578 00:29:07,120 --> 00:29:17,100 Тако су вероватноће Гага је листа од свих које сам вероватноће 579 00:29:17,100 --> 00:29:19,160 имати за сваки од речи за Гагу. 580 00:29:19,160 --> 00:29:23,880 Дакле, ако одем у вероватноће Гага "Беба", на пример, да ће ми дати 581 00:29:23,880 --> 00:29:28,750 нешто као 2 преко 24 у том случају. 582 00:29:28,750 --> 00:29:30,070 Смисла? 583 00:29:30,070 --> 00:29:36,120 Онда одем на "вероватноће", идите на "Гага" кашика која има листу свих 584 00:29:36,120 --> 00:29:40,550 Гага је речи, онда идем на "бебу", и ја видим вероватноћу. 585 00:29:40,550 --> 00:29:45,940 >> И на крају ја имам ово "Речи" речник. 586 00:29:45,940 --> 00:29:53,620 Дакле, овде, "вероватноће." А онда "речи." Дакле, ако ја радим "речи", "Гага", 587 00:29:53,620 --> 00:29:58,330 шта ће се десити јесте да је ће ми дати 24, рекавши да сам 588 00:29:58,330 --> 00:30:01,990 имају 24 речи у оквиру лирицс фром Гага. 589 00:30:01,990 --> 00:30:04,110 Има смисла? 590 00:30:04,110 --> 00:30:07,070 Дакле овде, "речи" једнако Дах-дах-дах. 591 00:30:07,070 --> 00:30:07,620 У реду 592 00:30:07,620 --> 00:30:12,210 >> Дакле, шта ћу да урадите је да ћу поновити над сваким лирицс, тако 593 00:30:12,210 --> 00:30:14,490 сваки од жице које Ја имам на листи. 594 00:30:14,490 --> 00:30:18,040 И ја ћу да израчуна те ствари за сваки од кандидата. 595 00:30:18,040 --> 00:30:19,950 Има смисла? 596 00:30:19,950 --> 00:30:21,700 Зато морам да урадим за петљу. 597 00:30:21,700 --> 00:30:26,300 >> Дакле, у Питхон шта ја могу да урадим је "за линије у лирицс. "исто што и 598 00:30:26,300 --> 00:30:28,000 "За сваки" изјаву у ПХП. 599 00:30:28,000 --> 00:30:33,420 Сетите се како је то било, ако бих могао ПХП кажу "за сваки лирицс као 600 00:30:33,420 --> 00:30:35,220 линија. "Има смисла? 601 00:30:35,220 --> 00:30:38,900 Тако Водим сваку од линија, у овом случај, овај стринг и следећи 602 00:30:38,900 --> 00:30:44,540 ниска тако да за сваку од линија што сам ја да уради је први, ја ћу 603 00:30:44,540 --> 00:30:49,150 поделити ову линију у листу речи раздвојене размаком. 604 00:30:49,150 --> 00:30:53,730 >> Дакле, ствар у вези Питхон кул је то могли само Гоогле као "Како могу да 605 00:30:53,730 --> 00:30:58,220 поделити стринг у речи? "И то је ће вам рећи како да то урадите. 606 00:30:58,220 --> 00:31:04,890 И начин да се то уради, то је само "линија = Лине.сплит () "и то је у основи 607 00:31:04,890 --> 00:31:08,640 ће вам дати списак са сваки од речи овде. 608 00:31:08,640 --> 00:31:09,620 Има смисла? 609 00:31:09,620 --> 00:31:15,870 Дакле, сада сам то урадио ја желим да знам ко је певач те песме. 610 00:31:15,870 --> 00:31:20,130 И за то сам само да се Први елемент низа, зар не? 611 00:31:20,130 --> 00:31:26,390 Тако да само могу да кажем да сам "певач = Линија (0) "Има смисла? 612 00:31:26,390 --> 00:31:32,010 >> И онда шта ја треба да урадите је, прво од све, ја ћу да ажурирате колико 613 00:31:32,010 --> 00:31:36,130 речи имам под "Гага". па ја сам само ће израчунати колико речи које сам 614 00:31:36,130 --> 00:31:38,690 имају у овој листи, зар не? 615 00:31:38,690 --> 00:31:41,910 Јер ово је колико речи имам у текстовима и ја ћу само да 616 00:31:41,910 --> 00:31:44,120 да га додате у "Гага" низа. 617 00:31:44,120 --> 00:31:47,090 Да ли то смисла? 618 00:31:47,090 --> 00:31:49,010 Немојте превише фокусирају на синтакси. 619 00:31:49,010 --> 00:31:50,430 Размислите више о концептима. 620 00:31:50,430 --> 00:31:52,400 То је најважнији део. 621 00:31:52,400 --> 00:31:52,720 У реду. 622 00:31:52,720 --> 00:32:00,260 >> Па шта ја могу да урадим јесте да ли "Гага" је Већ у тој листи, па "ако певач у 623 00:32:00,260 --> 00:32:03,190 речи "што значи да сам већ имају речи од Гага. 624 00:32:03,190 --> 00:32:06,640 Ја само желим да додам додатни речи на то. 625 00:32:06,640 --> 00:32:15,810 Дакле, оно што ја радим је "речи (певачица) + = Лен (линија) - 1 ". 626 00:32:15,810 --> 00:32:18,250 И онда ја само могу да урадим дужина линије. 627 00:32:18,250 --> 00:32:21,860 Па како многи елементи И имати у низу. 628 00:32:21,860 --> 00:32:27,060 И ја морам да урадим минус 1 само зато Први елемент низа је само 629 00:32:27,060 --> 00:32:29,180 певач и оне нису лирицс. 630 00:32:29,180 --> 00:32:31,420 Има смисла? 631 00:32:31,420 --> 00:32:32,780 У реду. 632 00:32:32,780 --> 00:32:35,820 >> "Друго," то значи да желим да заправо убаците Гага у листу. 633 00:32:35,820 --> 00:32:45,990 Па ја само радим "речи (певач) = Лен (линија) - 1, "жао. 634 00:32:45,990 --> 00:32:49,200 Дакле, једина разлика између ова два линија је да је ово, није тако 635 00:32:49,200 --> 00:32:51,080 постоје још, тако да сам само иницијализација га. 636 00:32:51,080 --> 00:32:53,820 Ово сам заправо ја додао. 637 00:32:53,820 --> 00:32:55,570 У реду. 638 00:32:55,570 --> 00:32:59,480 Дакле, ово је додао да речи. 639 00:32:59,480 --> 00:33:03,040 >> Сада желим да додам да су игумани. 640 00:33:03,040 --> 00:33:05,480 Па како да израчуна досије? 641 00:33:05,480 --> 00:33:11,580 У Приорс може израчунати по колико пута. 642 00:33:11,580 --> 00:33:15,340 Па колико пута сте видели да је певач међу свим певача који вас 643 00:33:15,340 --> 00:33:16,380 има, зар не? 644 00:33:16,380 --> 00:33:18,810 Дакле, за Гага и Кати Перри, у овом случају, ја видим Гага 645 00:33:18,810 --> 00:33:20,570 једном, Кати Перри једном. 646 00:33:20,570 --> 00:33:23,320 >> Дакле, у основи су игумани за Гагу и за Кати Перри би 647 00:33:23,320 --> 00:33:24,390 само је један, зар не? 648 00:33:24,390 --> 00:33:26,500 Ви само колико пута Видим уметник. 649 00:33:26,500 --> 00:33:28,740 Дакле, ово је врло лако израчунати. 650 00:33:28,740 --> 00:33:34,100 Ја могу само нешто слично као као "ако певач у игумани, "Ја ћу само 651 00:33:34,100 --> 00:33:38,970 додати 1 до кутији њихове досије. 652 00:33:38,970 --> 00:33:51,000 Дакле, "игумани (синг)" + = 1 ", а затим" друго " Ја ћу да урадим "досије (Сингер) 653 00:33:51,000 --> 00:33:55,000 = 1. "Има смисла? 654 00:33:55,000 --> 00:34:00,080 >> Дакле, ако не постоји сам ставио као 1, иначе сам само додати 1. 655 00:34:00,080 --> 00:34:11,280 У реду, тако да сада све што ми је остало да урадим се такође додати сваки од речи да 656 00:34:11,280 --> 00:34:12,290 вероватноће. 657 00:34:12,290 --> 00:34:14,889 Зато морам да бројим колико пута Видим сваки од речи. 658 00:34:14,889 --> 00:34:18,780 Зато морам да урадим још један за петљу у линији. 659 00:34:18,780 --> 00:34:25,190 >> Дакле, прва ствар коју ћу да урадим је проверите да ли певач већ има 660 00:34:25,190 --> 00:34:26,969 вероватноће низ. 661 00:34:26,969 --> 00:34:31,739 Дакле, ја проверавам да ли певачица не имају низ вероватноћама, ја сам само 662 00:34:31,739 --> 00:34:34,480 ће да покрене један за њих. 663 00:34:34,480 --> 00:34:36,400 То није чак ни низ, извините, то је речник. 664 00:34:36,400 --> 00:34:43,080 Тако су вероватноће певачица ће да буде отворен речник, тако да сам 665 00:34:43,080 --> 00:34:45,830 само иницијализација речник за њега. 666 00:34:45,830 --> 00:34:46,820 ОК? 667 00:34:46,820 --> 00:34:58,330 >> И сад ја заправо могу да урадим за петљу за израчунавање сваки од речи ' 668 00:34:58,330 --> 00:35:00,604 вероватноће. 669 00:35:00,604 --> 00:35:01,540 У реду. 670 00:35:01,540 --> 00:35:04,160 Па шта ја могу да урадим је за петљу. 671 00:35:04,160 --> 00:35:06,590 Тако да сам само ћу поновити преко низа. 672 00:35:06,590 --> 00:35:15,320 Дакле, начин на који ја могу да урадим у Питхон је "за сам у домету." Од 1. 673 00:35:15,320 --> 00:35:19,200 јер желим да почне у другој елемент јер прва је 674 00:35:19,200 --> 00:35:20,260 певач име. 675 00:35:20,260 --> 00:35:24,990 Дакле, од једне до дужина линије. 676 00:35:24,990 --> 00:35:29,760 А кад ја не крећу се заправо иде од као овде од 1 до лен на 677 00:35:29,760 --> 00:35:30,740 линија минус 1. 678 00:35:30,740 --> 00:35:33,810 Тако да већ ради ту ствар да уради н 1 минус за низове који је веома 679 00:35:33,810 --> 00:35:35,500 згодно. 680 00:35:35,500 --> 00:35:37,850 Има смисла? 681 00:35:37,850 --> 00:35:42,770 >> Дакле, за сваку од њих, шта ћу урадите је, баш као у другом, 682 00:35:42,770 --> 00:35:50,320 Идем да проверим да ли је реч у овом Позиција у линији је већ у 683 00:35:50,320 --> 00:35:51,570 вероватноће. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 И онда, као што сам рекао овде, вероватноће речи, као што сам ставио у 686 00:35:57,260 --> 00:35:58,400 "вероватноће (певачица)". 687 00:35:58,400 --> 00:35:59,390 Дакле, име певачице. 688 00:35:59,390 --> 00:36:03,450 Дакле, ако је већ у "Пробабилит (певач)", то значи да сам 689 00:36:03,450 --> 00:36:11,960 желите да додате 1 до њега, па ћу урадите "вероватноће (певач)", а 690 00:36:11,960 --> 00:36:14,100 реч се назива "линија (и)". 691 00:36:14,100 --> 00:36:22,630 Ја ћу додати 1 и "остало" Ја сам само ће га иницијализује на 1. 692 00:36:22,630 --> 00:36:23,880 "Линија (И)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Има смисла? 695 00:36:28,420 --> 00:36:30,180 >> Дакле, израчуната сам све низове. 696 00:36:30,180 --> 00:36:36,580 Дакле, сада све то морам да урадим за ово је само "врати досије, 697 00:36:36,580 --> 00:36:43,230 вероватноће и речи. "Да види ако их има, у реду. 698 00:36:43,230 --> 00:36:45,690 Чини се све ради сада. 699 00:36:45,690 --> 00:36:46,900 Дакле, то има смисла? 700 00:36:46,900 --> 00:36:47,750 На неки начин? 701 00:36:47,750 --> 00:36:49,280 У реду. 702 00:36:49,280 --> 00:36:51,980 Тако да сада имам све вероватноће. 703 00:36:51,980 --> 00:36:55,100 Дакле, сада једина ствар која ми је остала је само да имају ту ствар да 704 00:36:55,100 --> 00:36:58,650 израчунава производ свих вероватноће када добијем стихове. 705 00:36:58,650 --> 00:37:06,270 >> Дакле, рецимо да желим да сада позове ова функција "класификују ()" и 706 00:37:06,270 --> 00:37:08,880 ствар која функција узима је само аргумент. 707 00:37:08,880 --> 00:37:13,170 Рецимо "Бејби, ја сам на ватру" и то је ће да схвати шта је 708 00:37:13,170 --> 00:37:14,490 вероватноћа да је Гага? 709 00:37:14,490 --> 00:37:16,405 Шта је вероватноћа да је Кејти? 710 00:37:16,405 --> 00:37:19,690 Звучи добро? 711 00:37:19,690 --> 00:37:25,750 Тако да сам само ћу морати да створи нова функција под називом "класификују ()" и 712 00:37:25,750 --> 00:37:29,180 то ће да се неки текст као добро. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 И поред лирицс Ја такође морају послати досије, 715 00:37:36,160 --> 00:37:37,700 вероватноће и речи. 716 00:37:37,700 --> 00:37:44,000 Зато ћу да пошаљем текст, досије, вероватноће, речи. 717 00:37:44,000 --> 00:37:51,840 >> Дакле, ово је узимање лирицс, досије, вероватноће, речи. 718 00:37:51,840 --> 00:37:53,530 Дакле, шта то уради? 719 00:37:53,530 --> 00:37:57,180 То је у основи ће ићи кроз све могући кандидати који сте 720 00:37:57,180 --> 00:37:58,510 имају као певач. 721 00:37:58,510 --> 00:37:59,425 А где су ти кандидати? 722 00:37:59,425 --> 00:38:01,020 Они су у игумани, зар не? 723 00:38:01,020 --> 00:38:02,710 Дакле, имам све оне тамо. 724 00:38:02,710 --> 00:38:07,870 Тако ћу имати речник од свих могућих кандидата. 725 00:38:07,870 --> 00:38:14,220 А онда за сваког кандидата у игумани, па то значи да ће то 726 00:38:14,220 --> 00:38:17,740 Гага, Кејти ако сам имао више било би више. 727 00:38:17,740 --> 00:38:20,410 Ја ћу почети рачунање ово вероватноћа. 728 00:38:20,410 --> 00:38:28,310 Вероватноћа као што смо видели у ПоверПоинт је досадашњи пута 729 00:38:28,310 --> 00:38:30,800 производ сваког од други вероватноће. 730 00:38:30,800 --> 00:38:32,520 >> Па ја могу да урадим исто овде. 731 00:38:32,520 --> 00:38:36,330 Ја само могу да урадим је вероватноћа у почетку само пре. 732 00:38:36,330 --> 00:38:40,340 Тако игумани кандидата. 733 00:38:40,340 --> 00:38:40,870 Зар не? 734 00:38:40,870 --> 00:38:45,360 И сад ја морам да вршите итерацију над свим Речи које имам у песмама да буде 735 00:38:45,360 --> 00:38:48,820 у стању да додате вероватноћу за сваки од њих, у реду? 736 00:38:48,820 --> 00:38:57,900 Дакле, "за реч у лирицс" шта ћу да урадите је да, ако је реч у 737 00:38:57,900 --> 00:39:01,640 "вероватноће (кандидати)", који значи да је реч која 738 00:39:01,640 --> 00:39:03,640 Кандидат има у својим лирицс - 739 00:39:03,640 --> 00:39:05,940 на пример, "беба" за Гагу - 740 00:39:05,940 --> 00:39:11,710 шта ћу да урадите је да вероватноћа ће се множи 741 00:39:11,710 --> 00:39:22,420 за 1 плус вероватноће од кандидат за ту реч. 742 00:39:22,420 --> 00:39:25,710 И зове се "реч". 743 00:39:25,710 --> 00:39:32,440 Ово подељен са бројем речи да имам за тог кандидата. 744 00:39:32,440 --> 00:39:37,450 Укупан број речи које ја имам за певача који ја гледам. 745 00:39:37,450 --> 00:39:40,290 >> "Елсе". то значи да је нова реч па то би било као на пример 746 00:39:40,290 --> 00:39:41,860 "Ватра" за Лејди Гага. 747 00:39:41,860 --> 00:39:45,760 Тако да сам само желим да радим преко 1 "Реч (кандидат)". 748 00:39:45,760 --> 00:39:47,710 Дакле, ја не желим да ставим овај термин овде. 749 00:39:47,710 --> 00:39:50,010 >> Дакле, то ће бити у основи копирање и лепљење ово. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Али ја ћу избрисати овај део. 752 00:39:56,000 --> 00:39:57,610 Дакле, то је само да ће бити 1. преко тога. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Звучи добро? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 И сада на крају, ја ћу само да принт име кандидата и 757 00:40:09,700 --> 00:40:15,750 вероватноћа да сте од има С на својим лирицс. 758 00:40:15,750 --> 00:40:16,200 Има смисла? 759 00:40:16,200 --> 00:40:18,390 А ја заправо ни не треба овај речник. 760 00:40:18,390 --> 00:40:19,510 Има смисла? 761 00:40:19,510 --> 00:40:21,810 >> Дакле, хајде да видимо да ли то стварно ради. 762 00:40:21,810 --> 00:40:24,880 Дакле, ако сам покренути ово, то није успело. 763 00:40:24,880 --> 00:40:26,130 Чекај једну секунду. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Речи (кандидати)", "речи (кандидати)", то је 766 00:40:31,720 --> 00:40:33,750 име низа. 767 00:40:33,750 --> 00:40:41,435 ОК Дакле, каже да постоји нека буба за кандидата у игумани. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Дозволите ми да се смири мало. 770 00:40:48,760 --> 00:40:50,360 У реду. 771 00:40:50,360 --> 00:40:51,305 Хајде да покушамо. 772 00:40:51,305 --> 00:40:51,720 У реду. 773 00:40:51,720 --> 00:40:58,710 >> Тако да даје Кати Перри има ово вероватноћа овог пута 10 до 774 00:40:58,710 --> 00:41:02,200 минус 7, а Гага је ово пута 10 до минус 6. 775 00:41:02,200 --> 00:41:05,610 Па видиш то показује да је Гага има већу вероватноћу. 776 00:41:05,610 --> 00:41:09,260 Дакле "Баби, ја сам он Фире" је Вероватно Гага песма. 777 00:41:09,260 --> 00:41:10,580 Има смисла? 778 00:41:10,580 --> 00:41:12,030 Дакле, то је оно што смо урадили. 779 00:41:12,030 --> 00:41:16,010 >> Овај код ће бити постављен на мрежи, па ви можете да проверите. 780 00:41:16,010 --> 00:41:20,720 Можда користите нешто од тога јер ако желите да уради пројекат или нешто слично. 781 00:41:20,720 --> 00:41:22,150 У реду. 782 00:41:22,150 --> 00:41:25,930 Ово је био само да покаже шта рачунарска 783 00:41:25,930 --> 00:41:27,230 лингвистика код изгледа. 784 00:41:27,230 --> 00:41:33,040 Али сада идемо на више Висок ниво ствари. 785 00:41:33,040 --> 00:41:33,340 У реду. 786 00:41:33,340 --> 00:41:35,150 >> Тако су други проблеми ја је говорио о - 787 00:41:35,150 --> 00:41:37,550 Проблем сегментација је први од њих. 788 00:41:37,550 --> 00:41:40,820 Дакле, ви овде имате јапански. 789 00:41:40,820 --> 00:41:43,420 И онда видиш да нема размака. 790 00:41:43,420 --> 00:41:49,110 Дакле, ово је у основи значи да је врх столицу, зар не? 791 00:41:49,110 --> 00:41:50,550 Ви говорите јапански? 792 00:41:50,550 --> 00:41:52,840 То је врх столицу, зар не? 793 00:41:52,840 --> 00:41:54,480 >> СТУДЕНТСКА: Ја не знам шта канђи тамо је. 794 00:41:54,480 --> 00:41:57,010 >> ЛУЦАС ФРЕИТАС: Прошло [СПЕАКИНГ ЈАПАНЕСЕ] 795 00:41:57,010 --> 00:41:57,950 У реду. 796 00:41:57,950 --> 00:42:00,960 Тако да у основи значи столицу врху. 797 00:42:00,960 --> 00:42:03,620 Дакле, ако сте морали да ставите размак било би овде. 798 00:42:03,620 --> 00:42:05,970 И онда имате [? Уеда-сан. ?] 799 00:42:05,970 --> 00:42:09,040 Што у основи значи господине Уеда. 800 00:42:09,040 --> 00:42:13,180 А ви видите да је "Уеда" и имате простор и затим "Сан". Па видиш да 801 00:42:13,180 --> 00:42:15,470 овде ти "Уе" је као по себи. 802 00:42:15,470 --> 00:42:17,750 И овде има карактер поред њега. 803 00:42:17,750 --> 00:42:21,720 >> Дакле, то није као у тим језицима карактера што значи реч, тако да је 804 00:42:21,720 --> 00:42:23,980 само стави пуно простора. 805 00:42:23,980 --> 00:42:25,500 Карактери међусобно повезани. 806 00:42:25,500 --> 00:42:28,680 И они могу бити заједно као два, три, један. 807 00:42:28,680 --> 00:42:34,520 Дакле, ви заправо имате да створи неку врсту од начина стављања ове просторе. 808 00:42:34,520 --> 00:42:38,850 >> А ова ствар је да кад год се подаци из тих азијских језика, 809 00:42:38,850 --> 00:42:40,580 све долази унсегментед. 810 00:42:40,580 --> 00:42:45,940 Јер нико ко пише јапански или кинески пише са размацима. 811 00:42:45,940 --> 00:42:48,200 Кад год пишете кинески, Јапански само писати све 812 00:42:48,200 --> 00:42:48,710 без размака. 813 00:42:48,710 --> 00:42:52,060 То чак и не смисла да стави просторе. 814 00:42:52,060 --> 00:42:57,960 Па онда када добијете податке из неке Источноазијске језик, ако желите да 815 00:42:57,960 --> 00:43:00,760 заправо нешто са тим морате прво сегменту. 816 00:43:00,760 --> 00:43:05,130 >> Размислите да ради на примеру текстови без размака. 817 00:43:05,130 --> 00:43:07,950 Дакле, једини текст који имате ће бити реченице, зар не? 818 00:43:07,950 --> 00:43:09,470 Одвојен од периодима. 819 00:43:09,470 --> 00:43:13,930 Али онда имати само казну ће не стварно помоћи на давање информација 820 00:43:13,930 --> 00:43:17,760 ко ти текстови су по. 821 00:43:17,760 --> 00:43:18,120 Зар не? 822 00:43:18,120 --> 00:43:20,010 Дакле, требало би прво ставља просторе. 823 00:43:20,010 --> 00:43:21,990 Па како можеш то да урадиш? 824 00:43:21,990 --> 00:43:24,920 >> Дакле, онда долази идеја о језику Модел који је нешто стварно 825 00:43:24,920 --> 00:43:26,870 важно за рачунске лингвистика. 826 00:43:26,870 --> 00:43:32,790 Дакле, модел језик је у основи табела вероватноће да показује 827 00:43:32,790 --> 00:43:36,260 пре свега шта је вероватноћа да имају реч на језику? 828 00:43:36,260 --> 00:43:39,590 Дакле, показујући како често реч. 829 00:43:39,590 --> 00:43:43,130 А онда такође показује однос између речи у реченици. 830 00:43:43,130 --> 00:43:51,500 >> Дакле, главна идеја је, ако странац дошао вама и рекао да казна 831 00:43:51,500 --> 00:43:55,600 ви, шта је вероватноћа да, за пример, "ово је моја сестра [? ГТФ"?] 832 00:43:55,600 --> 00:43:57,480 је реченица коју је особа рекла? 833 00:43:57,480 --> 00:44:00,380 Дакле, очигледно неке реченице су чешћи од других. 834 00:44:00,380 --> 00:44:04,450 На пример, "добро јутро", или "добро ноћ ", или" здраво "је много више 835 00:44:04,450 --> 00:44:08,260 заједничког него већина реченица да имамо енглески. 836 00:44:08,260 --> 00:44:11,060 Па зашто су те реченице чешћи? 837 00:44:11,060 --> 00:44:14,060 >> Пре свега, то је зато што имате речи које су чешће. 838 00:44:14,060 --> 00:44:20,180 Тако, на пример, ако кажете, пас је велика, а пас је гигантски, ви 839 00:44:20,180 --> 00:44:23,880 обично вероватно чули пас је велика чешће јер "велики" је више 840 00:44:23,880 --> 00:44:27,260 честе у енглеском језику него "гигантски". Дакле, једна од 841 00:44:27,260 --> 00:44:30,100 ствари је реч фреквенција. 842 00:44:30,100 --> 00:44:34,490 >> Друга ствар која је заиста важно је само 843 00:44:34,490 --> 00:44:35,490 редослед речи. 844 00:44:35,490 --> 00:44:39,500 Дакле, то је уобичајено да се каже "мачка унутар кутије. "али ви не урадите обично 845 00:44:39,500 --> 00:44:44,250 видети у "кутији унутра је мачка." тако Ви видите да постоји неки значај 846 00:44:44,250 --> 00:44:46,030 у редоследу речи. 847 00:44:46,030 --> 00:44:50,160 Не можете само рећи да су два реченице имају исту вероватноћу 848 00:44:50,160 --> 00:44:53,010 само зато што имају исте речи. 849 00:44:53,010 --> 00:44:55,550 Ти стварно треба да брине о циљу, као добро. 850 00:44:55,550 --> 00:44:57,650 Смисла? 851 00:44:57,650 --> 00:44:59,490 >> Па шта да радимо? 852 00:44:59,490 --> 00:45:01,550 Дакле, оно што ја могу покушати да вас? 853 00:45:01,550 --> 00:45:04,400 Ја покушавам да вам оно што смо позвати н-грам моделе. 854 00:45:04,400 --> 00:45:09,095 Дакле н-грам модели у основи претпостављају да за сваку реч која 855 00:45:09,095 --> 00:45:10,960 имате у једној реченици. 856 00:45:10,960 --> 00:45:15,020 То је вероватноћа да то речи по зависи не само на 857 00:45:15,020 --> 00:45:18,395 учесталост те речи у језику, али и на речи које 858 00:45:18,395 --> 00:45:19,860 су га окружује. 859 00:45:19,860 --> 00:45:25,810 >> Тако, на пример, обично када видиш нешто слично или сте на 860 00:45:25,810 --> 00:45:28,040 Вероватно ће се видети именица после тога, зар не? 861 00:45:28,040 --> 00:45:31,750 Јер када имате предлог обично је потребно именицу после њега. 862 00:45:31,750 --> 00:45:35,540 Или ако имате глагол који је прелазан обично се дешава да се 863 00:45:35,540 --> 00:45:36,630 имају именица фразу. 864 00:45:36,630 --> 00:45:38,780 Дакле, то ће имати именицу негде око ње. 865 00:45:38,780 --> 00:45:44,950 >> Дакле, у основи, оно што ради је да се сматра да је вероватноћа постојања 866 00:45:44,950 --> 00:45:47,960 речи поред другог, када ви израчунавање 867 00:45:47,960 --> 00:45:49,050 вероватноћа реченице. 868 00:45:49,050 --> 00:45:50,960 И то је оно што је језик модел је у основи. 869 00:45:50,960 --> 00:45:54,620 Само кажем шта је вероватноћа поседовања специфичне 870 00:45:54,620 --> 00:45:57,120 реченица на језику? 871 00:45:57,120 --> 00:45:59,110 Па зашто је то корисно, у основи? 872 00:45:59,110 --> 00:46:02,390 И пре свега шта је н-грам модел, онда? 873 00:46:02,390 --> 00:46:08,850 >> Дакле, н-грам модел значи да свака реч зависи 874 00:46:08,850 --> 00:46:12,700 следећи Н минус 1 речи. 875 00:46:12,700 --> 00:46:18,150 Дакле, у основи, то значи да ако изгледам, на пример, у ЦС50 ТФ када 876 00:46:18,150 --> 00:46:21,500 Ја израчунавања вероватноће реченица, ви ћете бити као " 877 00:46:21,500 --> 00:46:25,280 вероватноћа да реч "" пута вероватноћа да " 878 00:46:25,280 --> 00:46:31,720 ЦС50 "пута вероватноћа да "ЦС50 ТФ." Дакле, у основи, ја рачунати 879 00:46:31,720 --> 00:46:35,720 сви могући начини да се протеже. 880 00:46:35,720 --> 00:46:41,870 >> А онда обично кад радиш ово, као у пројекту, можете ставити Н да буде 881 00:46:41,870 --> 00:46:42,600 ниска вредност. 882 00:46:42,600 --> 00:46:45,930 Дакле, обично имају биграми или триграма. 883 00:46:45,930 --> 00:46:51,090 Значи да сте управо рачунати две речима, група од две речи, или три речи, 884 00:46:51,090 --> 00:46:52,620 само за проблеме у раду. 885 00:46:52,620 --> 00:46:56,395 А и зато што можда ако имате нешто попут "Тхе ЦС50 ТФ." Када 886 00:46:56,395 --> 00:47:00,510 имају "ТФ", веома је важно да "ЦС50" је поред њега, зар не? 887 00:47:00,510 --> 00:47:04,050 Те две ствари су обично једни поред других. 888 00:47:04,050 --> 00:47:06,410 >> Ако мислите о "ТФ", то је вероватно ће имати шта 889 00:47:06,410 --> 00:47:07,890 то је класа за ТФ'инг. 890 00:47:07,890 --> 00:47:11,330 Такође, "" је заиста важно за ЦС50 ТФ. 891 00:47:11,330 --> 00:47:14,570 Али, ако имате нешто као "Тхе ЦС50 ТФ је отишао у класи и дали своје 892 00:47:14,570 --> 00:47:20,060 студенти неки слаткиш. "" Цанди "и" " нема везе стварно, зар не? 893 00:47:20,060 --> 00:47:23,670 Они су толико удаљене једна од друге да то није битно ста 894 00:47:23,670 --> 00:47:25,050 речи имате. 895 00:47:25,050 --> 00:47:31,210 >> Тако радећи биграмом или триграм, она само значи да сте ограничавајући 896 00:47:31,210 --> 00:47:33,430 себи да неке речи који су око. 897 00:47:33,430 --> 00:47:35,810 Смисла? 898 00:47:35,810 --> 00:47:40,630 Дакле, када желите да урадите сегментација, у основи, оно што желите да урадите је да види 899 00:47:40,630 --> 00:47:44,850 шта су сви могући начини да можете сегменту реченицу. 900 00:47:44,850 --> 00:47:49,090 >> Такав да видиш шта је вероватноћа сваког од тих реченица 901 00:47:49,090 --> 00:47:50,880 постоји у језику? 902 00:47:50,880 --> 00:47:53,410 Дакле, оно што радите је као, добро, нека ја покушати да стави размак овде. 903 00:47:53,410 --> 00:47:55,570 Тако сте ставили тамо размак а ви видите шта је 904 00:47:55,570 --> 00:47:57,590 вероватноћа реченице? 905 00:47:57,590 --> 00:48:00,240 Онда сте као, у реду, можда да није био тако добар. 906 00:48:00,240 --> 00:48:03,420 Зато сам ставио размак тамо и простор тамо, а ви израчунати 907 00:48:03,420 --> 00:48:06,240 вероватноћа сада, а ви видите да то је већа вероватноћа. 908 00:48:06,240 --> 00:48:12,160 >> Дакле, ово је алгоритам се зове ТАНГО сегментација алгоритам, који је 909 00:48:12,160 --> 00:48:14,990 заправо нешто што би било заиста кул за пројекат, који 910 00:48:14,990 --> 00:48:20,860 у основи има унсегментед текст који може бити јапански или кинески или можда 911 00:48:20,860 --> 00:48:26,080 Енглески без размака и покушава да стави размака између речи и то ради 912 00:48:26,080 --> 00:48:29,120 да помоћу модела језика и покушава да види шта је највиши 913 00:48:29,120 --> 00:48:31,270 вероватноћа можете добити. 914 00:48:31,270 --> 00:48:32,230 У реду. 915 00:48:32,230 --> 00:48:33,800 Дакле, ово је сегментација. 916 00:48:33,800 --> 00:48:35,450 >> Сада синтакса. 917 00:48:35,450 --> 00:48:40,940 Дакле, синтакса се користи за управо сад толико ствари. 918 00:48:40,940 --> 00:48:44,880 Дакле, за Грапх Сеарцх, за Сири за прилично било какве природне 919 00:48:44,880 --> 00:48:46,490 обрада језик имате. 920 00:48:46,490 --> 00:48:49,140 Дакле, оно што су важни ствари о синтакси? 921 00:48:49,140 --> 00:48:52,390 Дакле, реченица у целини имају оно што ми зовемо састојке. 922 00:48:52,390 --> 00:48:57,080 Које су врсте као група речи који имају функцију у реченици. 923 00:48:57,080 --> 00:49:02,220 И они не могу заиста бити један од другог. 924 00:49:02,220 --> 00:49:07,380 >> Дакле, ако ја кажем, на пример, "Лорен воли Мило. "Знам да је" Лорен "је 925 00:49:07,380 --> 00:49:10,180 саставни и онда "воли Мило "је такође још један. 926 00:49:10,180 --> 00:49:16,860 Зато што не могу да кажем као "Лорен Мило воли "да имају исто значење. 927 00:49:16,860 --> 00:49:18,020 Неће имати исто значење. 928 00:49:18,020 --> 00:49:22,500 Или ја не могу да кажем као "Мило Лаурен воли. "Не мора све исто 929 00:49:22,500 --> 00:49:25,890 што значи да ради. 930 00:49:25,890 --> 00:49:31,940 >> Дакле две важније ствари о синтакса су лексички врсте који је 931 00:49:31,940 --> 00:49:35,390 у основи функција вам да имају за речи саме од себе. 932 00:49:35,390 --> 00:49:39,180 Дакле, морате да знате да је "Лорен" и "Мило" су именице. 933 00:49:39,180 --> 00:49:41,040 "Љубав" је глагол. 934 00:49:41,040 --> 00:49:45,660 И друга важна ствар је да су Пхрасал врсте. 935 00:49:45,660 --> 00:49:48,990 Дакле, ви знате да је "воли Мило" је заправо вербална фраза. 936 00:49:48,990 --> 00:49:52,390 Дакле, када кажем "Лорен," Знам да Лорен ради нешто. 937 00:49:52,390 --> 00:49:53,620 Шта она ради? 938 00:49:53,620 --> 00:49:54,570 Она воли Мило. 939 00:49:54,570 --> 00:49:56,440 Тако да је цела ствар. 940 00:49:56,440 --> 00:50:01,640 Али његове компоненте су именица и глагол. 941 00:50:01,640 --> 00:50:04,210 Али заједно, они чине глаголска фраза. 942 00:50:04,210 --> 00:50:08,680 >> Дакле, шта можемо да урадимо у ствари са рачунска лингвистика? 943 00:50:08,680 --> 00:50:13,810 Дакле, ако ја имам нешто за пример "пријатељи Алисон." Ја видим да сам само 944 00:50:13,810 --> 00:50:17,440 нисам синтаксичка дрво ја бих знао да "Пријатељи" је именица фраза је 945 00:50:17,440 --> 00:50:21,480 именица и затим "од Аллисон" је предложни фраза у којој "од" је 946 00:50:21,480 --> 00:50:24,810 пропозиција и "Аллисон" је именица. 947 00:50:24,810 --> 00:50:30,910 Шта сам могао да урадим је научити свој рачунар да када имам именица фразу једну и 948 00:50:30,910 --> 00:50:33,080 онда предложни фраза. 949 00:50:33,080 --> 00:50:39,020 Дакле, у овом случају, "пријатељи" и онда "од Мило "Знам да то значи да 950 00:50:39,020 --> 00:50:43,110 НП2, други, поседује НП1. 951 00:50:43,110 --> 00:50:47,680 >> Тако да могу да створе неку врсту односа, нека функција за то. 952 00:50:47,680 --> 00:50:52,370 Дакле, кад год видим ову структуру, која поклапа тачно са "пријатељима 953 00:50:52,370 --> 00:50:56,030 Алисон, "Ја знам да је Алисон поседује пријатеље. 954 00:50:56,030 --> 00:50:58,830 Дакле, пријатељи су нешто да Алисон има. 955 00:50:58,830 --> 00:50:59,610 Има смисла? 956 00:50:59,610 --> 00:51:01,770 Дакле, то је у основи оно што Графикон Тражи ради. 957 00:51:01,770 --> 00:51:04,360 То само ствара правила за многе ствари. 958 00:51:04,360 --> 00:51:08,190 Тако "пријатељи Аллисон", "моји пријатељи који живе у Кембриџу, "" моје пријатеље 959 00:51:08,190 --> 00:51:12,970 који иду на Харвард. "То ствара правила за све те ствари. 960 00:51:12,970 --> 00:51:14,930 >> Сада машинско превођење. 961 00:51:14,930 --> 00:51:18,850 Дакле, машина превод је такође нешто статисти. 962 00:51:18,850 --> 00:51:21,340 А заправо, ако се укључе у рачунска лингвистика, много 963 00:51:21,340 --> 00:51:23,580 твоје ствари ће бити статистика. 964 00:51:23,580 --> 00:51:26,670 Дакле, као што сам радио пример са доста вероватноће да сам био 965 00:51:26,670 --> 00:51:30,540 обрачуна, а онда ти се ово Веома мали број да је коначна 966 00:51:30,540 --> 00:51:33,180 вероватноћа, а то је оно што вам даје одговор. 967 00:51:33,180 --> 00:51:37,540 Машина превод такође користи статистички модел. 968 00:51:37,540 --> 00:51:44,790 А ако желите да мислим о машини превод на најједноставнији могући 969 00:51:44,790 --> 00:51:48,970 начин, оно што можете да мислите да је само преводити реч по реч, зар не? 970 00:51:48,970 --> 00:51:52,150 >> Када сте учења језика за Први пут, то је обично оно што 971 00:51:52,150 --> 00:51:52,910 радиш, зар не? 972 00:51:52,910 --> 00:51:57,050 Ако желите можете превести реченицу на вашем језику на језику 973 00:51:57,050 --> 00:52:00,060 учите, обично прво, ти превести сваки од речи 974 00:52:00,060 --> 00:52:03,180 појединачно, а онда покушавате ставити речи на своје место. 975 00:52:03,180 --> 00:52:07,100 >> Дакле, ако сам хтео да преведе ово, [СПЕАКИНГ ПОРТУГАЛСКИ] 976 00:52:07,100 --> 00:52:10,430 што значи "бела мачка побегла." Да сам хтео да га преведе из 977 00:52:10,430 --> 00:52:13,650 Португалски на енглески, оно што сам могао је, прво, ја само 978 00:52:13,650 --> 00:52:14,800 преводити реч по реч. 979 00:52:14,800 --> 00:52:20,570 Дакле, "О" је "," "Гато," "мачка", "Бранко", "бело", а затим "фугио" је 980 00:52:20,570 --> 00:52:21,650 "Побегао." 981 00:52:21,650 --> 00:52:26,130 >> Па онда имам све речи овде, али они нису у реду. 982 00:52:26,130 --> 00:52:29,590 То је као "мачка бели побегао" који је неграматички. 983 00:52:29,590 --> 00:52:34,490 Дакле, онда ја могу да имам други корак, који ће бити проналажење идеалног 984 00:52:34,490 --> 00:52:36,610 позиција за сваки од речи. 985 00:52:36,610 --> 00:52:40,240 Тако знам да сам заправо желе да имају "Бела мачка" уместо "Цат Вхите." Тако 986 00:52:40,240 --> 00:52:46,050 шта ја могу да урадим је, највише наиван метод би било да створити све 987 00:52:46,050 --> 00:52:49,720 могућих пермутација речи, позиција. 988 00:52:49,720 --> 00:52:53,300 А онда видите који се има Највећа вероватноћа према 989 00:52:53,300 --> 00:52:54,970 на мом моделу језика. 990 00:52:54,970 --> 00:52:58,390 И онда када сам наћи онај који има највиши је вероватноћа, што је 991 00:52:58,390 --> 00:53:01,910 вероватно "бела мачка побегла," то је мој превод. 992 00:53:01,910 --> 00:53:06,710 >> И то је једноставан начин да се објасни како пуно машинског превођења 993 00:53:06,710 --> 00:53:07,910 алгоритми раде. 994 00:53:07,910 --> 00:53:08,920 Да ли то смисла? 995 00:53:08,920 --> 00:53:12,735 То је такође нешто заиста узбудљиво да се ви можда истражују за 996 00:53:12,735 --> 00:53:13,901 коначни пројекат, да? 997 00:53:13,901 --> 00:53:15,549 >> СТУДЕНТСКИ: Па, рекли сте да је наиван начин, тако што је 998 00:53:15,549 --> 00:53:17,200 не-наивни начин? 999 00:53:17,200 --> 00:53:18,400 >> ЛУЦАС ФРЕИТАС: нису наиван начин? 1000 00:53:18,400 --> 00:53:19,050 У реду. 1001 00:53:19,050 --> 00:53:22,860 Дакле, прва ствар која је лоше око овај метод је да управо сам превео 1002 00:53:22,860 --> 00:53:24,330 речи, реч по реч. 1003 00:53:24,330 --> 00:53:30,570 Али понекад имате речи које може имати више превода. 1004 00:53:30,570 --> 00:53:32,210 Ја ћу покушати да мисле нечега. 1005 00:53:32,210 --> 00:53:37,270 На пример, "Манга", у португалском лименци бити или "мангле" или "рукав." Тако 1006 00:53:37,270 --> 00:53:40,450 када покушавате да преведете реч по реч, могло би се ти дајем 1007 00:53:40,450 --> 00:53:42,050 нешто што нема смисла. 1008 00:53:42,050 --> 00:53:45,770 >> Дакле, ви у ствари желите да погледате све могући преводи 1009 00:53:45,770 --> 00:53:49,840 речи и види, пре свега, шта је ред. 1010 00:53:49,840 --> 00:53:52,000 Причали смо о пермутатинг ствари? 1011 00:53:52,000 --> 00:53:54,150 Да бисте видели све могуће налоге и изабрати онај са највишим 1012 00:53:54,150 --> 00:53:54,990 вероватноћа? 1013 00:53:54,990 --> 00:53:57,860 Такође можете да изаберете све могуће преводи за сваки 1014 00:53:57,860 --> 00:54:00,510 реч и онда видети - 1015 00:54:00,510 --> 00:54:01,950 у комбинацији са пермутација - 1016 00:54:01,950 --> 00:54:03,710 којих једна има највећу вероватноћу. 1017 00:54:03,710 --> 00:54:08,590 >> Плус, можете да погледате не само речи већ фразе. 1018 00:54:08,590 --> 00:54:11,700 тако да можете да анализирате односе између речи и онда се 1019 00:54:11,700 --> 00:54:13,210 бољи превод. 1020 00:54:13,210 --> 00:54:16,690 Такође нешто друго, тако да овај семестар Ја заправо радим истраживања у 1021 00:54:16,690 --> 00:54:19,430 Кинески-енглески машинско превођење, тако превођење из 1022 00:54:19,430 --> 00:54:20,940 Кинески на енглески језик. 1023 00:54:20,940 --> 00:54:26,760 >> И нешто што ми радимо је, поред коришћења статистички модел, који је управо 1024 00:54:26,760 --> 00:54:30,570 види вероватноће види неки положај у једној реченици, ја сам 1025 00:54:30,570 --> 00:54:35,360 заправо такође додао неке синтаксе на мој модела, говорећи, ох, ако видим овакве 1026 00:54:35,360 --> 00:54:39,420 изградње, ово је оно што ја желим да га променити кад сам превести. 1027 00:54:39,420 --> 00:54:43,880 Дакле, можете да додате и неку врсту елемент синтаксе да би 1028 00:54:43,880 --> 00:54:47,970 превод ефикасније и прецизнији. 1029 00:54:47,970 --> 00:54:48,550 У реду. 1030 00:54:48,550 --> 00:54:51,010 >> Дакле, како можете да почнете, ако желите да уради нешто у рачунарској 1031 00:54:51,010 --> 00:54:51,980 лингвистика? 1032 00:54:51,980 --> 00:54:54,560 >> Прво, бирате пројекат који укључује језике. 1033 00:54:54,560 --> 00:54:56,310 Дакле, ту је тако много тамо. 1034 00:54:56,310 --> 00:54:58,420 Има толико ствари које можете да урадите. 1035 00:54:58,420 --> 00:55:00,510 И онда могу да се сетим модела које можете да користите. 1036 00:55:00,510 --> 00:55:04,710 Обично то значи размишљање претпоставке, као као, ох, кад сам био 1037 00:55:04,710 --> 00:55:05,770 као размишљања стихова. 1038 00:55:05,770 --> 00:55:09,510 Била сам као, добро, ако желим да схватим од који је написао ово, ја вероватно желите 1039 00:55:09,510 --> 00:55:15,400 да погледате речима особа користи и види ко користи ту реч врло често. 1040 00:55:15,400 --> 00:55:18,470 Дакле, покушајте да претпоставке и покушати да мислим на моделе. 1041 00:55:18,470 --> 00:55:21,395 А онда можете да претражујете на мрежи за врста проблема који имате, 1042 00:55:21,395 --> 00:55:24,260 и то ће предложити да вас моделе који можда 1043 00:55:24,260 --> 00:55:26,560 узору добро ту ствар. 1044 00:55:26,560 --> 00:55:29,080 >> А такође можете увек ми е-маил. 1045 00:55:29,080 --> 00:55:31,140 ме@лфреитас.цом. 1046 00:55:31,140 --> 00:55:34,940 И ја само могу да одговорим на ваша питања. 1047 00:55:34,940 --> 00:55:38,600 Ми чак може срести горе тако да могу дају предлоге о начинима 1048 00:55:38,600 --> 00:55:41,490 спровођење ваш пројекат. 1049 00:55:41,490 --> 00:55:45,610 И мислим, ако се укључе у рачунска лингвистика, то ће 1050 00:55:45,610 --> 00:55:46,790 да буде велики. 1051 00:55:46,790 --> 00:55:48,370 Ти ћеш видети тамо је тако много потенцијала. 1052 00:55:48,370 --> 00:55:52,060 И индустрија жели да запосли ти тако лоше због тога. 1053 00:55:52,060 --> 00:55:54,720 Тако да се надам да сте уживали ово. 1054 00:55:54,720 --> 00:55:57,030 Ако ви имате било каква питања, можете да ме питате после овога. 1055 00:55:57,030 --> 00:55:58,280 Али хвала ти. 1056 00:55:58,280 --> 00:56:00,150