1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Фрейташ: Гэй. 3 00:00:08,870 --> 00:00:09,980 Вітаю ўсіх. 4 00:00:09,980 --> 00:00:11,216 Мяне клічуць Лукас Фрейтас. 5 00:00:11,216 --> 00:00:15,220 Я малодшы ў [неразборліва] вывучэння інфарматыка з акцэнтам ў 6 00:00:15,220 --> 00:00:16,410 кампутарная лінгвістыка. 7 00:00:16,410 --> 00:00:19,310 Так што мой другасны знаходзіцца ў мове і лінгвістычная тэорыя. 8 00:00:19,310 --> 00:00:21,870 Я сапраўды ўсхваляваны, каб навучыць вас, хлопцы крыху пра полі. 9 00:00:21,870 --> 00:00:24,300 Гэта вельмі захапляльная вобласць для вывучэння. 10 00:00:24,300 --> 00:00:27,260 Таксама з вялікім патэнцыялам на будучыню. 11 00:00:27,260 --> 00:00:30,160 Так што, я вельмі рады, што вы, хлопцы, разглядаюць праекты ў 12 00:00:30,160 --> 00:00:31,160 кампутарная лінгвістыка. 13 00:00:31,160 --> 00:00:35,460 І я буду больш чым шчаслівы раю Хто-небудзь з вас, калі вы вырашыце 14 00:00:35,460 --> 00:00:37,090 пераследваць адну з іх. 15 00:00:37,090 --> 00:00:40,010 >> Такім чынам, перш за ўсё, якія вылічальная лінгвістыка? 16 00:00:40,010 --> 00:00:44,630 Так кампутарная лінгвістыка з'яўляецца Скрыжаванне паміж лінгвістыкай і 17 00:00:44,630 --> 00:00:46,390 інфарматыка. 18 00:00:46,390 --> 00:00:47,415 Такім чынам, што такое лінгвістыка? 19 00:00:47,415 --> 00:00:48,490 Што такое інфарматыка? 20 00:00:48,490 --> 00:00:51,580 Ну ад лінгвістыкі, што мы прымаем з'яўляюцца мовамі. 21 00:00:51,580 --> 00:00:54,960 Так лінгвістыка на самай справе вывучэнне натуральнага мовы ў цэлым. 22 00:00:54,960 --> 00:00:58,330 Так натуральны мова - мы гаворым пра мова, які мы можам выкарыстоўваць, каб 23 00:00:58,330 --> 00:00:59,770 маюць зносіны адзін з адным. 24 00:00:59,770 --> 00:01:02,200 Так што мы не дакладна кажу аб З або Java. 25 00:01:02,200 --> 00:01:05,900 Мы гаворым больш пра англійскай і Кітайскі і іншыя мовы, якія мы 26 00:01:05,900 --> 00:01:07,780 выкарыстоўваць для сувязі адзін з адным. 27 00:01:07,780 --> 00:01:12,470 >> Складаная рэч аб тым, што ў тым, што Прама цяпер у нас ёсць амаль 7000 28 00:01:12,470 --> 00:01:14,260 моў у свеце. 29 00:01:14,260 --> 00:01:19,520 Такім чынам, ёсць даволі высокі разнастайнасць моў, што мы можам вучыцца. 30 00:01:19,520 --> 00:01:22,600 А потым вы думаеце, што гэта, верагодна, вельмі цяжка зрабіць, напрыклад, 31 00:01:22,600 --> 00:01:26,960 пераклад з адной мовы на іншым, улічваючы, што вы павінны 32 00:01:26,960 --> 00:01:28,240 амаль 7000 з іх. 33 00:01:28,240 --> 00:01:31,450 Так што, калі вы думаеце, што рабіць пераклад з адной мовы на іншую, вы 34 00:01:31,450 --> 00:01:35,840 ёсць ці ледзь не больш, чым на мільён розныя камбінацыі, якія вы можаце 35 00:01:35,840 --> 00:01:37,330 ёсць ад мовы да мовы. 36 00:01:37,330 --> 00:01:40,820 Так што гэта сапраўды выклік, каб зрабіць некаторыя Такая сістэма прыкладам пераклад 37 00:01:40,820 --> 00:01:43,540 кожны мову. 38 00:01:43,540 --> 00:01:47,120 >> Так, лінгвістыка ставіцца з сінтаксісам, семантыка, прагматыка. 39 00:01:47,120 --> 00:01:49,550 Вы, хлопцы сапраўды не трэба ведаць, што яны ёсць. 40 00:01:49,550 --> 00:01:55,090 Але вельмі цікавая рэч у тым, што як носьбіт, калі вы даведаецеся, 41 00:01:55,090 --> 00:01:59,010 мова як дзіцяці, вы на самой справе даведацца ўсе з тых рэчаў, - семантыка сінтаксіс 42 00:01:59,010 --> 00:02:00,500 і прагматыка - 43 00:02:00,500 --> 00:02:01,430 самастойна. 44 00:02:01,430 --> 00:02:04,820 І ніхто не павінен вучыць вас сінтаксіс вам зразумець, як прысуды 45 00:02:04,820 --> 00:02:05,290 структураваныя. 46 00:02:05,290 --> 00:02:07,980 Такім чынам, гэта сапраўды цікава, таму што гэта тое, што прыходзіць вельмі 47 00:02:07,980 --> 00:02:10,389 інтуітыўна. 48 00:02:10,389 --> 00:02:13,190 >> І што вы прымаеце ад інфарматыка? 49 00:02:13,190 --> 00:02:16,700 Ну і самае галоўнае, што мы ёсць у інфарматыцы, у першую 50 00:02:16,700 --> 00:02:19,340 усё, штучны інтэлект і машыннае навучанне. 51 00:02:19,340 --> 00:02:22,610 Такім чынам, што мы спрабуем рабіць вылічальная лінгвістыка з'яўляецца навучыць 52 00:02:22,610 --> 00:02:26,990 ваш кампутар, як зрабіць што-то з мовай. 53 00:02:26,990 --> 00:02:28,630 >> Так, напрыклад, у машыне пераклад. 54 00:02:28,630 --> 00:02:32,490 Я хацеў бы навучыць мой кампутар хаў ведаць, як пераход ад адной 55 00:02:32,490 --> 00:02:33,310 мовы на іншы. 56 00:02:33,310 --> 00:02:35,790 Так, у асноўным падабаецца вучэнне кампутарныя дзве мовы. 57 00:02:35,790 --> 00:02:38,870 Калі я раблю апрацоўкі натуральнай мовы, што мае месца, напрыклад, з 58 00:02:38,870 --> 00:02:41,810 Facebook, Графік Пошук, вы вучыце ваш кампутар, як зразумець 59 00:02:41,810 --> 00:02:42,730 Запыты таксама. 60 00:02:42,730 --> 00:02:48,130 >> Так што, калі вы кажаце "фотаздымкаў майго сябры. "Facebook не лечыць, што 61 00:02:48,130 --> 00:02:51,130 ў цэлым радкі, якая мае проста куча слоў. 62 00:02:51,130 --> 00:02:56,020 Гэта на самой справе разумее адносіны паміж "фота" ​​і "маіх сяброў" і 63 00:02:56,020 --> 00:02:59,620 разумее, што "фота" ​​з'яўляюцца уласнасцю "маіх сяброў". 64 00:02:59,620 --> 00:03:02,350 >> Так, што гэта частка, напрыклад, апрацоўкі натуральнай мовы. 65 00:03:02,350 --> 00:03:04,790 Ён спрабуе зразумець, што гэта стаўленне паміж 66 00:03:04,790 --> 00:03:07,520 слова ў сказе. 67 00:03:07,520 --> 00:03:11,170 І вялікае пытанне, ці не так навучыць кампутар, як казаць 68 00:03:11,170 --> 00:03:12,650 мову ў цэлым? 69 00:03:12,650 --> 00:03:17,810 Што вельмі цікавае пытанне, каб думаю, як бы, можа быць, у будучыні, 70 00:03:17,810 --> 00:03:19,930 вы збіраецеся быць у стане гаварыць на свой мабільны тэлефон. 71 00:03:19,930 --> 00:03:23,290 Накшталт як тое, што мы робім з Siri, але нешта большае, як, вы можаце на самой справе 72 00:03:23,290 --> 00:03:25,690 казаць усё, што вы хочаце, і тэлефон збіраецца ўсё разумею. 73 00:03:25,690 --> 00:03:28,350 І гэта можа мець наступныя пытанні і працягваць гаварыць. 74 00:03:28,350 --> 00:03:30,880 Гэта тое, што сапраўды цікава, на мой погляд. 75 00:03:30,880 --> 00:03:33,070 >> Так, нешта аб натуральных мовах. 76 00:03:33,070 --> 00:03:36,220 Нешта сапраўды цікава натуральныя мовы, што і гэта 77 00:03:36,220 --> 00:03:38,470 крэдыт на мой прафесар лінгвістыкі, Марыя Полинский. 78 00:03:38,470 --> 00:03:40,830 Яна прыводзіць прыклад, і я думаю, гэта сапраўды цікава. 79 00:03:40,830 --> 00:03:47,060 Таму што мы вывучыць мову ад таго, калі мы нарадзіліся, а затым наш родны 80 00:03:47,060 --> 00:03:49,170 мова выгляд расце на нас. 81 00:03:49,170 --> 00:03:52,570 >> І ў асноўным вы даведаецеся мову ад мінімальнай магутнасцю, ці не так? 82 00:03:52,570 --> 00:03:56,700 Ты проста атрыманні ўводу з вашага бацькі, што гучыць ваш мову 83 00:03:56,700 --> 00:03:58,770 падабаецца, і вы проста навучыцца. 84 00:03:58,770 --> 00:04:02,240 Такім чынам, гэта цікава, таму што калі вы паглядзіце на гэтых прапаноў, напрыклад. 85 00:04:02,240 --> 00:04:06,980 Глядзіш, "Мэры апранае паліто кожнага раз яна сыходзіць з хаты ". 86 00:04:06,980 --> 00:04:10,650 >> У гэтым выпадку, магчыма, каб мець Слова "яна" ставяцца да Марыі, ці не так? 87 00:04:10,650 --> 00:04:13,500 Вы можаце сказаць: "Марыя ставіць на паліто кожны раз, калі Мэры пакідае 88 00:04:13,500 --> 00:04:14,960 дом. ", так што ўсё ў парадку. 89 00:04:14,960 --> 00:04:19,370 Але тады, калі вы паглядзіце на прапановы "Яна апранае паліто кожны раз Мэры 90 00:04:19,370 --> 00:04:22,850 выходзіць з хаты. "Вы ведаеце, што гэта Нельга сказаць, што "яна" з'яўляецца 91 00:04:22,850 --> 00:04:24,260 спасылаючыся на Марыі. 92 00:04:24,260 --> 00:04:27,070 >> Там няма спосаб сказаць, што "Марыя ставіць на паліто кожны раз Мэры пакідае 93 00:04:27,070 --> 00:04:30,790 дом. "Так што гэта цікава, таму што гэта выгляд інтуіцыі 94 00:04:30,790 --> 00:04:32,890 што кожны носьбіт мовы мае. 95 00:04:32,890 --> 00:04:36,370 І ніхто не вучылі, што гэта так, што сінтаксіс працуе. 96 00:04:36,370 --> 00:04:41,930 І што вы можаце мець толькі гэты "яна" спасылаючыся на Марыі ў гэтым першым выпадку, 97 00:04:41,930 --> 00:04:44,260 а на самай справе ў гэтай другой таксама, але не ў гэтым. 98 00:04:44,260 --> 00:04:46,500 Але ўсё роду атрымлівае да таго ж адказу. 99 00:04:46,500 --> 00:04:48,580 Усе згодныя з тым на гэтым. 100 00:04:48,580 --> 00:04:53,280 Так што гэта сапраўды цікава, як хоць вы не ведаеце ўсіх правілаў 101 00:04:53,280 --> 00:04:55,575 на Вашым мове вы ўжо часткова разумею як працуе мову. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Так самае цікавае аб прыродных мова, што вы не павінны 104 00:05:01,530 --> 00:05:06,970 ведаю ні сінтаксіс ведаць, калі прысуд граматычна ці непісьменна для 105 00:05:06,970 --> 00:05:08,810 у большасці выпадкаў. 106 00:05:08,810 --> 00:05:13,220 Якая прымушае вас думаць, што, можа быць, тое, што адбываецца тое, што праз вашу жыццё, вы 107 00:05:13,220 --> 00:05:17,410 проста трымаць становіцца ўсё больш і больш прысуды сказаў вам. 108 00:05:17,410 --> 00:05:19,800 І тады вы трымаеце запамінання усе прапановы. 109 00:05:19,800 --> 00:05:24,230 А потым, калі хтосьці кажа вам, нешта, вы чуеце гэтую фразу і 110 00:05:24,230 --> 00:05:27,040 вы паглядзіце на вашага слоўнікавага запасу прысудаў і паглядзець, калі 111 00:05:27,040 --> 00:05:28,270 што прысуд ёсць. 112 00:05:28,270 --> 00:05:29,830 І калі яна ёсць у вас кажуць, што гэта граматычная. 113 00:05:29,830 --> 00:05:31,740 Калі гэта не вы сказаць, што гэта непісьменна. 114 00:05:31,740 --> 00:05:35,150 >> Так, у гэтым выпадку, вы б сказалі, о, так у вас ёсць вялікі спіс усіх 115 00:05:35,150 --> 00:05:36,140 магчымыя прапановы. 116 00:05:36,140 --> 00:05:38,240 А потым, калі вы чуеце фразу, Вы ведаеце, калі гэта граматычная або 117 00:05:38,240 --> 00:05:39,450 ня на яго аснове. 118 00:05:39,450 --> 00:05:42,360 Справа ў тым, што калі вы паглядзіце на фраза, напрыклад, " 119 00:05:42,360 --> 00:05:47,540 пятиглавый CS50 ТФ прыгатаваныя сляпых васьміног, выкарыстоўваючы DAPA кружку ". Гэта 120 00:05:47,540 --> 00:05:49,630 вызначана не прысуд што вы чулі раней. 121 00:05:49,630 --> 00:05:52,380 Але ў той жа час вы ведаеце, што гэта ў значнай ступені граматычных, ці не так? 122 00:05:52,380 --> 00:05:55,570 Там няма граматычных памылак і вы можаце сказаць, што 123 00:05:55,570 --> 00:05:57,020 гэта магчыма прысуд. 124 00:05:57,020 --> 00:06:01,300 >> Так што прымушае нас думаць, што на самой справе спосаб, якім мы даведаемся мова з'яўляецца не толькі 125 00:06:01,300 --> 00:06:07,090 , Маючы велізарную базу дадзеных можна слова ці прапановы, але больш 126 00:06:07,090 --> 00:06:11,490 разуменне суадносіны паміж слова ў гэтых прапановах. 127 00:06:11,490 --> 00:06:14,570 Ці мае гэта сэнс? 128 00:06:14,570 --> 00:06:19,370 Так, то пытанне ў тым, ці можа кампутары вывучаць мовы? 129 00:06:19,370 --> 00:06:21,490 Ці можам мы навучыць мову з кампутарамі? 130 00:06:21,490 --> 00:06:24,230 >> Такім чынам, давайце думаць аб адрозненні паміж носьбітам мовы 131 00:06:24,230 --> 00:06:25,460 і кампутар. 132 00:06:25,460 --> 00:06:27,340 Такім чынам, што ж адбываецца з дынамікам? 133 00:06:27,340 --> 00:06:30,430 Ну, носьбіт мовы пазнае мова ад уздзеяння на яго. 134 00:06:30,430 --> 00:06:34,200 Звычайна яе раннія дзіцячыя гады. 135 00:06:34,200 --> 00:06:38,570 Так, у асноўным, вы проста нарадзіць дзіця, і вы працягваць гаварыць з ім, і гэта 136 00:06:38,570 --> 00:06:40,540 проста вучыцца гаварыць мова, ці не так? 137 00:06:40,540 --> 00:06:42,660 Такім чынам, вы ў асноўным даючы уваход для дзіцяці. 138 00:06:42,660 --> 00:06:45,200 Так, вы можаце сцвярджаць, што кампутар можа зрабіць тое ж самае, ці не так? 139 00:06:45,200 --> 00:06:49,510 Вы можаце проста даць мове ў якасці ўкладу ў кампутары. 140 00:06:49,510 --> 00:06:53,410 >> Як, напрыклад, куча файлаў што ёсць кнігі на англійскай мове. 141 00:06:53,410 --> 00:06:56,190 Можа быць, гэта адзін са спосабаў, што вам маглі б навучыць 142 00:06:56,190 --> 00:06:57,850 кампутар англійская, ці не так? 143 00:06:57,850 --> 00:07:01,000 І на самай справе, калі вы думаеце пра гэта, яна прымае вас, можа быць, пару 144 00:07:01,000 --> 00:07:02,680 дзён, каб прачытаць кнігу. 145 00:07:02,680 --> 00:07:05,760 Для кампутара гэта займае секунды, каб глядзець на ўсе словы ў кнізе. 146 00:07:05,760 --> 00:07:10,810 Такім чынам, вы можаце думаць, што можа быць толькі гэты Аргумент ўкладу вакол вас, 147 00:07:10,810 --> 00:07:15,440 гэта не дастаткова, каб сказаць, што гэта тое, што толькі людзі могуць зрабіць. 148 00:07:15,440 --> 00:07:17,680 Вы можаце думаць кампутары таксама можаце атрымаць ўваход. 149 00:07:17,680 --> 00:07:21,170 >> Другая рэч, што носьбіты мовы таксама ёсць мозг, які мае 150 00:07:21,170 --> 00:07:23,870 Магчымасць вывучэння мовы. 151 00:07:23,870 --> 00:07:27,020 Але калі вы думаеце пра гэта, Мозг з'яўляецца цвёрдай рэччу. 152 00:07:27,020 --> 00:07:30,450 Калі вы нарадзіліся, гэта ўжо не ўстаноўлены - 153 00:07:30,450 --> 00:07:31,320 гэта ваш мозг. 154 00:07:31,320 --> 00:07:34,660 І, як ты вырасцеш, вы проста атрымаеце больш ўвод мове і, магчыма, пажыўныя рэчывы 155 00:07:34,660 --> 00:07:35,960 і іншыя рэчы. 156 00:07:35,960 --> 00:07:38,170 Але ў значнай ступені ваш мозг з'яўляецца цвёрдай рэччу. 157 00:07:38,170 --> 00:07:41,290 >> Так што вы можаце сказаць, ну, можа быць, вы можаце пабудаваць кампутар, які мае кучу 158 00:07:41,290 --> 00:07:45,890 функцыі і метады, якія проста імітуюць Магчымасць вывучэння мовы. 159 00:07:45,890 --> 00:07:49,630 Так што ў гэтым сэнсе, можна сказаць,, ну, я можа ёсць кампутар, які мае ўсе 160 00:07:49,630 --> 00:07:52,270 Што яшчэ варта вывучыць мову. 161 00:07:52,270 --> 00:07:56,200 І апошняе, што ў тым, што ураджэнец дынамік пазнае ад спроб і памылак. 162 00:07:56,200 --> 00:08:01,090 Таму ў асноўным яшчэ адна важная рэч у вывучэнне мовы з'яўляецца тое, што вы, здаецца, 163 00:08:01,090 --> 00:08:05,340 з даведацца рэчы, зрабіўшы абагульнення, што вы чуеце. 164 00:08:05,340 --> 00:08:10,280 >> Такім чынам, як вы растуць вы даведаецеся, што некаторыя словы больш падобныя назоўнікаў, 165 00:08:10,280 --> 00:08:11,820 некаторыя іншыя з іх прыметнікі. 166 00:08:11,820 --> 00:08:14,250 І вы не павінны ёсць якія-небудзь веданне лінгвістыкі 167 00:08:14,250 --> 00:08:15,040 зразумець, што. 168 00:08:15,040 --> 00:08:18,560 Але вы проста ведаю, што ёсць некаторыя словы размешчаны ў некаторай часткі 169 00:08:18,560 --> 00:08:22,570 Прысуд і некаторыя іншыя ў іншым часткі прысуду. 170 00:08:22,570 --> 00:08:26,110 >> І, што, калі вы робіце нешта, што як прысуд, які ня правільна - 171 00:08:26,110 --> 00:08:28,770 можа быць, з-за больш абагульнення напрыклад. 172 00:08:28,770 --> 00:08:32,210 Можа быць, калі вы вырастаеце, вы заўважыце, што множны лік, як правіла, 173 00:08:32,210 --> 00:08:35,809 фармуецца пакласці S на канец слова. 174 00:08:35,809 --> 00:08:40,042 А потым вы паспрабуеце зрабіць множны лік "Алень", як "аленяў" ці "зуб", як 175 00:08:40,042 --> 00:08:44,780 "Tooths". Такім чынам вашыя бацькі або хтосьці выпраўляе вас і кажа, няма, 176 00:08:44,780 --> 00:08:49,020 множны лік ад "Алень" з'яўляецца "алень", а множны лік ад "зуба" ёсць "зубы". А потым 177 00:08:49,020 --> 00:08:50,060 вы даведаецеся гэтыя рэчы. 178 00:08:50,060 --> 00:08:51,520 Дык вы даведаецеся з спроб і памылак. 179 00:08:51,520 --> 00:08:53,100 >> Але вы таксама можаце зрабіць гэта з кампутарам. 180 00:08:53,100 --> 00:08:55,310 Вы можаце мець тое, што называецца навучанне з падмацаваньнем. 181 00:08:55,310 --> 00:08:58,560 Якія ў асноўным, як даваць кампутар ўзнагарода, калі ён робіць 182 00:08:58,560 --> 00:08:59,410 нешта правільна. 183 00:08:59,410 --> 00:09:04,710 І надаўшы яму супрацьлеглае ўзнагароды і калі ён робіць нешта не так. 184 00:09:04,710 --> 00:09:07,410 Вы можаце ўбачыць, што, калі вы ідзяце У Google Translate, і вы спрабуеце 185 00:09:07,410 --> 00:09:10,220 перавесці прапанову, гэта просіць вас для зваротнай сувязі. 186 00:09:10,220 --> 00:09:13,240 Так што, калі вы кажаце, ну, ёсць лепшы пераклад гэтай фразы. 187 00:09:13,240 --> 00:09:18,140 Вы можаце ўвесці яго, а затым, калі шмат людзі працягваюць казаць, што гэта лепш, 188 00:09:18,140 --> 00:09:21,560 пераклад, ён проста пазнае, што яна павінны выкарыстоўваць гэтую пераклад замест 189 00:09:21,560 --> 00:09:22,960 адзін ён даваў. 190 00:09:22,960 --> 00:09:28,830 >> Такім чынам, гэта вельмі філасофскі пытанне каб убачыць, калі кампутары будуць 191 00:09:28,830 --> 00:09:30,340 ў стане казаць ці не ў будучыні. 192 00:09:30,340 --> 00:09:34,440 Але ў мяне ёсць вялікія надзеі, што яны могуць толькі на аснове гэтых аргументаў. 193 00:09:34,440 --> 00:09:38,570 Але гэта толькі больш філасофскі пытанне. 194 00:09:38,570 --> 00:09:43,460 >> Такім чынам, хоць кампутары ўсё яшчэ не можа гаварыць, што тыя рэчы, якія мы можам зрабіць? 195 00:09:43,460 --> 00:09:47,070 Некаторыя сапраўды класныя рэчы з'яўляюцца класіфікацыі дадзеных. 196 00:09:47,070 --> 00:09:53,210 Так, напрыклад, вы, хлопцы, ведаеце, што паслугі электроннай пошты зрабіць, для 197 00:09:53,210 --> 00:09:55,580 Напрыклад, фільтраванне спаму. 198 00:09:55,580 --> 00:09:59,070 Таму, калі вы атрымліваеце спам, гэта спрабуе фільтраваць ў іншы скрынцы. 199 00:09:59,070 --> 00:10:00,270 Так, як гэта зрабіць? 200 00:10:00,270 --> 00:10:06,080 Гэта не тое, што кампутар проста ведае што адрасы электроннай пошты рассылання спаму. 201 00:10:06,080 --> 00:10:09,130 Так што гэта ў большай ступені грунтуецца на змесце паведамленне, або, можа быць назва, або 202 00:10:09,130 --> 00:10:11,310 магчыма, некаторыя карціны, якія ў вас ёсць. 203 00:10:11,310 --> 00:10:15,690 >> Так, у асноўным, тое, што вы можаце зрабіць, гэта атрымаць шмат дадзеных лістоў, якія спам, 204 00:10:15,690 --> 00:10:19,980 лісты, якія не спам, а таксама даведацца, што выгляд мадэлі, якія вы маеце на 205 00:10:19,980 --> 00:10:21,000 Тыя, якія з'яўляюцца спамам. 206 00:10:21,000 --> 00:10:23,260 І гэта з'яўляецца часткай вылічальнай лінгвістыка. 207 00:10:23,260 --> 00:10:24,720 Яна называецца класіфікацыі дадзеных. 208 00:10:24,720 --> 00:10:28,100 І мы на самай справе адбываецца, каб убачыць прыклад, што ў наступных слайдах. 209 00:10:28,100 --> 00:10:32,910 >> Другая рэч натуральны мову апрацоўка якіх гэта тое, што 210 00:10:32,910 --> 00:10:36,580 Графік Пошук робіць таго, каб дазволіць Вы пішаце прапанову. 211 00:10:36,580 --> 00:10:38,690 І гэта давярае вам зразумець, што сэнс і дае 212 00:10:38,690 --> 00:10:39,940 Вы лепшы вынік. 213 00:10:39,940 --> 00:10:43,880 На самай справе, калі вы ідзяце ў Google або Bing і вы будзеце шукаць нешта накшталт Лэдзі 214 00:10:43,880 --> 00:10:47,060 Вышыня Гага, вы на самой справе адбываецца каб атрымаць 5 "1" замест інфармацыі 215 00:10:47,060 --> 00:10:50,170 ад яе, таму што гэта на самой справе разумее тое, што вы кажаце. 216 00:10:50,170 --> 00:10:52,140 Дык вось частка прыроднага мова апрацоўкі. 217 00:10:52,140 --> 00:10:57,000 >> Або таксама, калі вы выкарыстоўваеце Siri, перш за ў вас ёсць алгарытм, які спрабуе 218 00:10:57,000 --> 00:11:01,130 перавесці тое, што вы кажаце, словамі, у тэксце. 219 00:11:01,130 --> 00:11:03,690 А потым ён спрабуе перавесці што ў сэнсе. 220 00:11:03,690 --> 00:11:06,570 Так што ўсё гэта частка натуральнай мова апрацоўкі. 221 00:11:06,570 --> 00:11:08,320 >> Тады ў вас ёсць машынны пераклад - 222 00:11:08,320 --> 00:11:10,300 якія на самай справе адна з маіх любімых - 223 00:11:10,300 --> 00:11:14,060 які проста пераклад з мовы на іншы. 224 00:11:14,060 --> 00:11:17,950 Такім чынам, вы можаце думаць, што, калі вы робіце машынны пераклад, у вас ёсць 225 00:11:17,950 --> 00:11:19,750 бясконцыя магчымасці прысудаў. 226 00:11:19,750 --> 00:11:22,960 Так што няма ніякага спосабу, каб проста захоўваць кожны пераклад. 227 00:11:22,960 --> 00:11:27,440 Такім чынам, вы павінны прыдумаць цікавае Алгарытмы, каб мець магчымасць 228 00:11:27,440 --> 00:11:30,110 перавесці кожны Прысуд у некаторым родзе. 229 00:11:30,110 --> 00:11:32,483 >> Вы, хлопцы, ёсць якія-небудзь пытанні да гэтага часу? 230 00:11:32,483 --> 00:11:34,450 Няма? 231 00:11:34,450 --> 00:11:34,830 ОК. 232 00:11:34,830 --> 00:11:36,900 >> Так што мы будзем бачыць сёння? 233 00:11:36,900 --> 00:11:39,300 Перш за ўсё, я збіраюся казаць пра задача класіфікацыі. 234 00:11:39,300 --> 00:11:41,440 Такім чынам, той, які я быў кажучы пра спам. 235 00:11:41,440 --> 00:11:46,820 Тое, што я збіраюся зрабіць, гэта, улічваючы тэкст песню, вы можаце паспрабаваць высветліць, 236 00:11:46,820 --> 00:11:49,810 з высокай верагоднасцю які з'яўляецца спеваком? 237 00:11:49,810 --> 00:11:53,590 Давайце выкажам здагадку, што ў мяне ёсць песні з лэдзі Гага і Кэці Пэры, калі я дам вам 238 00:11:53,590 --> 00:11:58,130 Новая песня, вы можаце высветліць, калі гэта Кэці Пэры або Лэдзі Гага? 239 00:11:58,130 --> 00:12:01,490 >> Другі, я проста хачу пагаварыць аб праблеме сегментацыі. 240 00:12:01,490 --> 00:12:05,780 Так што я не ведаю, калі вы, хлопцы, ведаю, але Кітайскі, японскі, аднаму Усходняй Азіі 241 00:12:05,780 --> 00:12:08,090 мовы, і іншыя мовы увогуле, не маюць 242 00:12:08,090 --> 00:12:09,830 прабелы паміж словамі. 243 00:12:09,830 --> 00:12:13,540 І потым, калі вы думаеце пра тое, як гэтага ваш кампутар роду спробаў 244 00:12:13,540 --> 00:12:18,600 зразумець апрацоўкі натуральнай мовы, гэта выглядае на словы і 245 00:12:18,600 --> 00:12:21,500 спрабуе зразумець адносіны паміж імі, ці не так? 246 00:12:21,500 --> 00:12:25,440 Але тады, калі ў вас ёсць кітайскі, і вы маюць нулявыя прабелы, гэта сапраўды цяжка 247 00:12:25,440 --> 00:12:28,360 высветліць, якое стаўленне паміж словы, таму што яны не маюць ніякіх 248 00:12:28,360 --> 00:12:29,530 слова ў першую чаргу. 249 00:12:29,530 --> 00:12:32,600 Так што вам трэба зрабіць тое, што называецца Сегментацыя які проста азначае, паклаўшы 250 00:12:32,600 --> 00:12:36,490 прасторы паміж тым, што мы назвалі б словы на гэтых мовах. 251 00:12:36,490 --> 00:12:37,740 Сэнс? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> А потым мы збіраемся казаць аб сінтаксісе. 254 00:12:41,540 --> 00:12:44,050 Так што проста трохі аб натуральнай мова апрацоўкі. 255 00:12:44,050 --> 00:12:45,420 Гэта будзе проста агляд. 256 00:12:45,420 --> 00:12:50,700 Так што сёння, у асноўным, што я хачу зрабіць гэта даць Вам хлопцаў трохі 257 00:12:50,700 --> 00:12:53,930 ўнутры якія магчымасці што вы можаце зрабіць з вылічальнай 258 00:12:53,930 --> 00:12:54,960 лінгвістыка. 259 00:12:54,960 --> 00:13:00,410 І тады вы зможаце убачыць тое, што вы думаеце халаднавата да ліку тых рэчаў. 260 00:13:00,410 --> 00:13:02,270 А можа быць, вы можаце думаць аб праекце і прыйсці пагаварыць са мной. 261 00:13:02,270 --> 00:13:05,260 І я магу даць вам савет пра тое, як яго рэалізаваць. 262 00:13:05,260 --> 00:13:09,060 >> Так Сінтаксіс будзе трохі аб Graph Пошук і машыны 263 00:13:09,060 --> 00:13:09,670 пераклад. 264 00:13:09,670 --> 00:13:13,650 Я проста хачу, каб даць прыклад таго, як вы маглі б, напрыклад, перавесці 265 00:13:13,650 --> 00:13:16,020 нешта з партугальскай на ангельскую. 266 00:13:16,020 --> 00:13:17,830 Гучыць добра? 267 00:13:17,830 --> 00:13:19,293 >> Такім чынам, спачатку задача класіфікацыі. 268 00:13:19,293 --> 00:13:23,590 Скажу, што гэтая частка семінара будзе самым складаным 269 00:13:23,590 --> 00:13:27,560 адзін толькі таму, што там адбываецца быць некаторы кадзіраванне. 270 00:13:27,560 --> 00:13:29,470 Але гэта будзе Python. 271 00:13:29,470 --> 00:13:34,380 Я ведаю, вы, хлопцы, не ведаю, Python, таму Я проста хачу, каб растлумачыць на высокай 272 00:13:34,380 --> 00:13:35,750 ўзровень, што я раблю. 273 00:13:35,750 --> 00:13:40,900 І ў вас няма па-сапраўднаму клапаціцца занадта шмат пра сінтаксісе, таму што гэта 274 00:13:40,900 --> 00:13:42,140 што-то вы, хлопцы, можаце пазнаць. 275 00:13:42,140 --> 00:13:42,540 ОК? 276 00:13:42,540 --> 00:13:43,580 Гучыць добра. 277 00:13:43,580 --> 00:13:46,020 >> Так у чым жа праблема класіфікацыі? 278 00:13:46,020 --> 00:13:49,140 Такім чынам, вы далі некаторыя песні, каб песня, і вы хочаце, каб здагадацца, 279 00:13:49,140 --> 00:13:50,620 хто спявае яе. 280 00:13:50,620 --> 00:13:54,045 І гэта можа быць для любога віду іншых праблем. 281 00:13:54,045 --> 00:13:59,980 Такім чынам, можна, напрыклад, у вас ёсць Прэзідэнцкая кампанія і ў вас ёсць 282 00:13:59,980 --> 00:14:02,610 гаворка, і вы хочаце знайсці , Калі гэта было, напрыклад, 283 00:14:02,610 --> 00:14:04,470 Абама ці Міт Ромні. 284 00:14:04,470 --> 00:14:07,700 Ці вы можаце мець кучу лістоў і Вам падаць высветліць, калі яны 285 00:14:07,700 --> 00:14:08,890 спамам ці не. 286 00:14:08,890 --> 00:14:11,440 Так што гэта проста класіфікацыі некаторых дадзеныя, заснаваныя на словах 287 00:14:11,440 --> 00:14:13,790 што ў вас там. 288 00:14:13,790 --> 00:14:16,295 >> Такім чынам, каб зрабіць гэта, вы павінны зрабіць некаторыя здагадкі. 289 00:14:16,295 --> 00:14:20,570 Так шмат пра вылічальнай лінгвістыкі робіць здагадкі, 290 00:14:20,570 --> 00:14:24,100 звычайна разумныя здагадкі, так што Вы можаце атрымаць добрыя вынікі. 291 00:14:24,100 --> 00:14:26,670 Спроба стварыць мадэль для яго. 292 00:14:26,670 --> 00:14:31,290 А потым паспрабаваць яго і паглядзець, калі гэта працуе, калі ён дае добрую дакладнасць. 293 00:14:31,290 --> 00:14:33,940 І калі гэта адбудзецца, то вы паспрабаваць палепшыць яго. 294 00:14:33,940 --> 00:14:37,640 Калі гэтага не адбудзецца, вы, як, у парадку, можа быць, я павінны зрабіць іншы здагадку. 295 00:14:37,640 --> 00:14:44,030 >> Такім чынам, здагадка, што мы збіраемся зрабіць тое, што мастак, як правіла, спявае 296 00:14:44,030 --> 00:14:49,220 аб тэме некалькі разоў, і, магчыма, выкарыстоўвае словы некалькі разоў проста 297 00:14:49,220 --> 00:14:50,270 таму што яны прывыклі да яго. 298 00:14:50,270 --> 00:14:51,890 Вы можаце проста думаць аб сваім сябру. 299 00:14:51,890 --> 00:14:57,350 Я ўпэўнены, што ўсе вы, хлопцы, ёсць сябры што сказаць, іх подпісы фразу, 300 00:14:57,350 --> 00:14:59,260 літаральна для кожнага асобнага прапановы - 301 00:14:59,260 --> 00:15:02,660 як нейкага пэўнага слова ці некаторых канкрэтных фраза, што маўляў для 302 00:15:02,660 --> 00:15:04,020 кожны прысуд. 303 00:15:04,020 --> 00:15:07,920 >> А што вы можаце сказаць, што калі вы бачыце прысуд, які мае подпіс 304 00:15:07,920 --> 00:15:11,450 Фраза, можна здагадацца, што, верагодна, ваш сябар 305 00:15:11,450 --> 00:15:13,310 адзін кажа гэта, ці не так? 306 00:15:13,310 --> 00:15:18,410 Дык вы зробіце гэта здагадка, а затым гэта, як вы стварыць мадэль. 307 00:15:18,410 --> 00:15:24,440 >> Прыклад, які я збіраюся даць на як Lady Gaga, напрыклад, людзі 308 00:15:24,440 --> 00:15:27,430 сказаць, што яна выкарыстоўвае "BABY" для ўсе яе нумар адзін песні. 309 00:15:27,430 --> 00:15:32,270 А на самай справе гэта відэа, якое паказвае яна казала слова "дзіця" для 310 00:15:32,270 --> 00:15:33,410 розныя песні. 311 00:15:33,410 --> 00:15:33,860 >> [ВИДЕОВОСПРОИЗВЕДЕНИЕ] 312 00:15:33,860 --> 00:15:34,310 >> - (Спявае) Дзіцячыя. 313 00:15:34,310 --> 00:15:36,220 Дзіцячыя. 314 00:15:36,220 --> 00:15:37,086 Дзіцячыя. 315 00:15:37,086 --> 00:15:37,520 Дзіцячыя. 316 00:15:37,520 --> 00:15:37,770 Дзіцячыя. 317 00:15:37,770 --> 00:15:38,822 Малы. 318 00:15:38,822 --> 00:15:39,243 Дзіцячыя. 319 00:15:39,243 --> 00:15:40,085 Дзіцячыя. 320 00:15:40,085 --> 00:15:40,510 Дзіцячыя. 321 00:15:40,510 --> 00:15:40,850 Дзіцячыя. 322 00:15:40,850 --> 00:15:41,090 >> [КАНЕЦ ВИДЕОВОСПРОИЗВЕДЕНИЕ- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Фрейташ: Дык што, я думаю, 40 песні тут, у якім яна кажа 324 00:15:44,020 --> 00:15:48,690 Слова "дзіця". Такім чынам, вы можаце ў асноўным думаю што, калі вы бачыце песню, якая мае 325 00:15:48,690 --> 00:15:52,180 слова "дзіця", ёсць некаторыя высокія Верагоднасць таго, што гэта Лэдзі Гага. 326 00:15:52,180 --> 00:15:56,450 Але давайце паспрабуем развіваць гэта далей больш фармальна. 327 00:15:56,450 --> 00:16:00,470 >> Такім чынам, гэтыя тэксты да песень Лэдзі гага і Кэці Пэры. 328 00:16:00,470 --> 00:16:04,120 Такім чынам, вы паглядзіце на Lady Gaga, вы бачыце, што яны ёсць шмат выпадкаў з "дзіцяці", 329 00:16:04,120 --> 00:16:07,710 шмат уваходжанняў "шляху". А потым Кэці Пэры мае шмат уваходжанняў 330 00:16:07,710 --> 00:16:10,360 "," Шмат уваходжанняў "агонь". 331 00:16:10,360 --> 00:16:14,560 >> Таму ў асноўным тое, што мы хочам зрабіць, гэта, вы атрымаеце лірыку. 332 00:16:14,560 --> 00:16:20,480 Давайце выкажам здагадку, што вы атрымліваеце лірыку для песня, якая з'яўляецца "дзіця", проста "дзіця". Калі 333 00:16:20,480 --> 00:16:24,750 вы проста атрымаеце слова "дзіця", і гэта усе дадзеныя, якія ў вас ёсць з 334 00:16:24,750 --> 00:16:27,880 Лэдзі гага і Кэці Пэры, якія б вы здагадаліся гэта чалавек, 335 00:16:27,880 --> 00:16:29,370 хто спявае песню? 336 00:16:29,370 --> 00:16:32,360 Лэдзі Гага або Кэці Пэры? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, ці не так? 338 00:16:33,150 --> 00:16:37,400 Таму што яна адзіная, хто кажа "Дзіця". Гэта гучыць па-дурному, ці не так? 339 00:16:37,400 --> 00:16:38,760 Добра, гэта сапраўды проста. 340 00:16:38,760 --> 00:16:41,860 Я проста гляджу на двух песень і Вядома, яна адзіная, хто мае 341 00:16:41,860 --> 00:16:42,660 "Дзіця". 342 00:16:42,660 --> 00:16:44,740 >> Але што, калі ў вас ёсць куча слоў? 343 00:16:44,740 --> 00:16:50,900 Калі ў вас ёсць свежая Лірыка, нешта як, "дзіця, я проста 344 00:16:50,900 --> 00:16:51,610 пайшлі, каб бачыць [? ФТ?] 345 00:16:51,610 --> 00:16:54,020 лекцыя ", ці нешта ў гэтым родзе, і то вы на самай справе павінны высветліць - 346 00:16:54,020 --> 00:16:55,780 на аснове ўсіх гэтых слоў - 347 00:16:55,780 --> 00:16:58,350 які з'яўляецца мастак, які, верагодна, спяваў гэтую песню? 348 00:16:58,350 --> 00:17:01,860 Так давайце паспрабуем распрацаваць гэта крыху далей. 349 00:17:01,860 --> 00:17:05,630 >> Такім чынам, на аснове толькі на дадзеных, якія мы атрымаў, здаецца, што Гага, верагодна, 350 00:17:05,630 --> 00:17:06,260 спявак. 351 00:17:06,260 --> 00:17:07,904 Але як мы можам напісаць гэта больш фармальна? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 І гэта будзе трохі Крыху статыстыкі. 354 00:17:13,140 --> 00:17:15,880 Так што, калі вы заблукалі, проста паспрабуйце зразумець канцэпцыю. 355 00:17:15,880 --> 00:17:18,700 Гэта не мае значэння, калі вы разумееце, ўраўненні на выдатна. 356 00:17:18,700 --> 00:17:22,150 Гэта ўсё будзе ў Інтэрнэце. 357 00:17:22,150 --> 00:17:25,490 >> Таму ў асноўным тое, што я разліку з'яўляецца верагоднасць таго, што гэтая песня па 358 00:17:25,490 --> 00:17:28,040 Лэдзі Гага, улічваючы, што - 359 00:17:28,040 --> 00:17:30,660 так гэты бар азначае, улічваючы, што - 360 00:17:30,660 --> 00:17:33,680 Я бачыў слова "дзіця". Ці мае гэта сэнс? 361 00:17:33,680 --> 00:17:35,540 Так што я спрабую вылічыць што верагоднасць. 362 00:17:35,540 --> 00:17:38,540 >> Так што ёсць гэтая тэарэма называецца Тэарэма Байеса, што кажа аб тым, што 363 00:17:38,540 --> 00:17:43,330 верагоднасць дадзенага B, з'яўляецца верагоднасць B далі, раз 364 00:17:43,330 --> 00:17:47,660 верагоднасць, па верагоднасці В. Гэта доўгі раўнанне. 365 00:17:47,660 --> 00:17:51,970 Але тое, што вы павінны зразумець, ад гэта значыць, што гэта тое, што я хачу 366 00:17:51,970 --> 00:17:52,830 разлічыць, ці не так? 367 00:17:52,830 --> 00:17:56,570 Такім чынам, верагоднасць таго, што гэтая песня па Лэдзі Гага улічваючы, што я ўбачыў слова 368 00:17:56,570 --> 00:17:58,230 "Дзіця". 369 00:17:58,230 --> 00:18:02,960 >> А цяпер, што я атрымліваю з'яўляецца верагоднасць словы "дзіця" з улікам 370 00:18:02,960 --> 00:18:04,390 што ў мяне ёсць Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 А што такое, што ў прынцыпе? 372 00:18:07,220 --> 00:18:10,500 Гэта азначае,, што з'яўляецца Магчымасць паступлення слова "дзіця" 373 00:18:10,500 --> 00:18:12,130 у Gaga тэкстах? 374 00:18:12,130 --> 00:18:16,240 Калі я хачу, каб вылічыць, што ў вельмі просты спосаб, гэта проста лік 375 00:18:16,240 --> 00:18:23,640 раз я бачу "Baby" ад агульнай колькасці слоў у тэкстах Gaga, ці не так? 376 00:18:23,640 --> 00:18:27,600 Якая частата, што я бачу, гэтае слова ў працы Гага? 377 00:18:27,600 --> 00:18:30,530 Сэнс? 378 00:18:30,530 --> 00:18:33,420 >> Другі складнік верагоднасць Gaga. 379 00:18:33,420 --> 00:18:34,360 Што гэта значыць? 380 00:18:34,360 --> 00:18:38,550 Гэта ў асноўным азначае, што Верагоднасць класіфікацыі 381 00:18:38,550 --> 00:18:40,690 некаторыя тэксты як Gaga? 382 00:18:40,690 --> 00:18:45,320 І гэта крыху дзіўна, але давайце думаць аб прыкладзе. 383 00:18:45,320 --> 00:18:49,230 Так скажам, што верагоднасць наяўнасць "дзіцяці" ў песні тое ж самае 384 00:18:49,230 --> 00:18:51,760 для Гага і Брытні Спірс. 385 00:18:51,760 --> 00:18:54,950 Але Брытні Спірс мае ў два разы больш песень, чым Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Так што калі хто-то проста выпадкова дае Лірыка "дзіцяці", першае, што вы 387 00:19:00,570 --> 00:19:04,710 глядзець на гэта, то, што верагоднасць наяўнасць "дзіцяці" ў песні Gaga, "дзіця" 388 00:19:04,710 --> 00:19:05,410 ў песні Брытні? 389 00:19:05,410 --> 00:19:06,460 І гэта тое ж самае. 390 00:19:06,460 --> 00:19:10,040 >> Так Другое, што вы ўбачыце, гэта, добра, што ёсць верагоднасць 391 00:19:10,040 --> 00:19:13,770 гэта лірычныя сама па сабе будучы Гага лірычныя, і якая верагоднасць 392 00:19:13,770 --> 00:19:15,380 быўшы лірычная Брытні? 393 00:19:15,380 --> 00:19:18,950 Так, так як Брытні мае так шмат больш лірыку чым Гага, вы, верагодна, 394 00:19:18,950 --> 00:19:21,470 скажам, ну, гэта, верагодна, лірычная Брытні. 395 00:19:21,470 --> 00:19:23,340 Дык вось чаму ў нас ёсць гэта назваць прама тут. 396 00:19:23,340 --> 00:19:24,670 Верагоднасць Gaga. 397 00:19:24,670 --> 00:19:26,950 Мае сэнс? 398 00:19:26,950 --> 00:19:28,660 Ці так гэта? 399 00:19:28,660 --> 00:19:29,370 ОК. 400 00:19:29,370 --> 00:19:33,500 >> І апошняе ёсць верагоднасць з "дзіцяці", які не 401 00:19:33,500 --> 00:19:34,810 мае значэння, што шмат. 402 00:19:34,810 --> 00:19:39,940 Але гэта верагоднасць бачачы "Baby" на англійскай мове. 403 00:19:39,940 --> 00:19:42,725 Мы звычайна не хвалюе, што шмат пра гэтага тэрміна. 404 00:19:42,725 --> 00:19:44,490 Ці мае гэта сэнс? 405 00:19:44,490 --> 00:19:48,110 Такім чынам, верагоднасць Гага называецца апрыёрная верагоднасць 406 00:19:48,110 --> 00:19:49,530 класавай Gaga. 407 00:19:49,530 --> 00:19:53,840 Таму што гэта проста азначае, што, тое, што верагоднасць таго, што клас - 408 00:19:53,840 --> 00:19:55,520 што Гага - 409 00:19:55,520 --> 00:19:59,350 толькі ў агульным, толькі без умоў. 410 00:19:59,350 --> 00:20:02,560 >> А потым, калі ў мяне ёсць верагоднасць Гага дадзена "дзіця", мы называем гэта плюс 411 00:20:02,560 --> 00:20:06,160 слязлівымі верагоднасць, таму што гэта верагоднасць наяўнасці 412 00:20:06,160 --> 00:20:08,300 Гага улічваючы некаторыя доказы. 413 00:20:08,300 --> 00:20:11,050 Таму я даю вам доказы што я ўбачыў слова дзіцяці і 414 00:20:11,050 --> 00:20:12,690 песня мае сэнсу? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 ОК. 417 00:20:16,410 --> 00:20:22,400 >> Так што калі я падлічыў, што для кожнага з песень для Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 што гэта было б - 419 00:20:25,916 --> 00:20:27,730 мяркуючы па ўсім, я не магу рухацца ў гэтым. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Верагоднасць Gaga будзе нешта накшталт 2 больш за 24, раз 1/2, 422 00:20:36,920 --> 00:20:38,260 больш за 2 больш за 53. 423 00:20:38,260 --> 00:20:40,640 Гэта не мае значэння, калі вы ведаеце, што гэтыя лічбы і адкуль. 424 00:20:40,640 --> 00:20:44,750 Але гэта ўсяго толькі лік, якое будзе быць больш, чым 0, праўда? 425 00:20:44,750 --> 00:20:48,610 >> А потым, калі я раблю Кэці Пэры, верагоднасць "дзіцяці" улічваючы Кэці 426 00:20:48,610 --> 00:20:49,830 ўжо 0, праўда? 427 00:20:49,830 --> 00:20:52,820 Таму што няма ніякага "дзіця" у Кэці Пэры. 428 00:20:52,820 --> 00:20:56,360 Так то гэта становіцца 0, а Гага перамог, што азначае, што Гага 429 00:20:56,360 --> 00:20:57,310 верагодна, спявак. 430 00:20:57,310 --> 00:20:58,560 Ці мае гэта сэнс? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 ОК. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Так што, калі я хачу, каб зрабіць гэта больш афіцыйны, Я магу на самой справе мадэль 435 00:21:11,750 --> 00:21:12,700 па некалькіх словах. 436 00:21:12,700 --> 00:21:14,610 Так скажам, што ў мяне ёсць нешта як, "дзіця, Я 437 00:21:14,610 --> 00:21:16,030 ў агні, "ці нешта. 438 00:21:16,030 --> 00:21:17,760 Так што мае некалькі слоў. 439 00:21:17,760 --> 00:21:20,880 І ў гэтым выпадку, вы можаце ўбачыць што "дзіця" знаходзіцца ў Gaga, 440 00:21:20,880 --> 00:21:21,710 але гэта не ў Katy. 441 00:21:21,710 --> 00:21:24,940 І "агонь" знаходзіцца ў Katy, але гэта не ў Gaga, ці не так? 442 00:21:24,940 --> 00:21:27,200 Так яна становіцца складаней, ці не так? 443 00:21:27,200 --> 00:21:31,440 Таму што здаецца, што вы амаль ёсць сувязь паміж імі. 444 00:21:31,440 --> 00:21:36,980 >> Так што вы павінны зрабіць, гэта выказаць здагадку, незалежнасць сярод слоў. 445 00:21:36,980 --> 00:21:41,210 Так у асноўным, што гэта значыць, што Я проста вылічаючы, што з'яўляецца 446 00:21:41,210 --> 00:21:44,330 Магчымасць паступлення "дзіцяці", што з'яўляецца верагоднасць ўбачыць «я», і 447 00:21:44,330 --> 00:21:46,670 "Я", і "на" і "агонь" ўсё асобна. 448 00:21:46,670 --> 00:21:48,670 Тады я множання ўсіх з іх. 449 00:21:48,670 --> 00:21:52,420 І я бачу, што ёсць верагоднасць бачыць цэлае прапанову. 450 00:21:52,420 --> 00:21:55,210 Сэнс? 451 00:21:55,210 --> 00:22:00,270 >> Так у асноўным, калі ў мяне ёсць толькі адно слова, тое, што я хачу знайсці гэта аргумент макс, 452 00:22:00,270 --> 00:22:05,385 што азначае, што клас, які з'яўляецца дае мне найбольшую верагоднасць? 453 00:22:05,385 --> 00:22:10,010 Так у чым жа клас, які дае мяне самая высокая верагоднасць 454 00:22:10,010 --> 00:22:11,940 верагоднасць класа далі слова. 455 00:22:11,940 --> 00:22:17,610 Такім чынам, у гэтым выпадку, Гага дадзена "дзіцяці". Або Кэці дадзена "дзіцяці". Сэнс? 456 00:22:17,610 --> 00:22:21,040 >> І толькі ад Байеса, што раўнанне, якое я паказаў, 457 00:22:21,040 --> 00:22:24,780 мы ствараем гэтую фракцыю. 458 00:22:24,780 --> 00:22:28,750 Адзінае, што вы бачыце, што верагоднасць словы з улікам 459 00:22:28,750 --> 00:22:31,370 змены класаў у залежнасці ад класа, ці не так? 460 00:22:31,370 --> 00:22:34,260 Колькасць "Baby" з, што ў мяне ёсць у Gaga адрозніваецца ад Katy. 461 00:22:34,260 --> 00:22:37,640 Верагоднасць класа таксама змены, таму што гэта проста лік 462 00:22:37,640 --> 00:22:39,740 песень кожны з іх мае. 463 00:22:39,740 --> 00:22:43,980 >> Але верагоднасць таго, што само слова будзе аднолькавым для ўсіх 464 00:22:43,980 --> 00:22:44,740 мастакі, праўда? 465 00:22:44,740 --> 00:22:47,150 Такім чынам, верагоднасць таго, што словы проста, што верагоднасць 466 00:22:47,150 --> 00:22:49,820 бачачы, што слова ў Ангельскую мову? 467 00:22:49,820 --> 00:22:51,420 Так што гэта тое ж самае для ўсіх з іх. 468 00:22:51,420 --> 00:22:55,790 Так, так як гэта пастаянна, мы можам проста адмовіцца ад гэтага, а не клапаціцца пра яго. 469 00:22:55,790 --> 00:23:00,230 Так што гэта будзе на самой справе раўнанне мы шукаем. 470 00:23:00,230 --> 00:23:03,360 >> І калі ў мяне ёсць некалькі слоў, я яшчэ прыйдзецца да 471 00:23:03,360 --> 00:23:04,610 Верагоднасць тут. 472 00:23:04,610 --> 00:23:06,980 Адзінае, што я множання верагоднасць 473 00:23:06,980 --> 00:23:08,490 ўсе астатнія словы. 474 00:23:08,490 --> 00:23:10,110 Так што я множання ўсіх з іх. 475 00:23:10,110 --> 00:23:12,610 Сэнс? 476 00:23:12,610 --> 00:23:18,440 Гэта выглядае дзіўна, але ў асноўным азначае, разлічыць да класа, і 477 00:23:18,440 --> 00:23:22,100 затым памножыць на верагоднасць кожнага са слоў, якія знаходзяцца ў гэтым класе. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> І вы ведаеце, што верагоднасць Слова дадзена клас будзе 480 00:23:29,150 --> 00:23:34,520 колькі раз вы ўбачыце, што слова ў што клас, падзеленае на колькасць 481 00:23:34,520 --> 00:23:37,020 Словы, якія вы маеце на тым, што клас у цэлым. 482 00:23:37,020 --> 00:23:37,990 Сэнс? 483 00:23:37,990 --> 00:23:41,680 Гэта проста, як "дзіця" было 2 больш колькасць слоў, якія 484 00:23:41,680 --> 00:23:43,020 У мяне была ў лірыцы. 485 00:23:43,020 --> 00:23:45,130 Так што проста частата. 486 00:23:45,130 --> 00:23:46,260 >> Але ёсць адна рэч. 487 00:23:46,260 --> 00:23:51,250 Памятаеце, як я паказваў, што верагоднасць "Baby", якія з'яўляюцца тэкстах 488 00:23:51,250 --> 00:23:56,350 ад Кэці Пэры 0 толькі таму, што Кэці Пэры не было "Baby" наогул? 489 00:23:56,350 --> 00:24:04,900 Але гэта гучыць трохі рэзка, каб проста проста сказаць, што тэкст песні не можа быць ад 490 00:24:04,900 --> 00:24:10,040 мастак толькі таму, што яны не маюць гэтае слова ў прыватнасці ў любы час. 491 00:24:10,040 --> 00:24:13,330 >> Такім чынам, вы маглі б проста сказаць, ну, калі вы няма гэтае слова, я збіраюся 492 00:24:13,330 --> 00:24:15,640 даць вам больш нізкую верагоднасць, але я проста не збіраюся 493 00:24:15,640 --> 00:24:17,420 даць вам 0 адразу. 494 00:24:17,420 --> 00:24:21,040 Таму што, можа быць, гэта было нешта накшталт, "Агонь, агонь, агонь, агонь", які з'яўляецца 495 00:24:21,040 --> 00:24:21,990 цалкам Кэці Пэры. 496 00:24:21,990 --> 00:24:26,060 А потым "дзіця", і гэта толькі ідзе, каб 0 адразу, таму што быў адзін 497 00:24:26,060 --> 00:24:27,250 "Дзіця". 498 00:24:27,250 --> 00:24:31,440 >> Таму ў асноўным тое, што мы робім нешта называецца Лапласа згладжвання. 499 00:24:31,440 --> 00:24:36,260 І гэта проста азначае, што я даю некаторая верагоднасць нават да слоў 500 00:24:36,260 --> 00:24:37,850 што не існуе. 501 00:24:37,850 --> 00:24:43,170 Так, што я раблю тое, што, калі я разліку гэтага, я заўсёды дадаю 1 да 502 00:24:43,170 --> 00:24:44,180 лічнік. 503 00:24:44,180 --> 00:24:48,060 Такім чынам, нават калі слова не існуе, у У гэтым выпадку, калі гэта 0, я да гэтага часу 504 00:24:48,060 --> 00:24:51,250 разліку гэта як 1 над агульная колькасць слоў. 505 00:24:51,250 --> 00:24:55,060 У адваротным выпадку, я атрымліваю, колькі слоў У мяне ёсць і я дадаць 1. 506 00:24:55,060 --> 00:24:58,300 Так я разлічваю ў абодвух выпадках. 507 00:24:58,300 --> 00:25:00,430 Сэнс? 508 00:25:00,430 --> 00:25:03,060 >> Так што цяпер давайце зробім некаторыя кадавання. 509 00:25:03,060 --> 00:25:06,440 Я збіраюся павінны зрабіць гэта даволі хутка, але гэта проста важна, каб вам 510 00:25:06,440 --> 00:25:08,600 хлопцы зразумець канцэпцыі. 511 00:25:08,600 --> 00:25:13,450 Такім чынам, што мы спрабуем зрабіць дакладна рэалізаваць гэта 512 00:25:13,450 --> 00:25:14,330 рэч, якую я толькі што сказаў, - 513 00:25:14,330 --> 00:25:19,110 Я хачу, каб ты паклаў тэкст з Лэдзі гага і Кэці Пэры. 514 00:25:19,110 --> 00:25:22,980 І праграма будзе ў стане кажуць, што калі гэтыя новыя тэксты з Gaga 515 00:25:22,980 --> 00:25:24,170 або Кэці Пэры. 516 00:25:24,170 --> 00:25:25,800 Сэнс? 517 00:25:25,800 --> 00:25:27,530 ОК. 518 00:25:27,530 --> 00:25:30,710 >> Так што я гэтую праграму я збіраюся патэлефанаваць classify.py. 519 00:25:30,710 --> 00:25:31,970 Так што гэта Python. 520 00:25:31,970 --> 00:25:34,210 Гэта новы мова праграмавання. 521 00:25:34,210 --> 00:25:38,020 Гэта вельмі падобна на некаторыя спосабы C і PHP. 522 00:25:38,020 --> 00:25:43,180 Гэта падобна, таму што, калі вы хочаце даведацца Python даведаўшыся C, гэта 523 00:25:43,180 --> 00:25:46,270 сапраўды не так шмат выклік толькі таму, што Python нашмат прасцей 524 00:25:46,270 --> 00:25:47,520 чым C, у першую чаргу. 525 00:25:47,520 --> 00:25:49,370 І шмат чаго ўжо рэалізаваны для вас. 526 00:25:49,370 --> 00:25:56,820 Такім чынам, як як PHP мае функцыі, якія адсартаваць спіс, або дадаць нешта 527 00:25:56,820 --> 00:25:58,780 на масіў, або бла, бла, бла. 528 00:25:58,780 --> 00:26:00,690 Python мае ўсе тыя таксама. 529 00:26:00,690 --> 00:26:05,960 >> Так што я проста збіраюся растлумачыць хутка як мы маглі б зрабіць класіфікацыю 530 00:26:05,960 --> 00:26:07,860 Праблема тут. 531 00:26:07,860 --> 00:26:13,230 Так скажам, што ў гэтым выпадку, у мяне ёсць песні з Гага і Кэці Пэры. 532 00:26:13,230 --> 00:26:21,880 Такім чынам, што ў мяне ёсць гэтыя тэксты ў тым, што першае слова з песні з'яўляецца 533 00:26:21,880 --> 00:26:25,250 імя мастака, і астатняе лірыка. 534 00:26:25,250 --> 00:26:29,470 Так скажам, што ў мяне ёсць гэты спіс у якіх першы з'яўляецца вершы Gaga. 535 00:26:29,470 --> 00:26:31,930 Дык вось я на правільным шляху. 536 00:26:31,930 --> 00:26:35,270 А на наступны адзін Кэці, і яна мае таксама тэксты песень. 537 00:26:35,270 --> 00:26:38,040 >> Так што гэта, як вы заяўляеце, пераменная у Python. 538 00:26:38,040 --> 00:26:40,200 Вы не павінны даць тып дадзеных. 539 00:26:40,200 --> 00:26:43,150 Вы проста напісаць "тэкст", накшталт як у PHP. 540 00:26:43,150 --> 00:26:44,890 Сэнс? 541 00:26:44,890 --> 00:26:47,770 >> Так што тыя рэчы, якія я павінен разлічыць, каб мець магчымасць разлічыць 542 00:26:47,770 --> 00:26:49,360 верагоднасці? 543 00:26:49,360 --> 00:26:55,110 У мяне ёсць для разліку «апрыёрныя» з кожнага з розных 544 00:26:55,110 --> 00:26:56,710 класы, у мяне няма. 545 00:26:56,710 --> 00:27:06,680 У мяне ёсць для разліку "бакавых зубоў", або ў значнай ступені верагоднасці 546 00:27:06,680 --> 00:27:12,150 кожны з розных слоў, якія У мяне можа быць для кожнага мастака. 547 00:27:12,150 --> 00:27:17,210 Такім чынам, усярэдзіне Gaga, напрыклад, я збіраюся мець спіс, колькі разоў я бачу 548 00:27:17,210 --> 00:27:19,250 кожнае са слоў. 549 00:27:19,250 --> 00:27:20,760 Сэнс? 550 00:27:20,760 --> 00:27:25,370 >> І, нарэшце, я проста хачу, каб мець Спіс называецца "словы", што проста будзе 551 00:27:25,370 --> 00:27:29,780 мець колькі слоў я ёсць для кожнага мастака. 552 00:27:29,780 --> 00:27:33,760 Такім чынам, для Gaga, напрыклад, калі я гляджу да лірыцы, я, па-мойму, 24 553 00:27:33,760 --> 00:27:34,750 слова ў агульнай складанасці. 554 00:27:34,750 --> 00:27:38,970 Так гэты спіс проста прыйдзецца Гага 24, і Кэці іншы нумар. 555 00:27:38,970 --> 00:27:40,130 Сэнс? 556 00:27:40,130 --> 00:27:40,560 ОК. 557 00:27:40,560 --> 00:27:42,530 >> Так што цяпер, на самай справе, давайце перайсці да кадавання. 558 00:27:42,530 --> 00:27:45,270 Такім чынам, у Python, вы можаце на самой справе вярнуцца кучу розныя 559 00:27:45,270 --> 00:27:46,630 рэчы з функцыі. 560 00:27:46,630 --> 00:27:50,810 Так што я збіраюся стварыць гэтую функцыю называецца "умоўнай", які збіраецца 561 00:27:50,810 --> 00:27:53,890 вярнуць усё з тых рэчаў, "Прыёры", што "верагоднасці", і 562 00:27:53,890 --> 00:28:05,690 "Слова". Такім чынам, "умоўная", і гэта будзе ставячы пад "лірыкі". 563 00:28:05,690 --> 00:28:11,510 >> Так што цяпер я хачу, каб вы на самой справе напісаць гэтую функцыю. 564 00:28:11,510 --> 00:28:17,750 Такім чынам, спосаб, якім я магу напісаць гэта функцыя Я проста вызначыў гэта 565 00:28:17,750 --> 00:28:20,620 функцыянаваць з "вызначэнне". Так я і зрабіў "вызначэнне ўмоўна, "і гэта займае 566 00:28:20,620 --> 00:28:28,700 "Тэкст". І тое, што гэта будзе рабіць з'яўляецца, у першую чаргу, у мяне ёсць свае апрыёрныя 567 00:28:28,700 --> 00:28:31,030 што я хачу, каб вылічыць. 568 00:28:31,030 --> 00:28:34,330 >> Такім чынам, спосаб, якім я магу гэта зрабіць, гэта стварыць слоўнік у Python, які 569 00:28:34,330 --> 00:28:37,320 ў значнай ступені тое ж самае, што хэш стол, ці гэта як итеративный 570 00:28:37,320 --> 00:28:40,480 Масіў у PHP. 571 00:28:40,480 --> 00:28:44,150 Гэта, як я абвясціць слоўнік. 572 00:28:44,150 --> 00:28:53,580 І ў асноўным гэта азначае тое, што апрыёрныя з Gaga 0,5, напрыклад, калі 573 00:28:53,580 --> 00:28:57,200 50% з лірыкі ад Гага, 50% з Katy. 574 00:28:57,200 --> 00:28:58,450 Сэнс? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Так што я сёння павінен знайсці, як для разліку апрыёрныя. 577 00:29:03,680 --> 00:29:07,120 >> Наступныя тыя, якія я павінен зрабіць, таксама, з'яўляюцца верагоднасці і словы. 578 00:29:07,120 --> 00:29:17,100 Так верагоднасці Gaga спіс ўсіх верагоднасцяў таго, што я 579 00:29:17,100 --> 00:29:19,160 ёсць для кожнага з слоў для Gaga. 580 00:29:19,160 --> 00:29:23,880 Так што, калі я іду ў верагоднага Gaga "Дзіця", напрыклад, ён дасць мне 581 00:29:23,880 --> 00:29:28,750 нешта накшталт 2 па 24 ў гэтым выпадку. 582 00:29:28,750 --> 00:29:30,070 Сэнс? 583 00:29:30,070 --> 00:29:36,120 Так я іду ў "верагоднасці", перайдзіце ў "Гага" вядро, што мае спіс усіх 584 00:29:36,120 --> 00:29:40,550 словы Gaga, то я іду ў "дзіцяці", і я бачу верагоднасць. 585 00:29:40,550 --> 00:29:45,940 >> І, нарэшце ў мяне ёсць гэта "Слова" слоўнік. 586 00:29:45,940 --> 00:29:53,620 Дык вось, "верагоднасці". А потым "Слова". Так што, калі я магу зрабіць "словы", "Gaga", 587 00:29:53,620 --> 00:29:58,330 што адбудзецца тое, што гэта дасць мне 24, кажучы, што я 588 00:29:58,330 --> 00:30:01,990 ёсць 24 слоў у тэкстах з Gaga. 589 00:30:01,990 --> 00:30:04,110 Мае сэнс? 590 00:30:04,110 --> 00:30:07,070 Дык вось, "словы" роўна Дах-Дах-дах. 591 00:30:07,070 --> 00:30:07,620 Добра 592 00:30:07,620 --> 00:30:12,210 >> Так што я збіраюся зрабіць, гэта я збіраюся перабору кожнага з тэкстах, так 593 00:30:12,210 --> 00:30:14,490 кожнай з радкоў, якія У мяне ёсць у спісе. 594 00:30:14,490 --> 00:30:18,040 І я збіраюся разлічыць тыя рэчы для кожнага з кандыдатаў. 595 00:30:18,040 --> 00:30:19,950 Мае сэнс? 596 00:30:19,950 --> 00:30:21,700 Так што я павінен зрабіць для завесы. 597 00:30:21,700 --> 00:30:26,300 >> Такім чынам, у Python, што я магу зрабіць, гэта "для лініі у тэкстах. "тое ж самае, 598 00:30:26,300 --> 00:30:28,000 "Для кожнага" заяву ў PHP. 599 00:30:28,000 --> 00:30:33,420 Памятаеце, як калі б гэта быў PHP я мог сказаць "для кожнага тэкстах як 600 00:30:33,420 --> 00:30:35,220 лінія ". Мае сэнс? 601 00:30:35,220 --> 00:30:38,900 Так што я бяру кожнай з ліній, у гэтым выпадак, гэты радок і наступная 602 00:30:38,900 --> 00:30:44,540 радок так і для кожнай з ліній, што я збіраюся зрабіць, гэта па-першае, я збіраюся 603 00:30:44,540 --> 00:30:49,150 падзяліць гэты радок у спіс словы, падзеленых прабеламі. 604 00:30:49,150 --> 00:30:53,730 >> Так выдатна, што пра Python з'яўляецца тое, што вы маглі б проста Google, як "як я магу 605 00:30:53,730 --> 00:30:58,220 разбіць радок на словы? "І гэта збіраюся расказаць вам, як гэта зрабіць. 606 00:30:58,220 --> 00:31:04,890 І тое, як гэта зрабіць, гэта проста "лінія = Line.split () ", і гэта ў асноўным 607 00:31:04,890 --> 00:31:08,640 збіраюся даць Вам спіс кожнае з слоў тут. 608 00:31:08,640 --> 00:31:09,620 Мае сэнс? 609 00:31:09,620 --> 00:31:15,870 Так што цяпер я зрабіў, што я хачу ведаць, які з'яўляецца спеваком гэтай песні. 610 00:31:15,870 --> 00:31:20,130 А для гэтага я проста павінен атрымаць Першы элемент масіва, ці не так? 611 00:31:20,130 --> 00:31:26,390 Таму я магу толькі сказаць, што я "спявак = Лінія (0) "Ці мае сэнс? 612 00:31:26,390 --> 00:31:32,010 >> А потым, што мне трэба зрабіць, гэта, у першую усё, што я збіраюся абнавіць колькі 613 00:31:32,010 --> 00:31:36,130 словы ў мяне пад "Гага". так што я проста збіраецца падлічыць, колькі слоў я 614 00:31:36,130 --> 00:31:38,690 ёсць у гэтым спісе, ці не так? 615 00:31:38,690 --> 00:31:41,910 Таму што гэта, колькі слоў у мяне у лірыцы, і я проста хачу, каб 616 00:31:41,910 --> 00:31:44,120 дадаць яго ў "Gaga" масіва. 617 00:31:44,120 --> 00:31:47,090 Ці мае гэта сэнс? 618 00:31:47,090 --> 00:31:49,010 Не занадта вялікі акцэнт на сінтаксісу. 619 00:31:49,010 --> 00:31:50,430 Думайце больш пра паняцці. 620 00:31:50,430 --> 00:31:52,400 Гэта самая важная частка. 621 00:31:52,400 --> 00:31:52,720 ОК. 622 00:31:52,720 --> 00:32:00,260 >> Так што я магу зрабіць гэта, калі "Гага" з'яўляецца ўжо ў гэтым спісе, так што "калі спявак у 623 00:32:00,260 --> 00:32:03,190 слова ", што азначае, што я ўжо ёсць словы, Gaga. 624 00:32:03,190 --> 00:32:06,640 Я проста хачу дадаць дадатковы словы да гэтага. 625 00:32:06,640 --> 00:32:15,810 Так што я раблю, гэта "словы (спявачка) + = Len (радок) - 1 ". 626 00:32:15,810 --> 00:32:18,250 І тады я магу проста зрабіць Даўжыня лініі. 627 00:32:18,250 --> 00:32:21,860 Так як многія элементы I мець у масіве. 628 00:32:21,860 --> 00:32:27,060 І што я павінен зрабіць мінус 1 толькі таму, што першы элемент масіва з'яўляецца проста 629 00:32:27,060 --> 00:32:29,180 спявак і тых, хто не з'яўляюцца тэксты. 630 00:32:29,180 --> 00:32:31,420 Мае сэнс? 631 00:32:31,420 --> 00:32:32,780 ОК. 632 00:32:32,780 --> 00:32:35,820 >> "У адваротным выпадку," гэта азначае, што я хачу на самай справе ўставіць Gaga ў спіс. 633 00:32:35,820 --> 00:32:45,990 Так што я проста зрабіць "словы (спявачка) = Len (радок) - 1, "шкада. 634 00:32:45,990 --> 00:32:49,200 Такім чынам, адзінае адрозненне паміж імі лініі з'яўляецца тое, што на гэты раз, гэта не так 635 00:32:49,200 --> 00:32:51,080 існуюць яшчэ, так што я проста яго ініцыялізацыі. 636 00:32:51,080 --> 00:32:53,820 Гэта адзін я на самой справе даданне. 637 00:32:53,820 --> 00:32:55,570 ОК. 638 00:32:55,570 --> 00:32:59,480 Так што гэта было даданне да слоў. 639 00:32:59,480 --> 00:33:03,040 >> Цяпер я хачу дадаць да настаяцеляў. 640 00:33:03,040 --> 00:33:05,480 Так як я магу вылічыць апрыёрныя? 641 00:33:05,480 --> 00:33:11,580 У прыёры можна разлічыць у колькі разоў. 642 00:33:11,580 --> 00:33:15,340 Дык колькі раз вы бачыце, што спявак сярод усіх спевакоў, якія вы 643 00:33:15,340 --> 00:33:16,380 ёсць, ці не так? 644 00:33:16,380 --> 00:33:18,810 Такім чынам, для Gaga і Кэці Пэры, у гэтым выпадку, я бачу Gaga 645 00:33:18,810 --> 00:33:20,570 адзін раз, Кэці Пэры раз. 646 00:33:20,570 --> 00:33:23,320 >> Таму, у асноўным пробашчы для Gaga і Кэці Пэры будзе 647 00:33:23,320 --> 00:33:24,390 быць проста адным, ці не так? 648 00:33:24,390 --> 00:33:26,500 Вы проста, колькі разоў Я бачу мастака. 649 00:33:26,500 --> 00:33:28,740 Так што гэта вельмі лёгка вылічыць. 650 00:33:28,740 --> 00:33:34,100 Я магу толькі нешта падобнае, як напрыклад, "калі спявак у настаяцеляў, "Я проста збіраюся 651 00:33:34,100 --> 00:33:38,970 дадаць 1 да іх настаяцелі акне. 652 00:33:38,970 --> 00:33:51,000 Так, "прыёры (спяваць)" + = 1 ", а затым" яшчэ " Я збіраюся зрабіць «апрыёрныя (спявачка) 653 00:33:51,000 --> 00:33:55,000 = 1 ". Мае сэнс? 654 00:33:55,000 --> 00:34:00,080 >> Так што, калі ён не існуе, я проста паставіць як 1, у адваротным выпадку я проста дадайце 1. 655 00:34:00,080 --> 00:34:11,280 Такім чынам, цяпер усё, што ў мяне засталося зрабіць таксама дадаць кожнае з слоў у 656 00:34:11,280 --> 00:34:12,290 верагоднасці. 657 00:34:12,290 --> 00:34:14,889 Так што я павінен падлічыць, колькі разоў Я бачу кожнага з слоў. 658 00:34:14,889 --> 00:34:18,780 Так што я проста павінен зрабіць яшчэ адзін цыкл у лініі. 659 00:34:18,780 --> 00:34:25,190 >> Так, першае, што я збіраюся зрабіць, гэта праверыць, калі спявачка ўжо мае 660 00:34:25,190 --> 00:34:26,969 верагоднасці масіў. 661 00:34:26,969 --> 00:34:31,739 Так я правяраю, калі спявак не ёсць масіў верагоднасці, я проста 662 00:34:31,739 --> 00:34:34,480 збіраецца ініцыялізаваць адзін для іх. 663 00:34:34,480 --> 00:34:36,400 Гэта нават не масіў, прабачце, гэта слоўнік. 664 00:34:36,400 --> 00:34:43,080 Так верагоднасці спявачкі збіраецца быць адкрытай слоўнік, так што я 665 00:34:43,080 --> 00:34:45,830 проста ініцыялізацыі слоўніка для яго. 666 00:34:45,830 --> 00:34:46,820 ОК? 667 00:34:46,820 --> 00:34:58,330 >> І цяпер я магу рэальна зрабіць для завесы для разліку кожнага з слоў ' 668 00:34:58,330 --> 00:35:00,604 верагоднасці. 669 00:35:00,604 --> 00:35:01,540 ОК. 670 00:35:01,540 --> 00:35:04,160 Так што я магу зрабіць гэта для завесы. 671 00:35:04,160 --> 00:35:06,590 Так што я проста хачу, каб ітэрацыі па масіве. 672 00:35:06,590 --> 00:35:15,320 Такім чынам, спосаб, якім я магу зрабіць гэта ў Python з'яўляецца "для г у дыяпазоне". З 1 673 00:35:15,320 --> 00:35:19,200 таму што я хачу, каб пачаць у секунду элемент, таму што першы з'яўляецца 674 00:35:19,200 --> 00:35:20,260 Імя спевака. 675 00:35:20,260 --> 00:35:24,990 Так ад аднаго да Даўжыня лініі. 676 00:35:24,990 --> 00:35:29,760 І калі я ў дыяпазоне яна на самай справе ісці ад як тут ад 1 да Len з 677 00:35:29,760 --> 00:35:30,740 Лінія мінус 1. 678 00:35:30,740 --> 00:35:33,810 Так што ўжо робіць гэтую штуку рабіць н мінус 1 для масіваў, якія вельмі 679 00:35:33,810 --> 00:35:35,500 зручна. 680 00:35:35,500 --> 00:35:37,850 Мае сэнс? 681 00:35:37,850 --> 00:35:42,770 >> Такім чынам, для кожнага з іх, тое, што я збіраюся зрабіць, гэта, як і ў іншым, 682 00:35:42,770 --> 00:35:50,320 Я збіраюся праверыць, калі слова ў гэтым Становішча ў лінейцы ўжо 683 00:35:50,320 --> 00:35:51,570 верагоднасці. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 А потым, як я сказаў тут, верагоднасці словы, як у я стаўлю 686 00:35:57,260 --> 00:35:58,400 "Верагоднасці (спявачка)». 687 00:35:58,400 --> 00:35:59,390 Такім чынам, імя спявачкі. 688 00:35:59,390 --> 00:36:03,450 Так што, калі гэта ўжо ў "Probabilit (спявак)", гэта азначае, што я 689 00:36:03,450 --> 00:36:11,960 хочаце дадаць да яго 1, так што я збіраюся зрабіць "верагоднасці (спявак)", а 690 00:36:11,960 --> 00:36:14,100 Слова называецца "лінія (я)". 691 00:36:14,100 --> 00:36:22,630 Я збіраюся дадаць 1 і "яшчэ" Я проста збіраецца ініцыялізаваць яго ў 1. 692 00:36:22,630 --> 00:36:23,880 "Лінія (я)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Мае сэнс? 695 00:36:28,420 --> 00:36:30,180 >> Так, па маіх разліках ўсё масівы. 696 00:36:30,180 --> 00:36:36,580 Такім чынам, цяпер усё, што я павінен зрабіць для Гэты проста "вярнуцца апрыёрныя, 697 00:36:36,580 --> 00:36:43,230 верагоднасці і слова. «Давайце ўбачыць, калі такія маюцца, у парадку. 698 00:36:43,230 --> 00:36:45,690 Здаецца, усё працуе да гэтага часу. 699 00:36:45,690 --> 00:36:46,900 Так, у гэтым ёсць сэнс? 700 00:36:46,900 --> 00:36:47,750 У некаторым родзе? 701 00:36:47,750 --> 00:36:49,280 ОК. 702 00:36:49,280 --> 00:36:51,980 Так што цяпер у мяне ёсць усе верагоднасці. 703 00:36:51,980 --> 00:36:55,100 Так што цяпер адзінае, што ў мяне засталося проста мець гэтую рэч, што 704 00:36:55,100 --> 00:36:58,650 вылічае твор ўсё верагоднасцяў, калі я атрымліваю лірыку. 705 00:36:58,650 --> 00:37:06,270 >> Так скажам, што я хачу цяпер называць гэтая функцыя "класіфікаваць ()" і 706 00:37:06,270 --> 00:37:08,880 рэч, якая функцыя прымае гэта проста аргумент. 707 00:37:08,880 --> 00:37:13,170 Скажам "Дзетка, я ў агні", і гэта збіраецца высветліць, што з'яўляецца 708 00:37:13,170 --> 00:37:14,490 Верагоднасць таго, што гэта Gaga? 709 00:37:14,490 --> 00:37:16,405 Якая верагоднасць таго, што гэта Кэці? 710 00:37:16,405 --> 00:37:19,690 Гучыць добра? 711 00:37:19,690 --> 00:37:25,750 Так што я проста прыйдзецца стварыць Новая функцыя называецца "класіфікаваць ()" і 712 00:37:25,750 --> 00:37:29,180 ён збіраецца прыняць некаторыя тэкст песні, а таксама. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 І, акрамя таго лірыцы Я таксама павінны адправіць апрыёрныя, 715 00:37:36,160 --> 00:37:37,700 верагоднасці і слова. 716 00:37:37,700 --> 00:37:44,000 Так што я збіраюся паслаць тэкст, апрыёрныя, верагоднасці, слова. 717 00:37:44,000 --> 00:37:51,840 >> Так гэта адбываецца тэкст, апрыёрныя, верагоднасці, слова. 718 00:37:51,840 --> 00:37:53,530 Так, для чаго гэта трэба? 719 00:37:53,530 --> 00:37:57,180 Гэта ў асноўным будзе ісці праз усе магчымыя кандыдаты, якія вы 720 00:37:57,180 --> 00:37:58,510 мець у якасці спевака. 721 00:37:58,510 --> 00:37:59,425 А дзе тыя кандыдаты? 722 00:37:59,425 --> 00:38:01,020 Яны ў настаяцеляў, ці не так? 723 00:38:01,020 --> 00:38:02,710 Таму ў мяне ёсць усе тыя, там. 724 00:38:02,710 --> 00:38:07,870 Так што я збіраюся ёсць слоўнік з усіх магчымых кандыдатаў. 725 00:38:07,870 --> 00:38:14,220 А потым за кожнага кандыдата ў настаяцелі, дык гэта азначае, што ён збіраецца 726 00:38:14,220 --> 00:38:17,740 быць Гага, Кэці калі б мне давялося больш было б больш. 727 00:38:17,740 --> 00:38:20,410 Я збіраюся пачаць разлік гэтая верагоднасць. 728 00:38:20,410 --> 00:38:28,310 Верагоднасць як мы бачылі ў PowerPoint з'яўляецца Папярэднія раз 729 00:38:28,310 --> 00:38:30,800 Прадукт кожнага з іншыя верагоднасці. 730 00:38:30,800 --> 00:38:32,520 >> Так што я магу зрабіць тое ж самае тут. 731 00:38:32,520 --> 00:38:36,330 Я магу проста зрабіць верагоднасць першапачаткова толькі перад. 732 00:38:36,330 --> 00:38:40,340 Так настаяцелі кандыдата. 733 00:38:40,340 --> 00:38:40,870 Ці не так? 734 00:38:40,870 --> 00:38:45,360 І зараз у мяне ёсць для перабору ўсіх Словы, якія я маю на лірыцы быць 735 00:38:45,360 --> 00:38:48,820 магчымасць дадаваць верагоднасць для кожнага з іх, у парадку? 736 00:38:48,820 --> 00:38:57,900 Так, "у слова ў тэкстах", што я збіраюся зрабіць, гэта, калі слова ў 737 00:38:57,900 --> 00:39:01,640 "Верагоднасці (кандыдаты)", якія азначае, што гэта слова, якое 738 00:39:01,640 --> 00:39:03,640 Кандыдат павінен у сваіх тэкстах - 739 00:39:03,640 --> 00:39:05,940 напрыклад, "дзіця" для Gaga - 740 00:39:05,940 --> 00:39:11,710 тое, што я збіраюся зрабіць, гэта што верагоднасць збіраецца памножыць 741 00:39:11,710 --> 00:39:22,420 на 1 плюс верагоднасцяў кандыдат у гэтым слове. 742 00:39:22,420 --> 00:39:25,710 І гэта называецца "Слова". 743 00:39:25,710 --> 00:39:32,440 Гэта дзеліцца на колькасць слоў што ў мяне ёсць для гэтага кандыдата. 744 00:39:32,440 --> 00:39:37,450 Агульная колькасць слоў, якія ў мяне ёсць для спявачкі, што я гляджу на. 745 00:39:37,450 --> 00:39:40,290 >> "Else". гэта азначае, што гэта новае слова так што было б, як напрыклад 746 00:39:40,290 --> 00:39:41,860 "Агонь" для Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Так што я проста хачу зрабіць 1 па "Слова (кандыдат)". 748 00:39:45,760 --> 00:39:47,710 Так што я не хачу паставіць гэты тэрмін тут. 749 00:39:47,710 --> 00:39:50,010 >> Так што гэта будзе ў асноўным капіяванне і ўстаўка гэтага. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Але я збіраюся выдаліць гэтую частку. 752 00:39:56,000 --> 00:39:57,610 Так што гэта проста будзе 1 па гэтай нагоды. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Гучыць добра? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 І зараз у канцы, я проста хачу, каб друкаваць імя кандыдата і 757 00:40:09,700 --> 00:40:15,750 верагоднасць таго, што ў вас ёсць з маючы S на іх тэкстах. 758 00:40:15,750 --> 00:40:16,200 Мае сэнс? 759 00:40:16,200 --> 00:40:18,390 І я на самой справе нават не патрэбен гэты слоўнік. 760 00:40:18,390 --> 00:40:19,510 Мае сэнс? 761 00:40:19,510 --> 00:40:21,810 >> Такім чынам, давайце паглядзім, калі гэта на самай справе працуе. 762 00:40:21,810 --> 00:40:24,880 Так што, калі я запускаю гэта, ён не працуе. 763 00:40:24,880 --> 00:40:26,130 Пачакайце адну секунду. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Слова (кандыдаты)", "словы (кандыдаты)", гэта 766 00:40:31,720 --> 00:40:33,750 імя масіва. 767 00:40:33,750 --> 00:40:41,435 ОК Такім чынам, гэта кажа, што ёсць нейкая памылка для кандыдата ў настаяцеляў. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Дазвольце мне проста расслабіцца няшмат. 770 00:40:48,760 --> 00:40:50,360 ОК. 771 00:40:50,360 --> 00:40:51,305 Давайце паспрабуем. 772 00:40:51,305 --> 00:40:51,720 ОК. 773 00:40:51,720 --> 00:40:58,710 >> Так ён дае Кэці Пэры мае гэта Верагоднасць гэтага разы 10 да 774 00:40:58,710 --> 00:41:02,200 мінус 7, і Гага гэта раз ад 10 да мінус 6. 775 00:41:02,200 --> 00:41:05,610 Такім чынам, вы бачыце гэта паказвае, што Гага мае больш высокую верагоднасць. 776 00:41:05,610 --> 00:41:09,260 Такім чынам, "Дзетка, я ў агні" з'яўляецца верагодна, песня Gaga. 777 00:41:09,260 --> 00:41:10,580 Мае сэнс? 778 00:41:10,580 --> 00:41:12,030 Так што гэта тое, што мы зрабілі. 779 00:41:12,030 --> 00:41:16,010 >> Гэты код будзе размешчаны на сайце, так што вы, хлопцы, можаце праверыць яго. 780 00:41:16,010 --> 00:41:20,720 Можа быць, выкарыстоўваць некаторыя з іх, калі вы хочаце, каб зрабіць праект ці нешта падобнае. 781 00:41:20,720 --> 00:41:22,150 ОК. 782 00:41:22,150 --> 00:41:25,930 Гэта было як раз, каб паказаць што вылічальная 783 00:41:25,930 --> 00:41:27,230 лінгвістыка код выглядае. 784 00:41:27,230 --> 00:41:33,040 Але цяпер давайце вернемся да больш Высокі ўзровень рэчы. 785 00:41:33,040 --> 00:41:33,340 ОК. 786 00:41:33,340 --> 00:41:35,150 >> Такім чынам, іншыя праблемы, якія я казаў пра - 787 00:41:35,150 --> 00:41:37,550 праблема сегментацыі з'яўляецца першым з іх. 788 00:41:37,550 --> 00:41:40,820 Так у вас тут на Японскай. 789 00:41:40,820 --> 00:41:43,420 І тады вы ўбачыце, што няма прасторы. 790 00:41:43,420 --> 00:41:49,110 Так што гэта ў асноўным азначае, што гэта верхняя частка крэслы, ці не так? 791 00:41:49,110 --> 00:41:50,550 Вы кажаце на Японскай? 792 00:41:50,550 --> 00:41:52,840 Гэта верхняя частка крэслы, ці не так? 793 00:41:52,840 --> 00:41:54,480 >> СТУДЭНЦКАЯ: Я не ведаю, што кандзи там ёсць. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Фрейташ: Гэта [маўленне на Японскай] 795 00:41:57,010 --> 00:41:57,950 ОК. 796 00:41:57,950 --> 00:42:00,960 Так што ў асноўным азначае кафедру вяршыні. 797 00:42:00,960 --> 00:42:03,620 Так што калі вы павінны былі паставіць прабел было б тут. 798 00:42:03,620 --> 00:42:05,970 І тады ў вас ёсць [? Уэда-Сан -. ?] 799 00:42:05,970 --> 00:42:09,040 Якія ў асноўным азначае, г-н Уэда. 800 00:42:09,040 --> 00:42:13,180 І вы бачыце, што "Уэда" і ў вас ёсць прастору, а затым "Сан -." Такім чынам, вы бачыце, што 801 00:42:13,180 --> 00:42:15,470 тут вы "Ue", як сам па сабе. 802 00:42:15,470 --> 00:42:17,750 І вось у яго ёсць характар побач з ім. 803 00:42:17,750 --> 00:42:21,720 >> Так што гэта не так, як у гэтых мовах знакаў азначае слова яго, каб вы 804 00:42:21,720 --> 00:42:23,980 проста пакласці шмат прабелаў. 805 00:42:23,980 --> 00:42:25,500 Персанажы звязаны адзін з адным. 806 00:42:25,500 --> 00:42:28,680 І яны могуць быць разам як два, тры, адзін. 807 00:42:28,680 --> 00:42:34,520 Такім чынам, вы на самой справе трэба стварыць нейкі з спосаб пакласці гэтыя прабелы. 808 00:42:34,520 --> 00:42:38,850 >> І гэта тое, што кожны раз, калі вы атрымліваеце Дадзеныя з гэтых азіяцкіх моў, 809 00:42:38,850 --> 00:42:40,580 усё прыходзіць нечленистые. 810 00:42:40,580 --> 00:42:45,940 Таму што няма той, хто піша на Японскай або кітайскі піша прабеламі. 811 00:42:45,940 --> 00:42:48,200 Кожны раз, калі вы пішаце па-кітайску, Японскі вы проста напісаць усё, 812 00:42:48,200 --> 00:42:48,710 без прабелаў. 813 00:42:48,710 --> 00:42:52,060 Ён нават не мае сэнсу паставіць прабелы. 814 00:42:52,060 --> 00:42:57,960 Такім чынам, калі вы атрымліваеце дадзеныя з, некаторыя Азіяцкіх моў Усход, калі вы хочаце 815 00:42:57,960 --> 00:43:00,760 зрабіць што-то з гэтым вы павінны сегменце ў першую чаргу. 816 00:43:00,760 --> 00:43:05,130 >> Падумайце рабіць прыклад тэксты без прабелаў. 817 00:43:05,130 --> 00:43:07,950 Такім чынам, толькі тэкст песні, якія вы павінны будзе прысуды, ці не так? 818 00:43:07,950 --> 00:43:09,470 , Падзеленыя кропкай. 819 00:43:09,470 --> 00:43:13,930 Але затым, як раз прапанова будзе не дапамагае на прадастаўленне інфармацыі 820 00:43:13,930 --> 00:43:17,760 ад таго, хто гэтыя тэксты на. 821 00:43:17,760 --> 00:43:18,120 Ці не так? 822 00:43:18,120 --> 00:43:20,010 Такім чынам, вы павінны ставіць прабелы ў першую чаргу. 823 00:43:20,010 --> 00:43:21,990 Такім чынам, як можна гэта зрабіць? 824 00:43:21,990 --> 00:43:24,920 >> Так потым прыходзіць ідэя мове мадэль, якая нешта сапраўды 825 00:43:24,920 --> 00:43:26,870 важна для вылічальных лінгвістыка. 826 00:43:26,870 --> 00:43:32,790 Такім чынам, моўная мадэль у асноўным табліца верагоднасцяў, што шоў 827 00:43:32,790 --> 00:43:36,260 перш за ўсё якая верагоднасць таго, гэтае слова ў мове? 828 00:43:36,260 --> 00:43:39,590 Так, які паказвае, як часта слова. 829 00:43:39,590 --> 00:43:43,130 А потым яшчэ і якая паказвае суадносіны паміж словамі ў сказе. 830 00:43:43,130 --> 00:43:51,500 >> Такім чынам, асноўная ідэя складаецца ў тым, калі незнаёмы прыйшоў Вам і сказаў прысуд 831 00:43:51,500 --> 00:43:55,600 Вы, якая верагоднасць таго, што для Напрыклад, "гэта мая сястра [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 быў прысуд, што чалавек сказаў? 833 00:43:57,480 --> 00:44:00,380 Так, відавочна, некаторыя прысуды часцей, чым іншыя. 834 00:44:00,380 --> 00:44:04,450 Напрыклад, "добрае раніца" ці "добра ноч ", або" Гэй, "значна больш 835 00:44:04,450 --> 00:44:08,260 агульнага, чым большасць прапаноў што ў нас ёсць па-ангельску. 836 00:44:08,260 --> 00:44:11,060 Дык чаму ж гэтыя прапановы больш частымі? 837 00:44:11,060 --> 00:44:14,060 >> Перш за ўсё, гэта таму, што ў вас ёсць словы, якія часцей. 838 00:44:14,060 --> 00:44:20,180 Так, напрыклад, калі вы кажаце, што сабака вялікі, і сабака гіганцкая, вы 839 00:44:20,180 --> 00:44:23,880 звычайна, верагодна, пачуць Сабака вялікая часцей, таму што "вялікі" з'яўляецца больш 840 00:44:23,880 --> 00:44:27,260 часта на англійскай мове, чым "гіганцкая". Так, адзін з 841 00:44:27,260 --> 00:44:30,100 рэчы частата слова. 842 00:44:30,100 --> 00:44:34,490 >> Другая рэч, якая сапраўды важна толькі 843 00:44:34,490 --> 00:44:35,490 парадак слоў. 844 00:44:35,490 --> 00:44:39,500 Такім чынам, гэта прынята казаць "кошка ўнутры скрынкі. ", але вы гэтага не зробіце, як правіла, 845 00:44:39,500 --> 00:44:44,250 гл ў "акне ўнутры кот." так Вы бачыце, што ёсць некаторая важнасць 846 00:44:44,250 --> 00:44:46,030 ў парадку слоў. 847 00:44:46,030 --> 00:44:50,160 Вы не можаце проста сказаць, што гэтыя двое прапановы маюць аднолькавую верагоднасць 848 00:44:50,160 --> 00:44:53,010 толькі таму, што ў іх ёсць тыя ж самыя словы. 849 00:44:53,010 --> 00:44:55,550 Вы на самой справе павінны клапаціцца аб парадку, а таксама. 850 00:44:55,550 --> 00:44:57,650 Сэнс? 851 00:44:57,650 --> 00:44:59,490 >> Дык што ж нам рабіць? 852 00:44:59,490 --> 00:45:01,550 Так што я мог бы паспрабаваць атрымаць вас? 853 00:45:01,550 --> 00:45:04,400 Я спрабую прымусіць вас, што мы патэлефанаваць мадэлі н-грамовыя. 854 00:45:04,400 --> 00:45:09,095 Так мадэлі н-грам асноўным выказаць здагадку што для кожнага слова, якое 855 00:45:09,095 --> 00:45:10,960 ў вас ёсць у сказе. 856 00:45:10,960 --> 00:45:15,020 Гэта верагоднасць наяўнасці, што Слова ёсць залежыць не толькі ад 857 00:45:15,020 --> 00:45:18,395 Частата гэтага слова ў мове, але таксама і ад слоў, якія 858 00:45:18,395 --> 00:45:19,860 атачаюць яго. 859 00:45:19,860 --> 00:45:25,810 >> Так, напрыклад, як правіла, калі вы бачыце нешта накшталт ці на вы 860 00:45:25,810 --> 00:45:28,040 верагодна, ўбачым назоўнік пасля яго, ці не так? 861 00:45:28,040 --> 00:45:31,750 Таму што, калі ў вас ёсць падстава звычайна гэта займае назоўнік пасля яго. 862 00:45:31,750 --> 00:45:35,540 Або калі ў вас ёсць дзеяслоў, які транзітыўнасць Вы звычайна збіраюцца 863 00:45:35,540 --> 00:45:36,630 ёсць словазлучэнне. 864 00:45:36,630 --> 00:45:38,780 Так што гэта будзе мець назоўнік дзесьці вакол яго. 865 00:45:38,780 --> 00:45:44,950 >> Так, у асноўным, тое, што ён робіць тое, што гэта лічыць верагоднасць наяўнасці 866 00:45:44,950 --> 00:45:47,960 словы побач адзін з адным, калі Вы разліку 867 00:45:47,960 --> 00:45:49,050 верагоднасць прапановы. 868 00:45:49,050 --> 00:45:50,960 І вось, што такое мова мадэль у прынцыпе. 869 00:45:50,960 --> 00:45:54,620 Проста кажу, што гэта верагоднасць з які мае удзельную 870 00:45:54,620 --> 00:45:57,120 Прысуд у мове? 871 00:45:57,120 --> 00:45:59,110 Дык чаму ж, што карысна, у асноўным? 872 00:45:59,110 --> 00:46:02,390 І ў першую чаргу тое, што мадэль н-г, то? 873 00:46:02,390 --> 00:46:08,850 >> Так мадэль н-г азначае, што кожнае слова залежыць ад 874 00:46:08,850 --> 00:46:12,700 Наступны N мінус 1 слоў. 875 00:46:12,700 --> 00:46:18,150 Так, у асноўным, гэта азначае, што калі я гляджу, напрыклад, на CS50 TF, калі 876 00:46:18,150 --> 00:46:21,500 Я вылічэнні верагоднасці прысуд, будзеш як " 877 00:46:21,500 --> 00:46:25,280 верагоднасць таго, слова "" разы верагоднасць наяўнасці " 878 00:46:25,280 --> 00:46:31,720 CS50 "раз верагоднасць наяўнасці "CS50 TF." Так, у асноўным, я лічу 879 00:46:31,720 --> 00:46:35,720 усе магчымыя спосабы расцягваючы яе. 880 00:46:35,720 --> 00:46:41,870 >> А потым, як правіла, калі вы робіце гэта, як у праекце, вы ставіце N быць 881 00:46:41,870 --> 00:46:42,600 нізкае значэнне. 882 00:46:42,600 --> 00:46:45,930 Так, як правіла, маюць биграмм або триграмм. 883 00:46:45,930 --> 00:46:51,090 Так што вы проста палічыць два словамі, група з двух слоў, або трох слоў, 884 00:46:51,090 --> 00:46:52,620 проста за збоі ў працы. 885 00:46:52,620 --> 00:46:56,395 А таксама таму, можа быць, калі ў вас ёсць нешта накшталт "The CS50 TF." Калі вы 886 00:46:56,395 --> 00:47:00,510 ёсць "TF", гэта вельмі важна, што "CS50" побач з ім, ці не так? 887 00:47:00,510 --> 00:47:04,050 Гэтыя дзве рэчы, як правіла, побач адзін з адным. 888 00:47:04,050 --> 00:47:06,410 >> Калі вы думаеце пра "TF", гэта, верагодна, будзе мець тое, што 889 00:47:06,410 --> 00:47:07,890 Клас гэта TF'ing для. 890 00:47:07,890 --> 00:47:11,330 Акрамя таго, "" што сапраўды важна для CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Але калі ў вас ёсць што-то накшталт "The CS50 TF пайшоў у клас і даў іх 892 00:47:14,570 --> 00:47:20,060 студэнты некаторыя цукеркі. "" Цукеркі "і" " не маюць ніякага дачынення сапраўды, ці не так? 893 00:47:20,060 --> 00:47:23,670 Яны так далёка адзін ад аднаго, што гэта сапраўды не мае значэння, што 894 00:47:23,670 --> 00:47:25,050 словы ў вас ёсць. 895 00:47:25,050 --> 00:47:31,210 >> Так, робячы биграмм або триграмма, гэта проста азначае, што вы абмяжоўваеце 896 00:47:31,210 --> 00:47:33,430 сабе некаторых слоў што вакол. 897 00:47:33,430 --> 00:47:35,810 Сэнс? 898 00:47:35,810 --> 00:47:40,630 Такім чынам, калі вы хочаце зрабіць сегментацыю, у асноўным, тое, што вы хочаце зрабіць, гэта ўбачыць 899 00:47:40,630 --> 00:47:44,850 якія ўсе магчымыя спосабы, якія вы можаце разбіць прапанову. 900 00:47:44,850 --> 00:47:49,090 >> Такі, што вы бачыце, што з'яўляецца верагоднасць кожнага з гэтых прапаноў 901 00:47:49,090 --> 00:47:50,880 якія існуюць у мове? 902 00:47:50,880 --> 00:47:53,410 Так што вы робіце гэта як, ну, хай мне паспрабаваць паставіць прабел тут. 903 00:47:53,410 --> 00:47:55,570 Такім чынам, вы паставіць прабел ёсць і вы бачыце, што з'яўляецца 904 00:47:55,570 --> 00:47:57,590 верагоднасць таго, што прысуд? 905 00:47:57,590 --> 00:48:00,240 Тады вы, як, у парадку, можа быць, што не было настолькі добра. 906 00:48:00,240 --> 00:48:03,420 Так што я паставіць прабел там і прасторы там, і вам разлічыць 907 00:48:03,420 --> 00:48:06,240 Верагоднасць зараз, і вы бачыце, што гэта высокая верагоднасць. 908 00:48:06,240 --> 00:48:12,160 >> Так што гэта алгарытм называецца ТАНГО Алгарытм сегментацыі, які 909 00:48:12,160 --> 00:48:14,990 на самай справе тое, што было б сапраўды астыць на працягу праекта, які 910 00:48:14,990 --> 00:48:20,860 у асноўным бярэ нечленистые тэкст, які можа быць японскі або кітайскі або, можа быць, 911 00:48:20,860 --> 00:48:26,080 Англійская без прабелаў і спрабуе змясціць прабелы паміж словамі і гэта робіць 912 00:48:26,080 --> 00:48:29,120 што з дапамогай моўную мадэль і спрабуючы разглядзець, што з'яўляецца самым высокім 913 00:48:29,120 --> 00:48:31,270 верагоднасць вы можаце атрымаць. 914 00:48:31,270 --> 00:48:32,230 ОК. 915 00:48:32,230 --> 00:48:33,800 Так што гэта сегментацыя. 916 00:48:33,800 --> 00:48:35,450 >> Цяпер сінтаксіс. 917 00:48:35,450 --> 00:48:40,940 Так, сінтаксіс выкарыстоўваецца для так шмат рэчаў, прама цяпер. 918 00:48:40,940 --> 00:48:44,880 Такім чынам, для Graph Пошук, для Siri для амаль любы від прыроднага 919 00:48:44,880 --> 00:48:46,490 мова апрацоўкі ў вас ёсць. 920 00:48:46,490 --> 00:48:49,140 Так што важна рэчы пра сінтаксіс? 921 00:48:49,140 --> 00:48:52,390 Так, прапановы ў цэлым маюць што мы называем складнікі. 922 00:48:52,390 --> 00:48:57,080 Якія накшталт як групы слоў якія маюць функцыю ў сказе. 923 00:48:57,080 --> 00:49:02,220 І яны не могуць сапраўды быць адзін ад аднаго. 924 00:49:02,220 --> 00:49:07,380 >> Так што, калі я кажу, напрыклад, "Ларэн любіць Міла. "Я ведаю, што" Ларэн "з'яўляецца 925 00:49:07,380 --> 00:49:10,180 складовай і затым "любіць Міла "таксама яшчэ адзін. 926 00:49:10,180 --> 00:49:16,860 Таму што вы не можаце сказаць, як "Ларэн Міла любіць "мець той жа сэнс. 927 00:49:16,860 --> 00:49:18,020 Гэта не будзе мець той жа сэнс. 928 00:49:18,020 --> 00:49:22,500 Ці я не магу сказаць, як "Міла Lauren любіць. "Не ўсе мае тыя ж 929 00:49:22,500 --> 00:49:25,890 азначае рабіць гэта. 930 00:49:25,890 --> 00:49:31,940 >> Такім чынам, дзве больш важныя рэчы, пра Сінтаксіс з'яўляюцца лексічныя тыпы якіх з'яўляецца 931 00:49:31,940 --> 00:49:35,390 у асноўным функцыя, што вы ёсць словы самі па сабе. 932 00:49:35,390 --> 00:49:39,180 Такім чынам, вы павінны ведаць, што "Ларэн" і "Міла" назоўнікі. 933 00:49:39,180 --> 00:49:41,040 "Каханне" гэта дзеяслоў. 934 00:49:41,040 --> 00:49:45,660 І другая важная рэч што яны фразавае тыпы. 935 00:49:45,660 --> 00:49:48,990 Такім чынам, вы ведаеце, што "любіць майле" на самай справе з'яўляецца слоўнае фраза. 936 00:49:48,990 --> 00:49:52,390 Таму, калі я кажу "Ларэн", я ведаю, што Ларэн робіць нешта. 937 00:49:52,390 --> 00:49:53,620 Што яна робіць? 938 00:49:53,620 --> 00:49:54,570 Яна кахаючая майл. 939 00:49:54,570 --> 00:49:56,440 Так што гэта ўсё справа. 940 00:49:56,440 --> 00:50:01,640 Але яго кампаненты назоўнік і дзеяслоў. 941 00:50:01,640 --> 00:50:04,210 Але разам, яны робяць дзеяслоў фразу. 942 00:50:04,210 --> 00:50:08,680 >> Такім чынам, што мы можам рэальна зрабіць з кампутарная лінгвістыка? 943 00:50:08,680 --> 00:50:13,810 Так што, калі ў мяне ёсць сёе-тое для прыкладу «Сябры Allison». Я бачу, калі я проста 944 00:50:13,810 --> 00:50:17,440 зрабіў сінтаксічны дрэва я буду ведаць, што "Сябры" з'яўляецца імянная гэта 945 00:50:17,440 --> 00:50:21,480 назоўнік, а затым "з Allison» з'яўляецца месным, у якім "з" з'яўляецца 946 00:50:21,480 --> 00:50:24,810 прапанову і "Аллисон" з'яўляецца назоўнікам. 947 00:50:24,810 --> 00:50:30,910 Што я мог зрабіць, гэта навучыць свой кампутар , Што, калі ў мяне ёсць Імянная адзін і 948 00:50:30,910 --> 00:50:33,080 затым месным. 949 00:50:33,080 --> 00:50:39,020 Так у дадзеным выпадку, "сябры", а затым "з Міла "Я ведаю, што гэта азначае, што 950 00:50:39,020 --> 00:50:43,110 NP2, другі, валодае NP1. 951 00:50:43,110 --> 00:50:47,680 >> Так што я магу стварыць нейкае дачыненне, нейкая функцыі для яго. 952 00:50:47,680 --> 00:50:52,370 Таму, калі я бачу гэтую структуру, якая супадае хоць бы з "сябрамі 953 00:50:52,370 --> 00:50:56,030 Элісан: "Я ведаю, што Элісан валодае сяброў. 954 00:50:56,030 --> 00:50:58,830 Так што сябры з'яўляюцца чымсьці што Элісан мае. 955 00:50:58,830 --> 00:50:59,610 Мае сэнс? 956 00:50:59,610 --> 00:51:01,770 Так што гэта ў асноўным тое, што Графік Пошук робіць. 957 00:51:01,770 --> 00:51:04,360 Гэта проста стварае правілы для многіх рэчаў. 958 00:51:04,360 --> 00:51:08,190 Так «сябры Allison", "мае сябры хто жыве ў Кембрыджы "," мае сябры 959 00:51:08,190 --> 00:51:12,970 хто вучыўся ў Гарвардзе ". Гэта стварае правілы для ўсіх гэтых рэчаў. 960 00:51:12,970 --> 00:51:14,930 >> Цяпер машыннага перакладу. 961 00:51:14,930 --> 00:51:18,850 Так, машынны пераклад таксама нешта статыстычны. 962 00:51:18,850 --> 00:51:21,340 А на самай справе, калі вы патрапілі ў кампутарная лінгвістыка, шмат 963 00:51:21,340 --> 00:51:23,580 Ваш матэрыял будзе статыстыка. 964 00:51:23,580 --> 00:51:26,670 Так як я рабіў прыклад з шмат верагоднасцяў, што я быў 965 00:51:26,670 --> 00:51:30,540 разліку, і тады вы атрымаеце на гэта вельмі невялікая колькасць, гэта фінал 966 00:51:30,540 --> 00:51:33,180 Верагоднасць, і вось, што дае вам адказ. 967 00:51:33,180 --> 00:51:37,540 Машынны пераклад таксама выкарыстоўвае статыстычная мадэль. 968 00:51:37,540 --> 00:51:44,790 І калі вы хочаце думаць пра машыну пераклад у найпростая 969 00:51:44,790 --> 00:51:48,970 чынам, тое, што вы можаце думаць толькі перавесці слова ў слова, ці не так? 970 00:51:48,970 --> 00:51:52,150 >> Калі вы вывучаеце мова для першы раз, што, як правіла, што 971 00:51:52,150 --> 00:51:52,910 што вы робіце, не так? 972 00:51:52,910 --> 00:51:57,050 Калі хочаце, то вы перавесці прапанову на Вашым мове да мовы 973 00:51:57,050 --> 00:52:00,060 Вы вучыцеся, як правіла, па-першае, вы перавесці кожнае з слоў 974 00:52:00,060 --> 00:52:03,180 індывідуальна, а затым паспрабуйце пакласці словы на свае месцы. 975 00:52:03,180 --> 00:52:07,100 >> Так што, калі я хацеў, каб перавесці гэта, [Кажучы Партугалія] 976 00:52:07,100 --> 00:52:10,430 , Што азначае "белая котка ўцякла." Калі б я хацеў, каб перавесці яго з 977 00:52:10,430 --> 00:52:13,650 З партугальскай на ангельскую, тое, што я можа зрабіць, гэта, па-першае, я проста 978 00:52:13,650 --> 00:52:14,800 перавесці слова ў слова. 979 00:52:14,800 --> 00:52:20,570 Так «о» "," "Гато", "кошка" "Бранка", "белы", а затым "fugio" з'яўляецца 980 00:52:20,570 --> 00:52:21,650 "Уцёк". 981 00:52:21,650 --> 00:52:26,130 >> Так то ў мяне ёсць усе словы тут, але яны не ў парадку. 982 00:52:26,130 --> 00:52:29,590 Гэта як "кошка белы ўцёк" які непісьменна. 983 00:52:29,590 --> 00:52:34,490 Так, то я магу мець другі крок, які збіраецца быць знайсці ідэал 984 00:52:34,490 --> 00:52:36,610 становішча для кожнага з слоў. 985 00:52:36,610 --> 00:52:40,240 Так што я ведаю, што я на самой справе хачу мець "Белая котка" замест "котка, белы." Так 986 00:52:40,240 --> 00:52:46,050 што я магу зрабіць, гэта, самыя наіўныя метадзе было б стварыць усе 987 00:52:46,050 --> 00:52:49,720 магчымых перастановак словы, з пазіцый. 988 00:52:49,720 --> 00:52:53,300 А потым паглядзець, што адзін мае Найбольшая верагоднасць ў адпаведнасці 989 00:52:53,300 --> 00:52:54,970 на мой моўнай мадэлі. 990 00:52:54,970 --> 00:52:58,390 А потым, калі я знайсці той, які мае найбольшая верагоднасць яго, што 991 00:52:58,390 --> 00:53:01,910 верагодна, "белая котка ўцякла," вось мой пераклад. 992 00:53:01,910 --> 00:53:06,710 >> І гэта просты спосаб тлумачэння як шмат машыннага перакладу 993 00:53:06,710 --> 00:53:07,910 алгарытмы працы. 994 00:53:07,910 --> 00:53:08,920 Ці мае гэта сэнс? 995 00:53:08,920 --> 00:53:12,735 Гэта таксама тое, вельмі цікава што вы, хлопцы могуць, можа быць, разведку 996 00:53:12,735 --> 00:53:13,901 Канчатковы праект, так? 997 00:53:13,901 --> 00:53:15,549 >> СТУДЭНЦКАЯ: Ну, ты сказаў, што наіўны спосаб, так у чым 998 00:53:15,549 --> 00:53:17,200 ня-наіўным спосабам? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Фрейташ: ня-наіўным спосабам? 1000 00:53:18,400 --> 00:53:19,050 ОК. 1001 00:53:19,050 --> 00:53:22,860 Такім чынам, першае, што ў гэтым дрэннага гэты метад у тым, што я толькі што перавёў 1002 00:53:22,860 --> 00:53:24,330 словы, слова ў слова. 1003 00:53:24,330 --> 00:53:30,570 Але часам у вас ёсць словы, якія можа мець некалькі перакладаў. 1004 00:53:30,570 --> 00:53:32,210 Я збіраюся паспрабаваць думаць чагосьці. 1005 00:53:32,210 --> 00:53:37,270 Напрыклад, "манга" ў партугальскім банку альбо "калечыць" ці "рукаў". Так 1006 00:53:37,270 --> 00:53:40,450 калі вы спрабуеце перавесці слова словам, гэта можа быць даючы вам 1007 00:53:40,450 --> 00:53:42,050 тое, што не мае ніякага сэнсу. 1008 00:53:42,050 --> 00:53:45,770 >> Такім чынам, вы на самой справе хочаце, каб вы паглядзіце на ўсе магчымыя пераклады 1009 00:53:45,770 --> 00:53:49,840 словы і ўбачыць, у першую чаргу, які парадак. 1010 00:53:49,840 --> 00:53:52,000 Мы гаварылі аб перастаноўкі рэчы? 1011 00:53:52,000 --> 00:53:54,150 Каб убачыць усе магчымыя заказы і выбраць адзін з самай высокай 1012 00:53:54,150 --> 00:53:54,990 верагоднасць? 1013 00:53:54,990 --> 00:53:57,860 Вы таксама можаце выбраць усе магчымыя пераклады для кожнага 1014 00:53:57,860 --> 00:54:00,510 слова, а затым паглядзець - 1015 00:54:00,510 --> 00:54:01,950 ў спалучэнні з перастановак - 1016 00:54:01,950 --> 00:54:03,710 які мае высокую верагоднасць. 1017 00:54:03,710 --> 00:54:08,590 >> Акрамя таго, вы таксама можаце паглядзець на ня толькі словы, але фразы. 1018 00:54:08,590 --> 00:54:11,700 так што вы можаце прааналізаваць адносіны паміж слова і затым атрымаць 1019 00:54:11,700 --> 00:54:13,210 лепш пераклад. 1020 00:54:13,210 --> 00:54:16,690 Таксама нешта яшчэ, так што ў гэтым семестры Я на самой справе займаўся даследаваннямі ў 1021 00:54:16,690 --> 00:54:19,430 Кітайска-ангельскі машыннага перакладу, так у перакладзе з 1022 00:54:19,430 --> 00:54:20,940 Кітайскі на ангельскую мову. 1023 00:54:20,940 --> 00:54:26,760 >> І тое, што мы зрабіць, гэта, апроч выкарыстання статыстычная мадэль, якая з'яўляецца проста 1024 00:54:26,760 --> 00:54:30,570 бачачы верагоднасці бачачы некаторыя пазіцыі ў сказе, я 1025 00:54:30,570 --> 00:54:35,360 на самай справе таксама дадаць некаторыя сінтаксіс для маёй мадэль, кажучы о, калі б я ўбачыць гэты від 1026 00:54:35,360 --> 00:54:39,420 будаўніцтва, гэта тое, што я хачу каб змяніць яго, калі я перакладаю. 1027 00:54:39,420 --> 00:54:43,880 Такім чынам, вы таксама можаце дадаць нейкую элемент сінтаксісу, каб зрабіць 1028 00:54:43,880 --> 00:54:47,970 пераклад больш эфектыўным і дакладней. 1029 00:54:47,970 --> 00:54:48,550 ОК. 1030 00:54:48,550 --> 00:54:51,010 >> Такім чынам, як можна пачаць, калі вы хочаце зрабіць нешта ў вылічальнай 1031 00:54:51,010 --> 00:54:51,980 лінгвістыка? 1032 00:54:51,980 --> 00:54:54,560 >> Па-першае, вы выбіраеце праект які ўключае ў сябе мовы. 1033 00:54:54,560 --> 00:54:56,310 Так, ёсць так шмат там. 1034 00:54:56,310 --> 00:54:58,420 Там так шмат рэчаў, якія вы можаце зрабіць. 1035 00:54:58,420 --> 00:55:00,510 А потым можна думаць аб мадэлі што вы можаце выкарыстоўваць. 1036 00:55:00,510 --> 00:55:04,710 Звычайна гэта азначае, што мысленне здагадкі, гэтак жа як, ну, калі я быў 1037 00:55:04,710 --> 00:55:05,770 як мыслення лірыкі. 1038 00:55:05,770 --> 00:55:09,510 Я падумала: добра, калі я хачу, каб высветліць з які напісаў гэта, я, верагодна, хочаце 1039 00:55:09,510 --> 00:55:15,400 паглядзець на словах чалавек выкарыстаў і убачыць, хто вельмі часта выкарыстоўвае гэтае слова. 1040 00:55:15,400 --> 00:55:18,470 Таму паспрабуйце, каб рабіць здагадкі і імкнуся думаць пра мадэлі. 1041 00:55:18,470 --> 00:55:21,395 І тады вы можаце таксама шукаць онлайн роду праблемы, што ў вас ёсць, 1042 00:55:21,395 --> 00:55:24,260 і ён збіраецца прапанаваць да вас мадэляў, якія, можа быць, 1043 00:55:24,260 --> 00:55:26,560 мадэлюецца што рэч добра. 1044 00:55:26,560 --> 00:55:29,080 >> А таксама вы заўсёды можаце напісаць мне. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 І я магу толькі адказаць на вашы пытанні. 1047 00:55:34,940 --> 00:55:38,600 Мы можам нават можа сустрэцца, каб я мог даць прапановы аб шляхах 1048 00:55:38,600 --> 00:55:41,490 рэалізацыі праекта. 1049 00:55:41,490 --> 00:55:45,610 І я маю на ўвазе, калі вы патрапілі ў кампутарная лінгвістыка, гэта будзе 1050 00:55:45,610 --> 00:55:46,790 каб быць вялікім. 1051 00:55:46,790 --> 00:55:48,370 Вы будзеце бачыць там такі патэнцыял. 1052 00:55:48,370 --> 00:55:52,060 І індустрыя хоча наняць Вы так дрэнна з-за гэтага. 1053 00:55:52,060 --> 00:55:54,720 Таму я спадзяюся, вы, хлопцы, атрымліваў асалоду ад гэтым. 1054 00:55:54,720 --> 00:55:57,030 Калі вы, хлопцы ёсць якія-небудзь пытанні, Вы можаце спытаць мяне пасля гэтага. 1055 00:55:57,030 --> 00:55:58,280 Але дзякуй. 1056 00:55:58,280 --> 00:56:00,150