1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Фрейташ: Ей. 3 00:00:08,870 --> 00:00:09,980 Вітаю всіх. 4 00:00:09,980 --> 00:00:11,216 Мене звуть Лукас Фрейтас. 5 00:00:11,216 --> 00:00:15,220 Я молодший у [нерозбірливо] вивчення інформатика з акцентом в 6 00:00:15,220 --> 00:00:16,410 комп'ютерна лінгвістика. 7 00:00:16,410 --> 00:00:19,310 Так що мій вторинний знаходиться в мові і лінгвістична теорія. 8 00:00:19,310 --> 00:00:21,870 Я дійсно схвильований, щоб навчити вас, хлопці трохи про поле. 9 00:00:21,870 --> 00:00:24,300 Це дуже захоплююча область для вивчення. 10 00:00:24,300 --> 00:00:27,260 Також з великим потенціалом на майбутнє. 11 00:00:27,260 --> 00:00:30,160 Так що, я дуже радий, що ви, хлопці, розглядають проекти в 12 00:00:30,160 --> 00:00:31,160 комп'ютерна лінгвістика. 13 00:00:31,160 --> 00:00:35,460 І я буду більш ніж щасливий раджу Хто-небудь з вас, якщо ви вирішите 14 00:00:35,460 --> 00:00:37,090 переслідувати одну з них. 15 00:00:37,090 --> 00:00:40,010 >> Отже, насамперед, якими є обчислювальна лінгвістика? 16 00:00:40,010 --> 00:00:44,630 Так комп'ютерна лінгвістика є Перетин між лінгвістикою і 17 00:00:44,630 --> 00:00:46,390 інформатика. 18 00:00:46,390 --> 00:00:47,415 Отже, що таке лінгвістика? 19 00:00:47,415 --> 00:00:48,490 Що таке інформатика? 20 00:00:48,490 --> 00:00:51,580 Ну від лінгвістики, що ми приймаємо є мовами. 21 00:00:51,580 --> 00:00:54,960 Так лінгвістика насправді вивчення природної мови в цілому. 22 00:00:54,960 --> 00:00:58,330 Так природна мова - ми говоримо про мову, який ми можемо використовувати, щоб 23 00:00:58,330 --> 00:00:59,770 спілкуються один з одним. 24 00:00:59,770 --> 00:01:02,200 Так що ми не точно кажу о С або Java. 25 00:01:02,200 --> 00:01:05,900 Ми говоримо більше про англійською та Китайська та інші мови, які ми 26 00:01:05,900 --> 00:01:07,780 використовувати для зв'язку один з одним. 27 00:01:07,780 --> 00:01:12,470 >> Складна річ про те, що в тому, що Прямо зараз у нас є майже 7000 28 00:01:12,470 --> 00:01:14,260 мов у світі. 29 00:01:14,260 --> 00:01:19,520 Таким чином, є досить високий різноманітність мов, що ми можемо вчитися. 30 00:01:19,520 --> 00:01:22,600 А потім ви думаєте, що це, ймовірно, дуже важко зробити, наприклад, 31 00:01:22,600 --> 00:01:26,960 переклад з однієї мови на іншому, враховуючи, що ви повинні 32 00:01:26,960 --> 00:01:28,240 майже 7000 з них. 33 00:01:28,240 --> 00:01:31,450 Так що, якщо ви думаєте, що робити переклад з однієї мови на іншу, ви 34 00:01:31,450 --> 00:01:35,840 є чи не більше, ніж на мільйон різні комбінації, які ви можете 35 00:01:35,840 --> 00:01:37,330 Тобто від мови до мови. 36 00:01:37,330 --> 00:01:40,820 Так що це дійсно виклик, щоб зробити деякі Така система прикладом переклад 37 00:01:40,820 --> 00:01:43,540 кожна мова. 38 00:01:43,540 --> 00:01:47,120 >> Так, лінгвістика ставиться з синтаксисом, семантика, прагматика. 39 00:01:47,120 --> 00:01:49,550 Ви, хлопці точно не потрібно знати, що вони є. 40 00:01:49,550 --> 00:01:55,090 Але дуже цікава річ у тому, що як носій, коли ви дізнаєтеся, 41 00:01:55,090 --> 00:01:59,010 мова як дитину, ви насправді дізнатися всі з тих речей, - семантика синтаксис 42 00:01:59,010 --> 00:02:00,500 і прагматика - 43 00:02:00,500 --> 00:02:01,430 самостійно. 44 00:02:01,430 --> 00:02:04,820 І ніхто не повинен вчити вас синтаксис вам зрозуміти, як вироки 45 00:02:04,820 --> 00:02:05,290 структуровані. 46 00:02:05,290 --> 00:02:07,980 Таким чином, це дійсно цікаво, тому що це те, що приходить дуже 47 00:02:07,980 --> 00:02:10,389 інтуїтивно. 48 00:02:10,389 --> 00:02:13,190 >> І що ви приймаєте від інформатика? 49 00:02:13,190 --> 00:02:16,700 Ну і найголовніше, що ми є в інформатиці, в першу 50 00:02:16,700 --> 00:02:19,340 все, штучний інтелект і машинне навчання. 51 00:02:19,340 --> 00:02:22,610 Отже, що ми намагаємося робити обчислювальна лінгвістика є навчити 52 00:02:22,610 --> 00:02:26,990 ваш комп'ютер, як зробити щось з мовою. 53 00:02:26,990 --> 00:02:28,630 >> Так, наприклад, в машині переклад. 54 00:02:28,630 --> 00:02:32,490 Я намагаюся навчити мій комп'ютер хау знати, як перехід від однієї 55 00:02:32,490 --> 00:02:33,310 мови на іншу. 56 00:02:33,310 --> 00:02:35,790 Так, в основному подобається вчення комп'ютерні дві мови. 57 00:02:35,790 --> 00:02:38,870 Якщо я роблю обробки природної мови, що має місце, наприклад, з 58 00:02:38,870 --> 00:02:41,810 Facebook, Графік Пошук, ви вчите ваш комп'ютер, як зрозуміти 59 00:02:41,810 --> 00:02:42,730 Запити також. 60 00:02:42,730 --> 00:02:48,130 >> Так що, якщо ви говорите "фотографій мого друзі. "Facebook не лікує, що 61 00:02:48,130 --> 00:02:51,130 в цілому рядки, яка має просто купа слів. 62 00:02:51,130 --> 00:02:56,020 Це насправді розуміє відносини між "фото" і "моїх друзів" і 63 00:02:56,020 --> 00:02:59,620 розуміє, що "фото" є власністю "моїх друзів". 64 00:02:59,620 --> 00:03:02,350 >> Так, що це частина, наприклад, обробки природної мови. 65 00:03:02,350 --> 00:03:04,790 Він намагається зрозуміти, що це відношення між 66 00:03:04,790 --> 00:03:07,520 слова в реченні. 67 00:03:07,520 --> 00:03:11,170 І велике питання, чи не так навчити комп'ютер, як говорити 68 00:03:11,170 --> 00:03:12,650 мову в цілому? 69 00:03:12,650 --> 00:03:17,810 Що дуже цікаве питання, щоб думаю, як би, може бути, в майбутньому, 70 00:03:17,810 --> 00:03:19,930 ви збираєтеся бути в змозі говорити на свій мобільний телефон. 71 00:03:19,930 --> 00:03:23,290 Ніби як то, що ми робимо з Siri, але щось більше, як, ви можете насправді 72 00:03:23,290 --> 00:03:25,690 говорити все, що ви хочете, і телефон збирається все розумію. 73 00:03:25,690 --> 00:03:28,350 І це може мати наступні питання і продовжувати говорити. 74 00:03:28,350 --> 00:03:30,880 Це те, що дійсно цікаво, на мій погляд. 75 00:03:30,880 --> 00:03:33,070 >> Так, щось про природних мовах. 76 00:03:33,070 --> 00:03:36,220 Щось дійсно цікаво природні мови, що і це 77 00:03:36,220 --> 00:03:38,470 кредит на мій професор лінгвістики, Марія Полинський. 78 00:03:38,470 --> 00:03:40,830 Вона наводить приклад, і я думаю, це дійсно цікаво. 79 00:03:40,830 --> 00:03:47,060 Тому що ми вивчити мову від того, коли ми народилися, а потім наш рідний 80 00:03:47,060 --> 00:03:49,170 мову вид росте на нас. 81 00:03:49,170 --> 00:03:52,570 >> І в основному ви дізнаєтеся мову від мінімальної потужністю, чи не так? 82 00:03:52,570 --> 00:03:56,700 Ти просто отриманні введення з вашого батьки, що звучить ваш мову 83 00:03:56,700 --> 00:03:58,770 подобається, і ви просто навчитися. 84 00:03:58,770 --> 00:04:02,240 Таким чином, це цікаво, тому що якщо ви подивитеся на цих пропозицій, наприклад. 85 00:04:02,240 --> 00:04:06,980 Дивишся, "Мері надягає пальто кожного раз вона йде з дому ". 86 00:04:06,980 --> 00:04:10,650 >> У цьому випадку, можливо, щоб мати Слово "вона" відносяться до Марії, чи не так? 87 00:04:10,650 --> 00:04:13,500 Ви можете сказати: "Марія ставить на пальто кожен раз, коли Мері залишає 88 00:04:13,500 --> 00:04:14,960 будинок. ", так що все в порядку. 89 00:04:14,960 --> 00:04:19,370 Але тоді, якщо ви подивитеся на пропозиції "Вона одягає пальто кожен раз Мері 90 00:04:19,370 --> 00:04:22,850 виходить з дому. "Ви знаєте, що це Не можна сказати, що "вона" є 91 00:04:22,850 --> 00:04:24,260 посилаючись на Марії. 92 00:04:24,260 --> 00:04:27,070 >> Там немає спосіб сказати, що "Марія ставить на пальто кожен раз Мері залишає 93 00:04:27,070 --> 00:04:30,790 будинок. "Так що це цікаво, тому що це вид інтуїції 94 00:04:30,790 --> 00:04:32,890 що кожен носій мови має. 95 00:04:32,890 --> 00:04:36,370 І ніхто не вчили, що це так, що синтаксис працює. 96 00:04:36,370 --> 00:04:41,930 І що ви можете мати тільки цей "вона" посилаючись на Марії в цьому першому випадку, 97 00:04:41,930 --> 00:04:44,260 а насправді в цьому іншому теж, але не в цьому. 98 00:04:44,260 --> 00:04:46,500 Але все роду отримує до того ж відповіді. 99 00:04:46,500 --> 00:04:48,580 Усі згодні з тим на цьому. 100 00:04:48,580 --> 00:04:53,280 Так що це дійсно цікаво, як хоча ви не знаєте всіх правил 101 00:04:53,280 --> 00:04:55,575 на Вашому мовою ви почасти розумію як працює мова. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Так найцікавіше про природні мову, що ви не повинні 104 00:05:01,530 --> 00:05:06,970 знаю ні синтаксис знати, якщо вирок граматично або безграмотно для 105 00:05:06,970 --> 00:05:08,810 в більшості випадків. 106 00:05:08,810 --> 00:05:13,220 Яка змушує вас думати, що, може бути, те, що відбувається те, що через ваше життя, ви 107 00:05:13,220 --> 00:05:17,410 просто тримати стає все більше і більше вироки сказав вам. 108 00:05:17,410 --> 00:05:19,800 І тоді ви тримаєте запам'ятовування всі пропозиції. 109 00:05:19,800 --> 00:05:24,230 А потім, коли хтось говорить вам, щось, ви чуєте цю фразу і 110 00:05:24,230 --> 00:05:27,040 ви подивіться на вашого словникового запасу вироків і подивитися, якщо 111 00:05:27,040 --> 00:05:28,270 що вирок є. 112 00:05:28,270 --> 00:05:29,830 І якщо вона є у вас кажуть, що це граматична. 113 00:05:29,830 --> 00:05:31,740 Якщо це не ви сказати, що це безграмотно. 114 00:05:31,740 --> 00:05:35,150 >> Так, в цьому випадку, ви б сказали, о, так у вас є величезний список всіх 115 00:05:35,150 --> 00:05:36,140 можливі пропозиції. 116 00:05:36,140 --> 00:05:38,240 А потім, коли ви чуєте фразу, Ви знаєте, якщо це граматична або 117 00:05:38,240 --> 00:05:39,450 не так на його основі. 118 00:05:39,450 --> 00:05:42,360 Справа в тому, що якщо ви подивитеся на фраза, наприклад, " 119 00:05:42,360 --> 00:05:47,540 п'ятиглавий CS50 ТФ приготовані сліпих восьминіг, використовуючи DAPA кухоль ". Це 120 00:05:47,540 --> 00:05:49,630 безумовно не вирок що ви чули раніше. 121 00:05:49,630 --> 00:05:52,380 Але в той же час ви знаєте, що це в значній мірі граматичних, чи не так? 122 00:05:52,380 --> 00:05:55,570 Там немає граматичних помилок і ви можете сказати, що 123 00:05:55,570 --> 00:05:57,020 це можливо вирок. 124 00:05:57,020 --> 00:06:01,300 >> Так що змушує нас думати, що насправді спосіб, яким ми дізнаємося мова є не тільки 125 00:06:01,300 --> 00:06:07,090 , Маючи величезну базу даних можна слова чи пропозиції, але більше 126 00:06:07,090 --> 00:06:11,490 розуміння співвідношення між слова в цих пропозиціях. 127 00:06:11,490 --> 00:06:14,570 Чи має це сенс? 128 00:06:14,570 --> 00:06:19,370 Так, то питання в тому, може комп'ютери вивчати мови? 129 00:06:19,370 --> 00:06:21,490 Чи можемо ми навчити мову з комп'ютерами? 130 00:06:21,490 --> 00:06:24,230 >> Отже, давайте думати про відмінність між носієм мови 131 00:06:24,230 --> 00:06:25,460 і комп'ютер. 132 00:06:25,460 --> 00:06:27,340 Отже, що ж відбувається з динаміком? 133 00:06:27,340 --> 00:06:30,430 Ну, носій мови дізнається мову від впливу на нього. 134 00:06:30,430 --> 00:06:34,200 Зазвичай її ранні дитячі роки. 135 00:06:34,200 --> 00:06:38,570 Так, в основному, ви просто народити дитину, і ви продовжувати говорити з ним, і це 136 00:06:38,570 --> 00:06:40,540 просто вчиться говорити мову, чи не так? 137 00:06:40,540 --> 00:06:42,660 Отже, ви в основному даючи вхід для дитини. 138 00:06:42,660 --> 00:06:45,200 Так, ви можете стверджувати, що комп'ютер може зробити те ж саме, чи не так? 139 00:06:45,200 --> 00:06:49,510 Ви можете просто дати мови в якості внеску в комп'ютері. 140 00:06:49,510 --> 00:06:53,410 >> Як, наприклад, купа файлів що є книги англійською мовою. 141 00:06:53,410 --> 00:06:56,190 Може бути, це один із способів, що вам могли б навчити 142 00:06:56,190 --> 00:06:57,850 комп'ютер англійська, чи не так? 143 00:06:57,850 --> 00:07:01,000 І справді, якщо ви думаєте про це, вона приймає вас, може бути, пару 144 00:07:01,000 --> 00:07:02,680 днів, щоб прочитати книгу. 145 00:07:02,680 --> 00:07:05,760 Для комп'ютера це займає секунди, щоб дивитися на всі слова в книзі. 146 00:07:05,760 --> 00:07:10,810 Таким чином, ви можете думати, що може бути тільки цей Аргумент вкладу навколо вас, 147 00:07:10,810 --> 00:07:15,440 це не достатньо, щоб сказати, що це те, що тільки люди можуть зробити. 148 00:07:15,440 --> 00:07:17,680 Ви можете думати комп'ютери також можете отримати вхід. 149 00:07:17,680 --> 00:07:21,170 >> Друга річ, що носії мови також є мозок, який має 150 00:07:21,170 --> 00:07:23,870 Можливість вивчення мови. 151 00:07:23,870 --> 00:07:27,020 Але якщо ви думаєте про це, Мозок є твердою річчю. 152 00:07:27,020 --> 00:07:30,450 Коли ви народилися, це вже не встановлено - 153 00:07:30,450 --> 00:07:31,320 це ваш мозок. 154 00:07:31,320 --> 00:07:34,660 І, як ти виростеш, ви просто отримаєте більш введення мовою і, можливо, поживні речовини 155 00:07:34,660 --> 00:07:35,960 та інші речі. 156 00:07:35,960 --> 00:07:38,170 Але значною мірою ваш мозок є твердою річчю. 157 00:07:38,170 --> 00:07:41,290 >> Так що ви можете сказати, ну, може бути, ви можете побудувати комп'ютер, який має купу 158 00:07:41,290 --> 00:07:45,890 функції і методи, які просто імітують Можливість вивчення мови. 159 00:07:45,890 --> 00:07:49,630 Так що в цьому сенсі, можна сказати,, ну, я може є комп'ютер, який має всі 160 00:07:49,630 --> 00:07:52,270 Що ще слід вивчити мову. 161 00:07:52,270 --> 00:07:56,200 І останнє, що в тому, що уродженець динамік дізнається від проб і помилок. 162 00:07:56,200 --> 00:08:01,090 Тому в основному ще одна важлива річ в вивчення мови є те, що ви начебто 163 00:08:01,090 --> 00:08:05,340 з дізнатися речі, зробивши узагальнення, що ви чуєте. 164 00:08:05,340 --> 00:08:10,280 >> Отже, як ви ростуть ви дізнаєтеся, що деякі слова більше схожі іменників, 165 00:08:10,280 --> 00:08:11,820 деякі інші з них прикметники. 166 00:08:11,820 --> 00:08:14,250 І ви не повинні їсти будь-які знання лінгвістики 167 00:08:14,250 --> 00:08:15,040 зрозуміти, що. 168 00:08:15,040 --> 00:08:18,560 Але ви просто знаю, що є деякі слова розташовані в деякій частині 169 00:08:18,560 --> 00:08:22,570 Вирок і деякі інші в іншому частини вироку. 170 00:08:22,570 --> 00:08:26,110 >> І, що, коли ви робите щось, що як вирок, що не правильно - 171 00:08:26,110 --> 00:08:28,770 може бути, через більш узагальнення наприклад. 172 00:08:28,770 --> 00:08:32,210 Може бути, коли ви ростете, ви помітите, що множина, як правило, 173 00:08:32,210 --> 00:08:35,809 формується покласти S на кінець слова. 174 00:08:35,809 --> 00:08:40,042 А потім ви спробуєте зробити множина "Олень", як "оленів" або "зуб", як 175 00:08:40,042 --> 00:08:44,780 "Tooths". Отже ваші батьки або хтось виправляє вас і говорить, ні, 176 00:08:44,780 --> 00:08:49,020 множина від "Олень" є "олень", а множина від "зуба" є "зуби". А потім 177 00:08:49,020 --> 00:08:50,060 ви дізнаєтеся ці речі. 178 00:08:50,060 --> 00:08:51,520 Так ви дізнаєтеся з проб і помилок. 179 00:08:51,520 --> 00:08:53,100 >> Але ви також можете зробити це з комп'ютером. 180 00:08:53,100 --> 00:08:55,310 Ви можете мати те, що називається навчання з підкріпленням. 181 00:08:55,310 --> 00:08:58,560 Які в основному, як давати комп'ютер нагорода, коли він робить 182 00:08:58,560 --> 00:08:59,410 щось правильно. 183 00:08:59,410 --> 00:09:04,710 І надавши йому протилежне нагороди і коли він робить щось не так. 184 00:09:04,710 --> 00:09:07,410 Ви можете побачити, що, якщо ви йдете в Google Translate, і ви намагаєтеся 185 00:09:07,410 --> 00:09:10,220 перевести пропозицію, це просить вас для зворотного зв'язку. 186 00:09:10,220 --> 00:09:13,240 Так що, якщо ви говорите, ну, є кращий переклад цієї фрази. 187 00:09:13,240 --> 00:09:18,140 Ви можете ввести його, а потім, якщо багато люди продовжують говорити, що це краще, 188 00:09:18,140 --> 00:09:21,560 переклад, він просто дізнається, що вона повинні використовувати цю переклад замість 189 00:09:21,560 --> 00:09:22,960 один він давав. 190 00:09:22,960 --> 00:09:28,830 >> Таким чином, це дуже філософське питання щоб побачити, якщо комп'ютери будуть 191 00:09:28,830 --> 00:09:30,340 в змозі говорити чи ні в майбутньому. 192 00:09:30,340 --> 00:09:34,440 Але у мене є великі надії, що вони можуть тільки на основі цих аргументів. 193 00:09:34,440 --> 00:09:38,570 Але це тільки більше філософський питання. 194 00:09:38,570 --> 00:09:43,460 >> Таким чином, хоча комп'ютери все ще не може говорити, що ті речі, які ми можемо зробити? 195 00:09:43,460 --> 00:09:47,070 Деякі дійсно класні речі є класифікації даних. 196 00:09:47,070 --> 00:09:53,210 Так, наприклад, ви, хлопці, знаєте, що послуги електронної пошти зробити, для 197 00:09:53,210 --> 00:09:55,580 Наприклад, фільтрація спаму. 198 00:09:55,580 --> 00:09:59,070 Тому, коли ви отримуєте спам, це намагається фільтрувати в іншій коробці. 199 00:09:59,070 --> 00:10:00,270 Так, як це зробити? 200 00:10:00,270 --> 00:10:06,080 Це не те, що комп'ютер просто знає що адреси електронної пошти розсилки спаму. 201 00:10:06,080 --> 00:10:09,130 Так що це більшою мірою базується на змісті повідомлення, або, може бути назва, або 202 00:10:09,130 --> 00:10:11,310 можливо, деякі картини, які у вас є. 203 00:10:11,310 --> 00:10:15,690 >> Так, в основному, те, що ви можете зробити, це отримати багато даних листів, які спам, 204 00:10:15,690 --> 00:10:19,980 листи, які не спам, а також дізнатися, що вигляд моделі, які ви маєте на 205 00:10:19,980 --> 00:10:21,000 Ті, які є спамом. 206 00:10:21,000 --> 00:10:23,260 І це є частиною обчислювальної лінгвістика. 207 00:10:23,260 --> 00:10:24,720 Вона називається класифікації даних. 208 00:10:24,720 --> 00:10:28,100 І ми насправді відбувається, щоб побачити приклад, що в наступних слайдах. 209 00:10:28,100 --> 00:10:32,910 >> Друга річ природна мова обробка яких це те, що 210 00:10:32,910 --> 00:10:36,580 Графік Пошук робить того, щоб дозволити Ви пишете пропозицію. 211 00:10:36,580 --> 00:10:38,690 І це довіряє вам зрозуміти, що сенс і дає 212 00:10:38,690 --> 00:10:39,940 Ви кращий результат. 213 00:10:39,940 --> 00:10:43,880 Насправді, якщо ви йдете в Google або Bing і ви будете шукати щось подібне Леді 214 00:10:43,880 --> 00:10:47,060 Висота Гага, ви насправді відбувається щоб отримати 5 "1" замість інформації 215 00:10:47,060 --> 00:10:50,170 від неї, тому що це насправді розуміє те, що ви говорите. 216 00:10:50,170 --> 00:10:52,140 Так ось частина природного мова обробки. 217 00:10:52,140 --> 00:10:57,000 >> Або також, коли ви використовуєте Siri, перш у вас є алгоритм, який намагається 218 00:10:57,000 --> 00:11:01,130 перевести те, що ви говорите, словами, в тексті. 219 00:11:01,130 --> 00:11:03,690 А потім він намагається перевести що в сенсі. 220 00:11:03,690 --> 00:11:06,570 Так що все це частина природної мова обробки. 221 00:11:06,570 --> 00:11:08,320 >> Тоді у вас є машинний переклад - 222 00:11:08,320 --> 00:11:10,300 які насправді одна з моїх улюблених - 223 00:11:10,300 --> 00:11:14,060 який просто переклад з мови на іншу. 224 00:11:14,060 --> 00:11:17,950 Таким чином, ви можете думати, що, коли ви робите машинний переклад, у вас є 225 00:11:17,950 --> 00:11:19,750 нескінченні можливості вироків. 226 00:11:19,750 --> 00:11:22,960 Так що немає ніякого способу, щоб просто зберігати кожний переказ. 227 00:11:22,960 --> 00:11:27,440 Таким чином, ви повинні придумати цікаве Алгоритми, щоб мати можливість 228 00:11:27,440 --> 00:11:30,110 перевести кожен Вирок в деякому роді. 229 00:11:30,110 --> 00:11:32,483 >> Ви, хлопці, є які-небудь питання досі? 230 00:11:32,483 --> 00:11:34,450 Ні? 231 00:11:34,450 --> 00:11:34,830 ОК. 232 00:11:34,830 --> 00:11:36,900 >> Так що ми будемо бачити сьогодні? 233 00:11:36,900 --> 00:11:39,300 Перш за все, я збираюся говорити про завдання класифікації. 234 00:11:39,300 --> 00:11:41,440 Таким чином, той, який я був кажучи про спам. 235 00:11:41,440 --> 00:11:46,820 Те, що я збираюся зробити, це, враховуючи текст пісню, ви можете спробувати з'ясувати, 236 00:11:46,820 --> 00:11:49,810 з високою ймовірністю який є співаком? 237 00:11:49,810 --> 00:11:53,590 Давайте припустимо, що у мене є пісні з леді Гага і Кеті Перрі, якщо я дам вам 238 00:11:53,590 --> 00:11:58,130 Нова пісня, ви можете з'ясувати, якщо це Кеті Перрі або Леді Гага? 239 00:11:58,130 --> 00:12:01,490 >> Другий, я просто хочу поговорити про проблему сегментації. 240 00:12:01,490 --> 00:12:05,780 Так що я не знаю, якщо ви, хлопці, знаю, але Китайська, японська, другу Східної Азії 241 00:12:05,780 --> 00:12:08,090 мови, та інші мови загалом, не мають 242 00:12:08,090 --> 00:12:09,830 прогалини між словами. 243 00:12:09,830 --> 00:12:13,540 І потім, якщо ви думаєте про те, як цього ваш комп'ютер роду спроб 244 00:12:13,540 --> 00:12:18,600 зрозуміти обробки природної мови, це виглядає на слова і 245 00:12:18,600 --> 00:12:21,500 намагається зрозуміти відносини між ними, чи не так? 246 00:12:21,500 --> 00:12:25,440 Але тоді, якщо у вас є китайський, і ви мають нульові прогалини, це дійсно важко 247 00:12:25,440 --> 00:12:28,360 з'ясувати, яке відношення між слова, тому що вони не мають жодних 248 00:12:28,360 --> 00:12:29,530 слова в першу чергу. 249 00:12:29,530 --> 00:12:32,600 Так що вам потрібно зробити те, що називається Сегментація який просто означає, поклавши 250 00:12:32,600 --> 00:12:36,490 простору між тим, що ми назвали б слова на цих мовах. 251 00:12:36,490 --> 00:12:37,740 Сенс? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> А потім ми збираємося говорити про синтаксис. 254 00:12:41,540 --> 00:12:44,050 Так що просто трохи про природної мова обробки. 255 00:12:44,050 --> 00:12:45,420 Це буде просто огляд. 256 00:12:45,420 --> 00:12:50,700 Так що сьогодні, в основному, що я хочу зробити це дати Вам хлопців трохи 257 00:12:50,700 --> 00:12:53,930 всередині які можливості що ви можете зробити з обчислювальною 258 00:12:53,930 --> 00:12:54,960 лінгвістика. 259 00:12:54,960 --> 00:13:00,410 І тоді ви зможете побачити те, що ви думаєте прохолодно до числа тих речей. 260 00:13:00,410 --> 00:13:02,270 А може бути, ви можете думати про проект і прийти поговорити зі мною. 261 00:13:02,270 --> 00:13:05,260 І я можу дати вам пораду про те, як його реалізувати. 262 00:13:05,260 --> 00:13:09,060 >> Так синтаксис буде трохи про Graph Пошук і машини 263 00:13:09,060 --> 00:13:09,670 переклад. 264 00:13:09,670 --> 00:13:13,650 Я просто хочу, щоб дати приклад того, як ви могли б, наприклад, перевести 265 00:13:13,650 --> 00:13:16,020 щось з португальського на англійську. 266 00:13:16,020 --> 00:13:17,830 Звучить добре? 267 00:13:17,830 --> 00:13:19,293 >> Отже, спочатку завдання класифікації. 268 00:13:19,293 --> 00:13:23,590 Скажу, що ця частина семінару буде найскладнішим 269 00:13:23,590 --> 00:13:27,560 один тільки тому, що там відбувається бути деяке кодування. 270 00:13:27,560 --> 00:13:29,470 Але це буде Python. 271 00:13:29,470 --> 00:13:34,380 Я знаю, ви, хлопці, не знаю, Python, тому Я просто хочу, щоб пояснити на високій 272 00:13:34,380 --> 00:13:35,750 рівень, що я роблю. 273 00:13:35,750 --> 00:13:40,900 І у вас немає по-справжньому піклуватися занадто багато про синтаксис, тому що це 274 00:13:40,900 --> 00:13:42,140 щось ви, хлопці, можете дізнатися. 275 00:13:42,140 --> 00:13:42,540 ОК? 276 00:13:42,540 --> 00:13:43,580 Звучить добре. 277 00:13:43,580 --> 00:13:46,020 >> Так в чому ж проблема класифікації? 278 00:13:46,020 --> 00:13:49,140 Таким чином, ви дали деякі пісні, щоб пісня, і ви хочете, щоб здогадатися, 279 00:13:49,140 --> 00:13:50,620 хто співає її. 280 00:13:50,620 --> 00:13:54,045 І це може бути для будь-якого виду інших проблем. 281 00:13:54,045 --> 00:13:59,980 Таким чином, можна, наприклад, у вас є Президентська кампанія і у вас є 282 00:13:59,980 --> 00:14:02,610 мова, і ви хочете знайти , Якщо це було, наприклад, 283 00:14:02,610 --> 00:14:04,470 Обама чи Мітт Ромні. 284 00:14:04,470 --> 00:14:07,700 Або ви можете мати купу листів і Ви хочете, щоб з'ясувати, якщо вони 285 00:14:07,700 --> 00:14:08,890 спамом чи ні. 286 00:14:08,890 --> 00:14:11,440 Так що це просто класифікації деяких дані, засновані на словах 287 00:14:11,440 --> 00:14:13,790 що у вас там. 288 00:14:13,790 --> 00:14:16,295 >> Таким чином, щоб зробити це, ви повинні зробити деякі припущення. 289 00:14:16,295 --> 00:14:20,570 Так багато про обчислювальної лінгвістики робить припущення, 290 00:14:20,570 --> 00:14:24,100 зазвичай розумні припущення, так що Ви можете отримати хороші результати. 291 00:14:24,100 --> 00:14:26,670 Спроба створити модель для нього. 292 00:14:26,670 --> 00:14:31,290 А потім спробувати його і подивитися, якщо це працює, якщо він дає хорошу точність. 293 00:14:31,290 --> 00:14:33,940 І якщо це станеться, то ви спробувати поліпшити його. 294 00:14:33,940 --> 00:14:37,640 Якщо цього не станеться, ви, як, в порядку, може бути, я повинні зробити інший припущення. 295 00:14:37,640 --> 00:14:44,030 >> Таким чином, припущення, що ми збираємося зробити те, що художник, як правило, співає 296 00:14:44,030 --> 00:14:49,220 про тему кілька разів, і, можливо, використовує слова кілька разів просто 297 00:14:49,220 --> 00:14:50,270 тому що вони звикли до нього. 298 00:14:50,270 --> 00:14:51,890 Ви можете просто думати про своє одному. 299 00:14:51,890 --> 00:14:57,350 Я впевнений, що всі ви, хлопці, є друзі що сказати, їх підписи фразу, 300 00:14:57,350 --> 00:14:59,260 буквально для кожного окремого пропозиції - 301 00:14:59,260 --> 00:15:02,660 як якогось певного слова або деяких конкретних фраза, що мовляв для 302 00:15:02,660 --> 00:15:04,020 кожен вирок. 303 00:15:04,020 --> 00:15:07,920 >> А що ви можете сказати, що якщо ви бачите вирок, який має підпис 304 00:15:07,920 --> 00:15:11,450 Фраза, можна здогадатися, що, ймовірно, ваш друг 305 00:15:11,450 --> 00:15:13,310 один каже це, чи не так? 306 00:15:13,310 --> 00:15:18,410 Так ви зробите це припущення, а потім це, як ви створити модель. 307 00:15:18,410 --> 00:15:24,440 >> Приклад, який я збираюся дати на як Lady Gaga, наприклад, люди 308 00:15:24,440 --> 00:15:27,430 сказати, що вона використовує "BABY" для всі її номер один пісні. 309 00:15:27,430 --> 00:15:32,270 А насправді це відео, яке показує вона говорила слово "дитина" для 310 00:15:32,270 --> 00:15:33,410 різні пісні. 311 00:15:33,410 --> 00:15:33,860 >> [Відеовідтворення] 312 00:15:33,860 --> 00:15:34,310 >> - (Співає) Дитячі. 313 00:15:34,310 --> 00:15:36,220 Дитячі. 314 00:15:36,220 --> 00:15:37,086 Дитячі. 315 00:15:37,086 --> 00:15:37,520 Дитячі. 316 00:15:37,520 --> 00:15:37,770 Дитячі. 317 00:15:37,770 --> 00:15:38,822 Малиш. 318 00:15:38,822 --> 00:15:39,243 Дитячі. 319 00:15:39,243 --> 00:15:40,085 Дитячі. 320 00:15:40,085 --> 00:15:40,510 Дитячі. 321 00:15:40,510 --> 00:15:40,850 Дитячі. 322 00:15:40,850 --> 00:15:41,090 >> [КІНЕЦЬ відеовідтворення- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Фрейташ: Так що, я думаю, 40 пісні тут, в якому вона говорить 324 00:15:44,020 --> 00:15:48,690 Слово "дитина". Таким чином, ви можете в основному думаю що, якщо ви бачите пісню, яка має 325 00:15:48,690 --> 00:15:52,180 слово "дитина", є деякі високі Імовірність того, що це Леді Гага. 326 00:15:52,180 --> 00:15:56,450 Але давайте спробуємо розвивати це далі більш формально. 327 00:15:56,450 --> 00:16:00,470 >> Таким чином, ці тексти до пісень Леді Гага і Кеті Перрі. 328 00:16:00,470 --> 00:16:04,120 Таким чином, ви подивіться на Lady Gaga, ви бачите, що вони є багато випадків з "дитини", 329 00:16:04,120 --> 00:16:07,710 багато входжень "шляху". А потім Кеті Перрі має багато входжень 330 00:16:07,710 --> 00:16:10,360 "," Багато входжень "вогонь". 331 00:16:10,360 --> 00:16:14,560 >> Тому в основному те, що ми хочемо зробити, це, ви отримаєте лірику. 332 00:16:14,560 --> 00:16:20,480 Давайте припустимо, що ви отримуєте лірику для пісня, яка є "дитина", просто "дитина". Якщо 333 00:16:20,480 --> 00:16:24,750 ви просто отримаєте слово "дитина", і це всі дані, які у вас є з 334 00:16:24,750 --> 00:16:27,880 Леді Гага і Кеті Перрі, які б ви здогадалися це людина, 335 00:16:27,880 --> 00:16:29,370 хто співає пісню? 336 00:16:29,370 --> 00:16:32,360 Леді Гага або Кеті Перрі? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, чи не так? 338 00:16:33,150 --> 00:16:37,400 Тому що вона єдина, хто говорить "Дитина". Це звучить нерозумно, чи не так? 339 00:16:37,400 --> 00:16:38,760 Добре, це дійсно просто. 340 00:16:38,760 --> 00:16:41,860 Я просто дивлюся на двох пісень і Звичайно, вона єдина, хто має 341 00:16:41,860 --> 00:16:42,660 "Дитина". 342 00:16:42,660 --> 00:16:44,740 >> Але що, якщо у вас є купа слів? 343 00:16:44,740 --> 00:16:50,900 Якщо у вас є свіжа Лірика, щось як, "дитина, я просто 344 00:16:50,900 --> 00:16:51,610 пішли, щоб бачити [? ФТ?] 345 00:16:51,610 --> 00:16:54,020 лекція ", або щось в цьому роді, і то ви насправді повинні з'ясувати - 346 00:16:54,020 --> 00:16:55,780 на основі всіх цих слів - 347 00:16:55,780 --> 00:16:58,350 який є художник, який, ймовірно, співав цю пісню? 348 00:16:58,350 --> 00:17:01,860 Так давайте спробуємо розробити це трохи далі. 349 00:17:01,860 --> 00:17:05,630 >> Отже, на основі тільки на даних, які ми отримав, здається, що Гага, ймовірно, 350 00:17:05,630 --> 00:17:06,260 співак. 351 00:17:06,260 --> 00:17:07,904 Але як ми можемо написати це більш формально? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 І це буде трохи Трохи статистики. 354 00:17:13,140 --> 00:17:15,880 Так що, якщо ви заблукали, просто спробуйте зрозуміти концепцію. 355 00:17:15,880 --> 00:17:18,700 Це не має значення, якщо ви розумієте, рівняння на відмінно. 356 00:17:18,700 --> 00:17:22,150 Це все буде в Інтернеті. 357 00:17:22,150 --> 00:17:25,490 >> Тому в основному те, що я розрахунку є ймовірність того, що ця пісня по 358 00:17:25,490 --> 00:17:28,040 Леді Гага, враховуючи, що - 359 00:17:28,040 --> 00:17:30,660 так цей бар означає, враховуючи, що - 360 00:17:30,660 --> 00:17:33,680 Я бачив слово "дитина". Чи має це сенс? 361 00:17:33,680 --> 00:17:35,540 Так що я намагаюся обчислити що ймовірність. 362 00:17:35,540 --> 00:17:38,540 >> Так що є ця теорема називається Теорема Байеса, що говорить про те, що 363 00:17:38,540 --> 00:17:43,330 ймовірність даного B, є ймовірність B дали, раз 364 00:17:43,330 --> 00:17:47,660 ймовірність, по ймовірності В. Це довгий рівняння. 365 00:17:47,660 --> 00:17:51,970 Але те, що ви повинні зрозуміти, від тобто, що це те, що я хочу 366 00:17:51,970 --> 00:17:52,830 розрахувати, чи не так? 367 00:17:52,830 --> 00:17:56,570 Таким чином, ймовірність того, що ця пісня по Леді Гага враховуючи, що я побачив слово 368 00:17:56,570 --> 00:17:58,230 "Дитина". 369 00:17:58,230 --> 00:18:02,960 >> А тепер, що я отримую є ймовірність слова "дитина" з урахуванням 370 00:18:02,960 --> 00:18:04,390 що у мене є Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 А що таке, що в принципі? 372 00:18:07,220 --> 00:18:10,500 Це означає,, що є Можливість надходження слово "дитина" 373 00:18:10,500 --> 00:18:12,130 в Gaga текстах? 374 00:18:12,130 --> 00:18:16,240 Якщо я хочу, щоб обчислити, що в дуже простий спосіб, це просто число 375 00:18:16,240 --> 00:18:23,640 раз я бачу "Baby" від загальної кількості слів у текстах Gaga, чи не так? 376 00:18:23,640 --> 00:18:27,600 Яка частота, що я бачу, це слово в роботі Гага? 377 00:18:27,600 --> 00:18:30,530 Сенс? 378 00:18:30,530 --> 00:18:33,420 >> Другий доданок ймовірність Gaga. 379 00:18:33,420 --> 00:18:34,360 Що це означає? 380 00:18:34,360 --> 00:18:38,550 Це в основному означає, що Імовірність класифікації 381 00:18:38,550 --> 00:18:40,690 деякі тексти як Gaga? 382 00:18:40,690 --> 00:18:45,320 І це трохи дивно, але давайте думати про приклад. 383 00:18:45,320 --> 00:18:49,230 Так скажімо, що ймовірність наявність "дитини" в пісні те ж саме 384 00:18:49,230 --> 00:18:51,760 для Гага і Брітні Спірс. 385 00:18:51,760 --> 00:18:54,950 Але Брітні Спірс має в два рази більше пісень, ніж Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Так що якщо хтось просто випадково дає Лірика "дитину", перше, що ви 387 00:19:00,570 --> 00:19:04,710 дивитися на це, те, що ймовірність наявність "дитини" в пісні Gaga, "дитина" 388 00:19:04,710 --> 00:19:05,410 у пісні Брітні? 389 00:19:05,410 --> 00:19:06,460 І це те ж саме. 390 00:19:06,460 --> 00:19:10,040 >> Так Друге, що ви побачите, це, добре, що є вірогідність 391 00:19:10,040 --> 00:19:13,770 це ліричні сама по собі будучи Гага ліричні, і яка вірогідність 392 00:19:13,770 --> 00:19:15,380 будучи лірична Брітні? 393 00:19:15,380 --> 00:19:18,950 Так, так як Брітні має так багато більше лірику ніж Гага, ви, ймовірно, 394 00:19:18,950 --> 00:19:21,470 скажімо, ну, це, ймовірно, лірична Брітні. 395 00:19:21,470 --> 00:19:23,340 Так ось чому у нас є це назвати прямо тут. 396 00:19:23,340 --> 00:19:24,670 Імовірність Gaga. 397 00:19:24,670 --> 00:19:26,950 Має сенс? 398 00:19:26,950 --> 00:19:28,660 Чи так це? 399 00:19:28,660 --> 00:19:29,370 ОК. 400 00:19:29,370 --> 00:19:33,500 >> І останнє є ймовірність з "дитини", який не 401 00:19:33,500 --> 00:19:34,810 має значення, що багато. 402 00:19:34,810 --> 00:19:39,940 Але це ймовірність бачачи "Baby" англійською мовою. 403 00:19:39,940 --> 00:19:42,725 Ми зазвичай не хвилює, що багато про цього терміна. 404 00:19:42,725 --> 00:19:44,490 Чи має це сенс? 405 00:19:44,490 --> 00:19:48,110 Таким чином, ймовірність Гага називається апріорна ймовірність 406 00:19:48,110 --> 00:19:49,530 класової Gaga. 407 00:19:49,530 --> 00:19:53,840 Тому що це просто означає, що, те, що ймовірність того, що клас - 408 00:19:53,840 --> 00:19:55,520 що Гага - 409 00:19:55,520 --> 00:19:59,350 тільки в загальному, тільки без умов. 410 00:19:59,350 --> 00:20:02,560 >> А потім, коли у мене є ймовірність Гага дано "дитина", ми називаємо це плюс 411 00:20:02,560 --> 00:20:06,160 сльозяться ймовірність, тому що це ймовірність наявності 412 00:20:06,160 --> 00:20:08,300 Гага враховуючи деякі докази. 413 00:20:08,300 --> 00:20:11,050 Тому я даю вам докази що я побачив слово дитини і 414 00:20:11,050 --> 00:20:12,690 пісня має сенсу? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 ОК. 417 00:20:16,410 --> 00:20:22,400 >> Так що якщо я підрахував, що для кожного з пісень для Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 що це було б - 419 00:20:25,916 --> 00:20:27,730 судячи з усього, я не можу рухатися в цьому. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Імовірність Gaga буде щось на зразок 2 більше 24, раз 1/2, 422 00:20:36,920 --> 00:20:38,260 більше 2 більше 53. 423 00:20:38,260 --> 00:20:40,640 Це не має значення, якщо ви знаєте, що ці цифри і звідки. 424 00:20:40,640 --> 00:20:44,750 Але це всього лише число, яке буде бути більше, ніж 0, вірно? 425 00:20:44,750 --> 00:20:48,610 >> А потім, коли я роблю Кеті Перрі, ймовірність "дитини" враховуючи Кеті 426 00:20:48,610 --> 00:20:49,830 вже 0, вірно? 427 00:20:49,830 --> 00:20:52,820 Тому що немає ніякого "дитина" в Кеті Перрі. 428 00:20:52,820 --> 00:20:56,360 Так то це стає 0, а Гага перемог, що означає, що Гага 429 00:20:56,360 --> 00:20:57,310 ймовірно, співак. 430 00:20:57,310 --> 00:20:58,560 Чи має це сенс? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 ОК. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Так що, якщо я хочу, щоб зробити це більш офіційний, Я можу насправді модель 435 00:21:11,750 --> 00:21:12,700 за кількома словами. 436 00:21:12,700 --> 00:21:14,610 Так скажемо, що у мене є щось як, "дитина, Я 437 00:21:14,610 --> 00:21:16,030 у вогні, "або щось. 438 00:21:16,030 --> 00:21:17,760 Так що має кілька слів. 439 00:21:17,760 --> 00:21:20,880 І в цьому випадку, ви можете побачити що "дитина" знаходиться в Gaga, 440 00:21:20,880 --> 00:21:21,710 але це не в Katy. 441 00:21:21,710 --> 00:21:24,940 І "вогонь" знаходиться в Katy, але це не в Gaga, чи не так? 442 00:21:24,940 --> 00:21:27,200 Так вона стає складніше, чи не так? 443 00:21:27,200 --> 00:21:31,440 Тому що здається, що ви майже є зв'язок між ними. 444 00:21:31,440 --> 00:21:36,980 >> Так що ви повинні зробити, це припустити, незалежність серед слів. 445 00:21:36,980 --> 00:21:41,210 Так в основному, що це означає, що Я просто вираховуючи, що є 446 00:21:41,210 --> 00:21:44,330 Можливість надходження "дитини", що є ймовірність побачити «я», і 447 00:21:44,330 --> 00:21:46,670 "Я", і "на" і "вогонь" все окремо. 448 00:21:46,670 --> 00:21:48,670 Тоді я множення всіх з них. 449 00:21:48,670 --> 00:21:52,420 І я бачу, що є вірогідність бачити ціле речення. 450 00:21:52,420 --> 00:21:55,210 Сенс? 451 00:21:55,210 --> 00:22:00,270 >> Так в основному, якщо у мене є тільки одне слово, те, що я хочу знайти це аргумент макс, 452 00:22:00,270 --> 00:22:05,385 що означає, що клас, який є дає мені найбільшу ймовірність? 453 00:22:05,385 --> 00:22:10,010 Так в чому ж клас, який дає мене найвища ймовірність 454 00:22:10,010 --> 00:22:11,940 ймовірність класу дали слово. 455 00:22:11,940 --> 00:22:17,610 Таким чином, в цьому випадку, Гага дано "дитини". Або Кеті дано "дитини". Сенс? 456 00:22:17,610 --> 00:22:21,040 >> І лише від Байеса, що рівняння, яке я показав, 457 00:22:21,040 --> 00:22:24,780 ми створюємо цю фракцію. 458 00:22:24,780 --> 00:22:28,750 Єдине, що ви бачите, що ймовірність слова з урахуванням 459 00:22:28,750 --> 00:22:31,370 зміни класів залежно від класу, чи не так? 460 00:22:31,370 --> 00:22:34,260 Кількість "Baby" з, що у мене є в Gaga відрізняється від Katy. 461 00:22:34,260 --> 00:22:37,640 Імовірність класу також зміни, тому що це просто число 462 00:22:37,640 --> 00:22:39,740 пісень кожен з них має. 463 00:22:39,740 --> 00:22:43,980 >> Але ймовірність того, що саме слово буде однаковим для всіх 464 00:22:43,980 --> 00:22:44,740 художники, вірно? 465 00:22:44,740 --> 00:22:47,150 Таким чином, ймовірність того, що слова просто, що ймовірність 466 00:22:47,150 --> 00:22:49,820 бачачи, що слово в Англійська мова? 467 00:22:49,820 --> 00:22:51,420 Так що це те ж саме для всіх з них. 468 00:22:51,420 --> 00:22:55,790 Так, так як це постійно, ми можемо просто відмовитися від цього, а не дбати про нього. 469 00:22:55,790 --> 00:23:00,230 Так що це буде насправді рівняння ми шукаємо. 470 00:23:00,230 --> 00:23:03,360 >> І якщо у мене є кілька слів, я ще доведеться до 471 00:23:03,360 --> 00:23:04,610 Ймовірність тут. 472 00:23:04,610 --> 00:23:06,980 Єдине, що я множення ймовірність 473 00:23:06,980 --> 00:23:08,490 всі інші слова. 474 00:23:08,490 --> 00:23:10,110 Так що я множення всіх з них. 475 00:23:10,110 --> 00:23:12,610 Сенс? 476 00:23:12,610 --> 00:23:18,440 Це виглядає дивно, але в основному означає, розрахувати до класу, і 477 00:23:18,440 --> 00:23:22,100 потім помножити на ймовірність кожного зі слів, що знаходяться в цьому класі. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> І ви знаєте, що ймовірність Слово дано клас буде 480 00:23:29,150 --> 00:23:34,520 скільки разів ви побачите, що слово в що клас, поділене на кількість 481 00:23:34,520 --> 00:23:37,020 Слова, які ви маєте в тому, що клас в цілому. 482 00:23:37,020 --> 00:23:37,990 Сенс? 483 00:23:37,990 --> 00:23:41,680 Це просто, як "дитина" було 2 більш кількість слів, які 484 00:23:41,680 --> 00:23:43,020 У мене була в ліриці. 485 00:23:43,020 --> 00:23:45,130 Так що просто частота. 486 00:23:45,130 --> 00:23:46,260 >> Але є одна річ. 487 00:23:46,260 --> 00:23:51,250 Пам'ятаєте, як я показував, що ймовірність "Baby", що є текстах 488 00:23:51,250 --> 00:23:56,350 від Кеті Перрі 0 тільки тому, що Кеті Перрі не було "Baby" взагалі? 489 00:23:56,350 --> 00:24:04,900 Але це звучить трохи різко, щоб просто просто сказати, що текст пісні не може бути від 490 00:24:04,900 --> 00:24:10,040 художник тільки тому, що вони не мають це слово зокрема в будь-який час. 491 00:24:10,040 --> 00:24:13,330 >> Таким чином, ви могли б просто сказати, ну, якщо ви ні це слово, я збираюся 492 00:24:13,330 --> 00:24:15,640 дати вам більш низьку ймовірність, але я просто не збираюся 493 00:24:15,640 --> 00:24:17,420 дати вам 0 відразу. 494 00:24:17,420 --> 00:24:21,040 Бо, може бути, це було щось на зразок, "Вогонь, вогонь, вогонь, вогонь", який є 495 00:24:21,040 --> 00:24:21,990 повністю Кеті Перрі. 496 00:24:21,990 --> 00:24:26,060 А потім "дитина", і це тільки йде, щоб 0 відразу, тому що був один 497 00:24:26,060 --> 00:24:27,250 "Дитина". 498 00:24:27,250 --> 00:24:31,440 >> Тому в основному те, що ми робимо щось називається Лапласа згладжування. 499 00:24:31,440 --> 00:24:36,260 І це просто означає, що я даю деяка ймовірність навіть до слів 500 00:24:36,260 --> 00:24:37,850 що не існує. 501 00:24:37,850 --> 00:24:43,170 Так, що я роблю те, що, коли я розрахунку цього, я завжди додаю 1 до 502 00:24:43,170 --> 00:24:44,180 чисельник. 503 00:24:44,180 --> 00:24:48,060 Таким чином, навіть якщо слово не існує, в У цьому випадку, якщо це 0, я до сих пір 504 00:24:48,060 --> 00:24:51,250 розрахунку це як 1 над загальна кількість слів. 505 00:24:51,250 --> 00:24:55,060 В іншому випадку, я отримую, скільки слів У мене є і я додати 1. 506 00:24:55,060 --> 00:24:58,300 Так я розраховую в обох випадках. 507 00:24:58,300 --> 00:25:00,430 Сенс? 508 00:25:00,430 --> 00:25:03,060 >> Так що тепер давайте зробимо деякі кодування. 509 00:25:03,060 --> 00:25:06,440 Я збираюся повинні зробити це досить швидко, але це просто важливо, щоб вам 510 00:25:06,440 --> 00:25:08,600 хлопці зрозуміти концепції. 511 00:25:08,600 --> 00:25:13,450 Отже, що ми намагаємося зробити точно реалізувати це 512 00:25:13,450 --> 00:25:14,330 річ, яку я тільки що сказав, - 513 00:25:14,330 --> 00:25:19,110 Я хочу, щоб ти поклав текст з Леді Гага і Кеті Перрі. 514 00:25:19,110 --> 00:25:22,980 І програма буде в змозі кажуть, що якщо ці нові тексти з Gaga 515 00:25:22,980 --> 00:25:24,170 або Кеті Перрі. 516 00:25:24,170 --> 00:25:25,800 Сенс? 517 00:25:25,800 --> 00:25:27,530 ОК. 518 00:25:27,530 --> 00:25:30,710 >> Так що я цю програму я збираюся подзвонити classify.py. 519 00:25:30,710 --> 00:25:31,970 Так що це Python. 520 00:25:31,970 --> 00:25:34,210 Це нова мова програмування. 521 00:25:34,210 --> 00:25:38,020 Це дуже схоже на деякі способи C і PHP. 522 00:25:38,020 --> 00:25:43,180 Це схоже, тому що, якщо ви хочете дізнатися Python дізнавшись C, це 523 00:25:43,180 --> 00:25:46,270 дійсно не так багато виклик тільки тому, що Python набагато простіше 524 00:25:46,270 --> 00:25:47,520 ніж C, в першу чергу. 525 00:25:47,520 --> 00:25:49,370 І багато чого вже реалізований для вас. 526 00:25:49,370 --> 00:25:56,820 Отже, як як PHP має функції, які відсортувати список, або додати щось 527 00:25:56,820 --> 00:25:58,780 на масив, або бла, бла, бла. 528 00:25:58,780 --> 00:26:00,690 Python має всі ті також. 529 00:26:00,690 --> 00:26:05,960 >> Так що я просто збираюся пояснити швидко як ми могли б зробити класифікацію 530 00:26:05,960 --> 00:26:07,860 Проблема тут. 531 00:26:07,860 --> 00:26:13,230 Так скажемо, що в цьому випадку, у мене є пісні з Гага і Кеті Перрі. 532 00:26:13,230 --> 00:26:21,880 Таким чином, що у мене є ці тексти в тому, що перше слово з пісні є 533 00:26:21,880 --> 00:26:25,250 ім'я художника, і інше лірика. 534 00:26:25,250 --> 00:26:29,470 Так скажемо, що у мене є цей список в яких перший є вірші Gaga. 535 00:26:29,470 --> 00:26:31,930 Так от я на правильному шляху. 536 00:26:31,930 --> 00:26:35,270 А наступного один Кеті, і вона має також тексти пісень. 537 00:26:35,270 --> 00:26:38,040 >> Так що це, як ви заявляєте, змінна в Python. 538 00:26:38,040 --> 00:26:40,200 Ви не повинні дати тип даних. 539 00:26:40,200 --> 00:26:43,150 Ви просто написати "текст", ніби як в PHP. 540 00:26:43,150 --> 00:26:44,890 Сенс? 541 00:26:44,890 --> 00:26:47,770 >> Так що ті речі, які я повинен розрахувати, щоб мати можливість розрахувати 542 00:26:47,770 --> 00:26:49,360 ймовірності? 543 00:26:49,360 --> 00:26:55,110 У мене є для розрахунку «апріорні» з кожного з різних 544 00:26:55,110 --> 00:26:56,710 класи, у мене немає. 545 00:26:56,710 --> 00:27:06,680 У мене є для розрахунку "бічних зубів", або в значній мірі ймовірності 546 00:27:06,680 --> 00:27:12,150 кожен з різних слів, які У мене може бути для кожного художника. 547 00:27:12,150 --> 00:27:17,210 Таким чином, усередині Gaga, наприклад, я збираюся мати список, скільки разів я бачу 548 00:27:17,210 --> 00:27:19,250 кожне зі слів. 549 00:27:19,250 --> 00:27:20,760 Сенс? 550 00:27:20,760 --> 00:27:25,370 >> І, нарешті, я просто хочу, щоб мати Список називається "слова", що просто буде 551 00:27:25,370 --> 00:27:29,780 мати скільки слів я Тобто для кожного художника. 552 00:27:29,780 --> 00:27:33,760 Таким чином, для Gaga, наприклад, коли я дивлюся до лірики, я, по-моєму, 24 553 00:27:33,760 --> 00:27:34,750 слова в цілому. 554 00:27:34,750 --> 00:27:38,970 Так цей список просто доведеться Гага 24, і Кеті інший номер. 555 00:27:38,970 --> 00:27:40,130 Сенс? 556 00:27:40,130 --> 00:27:40,560 ОК. 557 00:27:40,560 --> 00:27:42,530 >> Отже, тепер, власне, давайте перейти до кодування. 558 00:27:42,530 --> 00:27:45,270 Таким чином, в Python, ви можете насправді повернутися купу різні 559 00:27:45,270 --> 00:27:46,630 речі з функції. 560 00:27:46,630 --> 00:27:50,810 Так що я збираюся створити цю функцію називається "умовним", який збирається 561 00:27:50,810 --> 00:27:53,890 повернути всі з тих речей, "Пріори", що "ймовірності", і 562 00:27:53,890 --> 00:28:05,690 "Слова". Таким чином, "умовна", і це буде ставлячи під "лірики". 563 00:28:05,690 --> 00:28:11,510 >> Так що тепер я хочу, щоб ви насправді написати цю функцію. 564 00:28:11,510 --> 00:28:17,750 Таким чином, спосіб, яким я можу написати це функція Я просто визначив це 565 00:28:17,750 --> 00:28:20,620 функціонувати з "визначення". Так я і зробив "визначення умовно, "і це займає 566 00:28:20,620 --> 00:28:28,700 "Текст". І те, що це буде робити є, в першу чергу, у мене є свої апріорні 567 00:28:28,700 --> 00:28:31,030 що я хочу, щоб обчислити. 568 00:28:31,030 --> 00:28:34,330 >> Таким чином, спосіб, яким я можу це зробити, це створити словник в Python, який 569 00:28:34,330 --> 00:28:37,320 в значній мірі те ж саме, що хеш стіл, або це як ітеративний 570 00:28:37,320 --> 00:28:40,480 Масив в PHP. 571 00:28:40,480 --> 00:28:44,150 Це, як я оголосити словник. 572 00:28:44,150 --> 00:28:53,580 І в основному це означає те, що апріорні з Gaga 0,5, наприклад, якщо 573 00:28:53,580 --> 00:28:57,200 50% з лірики від Гага, 50% з Katy. 574 00:28:57,200 --> 00:28:58,450 Сенс? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Так що я повинен з'ясувати, як для розрахунку апріорні. 577 00:29:03,680 --> 00:29:07,120 >> Наступні ті, які я повинен зробити, також, є ймовірностями і слова. 578 00:29:07,120 --> 00:29:17,100 Так ймовірності Gaga список всіх ймовірностей того, що я 579 00:29:17,100 --> 00:29:19,160 Тобто для кожного зі слів для Gaga. 580 00:29:19,160 --> 00:29:23,880 Так що, якщо я йду в ймовірностях Gaga "Дитина", наприклад, він дасть мені 581 00:29:23,880 --> 00:29:28,750 щось на зразок 2 по 24 в цьому випадку. 582 00:29:28,750 --> 00:29:30,070 Сенс? 583 00:29:30,070 --> 00:29:36,120 Так я йду в "ймовірності", перейдіть в "Гага" відро, що має список всіх 584 00:29:36,120 --> 00:29:40,550 слова Gaga, то я йду в "дитини", і я бачу ймовірність. 585 00:29:40,550 --> 00:29:45,940 >> І, нарешті у мене є це "Слова" словник. 586 00:29:45,940 --> 00:29:53,620 Так от, "ймовірності". А потім "Слова". Так що, якщо я можу зробити "слова", "Gaga", 587 00:29:53,620 --> 00:29:58,330 що відбудеться те, що це дасть мені 24, кажучи, що я 588 00:29:58,330 --> 00:30:01,990 є 24 слів в текстах з Gaga. 589 00:30:01,990 --> 00:30:04,110 Має сенс? 590 00:30:04,110 --> 00:30:07,070 Так от, "слова" одно Дах-Дах-дах. 591 00:30:07,070 --> 00:30:07,620 Добре 592 00:30:07,620 --> 00:30:12,210 >> Так що я збираюся зробити, це я збираюся перебору кожного з текстах, так 593 00:30:12,210 --> 00:30:14,490 кожного з рядків, які У мене є в списку. 594 00:30:14,490 --> 00:30:18,040 І я збираюся розрахувати ті речі для кожного з кандидатів. 595 00:30:18,040 --> 00:30:19,950 Має сенс? 596 00:30:19,950 --> 00:30:21,700 Так що я повинен зробити для петлі. 597 00:30:21,700 --> 00:30:26,300 >> Таким чином, в Python, що я можу зробити, це "для лінії в текстах. "те ж саме, 598 00:30:26,300 --> 00:30:28,000 "Для кожного" заяву в PHP. 599 00:30:28,000 --> 00:30:33,420 Пам'ятаєте, як якщо б це був PHP я міг сказати "для кожного текстах як 600 00:30:33,420 --> 00:30:35,220 лінія ". Має сенс? 601 00:30:35,220 --> 00:30:38,900 Так що я беру кожної з ліній, в цьому випадок, цей рядок і наступна 602 00:30:38,900 --> 00:30:44,540 рядок так і для кожної з ліній, що я збираюся зробити, це по-перше, я збираюся 603 00:30:44,540 --> 00:30:49,150 розділити цей рядок до списку слова, розділених пробілами. 604 00:30:49,150 --> 00:30:53,730 >> Так здорово, що про Python є те, що ви могли б просто Google, як "як я можу 605 00:30:53,730 --> 00:30:58,220 розбити рядок на слова? "І це збираюся розповісти вам, як це зробити. 606 00:30:58,220 --> 00:31:04,890 І те, як це зробити, це просто "лінія = Line.split () ", і це в основному 607 00:31:04,890 --> 00:31:08,640 збираюся дати Вам список кожне зі слів тут. 608 00:31:08,640 --> 00:31:09,620 Має сенс? 609 00:31:09,620 --> 00:31:15,870 Так що тепер я зробив, що я хочу знати, який є співаком цієї пісні. 610 00:31:15,870 --> 00:31:20,130 А для цього я просто повинен отримати Перший елемент масиву, чи не так? 611 00:31:20,130 --> 00:31:26,390 Тому я можу тільки сказати, що я "співак = Лінія (0) "Має сенс? 612 00:31:26,390 --> 00:31:32,010 >> А потім, що мені потрібно зробити, це, в першу все, що я збираюся оновити скільки 613 00:31:32,010 --> 00:31:36,130 слова у мене під "Гага". так що я просто збирається підрахувати, скільки слів я 614 00:31:36,130 --> 00:31:38,690 є в цьому списку, чи не так? 615 00:31:38,690 --> 00:31:41,910 Тому що це, скільки слів у мене в ліриці, і я просто хочу, щоб 616 00:31:41,910 --> 00:31:44,120 додати його в "Gaga" масиву. 617 00:31:44,120 --> 00:31:47,090 Чи має це сенс? 618 00:31:47,090 --> 00:31:49,010 Не надто великий акцент на синтаксису. 619 00:31:49,010 --> 00:31:50,430 Думайте більше про поняттях. 620 00:31:50,430 --> 00:31:52,400 Це найважливіша частина. 621 00:31:52,400 --> 00:31:52,720 ОК. 622 00:31:52,720 --> 00:32:00,260 >> Так що я можу зробити це, якщо "Гага" є вже в цьому списку, так що "якщо співак у 623 00:32:00,260 --> 00:32:03,190 слова ", що означає, що я вже є слова, Gaga. 624 00:32:03,190 --> 00:32:06,640 Я просто хочу додати додатковий слова до цього. 625 00:32:06,640 --> 00:32:15,810 Так що я роблю, це "слова (співачка) + = Len (рядок) - 1 ". 626 00:32:15,810 --> 00:32:18,250 І тоді я можу просто зробити Довжина лінії. 627 00:32:18,250 --> 00:32:21,860 Так як багато елементів I мати в масиві. 628 00:32:21,860 --> 00:32:27,060 І що я повинен зробити мінус 1 тільки тому, що перший елемент масиву є просто 629 00:32:27,060 --> 00:32:29,180 співак і тих, хто не є тексти. 630 00:32:29,180 --> 00:32:31,420 Має сенс? 631 00:32:31,420 --> 00:32:32,780 ОК. 632 00:32:32,780 --> 00:32:35,820 >> "В іншому випадку," це означає, що я хочу насправді вставити Gaga в список. 633 00:32:35,820 --> 00:32:45,990 Так що я просто зробити "слова (співачка) = Len (рядок) - 1, "шкода. 634 00:32:45,990 --> 00:32:49,200 Таким чином, єдина відмінність між ними лінії є те, що на цей раз, це не так 635 00:32:49,200 --> 00:32:51,080 існують ще, так що я просто його ініціалізації. 636 00:32:51,080 --> 00:32:53,820 Це один я насправді додавання. 637 00:32:53,820 --> 00:32:55,570 ОК. 638 00:32:55,570 --> 00:32:59,480 Так що це було додавання до слів. 639 00:32:59,480 --> 00:33:03,040 >> Тепер я хочу додати до настоятелів. 640 00:33:03,040 --> 00:33:05,480 Так як я можу вирахувати апріорні? 641 00:33:05,480 --> 00:33:11,580 У пріори можна розрахувати у скільки разів. 642 00:33:11,580 --> 00:33:15,340 Так скільки разів ви бачите, що співак серед всіх співаків, які ви 643 00:33:15,340 --> 00:33:16,380 є, чи не так? 644 00:33:16,380 --> 00:33:18,810 Таким чином, для Gaga і Кеті Перрі, в цьому випадку, я бачу Gaga 645 00:33:18,810 --> 00:33:20,570 один раз, Кеті Перрі разів. 646 00:33:20,570 --> 00:33:23,320 >> Тому, в основному настоятелі для Gaga і Кеті Перрі буде 647 00:33:23,320 --> 00:33:24,390 бути просто одним, чи не так? 648 00:33:24,390 --> 00:33:26,500 Ви просто, скільки разів Я бачу художника. 649 00:33:26,500 --> 00:33:28,740 Так що це дуже легко вирахувати. 650 00:33:28,740 --> 00:33:34,100 Я можу тільки щось подібне, як наприклад, "якщо співак у настоятелів, "Я просто збираюся 651 00:33:34,100 --> 00:33:38,970 додати 1 до їх настоятелі вікні. 652 00:33:38,970 --> 00:33:51,000 Так, "пріори (співати)" + = 1 ", а потім" ще " Я збираюся зробити «апріорні (співачка) 653 00:33:51,000 --> 00:33:55,000 = 1 ". Має сенс? 654 00:33:55,000 --> 00:34:00,080 >> Так що, якщо він не існує, я просто поставити як 1, в іншому випадку я просто додайте 1. 655 00:34:00,080 --> 00:34:11,280 Отже, тепер все, що у мене залишилося зробити також додати кожне з слів в 656 00:34:11,280 --> 00:34:12,290 ймовірності. 657 00:34:12,290 --> 00:34:14,889 Так що я повинен підрахувати, скільки разів Я бачу кожного зі слів. 658 00:34:14,889 --> 00:34:18,780 Так що я просто повинен зробити ще один цикл в лінії. 659 00:34:18,780 --> 00:34:25,190 >> Так, перше, що я збираюся зробити, це перевірити, якщо співачка вже має 660 00:34:25,190 --> 00:34:26,969 ймовірності масив. 661 00:34:26,969 --> 00:34:31,739 Так я перевіряю, якщо співак не є масив ймовірності, я просто 662 00:34:31,739 --> 00:34:34,480 збирається ініціалізувати один для них. 663 00:34:34,480 --> 00:34:36,400 Це навіть не масив, вибачте, це словник. 664 00:34:36,400 --> 00:34:43,080 Так ймовірності співачки збирається бути відкритою словник, так що я 665 00:34:43,080 --> 00:34:45,830 просто ініціалізації словника для нього. 666 00:34:45,830 --> 00:34:46,820 ОК? 667 00:34:46,820 --> 00:34:58,330 >> І тепер я можу реально зробити для петлі для розрахунку кожного зі слів ' 668 00:34:58,330 --> 00:35:00,604 ймовірності. 669 00:35:00,604 --> 00:35:01,540 ОК. 670 00:35:01,540 --> 00:35:04,160 Так що я можу зробити це для петлі. 671 00:35:04,160 --> 00:35:06,590 Так що я просто хочу, щоб ітерації по масиву. 672 00:35:06,590 --> 00:35:15,320 Таким чином, спосіб, яким я можу зробити це в Python є "для г в діапазоні". З 1 673 00:35:15,320 --> 00:35:19,200 тому що я хочу, щоб почати в секунду елемент, тому що перший є 674 00:35:19,200 --> 00:35:20,260 Ім'я співака. 675 00:35:20,260 --> 00:35:24,990 Так від одного до Довжина лінії. 676 00:35:24,990 --> 00:35:29,760 І коли я в діапазоні вона насправді йти від як тут від 1 до Len з 677 00:35:29,760 --> 00:35:30,740 Лінія мінус 1. 678 00:35:30,740 --> 00:35:33,810 Так що вже робить цю штуку робити н мінус 1 для масивів, які дуже 679 00:35:33,810 --> 00:35:35,500 зручно. 680 00:35:35,500 --> 00:35:37,850 Має сенс? 681 00:35:37,850 --> 00:35:42,770 >> Таким чином, для кожного з них, то, що я збираюся зробити, це, як і в іншому, 682 00:35:42,770 --> 00:35:50,320 Я збираюся перевірити, якщо слово в цьому Положення в лінійці вже 683 00:35:50,320 --> 00:35:51,570 ймовірності. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 А потім, як я сказав тут, ймовірності слова, як в я ставлю 686 00:35:57,260 --> 00:35:58,400 "Ймовірності (співачка)». 687 00:35:58,400 --> 00:35:59,390 Таким чином, ім'я співачки. 688 00:35:59,390 --> 00:36:03,450 Так що, якщо це вже в "Probabilit (співак)", це означає, що я 689 00:36:03,450 --> 00:36:11,960 хочете додати до нього 1, так що я збираюся зробити "ймовірності (співак)", а 690 00:36:11,960 --> 00:36:14,100 Слово називається "лінія (я)". 691 00:36:14,100 --> 00:36:22,630 Я збираюся додати 1 і "ще" Я просто збирається ініціювати його в 1. 692 00:36:22,630 --> 00:36:23,880 "Лінія (я)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Має сенс? 695 00:36:28,420 --> 00:36:30,180 >> Так, за моїми розрахунками все масиви. 696 00:36:30,180 --> 00:36:36,580 Отже, тепер все, що я повинен зробити для Цей просто "повернутися апріорні, 697 00:36:36,580 --> 00:36:43,230 ймовірності та слова. «Давайте побачити, якщо такі є, гаразд. 698 00:36:43,230 --> 00:36:45,690 Начебто все працює до цих пір. 699 00:36:45,690 --> 00:36:46,900 Так, в цьому є сенс? 700 00:36:46,900 --> 00:36:47,750 У деякому роді? 701 00:36:47,750 --> 00:36:49,280 ОК. 702 00:36:49,280 --> 00:36:51,980 Так що тепер у мене є всі ймовірності. 703 00:36:51,980 --> 00:36:55,100 Так що тепер єдине, що в мене залишилося просто мати цю річ, що 704 00:36:55,100 --> 00:36:58,650 обчислює твір все ймовірностей, коли я отримую лірику. 705 00:36:58,650 --> 00:37:06,270 >> Так скажемо, що я хочу зараз називати ця функція "класифікувати ()" і 706 00:37:06,270 --> 00:37:08,880 річ, яка функція приймає це просто аргумент. 707 00:37:08,880 --> 00:37:13,170 Скажімо "Дитинко, я у вогні", і це збирається з'ясувати, що є 708 00:37:13,170 --> 00:37:14,490 Імовірність того, що це Gaga? 709 00:37:14,490 --> 00:37:16,405 Яка ймовірність того, що це Кеті? 710 00:37:16,405 --> 00:37:19,690 Звучить добре? 711 00:37:19,690 --> 00:37:25,750 Так що я просто доведеться створити Нова функція називається "класифікувати ()" і 712 00:37:25,750 --> 00:37:29,180 він збирається прийняти деякі текст пісні, а також. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 І, крім того ліриці Я також повинні відправити апріорні, 715 00:37:36,160 --> 00:37:37,700 ймовірності та слова. 716 00:37:37,700 --> 00:37:44,000 Так що я збираюся послати текст, апріорні, ймовірності, слова. 717 00:37:44,000 --> 00:37:51,840 >> Так це відбувається текст, апріорні, ймовірності, слова. 718 00:37:51,840 --> 00:37:53,530 Так, для чого це потрібно? 719 00:37:53,530 --> 00:37:57,180 Це в основному буде йти через все можливі кандидати, які ви 720 00:37:57,180 --> 00:37:58,510 мати в якості співака. 721 00:37:58,510 --> 00:37:59,425 А де ті кандидати? 722 00:37:59,425 --> 00:38:01,020 Вони в настоятелів, чи не так? 723 00:38:01,020 --> 00:38:02,710 Тому у мене є всі ті, там. 724 00:38:02,710 --> 00:38:07,870 Так що я збираюся є словник з усіх можливих кандидатів. 725 00:38:07,870 --> 00:38:14,220 А потім за кожного кандидата в настоятелі, так це означає, що він збирається 726 00:38:14,220 --> 00:38:17,740 бути Гага, Кеті якби мені довелося більш було б більше. 727 00:38:17,740 --> 00:38:20,410 Я збираюся почати розрахунок ця ймовірність. 728 00:38:20,410 --> 00:38:28,310 Імовірність як ми бачили в PowerPoint є Попередні раз 729 00:38:28,310 --> 00:38:30,800 Продукт кожного з інші ймовірності. 730 00:38:30,800 --> 00:38:32,520 >> Так що я можу зробити те ж саме тут. 731 00:38:32,520 --> 00:38:36,330 Я можу просто зробити ймовірність спочатку тільки перед. 732 00:38:36,330 --> 00:38:40,340 Так настоятелі кандидата. 733 00:38:40,340 --> 00:38:40,870 Чи не так? 734 00:38:40,870 --> 00:38:45,360 І тепер у мене є для перебору всіх Слова, які я маю в ліриці бути 735 00:38:45,360 --> 00:38:48,820 можливість додавати ймовірність для кожного з них, в порядку? 736 00:38:48,820 --> 00:38:57,900 Так, "в слово в текстах", що я збираюся зробити, це, якщо слово в 737 00:38:57,900 --> 00:39:01,640 "Ймовірності (кандидати)", які означає, що це слово, яке 738 00:39:01,640 --> 00:39:03,640 Кандидат повинен у своїх текстах - 739 00:39:03,640 --> 00:39:05,940 наприклад, "дитина" для Gaga - 740 00:39:05,940 --> 00:39:11,710 те, що я збираюся зробити, це що ймовірність збирається помножити 741 00:39:11,710 --> 00:39:22,420 на 1 плюс ймовірностей кандидат в цьому слові. 742 00:39:22,420 --> 00:39:25,710 І це називається "Слово". 743 00:39:25,710 --> 00:39:32,440 Це ділиться на кількість слів що у мене є для цього кандидата. 744 00:39:32,440 --> 00:39:37,450 Загальна кількість слів, які у мене є для співачки, що я дивлюся на. 745 00:39:37,450 --> 00:39:40,290 >> "Else". це означає, що це нове слово так що було б, як наприклад 746 00:39:40,290 --> 00:39:41,860 "Вогонь" для Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Так що я просто хочу зробити 1 по "Слово (кандидат)". 748 00:39:45,760 --> 00:39:47,710 Так що я не хочу поставити цей термін тут. 749 00:39:47,710 --> 00:39:50,010 >> Так що це буде в основному копіювання і вставка цього. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Але я збираюся видалити цю частину. 752 00:39:56,000 --> 00:39:57,610 Так що це просто буде 1 з цього приводу. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Звучить добре? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 І тепер наприкінці, я просто хочу, щоб друкувати ім'я кандидата і 757 00:40:09,700 --> 00:40:15,750 ймовірність того, що у вас є з маючи S на їх текстах. 758 00:40:15,750 --> 00:40:16,200 Має сенс? 759 00:40:16,200 --> 00:40:18,390 І я насправді навіть не потрібен цей словник. 760 00:40:18,390 --> 00:40:19,510 Має сенс? 761 00:40:19,510 --> 00:40:21,810 >> Отже, давайте подивимося, якщо це насправді працює. 762 00:40:21,810 --> 00:40:24,880 Так що, якщо я запускаю це, він не працює. 763 00:40:24,880 --> 00:40:26,130 Зачекайте одну секунду. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Слова (кандидати)", "слова (кандидати)", це 766 00:40:31,720 --> 00:40:33,750 ім'я масиву. 767 00:40:33,750 --> 00:40:41,435 ОК Таким чином, це говорить, що є якась помилка для кандидата в настоятелів. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Дозвольте мені просто розслабитися небагато. 770 00:40:48,760 --> 00:40:50,360 ОК. 771 00:40:50,360 --> 00:40:51,305 Давайте спробуємо. 772 00:40:51,305 --> 00:40:51,720 ОК. 773 00:40:51,720 --> 00:40:58,710 >> Так він дає Кеті Перрі має це Вірогідність цього разу 10 до 774 00:40:58,710 --> 00:41:02,200 мінус 7, і Гага це раз від 10 до мінус 6. 775 00:41:02,200 --> 00:41:05,610 Отже, ви бачите це показує, що Гага має більш високу ймовірність. 776 00:41:05,610 --> 00:41:09,260 Таким чином, "Дитинко, я у вогні" є ймовірно, пісня Gaga. 777 00:41:09,260 --> 00:41:10,580 Має сенс? 778 00:41:10,580 --> 00:41:12,030 Так що це те, що ми зробили. 779 00:41:12,030 --> 00:41:16,010 >> Цей код буде розміщений на сайті, щоб ви, хлопці, можете перевірити його. 780 00:41:16,010 --> 00:41:20,720 Може бути, використовувати деякі з них, якщо ви хочете, щоб зробити проект або щось подібне. 781 00:41:20,720 --> 00:41:22,150 ОК. 782 00:41:22,150 --> 00:41:25,930 Це було якраз, щоб показати що обчислювальна 783 00:41:25,930 --> 00:41:27,230 лінгвістика код виглядає. 784 00:41:27,230 --> 00:41:33,040 Але тепер давайте повернемося до більш Високий рівень речі. 785 00:41:33,040 --> 00:41:33,340 ОК. 786 00:41:33,340 --> 00:41:35,150 >> Таким чином, інші проблеми, які я говорив про - 787 00:41:35,150 --> 00:41:37,550 проблема сегментації є першим з них. 788 00:41:37,550 --> 00:41:40,820 Так у вас тут по-японськи. 789 00:41:40,820 --> 00:41:43,420 І тоді ви побачите, що немає простору. 790 00:41:43,420 --> 00:41:49,110 Так що це в основному означає, що це верхня частина крісла, чи не так? 791 00:41:49,110 --> 00:41:50,550 Ви говорите по-японськи? 792 00:41:50,550 --> 00:41:52,840 Це верхня частина крісла, чи не так? 793 00:41:52,840 --> 00:41:54,480 >> СТУДЕНТ: Я не знаю, що кандзі там є. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Фрейташ: Це [говоріння по-японськи] 795 00:41:57,010 --> 00:41:57,950 ОК. 796 00:41:57,950 --> 00:42:00,960 Так що в основному означає кафедру вершині. 797 00:42:00,960 --> 00:42:03,620 Так що якщо ви повинні були поставити пробіл було б тут. 798 00:42:03,620 --> 00:42:05,970 І тоді у вас є [? Уеда-Сан -. ?] 799 00:42:05,970 --> 00:42:09,040 Які в основному означає, пан Уеда. 800 00:42:09,040 --> 00:42:13,180 І ви бачите, що "Уеда" і у вас є простір, а потім "Сан -." Отже, ви бачите, що 801 00:42:13,180 --> 00:42:15,470 тут ви "Ue", як сам по собі. 802 00:42:15,470 --> 00:42:17,750 І ось у нього є характер поруч з ним. 803 00:42:17,750 --> 00:42:21,720 >> Так що це не так, як в цих мовах символів означає слово його, щоб ви 804 00:42:21,720 --> 00:42:23,980 просто покласти багато прогалин. 805 00:42:23,980 --> 00:42:25,500 Персонажі пов'язані один з одним. 806 00:42:25,500 --> 00:42:28,680 І вони можуть бути разом як два, три, один. 807 00:42:28,680 --> 00:42:34,520 Таким чином, ви насправді потрібно створити якийсь з спосіб покласти ці прогалини. 808 00:42:34,520 --> 00:42:38,850 >> І це те, що всякий раз, коли ви отримуєте Дані з цих азіатських мов, 809 00:42:38,850 --> 00:42:40,580 все приходить нечленістие. 810 00:42:40,580 --> 00:42:45,940 Тому що немає той, хто пише по-японськи або китайський пише пробілами. 811 00:42:45,940 --> 00:42:48,200 Всякий раз, коли ви пишете по-китайськи, Японський ви просто написати все, 812 00:42:48,200 --> 00:42:48,710 без пробілів. 813 00:42:48,710 --> 00:42:52,060 Він навіть не має сенсу поставити пробіли. 814 00:42:52,060 --> 00:42:57,960 Отже, коли ви отримуєте дані з, деякі Азіатських мов Схід, якщо ви хочете 815 00:42:57,960 --> 00:43:00,760 зробити щось з цим ви повинні сегменті в першу чергу. 816 00:43:00,760 --> 00:43:05,130 >> Подумайте робити приклад тексти без пробілів. 817 00:43:05,130 --> 00:43:07,950 Таким чином, тільки текст пісні, які ви повинні буде вироки, чи не так? 818 00:43:07,950 --> 00:43:09,470 , Розділених точками. 819 00:43:09,470 --> 00:43:13,930 Але потім, як раз пропозиція буде не допомагає на надання інформації 820 00:43:13,930 --> 00:43:17,760 від того, хто ці тексти на. 821 00:43:17,760 --> 00:43:18,120 Чи не так? 822 00:43:18,120 --> 00:43:20,010 Таким чином, ви повинні ставить прогалини в першу чергу. 823 00:43:20,010 --> 00:43:21,990 Отже, як можна це зробити? 824 00:43:21,990 --> 00:43:24,920 >> Так потім приходить ідея мові модель, яка щось дійсно 825 00:43:24,920 --> 00:43:26,870 важливо для обчислювальних лінгвістика. 826 00:43:26,870 --> 00:43:32,790 Таким чином, мовна модель в основному таблиця ймовірностей, що шоу 827 00:43:32,790 --> 00:43:36,260 насамперед яка ймовірність того, це слово в мові? 828 00:43:36,260 --> 00:43:39,590 Так, що показує, як часто слово. 829 00:43:39,590 --> 00:43:43,130 А потім ще й ніколи співвідношення між словами в реченні. 830 00:43:43,130 --> 00:43:51,500 >> Таким чином, основна ідея полягає в тому, якщо незнайомець прийшов Вам і сказав вирок 831 00:43:51,500 --> 00:43:55,600 Ви, яка ймовірність того, що для Наприклад, "це моя сестра [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 був вирок, що чоловік сказав? 833 00:43:57,480 --> 00:44:00,380 Так, очевидно, деякі вироки частіше, ніж інші. 834 00:44:00,380 --> 00:44:04,450 Наприклад, "добрий ранок" або "добре ніч ", або" Ей, "набагато більш 835 00:44:04,450 --> 00:44:08,260 спільного, ніж більшість пропозицій що у нас є по-англійськи. 836 00:44:08,260 --> 00:44:11,060 Так чому ж ці пропозиції частішими? 837 00:44:11,060 --> 00:44:14,060 >> Насамперед, це тому, що у вас є слова, які частіше. 838 00:44:14,060 --> 00:44:20,180 Так, наприклад, якщо ви говорите, що собака великий, і собака гігантська, ви 839 00:44:20,180 --> 00:44:23,880 зазвичай, ймовірно, почути Собака велика частіше, тому що "великий" є більш 840 00:44:23,880 --> 00:44:27,260 часто англійською мовою, ніж "гігантська". Так, один з 841 00:44:27,260 --> 00:44:30,100 речі частота слово. 842 00:44:30,100 --> 00:44:34,490 >> Друга річ, яка дійсно важливо тільки 843 00:44:34,490 --> 00:44:35,490 порядок слів. 844 00:44:35,490 --> 00:44:39,500 Таким чином, це прийнято говорити "кішка всередині коробки. ", але ви цього не зробите, як правило, 845 00:44:39,500 --> 00:44:44,250 см. в "вікні всередині кіт." так Ви бачите, що є деяка важливість 846 00:44:44,250 --> 00:44:46,030 в порядку слів. 847 00:44:46,030 --> 00:44:50,160 Ви не можете просто сказати, що ці двоє пропозиції мають однакову ймовірність 848 00:44:50,160 --> 00:44:53,010 тільки тому, що у них є ті ж самі слова. 849 00:44:53,010 --> 00:44:55,550 Ви насправді повинні дбати про порядок, а також. 850 00:44:55,550 --> 00:44:57,650 Сенс? 851 00:44:57,650 --> 00:44:59,490 >> Так що ж нам робити? 852 00:44:59,490 --> 00:45:01,550 Так що я міг би спробувати отримати вас? 853 00:45:01,550 --> 00:45:04,400 Я намагаюся змусити вас, що ми подзвонити моделі н-грамові. 854 00:45:04,400 --> 00:45:09,095 Так моделі н-грам основному припустити що для кожного слова, яке 855 00:45:09,095 --> 00:45:10,960 у вас є в реченні. 856 00:45:10,960 --> 00:45:15,020 Це ймовірність наявності, що Слово є залежить не тільки від 857 00:45:15,020 --> 00:45:18,395 Частота цього слова в мові, але також і від слів, які 858 00:45:18,395 --> 00:45:19,860 оточують його. 859 00:45:19,860 --> 00:45:25,810 >> Так, наприклад, як правило, коли ви бачите щось на зразок або на ви 860 00:45:25,810 --> 00:45:28,040 ймовірно, побачимо іменник після нього, чи не так? 861 00:45:28,040 --> 00:45:31,750 Тому що, коли у вас є прийменник зазвичай це займає іменник після нього. 862 00:45:31,750 --> 00:45:35,540 Або якщо у вас є дієслово, який транзитивно Ви зазвичай збираються 863 00:45:35,540 --> 00:45:36,630 є словосполучення. 864 00:45:36,630 --> 00:45:38,780 Так що це матиме іменник десь навколо нього. 865 00:45:38,780 --> 00:45:44,950 >> Так, в основному, те, що він робить те, що це вважає ймовірність наявності 866 00:45:44,950 --> 00:45:47,960 слова поруч один з одним, коли Ви розрахунку 867 00:45:47,960 --> 00:45:49,050 ймовірність пропозиції. 868 00:45:49,050 --> 00:45:50,960 І ось, що таке мова модель в принципі. 869 00:45:50,960 --> 00:45:54,620 Просто кажу, що це ймовірність з що має питому 870 00:45:54,620 --> 00:45:57,120 Вирок у мові? 871 00:45:57,120 --> 00:45:59,110 Так чому ж, що корисно, в основному? 872 00:45:59,110 --> 00:46:02,390 І в першу чергу те, що модель н-г, то? 873 00:46:02,390 --> 00:46:08,850 >> Так модель н-г означає, що кожне слово залежить від 874 00:46:08,850 --> 00:46:12,700 Наступний N мінус 1 слів. 875 00:46:12,700 --> 00:46:18,150 Так, в основному, це означає, що якщо я дивлюся, наприклад, на CS50 TF, коли 876 00:46:18,150 --> 00:46:21,500 Я обчислення ймовірності вирок, будеш як " 877 00:46:21,500 --> 00:46:25,280 ймовірність того, слово "" рази ймовірність наявності " 878 00:46:25,280 --> 00:46:31,720 CS50 "раз ймовірність наявності "CS50 TF." Так, в основному, я вважаю 879 00:46:31,720 --> 00:46:35,720 всі можливі способи розтягуючи її. 880 00:46:35,720 --> 00:46:41,870 >> А потім, як правило, коли ви робите це, як у проекті, ви ставите N бути 881 00:46:41,870 --> 00:46:42,600 низьке значення. 882 00:46:42,600 --> 00:46:45,930 Так, як правило, мають биграмм або триграм. 883 00:46:45,930 --> 00:46:51,090 Так що ви просто порахувати два словами, група з двох слів, або трьох слів, 884 00:46:51,090 --> 00:46:52,620 просто за збої в роботі. 885 00:46:52,620 --> 00:46:56,395 А також тому, може бути, якщо у вас є щось на кшталт "The CS50 TF." Коли ви 886 00:46:56,395 --> 00:47:00,510 є "TF", це дуже важливо, що "CS50" поруч з ним, чи не так? 887 00:47:00,510 --> 00:47:04,050 Ці дві речі, як правило, поруч один з одним. 888 00:47:04,050 --> 00:47:06,410 >> Якщо ви думаєте про "TF", це, ймовірно, буде мати те, що 889 00:47:06,410 --> 00:47:07,890 Клас це TF'ing для. 890 00:47:07,890 --> 00:47:11,330 Крім того, "" що дійсно важливо для CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Але якщо у вас є щось на кшталт "The CS50 TF пішов у клас і дав їх 892 00:47:14,570 --> 00:47:20,060 студенти деякі цукерки. "" Цукерки "і" " не мають ніякого відношення дійсно, чи не так? 893 00:47:20,060 --> 00:47:23,670 Вони так далеко один від одного, що це дійсно не має значення, що 894 00:47:23,670 --> 00:47:25,050 слова у вас є. 895 00:47:25,050 --> 00:47:31,210 >> Так, роблячи биграмм або триграмма, це просто означає, що ви обмежуєте 896 00:47:31,210 --> 00:47:33,430 собі деяких слів що навколо. 897 00:47:33,430 --> 00:47:35,810 Сенс? 898 00:47:35,810 --> 00:47:40,630 Отже, коли ви хочете зробити сегментацію, в основному, те, що ви хочете зробити, це побачити 899 00:47:40,630 --> 00:47:44,850 якими є всі можливі способи, які ви можете розбити пропозицію. 900 00:47:44,850 --> 00:47:49,090 >> Такий, що ви бачите, що є ймовірність кожного з цих пропозицій 901 00:47:49,090 --> 00:47:50,880 існуючих в мові? 902 00:47:50,880 --> 00:47:53,410 Так що ви робите це як, ну, нехай мені спробувати поставити пробіл тут. 903 00:47:53,410 --> 00:47:55,570 Таким чином, ви поставити пробіл є і ви бачите, що є 904 00:47:55,570 --> 00:47:57,590 ймовірність того, що вирок? 905 00:47:57,590 --> 00:48:00,240 Тоді ви, як, в порядку, може бути, що не було настільки добре. 906 00:48:00,240 --> 00:48:03,420 Так що я поставити пробіл там і просторі там, і вам розрахувати 907 00:48:03,420 --> 00:48:06,240 Імовірність зараз, і ви бачите, що це висока ймовірність. 908 00:48:06,240 --> 00:48:12,160 >> Так що це алгоритм називається ТАНГО Алгоритм сегментації, який 909 00:48:12,160 --> 00:48:14,990 насправді те, що було б дійсно охолонути протягом проекту, який 910 00:48:14,990 --> 00:48:20,860 в основному бере нечленістие текст, який може бути японський або китайський або, може бути, 911 00:48:20,860 --> 00:48:26,080 Англійська без пробілів і намагається помістити пропуски між словами і це робить 912 00:48:26,080 --> 00:48:29,120 що за допомогою мовну модель і намагаючись розгледіти, що є найвищим 913 00:48:29,120 --> 00:48:31,270 ймовірність ви можете отримати. 914 00:48:31,270 --> 00:48:32,230 ОК. 915 00:48:32,230 --> 00:48:33,800 Так що це сегментація. 916 00:48:33,800 --> 00:48:35,450 >> Тепер синтаксис. 917 00:48:35,450 --> 00:48:40,940 Так, синтаксис використовується для так багато речей, прямо зараз. 918 00:48:40,940 --> 00:48:44,880 Таким чином, для Graph Пошук, для Siri для майже будь-який вид природного 919 00:48:44,880 --> 00:48:46,490 мова обробки у вас є. 920 00:48:46,490 --> 00:48:49,140 Так що важливо речі про синтаксис? 921 00:48:49,140 --> 00:48:52,390 Так, пропозиції в цілому мають що ми називаємо складові. 922 00:48:52,390 --> 00:48:57,080 Які ніби як групи слів які мають функцію в реченні. 923 00:48:57,080 --> 00:49:02,220 І вони не можуть дійсно бути один від одного. 924 00:49:02,220 --> 00:49:07,380 >> Так що, якщо я кажу, наприклад, "Лорен любить Мило. "Я знаю, що" Лорен "є 925 00:49:07,380 --> 00:49:10,180 складовою і потім "любить Мило "також ще один. 926 00:49:10,180 --> 00:49:16,860 Тому що ви не можете сказати, як "Лорен Міло любить "мати той же зміст. 927 00:49:16,860 --> 00:49:18,020 Це не буде мати той же зміст. 928 00:49:18,020 --> 00:49:22,500 Або я не можу сказати, як "Міло Lauren любить. "Не все має ті ж 929 00:49:22,500 --> 00:49:25,890 означає робити це. 930 00:49:25,890 --> 00:49:31,940 >> Таким чином, дві важливіші речі, про Синтаксис є лексичні типи яких є 931 00:49:31,940 --> 00:49:35,390 в основному функція, що ви є слова самі по собі. 932 00:49:35,390 --> 00:49:39,180 Таким чином, ви повинні знати, що "Лорен" і "Мило" іменники. 933 00:49:39,180 --> 00:49:41,040 "Любов" це дієслово. 934 00:49:41,040 --> 00:49:45,660 І друга важлива річ що вони фразові типи. 935 00:49:45,660 --> 00:49:48,990 Таким чином, ви знаєте, що "любить Майло" насправді є словесне фраза. 936 00:49:48,990 --> 00:49:52,390 Тому, коли я говорю "Лорен", я знаю, що Лорен робить щось. 937 00:49:52,390 --> 00:49:53,620 Що вона робить? 938 00:49:53,620 --> 00:49:54,570 Вона любляча Майло. 939 00:49:54,570 --> 00:49:56,440 Так що це все справа. 940 00:49:56,440 --> 00:50:01,640 Але його компоненти іменник і дієслово. 941 00:50:01,640 --> 00:50:04,210 Але разом, вони роблять дієслово фразу. 942 00:50:04,210 --> 00:50:08,680 >> Отже, що ми можемо реально зробити за комп'ютерна лінгвістика? 943 00:50:08,680 --> 00:50:13,810 Так що, якщо у мене є дещо для прикладу «Друзі Allison». Я бачу, якщо я просто 944 00:50:13,810 --> 00:50:17,440 зробив синтаксичний дерево я буду знати, що "Друзі" є іменна це 945 00:50:17,440 --> 00:50:21,480 іменник, а потім "з Allison» є прийменникова, в якому "з" є 946 00:50:21,480 --> 00:50:24,810 пропозицію і "Аллісон" є іменником. 947 00:50:24,810 --> 00:50:30,910 Що я міг зробити, це навчити свій комп'ютер , Що, коли у мене є Іменна один і 948 00:50:30,910 --> 00:50:33,080 потім прийменникова. 949 00:50:33,080 --> 00:50:39,020 Так в даному випадку, "друзі", а потім "з Мило "Я знаю, що це означає, що 950 00:50:39,020 --> 00:50:43,110 NP2, другий, володіє NP1. 951 00:50:43,110 --> 00:50:47,680 >> Так що я можу створити якесь відношення, якась функції для нього. 952 00:50:47,680 --> 00:50:52,370 Тому, коли я бачу цю структуру, яка збігається хоча б з "друзями 953 00:50:52,370 --> 00:50:56,030 Еллісон: "Я знаю, що Еллісон володіє друзів. 954 00:50:56,030 --> 00:50:58,830 Так що друзі є чимось що Еллісон має. 955 00:50:58,830 --> 00:50:59,610 Має сенс? 956 00:50:59,610 --> 00:51:01,770 Так що це в основному те, що Графік Пошук робить. 957 00:51:01,770 --> 00:51:04,360 Це просто створює правила для багатьох речей. 958 00:51:04,360 --> 00:51:08,190 Так «друзі Allison", "мої друзі хто живе в Кембриджі "," мої друзі 959 00:51:08,190 --> 00:51:12,970 хто вчився в Гарварді ". Це створює правила для всіх цих речей. 960 00:51:12,970 --> 00:51:14,930 >> Тепер машинного перекладу. 961 00:51:14,930 --> 00:51:18,850 Так, машинний переклад також щось статистичний. 962 00:51:18,850 --> 00:51:21,340 А насправді, якщо ви потрапили в комп'ютерна лінгвістика, багато 963 00:51:21,340 --> 00:51:23,580 Ваш матеріал буде статистика. 964 00:51:23,580 --> 00:51:26,670 Так як я робив приклад з багато ймовірностей, що я був 965 00:51:26,670 --> 00:51:30,540 розрахунку, і тоді ви отримаєте на це дуже невелика кількість, це фінал 966 00:51:30,540 --> 00:51:33,180 Імовірність, і ось що дає вам відповідь. 967 00:51:33,180 --> 00:51:37,540 Машинний переклад також використовує статистична модель. 968 00:51:37,540 --> 00:51:44,790 І якщо ви хочете думати про машину переклад в найпростіша 969 00:51:44,790 --> 00:51:48,970 чином, те, що ви можете думати тільки перекласти слово в слово, чи не так? 970 00:51:48,970 --> 00:51:52,150 >> Коли ви вивчаєте мову для перший раз, що, як правило, що 971 00:51:52,150 --> 00:51:52,910 що ви робите, чи не так? 972 00:51:52,910 --> 00:51:57,050 Якщо хочете, то ви перевести пропозицію на Вашому мовою до мови 973 00:51:57,050 --> 00:52:00,060 Ви вчитеся, як правило, по-перше, ви перевести кожне з слів 974 00:52:00,060 --> 00:52:03,180 індивідуально, а потім спробуйте покласти слова на свої місця. 975 00:52:03,180 --> 00:52:07,100 >> Так що, якщо я хотів, щоб перевести це, [ГОВОРЯЧИ ПОРТУГАЛІЇ] 976 00:52:07,100 --> 00:52:10,430 , Що означає "біла кішка втекла." Якби я хотів, щоб перевести його з 977 00:52:10,430 --> 00:52:13,650 З португальської на англійську, то, що я може зробити, це, по-перше, я просто 978 00:52:13,650 --> 00:52:14,800 перекласти слово в слово. 979 00:52:14,800 --> 00:52:20,570 Так «о» "," "гато", "кішка" "Бранко", "білий", а потім "fugio" є 980 00:52:20,570 --> 00:52:21,650 "Утік". 981 00:52:21,650 --> 00:52:26,130 >> Так то у мене є всі слова тут, але вони не в порядку. 982 00:52:26,130 --> 00:52:29,590 Це як "кішка білий втік" який безграмотно. 983 00:52:29,590 --> 00:52:34,490 Так, то я можу мати другий крок, який збирається бути знайти ідеал 984 00:52:34,490 --> 00:52:36,610 положення для кожного зі слів. 985 00:52:36,610 --> 00:52:40,240 Так що я знаю, що я насправді хочу мати "Біла кішка" замість "кішка, білий." Так 986 00:52:40,240 --> 00:52:46,050 що я можу зробити, це, самі наївні методу було б створити всі 987 00:52:46,050 --> 00:52:49,720 можливих перестановок слова, з позицій. 988 00:52:49,720 --> 00:52:53,300 А потім подивитися, що один має Найбільша вірогідність відповідно 989 00:52:53,300 --> 00:52:54,970 на мій мовної моделі. 990 00:52:54,970 --> 00:52:58,390 А потім, коли я знайти той, який має найбільша ймовірність його, що 991 00:52:58,390 --> 00:53:01,910 ймовірно, "біла кішка втекла," ось мій переклад. 992 00:53:01,910 --> 00:53:06,710 >> І це простий спосіб пояснення як багато машинного перекладу 993 00:53:06,710 --> 00:53:07,910 алгоритми роботи. 994 00:53:07,910 --> 00:53:08,920 Чи має це сенс? 995 00:53:08,920 --> 00:53:12,735 Це також те, дуже цікаво що ви, хлопці можуть, може бути, розвідку 996 00:53:12,735 --> 00:53:13,901 Остаточний проект, так? 997 00:53:13,901 --> 00:53:15,549 >> СТУДЕНТ: Ну, ти сказав, що наївний спосіб, так в чому 998 00:53:15,549 --> 00:53:17,200 НЕ-наївним способом? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Фрейташ: не-наївним способом? 1000 00:53:18,400 --> 00:53:19,050 ОК. 1001 00:53:19,050 --> 00:53:22,860 Таким чином, перше, що в цьому поганого цей метод в тому, що я тільки що переклав 1002 00:53:22,860 --> 00:53:24,330 слова, слово в слово. 1003 00:53:24,330 --> 00:53:30,570 Але іноді у вас є слова, які може мати кілька перекладів. 1004 00:53:30,570 --> 00:53:32,210 Я збираюся спробувати думати чогось. 1005 00:53:32,210 --> 00:53:37,270 Наприклад, "манга" у португальському банку або "калічити" або "рукав". Так 1006 00:53:37,270 --> 00:53:40,450 коли ви намагаєтеся перекласти слово словом, це може бути даючи вам 1007 00:53:40,450 --> 00:53:42,050 те, що не має ніякого сенсу. 1008 00:53:42,050 --> 00:53:45,770 >> Таким чином, ви насправді хочете, щоб ви подивіться на все можливі переклади 1009 00:53:45,770 --> 00:53:49,840 слова і побачити, в першу чергу, який порядок. 1010 00:53:49,840 --> 00:53:52,000 Ми говорили про перестановки речі? 1011 00:53:52,000 --> 00:53:54,150 Щоб побачити всі можливі замовлення і вибрати один з найвищою 1012 00:53:54,150 --> 00:53:54,990 ймовірність? 1013 00:53:54,990 --> 00:53:57,860 Ви також можете вибрати всі можливі переклади для кожного 1014 00:53:57,860 --> 00:54:00,510 слово, а потім подивитися - 1015 00:54:00,510 --> 00:54:01,950 в поєднанні з перестановок - 1016 00:54:01,950 --> 00:54:03,710 який має високу ймовірність. 1017 00:54:03,710 --> 00:54:08,590 >> Крім того, ви також можете подивитися на НЕ тільки слова, але фрази. 1018 00:54:08,590 --> 00:54:11,700 так що ви можете проаналізувати відносини між слова і потім отримати 1019 00:54:11,700 --> 00:54:13,210 краще переклад. 1020 00:54:13,210 --> 00:54:16,690 Також щось ще, так що в цьому семестрі Я насправді займався дослідженнями в 1021 00:54:16,690 --> 00:54:19,430 Китайсько-англійський машинного перекладу, так в перекладі з 1022 00:54:19,430 --> 00:54:20,940 Китайський на англійську мову. 1023 00:54:20,940 --> 00:54:26,760 >> І те, що ми зробити, це, крім використання статистична модель, яка є просто 1024 00:54:26,760 --> 00:54:30,570 бачачи ймовірності бачачи деякі позиції в реченні, я 1025 00:54:30,570 --> 00:54:35,360 насправді також додати деякі синтаксис для моєї модель, говорячи про, якби я побачити цей вид 1026 00:54:35,360 --> 00:54:39,420 будівництва, це те, що я хочу щоб змінити його, коли я перекладаю. 1027 00:54:39,420 --> 00:54:43,880 Таким чином, ви також можете додати якусь елемент синтаксису, щоб зробити 1028 00:54:43,880 --> 00:54:47,970 переклад більш ефективним і точніше. 1029 00:54:47,970 --> 00:54:48,550 ОК. 1030 00:54:48,550 --> 00:54:51,010 >> Отже, як можна почати, якщо ви хочете зробити щось в обчислювальній 1031 00:54:51,010 --> 00:54:51,980 лінгвістика? 1032 00:54:51,980 --> 00:54:54,560 >> По-перше, ви обираєте проект який включає в себе мови. 1033 00:54:54,560 --> 00:54:56,310 Так, є так багато там. 1034 00:54:56,310 --> 00:54:58,420 Там так багато речей, які ви можете зробити. 1035 00:54:58,420 --> 00:55:00,510 А потім можна думати про модель що ви можете використовувати. 1036 00:55:00,510 --> 00:55:04,710 Зазвичай це означає, що мислення припущення, так само як, ну, коли я був 1037 00:55:04,710 --> 00:55:05,770 як мислення лірики. 1038 00:55:05,770 --> 00:55:09,510 Я подумала: добре, якщо я хочу, щоб з'ясувати з який написав це, я, ймовірно, хочете 1039 00:55:09,510 --> 00:55:15,400 подивитися на словах людина використовував і побачити, хто дуже часто використовує це слово. 1040 00:55:15,400 --> 00:55:18,470 Тому постарайтеся, щоб робити припущення і намагаюся думати про моделях. 1041 00:55:18,470 --> 00:55:21,395 І тоді ви можете також шукати онлайн роду проблеми, що у вас є, 1042 00:55:21,395 --> 00:55:24,260 і він збирається запропонувати до вас моделей, які, може бути, 1043 00:55:24,260 --> 00:55:26,560 моделюється що річ добре. 1044 00:55:26,560 --> 00:55:29,080 >> А також ви завжди можете написати мені. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 І я можу тільки відповісти на ваші запитання. 1047 00:55:34,940 --> 00:55:38,600 Ми можемо навіть може зустрітися, щоб я міг дати пропозиції про шляхи 1048 00:55:38,600 --> 00:55:41,490 реалізації проекту. 1049 00:55:41,490 --> 00:55:45,610 І я маю на увазі, якщо ви потрапили в комп'ютерна лінгвістика, це буде 1050 00:55:45,610 --> 00:55:46,790 щоб бути великим. 1051 00:55:46,790 --> 00:55:48,370 Ви будете бачити там такий потенціал. 1052 00:55:48,370 --> 00:55:52,060 І індустрія хоче найняти Ви так погано через це. 1053 00:55:52,060 --> 00:55:54,720 Тому я сподіваюся, ви, хлопці, насолоджувався цим. 1054 00:55:54,720 --> 00:55:57,030 Якщо ви, хлопці є питання, Ви можете запитати мене після цього. 1055 00:55:57,030 --> 00:55:58,280 Але спасибі. 1056 00:55:58,280 --> 00:56:00,150