1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS ФРЕЙТАШ: Эй. 3 00:00:08,870 --> 00:00:09,980 Приветствую всех. 4 00:00:09,980 --> 00:00:11,216 Меня зовут Лукас Фрейтас. 5 00:00:11,216 --> 00:00:15,220 Я младший в [неразборчиво] изучения информатика с акцентом в 6 00:00:15,220 --> 00:00:16,410 компьютерная лингвистика. 7 00:00:16,410 --> 00:00:19,310 Так что мой вторичный находится в языке и лингвистическая теория. 8 00:00:19,310 --> 00:00:21,870 Я действительно взволнован, чтобы научить вас, ребята немного о поле. 9 00:00:21,870 --> 00:00:24,300 Это очень захватывающая область для изучения. 10 00:00:24,300 --> 00:00:27,260 Также с большим потенциалом на будущее. 11 00:00:27,260 --> 00:00:30,160 Так что, я очень рад, что вы, ребята, рассматривают проекты в 12 00:00:30,160 --> 00:00:31,160 компьютерная лингвистика. 13 00:00:31,160 --> 00:00:35,460 И я буду более чем счастлив советую Кто-нибудь из вас, если вы решите 14 00:00:35,460 --> 00:00:37,090 преследовать одну из них. 15 00:00:37,090 --> 00:00:40,010 >> Итак, прежде всего, каковы вычислительная лингвистика? 16 00:00:40,010 --> 00:00:44,630 Так компьютерная лингвистика является Пересечение между лингвистикой и 17 00:00:44,630 --> 00:00:46,390 информатика. 18 00:00:46,390 --> 00:00:47,415 Итак, что такое лингвистика? 19 00:00:47,415 --> 00:00:48,490 Что такое информатика? 20 00:00:48,490 --> 00:00:51,580 Ну от лингвистики, что мы принимаем являются языками. 21 00:00:51,580 --> 00:00:54,960 Так лингвистика на самом деле изучение естественного языка в целом. 22 00:00:54,960 --> 00:00:58,330 Так естественный язык - мы говорим о язык, который мы можем использовать, чтобы 23 00:00:58,330 --> 00:00:59,770 общаются друг с другом. 24 00:00:59,770 --> 00:01:02,200 Так что мы не точно говорю о С или Java. 25 00:01:02,200 --> 00:01:05,900 Мы говорим больше о английском и Китайский и другие языки, которые мы 26 00:01:05,900 --> 00:01:07,780 использовать для связи друг с другом. 27 00:01:07,780 --> 00:01:12,470 >> Сложная вещь о том, что в том, что Прямо сейчас у нас есть почти 7000 28 00:01:12,470 --> 00:01:14,260 языков в мире. 29 00:01:14,260 --> 00:01:19,520 Таким образом, есть довольно высокий разнообразие языков, что мы можем учиться. 30 00:01:19,520 --> 00:01:22,600 А потом вы думаете, что это, вероятно, очень трудно сделать, например, 31 00:01:22,600 --> 00:01:26,960 перевод с одного языка на другом, учитывая, что вы должны 32 00:01:26,960 --> 00:01:28,240 почти 7000 из них. 33 00:01:28,240 --> 00:01:31,450 Так что, если вы думаете, что делать перевод с одного языка на другой, вы 34 00:01:31,450 --> 00:01:35,840 есть едва ли не больше, чем на миллион различные комбинации, которые вы можете 35 00:01:35,840 --> 00:01:37,330 есть от языка к языку. 36 00:01:37,330 --> 00:01:40,820 Так что это действительно вызов, чтобы сделать некоторые Такая система примером перевод 37 00:01:40,820 --> 00:01:43,540 каждый язык. 38 00:01:43,540 --> 00:01:47,120 >> Так, лингвистика относится с синтаксисом, семантика, прагматика. 39 00:01:47,120 --> 00:01:49,550 Вы, ребята точно не нужно знать, что они есть. 40 00:01:49,550 --> 00:01:55,090 Но очень интересная вещь в том, что как носитель, когда вы узнаете, 41 00:01:55,090 --> 00:01:59,010 язык как ребенка, вы на самом деле узнать все из тех вещей, - семантика синтаксис 42 00:01:59,010 --> 00:02:00,500 и прагматика - 43 00:02:00,500 --> 00:02:01,430 самостоятельно. 44 00:02:01,430 --> 00:02:04,820 И никто не должен учить вас синтаксис вам понять, как приговоры 45 00:02:04,820 --> 00:02:05,290 структурированы. 46 00:02:05,290 --> 00:02:07,980 Таким образом, это действительно интересно, потому что это то, что приходит очень 47 00:02:07,980 --> 00:02:10,389 интуитивно. 48 00:02:10,389 --> 00:02:13,190 >> И что вы принимаете от информатика? 49 00:02:13,190 --> 00:02:16,700 Ну и самое главное, что мы есть в информатике, в первую 50 00:02:16,700 --> 00:02:19,340 все, искусственный интеллект и машинное обучение. 51 00:02:19,340 --> 00:02:22,610 Итак, что мы пытаемся делать вычислительная лингвистика является научить 52 00:02:22,610 --> 00:02:26,990 ваш компьютер, как сделать что-то с языком. 53 00:02:26,990 --> 00:02:28,630 >> Так, например, в машине перевод. 54 00:02:28,630 --> 00:02:32,490 Я пытался научить мой компьютер хау знать, как переход от одной 55 00:02:32,490 --> 00:02:33,310 языка на другой. 56 00:02:33,310 --> 00:02:35,790 Так, в основном нравится учение компьютерные два языка. 57 00:02:35,790 --> 00:02:38,870 Если я делаю обработки естественного языка, что имеет место, например, из 58 00:02:38,870 --> 00:02:41,810 Facebook, График Поиск, вы учите ваш компьютер, как понять 59 00:02:41,810 --> 00:02:42,730 Запросы также. 60 00:02:42,730 --> 00:02:48,130 >> Так что, если вы говорите "фотографий моего друзья. "Facebook не лечит, что 61 00:02:48,130 --> 00:02:51,130 в целом строки, которая имеет просто куча слов. 62 00:02:51,130 --> 00:02:56,020 Это на самом деле понимает отношения между "фото" и "моих друзей" и 63 00:02:56,020 --> 00:02:59,620 понимает, что "фото" являются собственностью "моих друзей". 64 00:02:59,620 --> 00:03:02,350 >> Так, что это часть, например, обработки естественного языка. 65 00:03:02,350 --> 00:03:04,790 Он пытается понять, что это отношение между 66 00:03:04,790 --> 00:03:07,520 слова в предложении. 67 00:03:07,520 --> 00:03:11,170 И большой вопрос, не так ли научить компьютер, как говорить 68 00:03:11,170 --> 00:03:12,650 язык в целом? 69 00:03:12,650 --> 00:03:17,810 Что очень интересный вопрос, чтобы думаю, как бы, может быть, в будущем, 70 00:03:17,810 --> 00:03:19,930 вы собираетесь быть в состоянии говорить на свой мобильный телефон. 71 00:03:19,930 --> 00:03:23,290 Вроде как то, что мы делаем с Siri, но нечто большее, как, вы можете на самом деле 72 00:03:23,290 --> 00:03:25,690 говорить все, что вы хотите, и телефон собирается все понимаю. 73 00:03:25,690 --> 00:03:28,350 И это может иметь последующие вопросы и продолжать говорить. 74 00:03:28,350 --> 00:03:30,880 Это то, что действительно интересно, на мой взгляд. 75 00:03:30,880 --> 00:03:33,070 >> Так, что-то о естественных языках. 76 00:03:33,070 --> 00:03:36,220 Что-то действительно интересно естественные языки, что и это 77 00:03:36,220 --> 00:03:38,470 кредит на мой профессор лингвистики, Мария Полинский. 78 00:03:38,470 --> 00:03:40,830 Она приводит пример, и я думаю, это действительно интересно. 79 00:03:40,830 --> 00:03:47,060 Потому что мы выучить язык от того, когда мы родились, а затем наш родной 80 00:03:47,060 --> 00:03:49,170 язык вид растет на нас. 81 00:03:49,170 --> 00:03:52,570 >> И в основном вы узнаете язык от минимальной мощностью, не так ли? 82 00:03:52,570 --> 00:03:56,700 Ты просто получении ввода из вашего родители, что звучит ваш язык 83 00:03:56,700 --> 00:03:58,770 нравится, и вы просто научиться. 84 00:03:58,770 --> 00:04:02,240 Таким образом, это интересно, потому что если вы посмотрите на этих предложений, например. 85 00:04:02,240 --> 00:04:06,980 Глядишь, "Мэри надевает пальто каждого раз она уходит из дома ". 86 00:04:06,980 --> 00:04:10,650 >> В этом случае, возможно, чтобы иметь Слово "она" относятся к Марии, не так ли? 87 00:04:10,650 --> 00:04:13,500 Вы можете сказать: "Мария ставит на пальто каждый раз, когда Мэри оставляет 88 00:04:13,500 --> 00:04:14,960 дом. ", так что все в порядке. 89 00:04:14,960 --> 00:04:19,370 Но тогда, если вы посмотрите на предложения "Она надевает пальто каждый раз Мэри 90 00:04:19,370 --> 00:04:22,850 выходит из дома. "Вы знаете, что это Нельзя сказать, что "она" является 91 00:04:22,850 --> 00:04:24,260 ссылаясь на Марии. 92 00:04:24,260 --> 00:04:27,070 >> Там нет способ сказать, что "Мария ставит на пальто каждый раз Мэри оставляет 93 00:04:27,070 --> 00:04:30,790 дом. "Так что это интересно, потому что это вид интуиции 94 00:04:30,790 --> 00:04:32,890 что каждый носитель языка имеет. 95 00:04:32,890 --> 00:04:36,370 И никто не учили, что это так, что синтаксис работает. 96 00:04:36,370 --> 00:04:41,930 И что вы можете иметь только этот "она" ссылаясь на Марии в этом первом случае, 97 00:04:41,930 --> 00:04:44,260 а на самом деле в этом другом тоже, но не в этом. 98 00:04:44,260 --> 00:04:46,500 Но все рода получает к тому же ответа. 99 00:04:46,500 --> 00:04:48,580 Все согласны с тем на этом. 100 00:04:48,580 --> 00:04:53,280 Так что это действительно интересно, как хотя вы не знаете всех правил 101 00:04:53,280 --> 00:04:55,575 на Вашем языке вы отчасти понимаю как работает язык. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Так самое интересное о природных язык, что вы не должны 104 00:05:01,530 --> 00:05:06,970 знаю ни синтаксис знать, если приговор грамматически или безграмотно для 105 00:05:06,970 --> 00:05:08,810 в большинстве случаев. 106 00:05:08,810 --> 00:05:13,220 Которая заставляет вас думать, что, может быть, то, что происходит то, что через вашу жизнь, вы 107 00:05:13,220 --> 00:05:17,410 просто держать становится все больше и больше приговоры сказал вам. 108 00:05:17,410 --> 00:05:19,800 И тогда вы держите запоминания все предложения. 109 00:05:19,800 --> 00:05:24,230 А потом, когда кто-то говорит вам, что-то, вы слышите эту фразу и 110 00:05:24,230 --> 00:05:27,040 вы посмотрите на вашего словарного запаса приговоров и посмотреть, если 111 00:05:27,040 --> 00:05:28,270 что приговор есть. 112 00:05:28,270 --> 00:05:29,830 И если она есть у вас говорят, что это грамматическая. 113 00:05:29,830 --> 00:05:31,740 Если это не вы сказать, что это безграмотно. 114 00:05:31,740 --> 00:05:35,150 >> Так, в этом случае, вы бы сказали, о, так у вас есть огромный список всех 115 00:05:35,150 --> 00:05:36,140 возможные предложения. 116 00:05:36,140 --> 00:05:38,240 А потом, когда вы слышите фразу, Вы знаете, если это грамматическая или 117 00:05:38,240 --> 00:05:39,450 не на его основе. 118 00:05:39,450 --> 00:05:42,360 Дело в том, что если вы посмотрите на фраза, например, " 119 00:05:42,360 --> 00:05:47,540 пятиглавый CS50 ТФ приготовленные слепых осьминог, используя DAPA кружку ". Это 120 00:05:47,540 --> 00:05:49,630 определенно не приговор что вы слышали раньше. 121 00:05:49,630 --> 00:05:52,380 Но в то же время вы знаете, что это в значительной степени грамматических, не так ли? 122 00:05:52,380 --> 00:05:55,570 Там нет грамматических ошибок и вы можете сказать, что 123 00:05:55,570 --> 00:05:57,020 это возможно приговор. 124 00:05:57,020 --> 00:06:01,300 >> Так что заставляет нас думать, что на самом деле способ, которым мы узнаем язык является не только 125 00:06:01,300 --> 00:06:07,090 , имея огромную базу данных можно слова или предложения, но больше 126 00:06:07,090 --> 00:06:11,490 понимание соотношение между слова в этих предложениях. 127 00:06:11,490 --> 00:06:14,570 Имеет ли это смысл? 128 00:06:14,570 --> 00:06:19,370 Так, то вопрос в том, может компьютеры изучать языки? 129 00:06:19,370 --> 00:06:21,490 Можем ли мы научить язык с компьютерами? 130 00:06:21,490 --> 00:06:24,230 >> Итак, давайте думать о различии между носителем языка 131 00:06:24,230 --> 00:06:25,460 и компьютер. 132 00:06:25,460 --> 00:06:27,340 Итак, что же происходит с динамиком? 133 00:06:27,340 --> 00:06:30,430 Ну, носитель языка узнает язык от воздействия на него. 134 00:06:30,430 --> 00:06:34,200 Обычно ее ранние детские годы. 135 00:06:34,200 --> 00:06:38,570 Так, в основном, вы просто родить ребенка, и вы продолжать говорить с ним, и это 136 00:06:38,570 --> 00:06:40,540 просто учится говорить язык, не так ли? 137 00:06:40,540 --> 00:06:42,660 Итак, вы в основном давая вход для ребенка. 138 00:06:42,660 --> 00:06:45,200 Так, вы можете утверждать, что компьютер может сделать то же самое, не так ли? 139 00:06:45,200 --> 00:06:49,510 Вы можете просто дать языку в качестве вклада в компьютере. 140 00:06:49,510 --> 00:06:53,410 >> Как, например, куча файлов что есть книги на английском языке. 141 00:06:53,410 --> 00:06:56,190 Может быть, это один из способов, что вам могли бы научить 142 00:06:56,190 --> 00:06:57,850 компьютер английский, не так ли? 143 00:06:57,850 --> 00:07:01,000 И в самом деле, если вы думаете об этом, она принимает вас, может быть, пару 144 00:07:01,000 --> 00:07:02,680 дней, чтобы прочитать книгу. 145 00:07:02,680 --> 00:07:05,760 Для компьютера это занимает секунды, чтобы смотреть на все слова в книге. 146 00:07:05,760 --> 00:07:10,810 Таким образом, вы можете думать, что может быть только этот Аргумент вклада вокруг вас, 147 00:07:10,810 --> 00:07:15,440 это не достаточно, чтобы сказать, что это то, что только люди могут сделать. 148 00:07:15,440 --> 00:07:17,680 Вы можете думать компьютеры также можете получить вход. 149 00:07:17,680 --> 00:07:21,170 >> Вторая вещь, что носители языка также есть мозг, который имеет 150 00:07:21,170 --> 00:07:23,870 Возможность изучения языка. 151 00:07:23,870 --> 00:07:27,020 Но если вы думаете об этом, Мозг является твердой вещью. 152 00:07:27,020 --> 00:07:30,450 Когда вы родились, это уже не установлен - 153 00:07:30,450 --> 00:07:31,320 это ваш мозг. 154 00:07:31,320 --> 00:07:34,660 И, как ты вырастешь, вы просто получите более ввод языке и, возможно, питательные вещества 155 00:07:34,660 --> 00:07:35,960 и другие вещи. 156 00:07:35,960 --> 00:07:38,170 Но в значительной степени ваш мозг является твердой вещью. 157 00:07:38,170 --> 00:07:41,290 >> Так что вы можете сказать, ну, может быть, вы можете построить компьютер, который имеет кучу 158 00:07:41,290 --> 00:07:45,890 функции и методы, которые просто имитируют Возможность изучения языка. 159 00:07:45,890 --> 00:07:49,630 Так что в этом смысле, можно сказать,, ну, я может есть компьютер, который имеет все 160 00:07:49,630 --> 00:07:52,270 Что еще следует выучить язык. 161 00:07:52,270 --> 00:07:56,200 И последнее, что в том, что уроженец динамик узнает от проб и ошибок. 162 00:07:56,200 --> 00:08:01,090 Поэтому в основном еще одна важная вещь в изучение языка является то, что вы вроде 163 00:08:01,090 --> 00:08:05,340 из узнать вещи, сделав обобщения, что вы слышите. 164 00:08:05,340 --> 00:08:10,280 >> Итак, как вы растут вы узнаете, что некоторые слова больше похожи существительных, 165 00:08:10,280 --> 00:08:11,820 некоторые другие из них прилагательные. 166 00:08:11,820 --> 00:08:14,250 И вы не должны есть какие-либо знание лингвистики 167 00:08:14,250 --> 00:08:15,040 понять, что. 168 00:08:15,040 --> 00:08:18,560 Но вы просто знаю, что есть некоторые слова расположены в некоторой части 169 00:08:18,560 --> 00:08:22,570 Приговор и некоторые другие в другом части приговора. 170 00:08:22,570 --> 00:08:26,110 >> И, что, когда вы делаете что-то, что как приговор, который не правильно - 171 00:08:26,110 --> 00:08:28,770 может быть, из-за более обобщения например. 172 00:08:28,770 --> 00:08:32,210 Может быть, когда вы растете, вы заметите, что множественное число, как правило, 173 00:08:32,210 --> 00:08:35,809 формируется положить S на конец слова. 174 00:08:35,809 --> 00:08:40,042 А потом вы попытаетесь сделать множественное число "Олень", как "оленей" или "зуб", как 175 00:08:40,042 --> 00:08:44,780 "Tooths". Итак ваши родители или кто-то исправляет вас и говорит, нет, 176 00:08:44,780 --> 00:08:49,020 множественное число от "Олень" является "олень", а множественное число от "зуба" есть "зубы". А потом 177 00:08:49,020 --> 00:08:50,060 вы узнаете эти вещи. 178 00:08:50,060 --> 00:08:51,520 Так вы узнаете из проб и ошибок. 179 00:08:51,520 --> 00:08:53,100 >> Но вы также можете сделать это с компьютером. 180 00:08:53,100 --> 00:08:55,310 Вы можете иметь то, что называется обучение с подкреплением. 181 00:08:55,310 --> 00:08:58,560 Какие в основном, как давать компьютер награда, когда он делает 182 00:08:58,560 --> 00:08:59,410 что-то правильно. 183 00:08:59,410 --> 00:09:04,710 И придав ему противоположное награды и когда он делает что-то не так. 184 00:09:04,710 --> 00:09:07,410 Вы можете увидеть, что, если вы идете в Google Translate, и вы пытаетесь 185 00:09:07,410 --> 00:09:10,220 перевести предложение, это просит вас для обратной связи. 186 00:09:10,220 --> 00:09:13,240 Так что, если вы говорите, ну, есть лучший перевод этой фразы. 187 00:09:13,240 --> 00:09:18,140 Вы можете ввести его, а затем, если много люди продолжают говорить, что это лучше, 188 00:09:18,140 --> 00:09:21,560 перевод, он просто узнает, что она должны использовать эту перевод вместо 189 00:09:21,560 --> 00:09:22,960 один он давал. 190 00:09:22,960 --> 00:09:28,830 >> Таким образом, это очень философский вопрос чтобы увидеть, если компьютеры будут 191 00:09:28,830 --> 00:09:30,340 в состоянии говорить или нет в будущем. 192 00:09:30,340 --> 00:09:34,440 Но у меня есть большие надежды, что они могут только на основе этих аргументов. 193 00:09:34,440 --> 00:09:38,570 Но это только больше философский вопрос. 194 00:09:38,570 --> 00:09:43,460 >> Таким образом, хотя компьютеры все еще не может говорить, что те вещи, которые мы можем сделать? 195 00:09:43,460 --> 00:09:47,070 Некоторые действительно классные вещи являются классификации данных. 196 00:09:47,070 --> 00:09:53,210 Так, например, вы, ребята, знаете, что услуги электронной почты сделать, для 197 00:09:53,210 --> 00:09:55,580 Например, фильтрация спама. 198 00:09:55,580 --> 00:09:59,070 Поэтому, когда вы получаете спам, это пытается фильтровать в другой коробке. 199 00:09:59,070 --> 00:10:00,270 Так, как это сделать? 200 00:10:00,270 --> 00:10:06,080 Это не то, что компьютер просто знает что адреса электронной почты рассылки спама. 201 00:10:06,080 --> 00:10:09,130 Так что это в большей степени базируется на содержании сообщение, или, может быть название, или 202 00:10:09,130 --> 00:10:11,310 возможно, некоторые картины, которые у вас есть. 203 00:10:11,310 --> 00:10:15,690 >> Так, в основном, то, что вы можете сделать, это получить много данных писем, которые спам, 204 00:10:15,690 --> 00:10:19,980 письма, которые не спам, а также узнать, что вид модели, которые вы имеете в 205 00:10:19,980 --> 00:10:21,000 Те, которые являются спамом. 206 00:10:21,000 --> 00:10:23,260 И это является частью вычислительной лингвистика. 207 00:10:23,260 --> 00:10:24,720 Она называется классификации данных. 208 00:10:24,720 --> 00:10:28,100 И мы на самом деле происходит, чтобы увидеть пример, что в следующих слайдах. 209 00:10:28,100 --> 00:10:32,910 >> Вторая вещь естественный язык обработка которых это то, что 210 00:10:32,910 --> 00:10:36,580 График Поиск делает того, чтобы позволить Вы пишете предложение. 211 00:10:36,580 --> 00:10:38,690 И это доверяет вам понять, что смысл и дает 212 00:10:38,690 --> 00:10:39,940 Вы лучший результат. 213 00:10:39,940 --> 00:10:43,880 На самом деле, если вы идете в Google или Bing и вы будете искать что-то вроде Леди 214 00:10:43,880 --> 00:10:47,060 Высота Гага, вы на самом деле происходит чтобы получить 5 "1" вместо информации 215 00:10:47,060 --> 00:10:50,170 от нее, потому что это на самом деле понимает то, что вы говорите. 216 00:10:50,170 --> 00:10:52,140 Так вот часть природного язык обработки. 217 00:10:52,140 --> 00:10:57,000 >> Или также, когда вы используете Siri, прежде у вас есть алгоритм, который пытается 218 00:10:57,000 --> 00:11:01,130 перевести то, что вы говорите, словами, в тексте. 219 00:11:01,130 --> 00:11:03,690 А потом он пытается перевести что в смысле. 220 00:11:03,690 --> 00:11:06,570 Так что все это часть естественной язык обработки. 221 00:11:06,570 --> 00:11:08,320 >> Тогда у вас есть машинный перевод - 222 00:11:08,320 --> 00:11:10,300 которые на самом деле одна из моих любимых - 223 00:11:10,300 --> 00:11:14,060 который просто перевод с языка на другой. 224 00:11:14,060 --> 00:11:17,950 Таким образом, вы можете думать, что, когда вы делаете машинный перевод, у вас есть 225 00:11:17,950 --> 00:11:19,750 бесконечные возможности приговоров. 226 00:11:19,750 --> 00:11:22,960 Так что нет никакого способа, чтобы просто хранить каждый перевод. 227 00:11:22,960 --> 00:11:27,440 Таким образом, вы должны придумать интересное Алгоритмы, чтобы иметь возможность 228 00:11:27,440 --> 00:11:30,110 перевести каждый Приговор в некотором роде. 229 00:11:30,110 --> 00:11:32,483 >> Вы, ребята, есть какие-либо вопросы до сих пор? 230 00:11:32,483 --> 00:11:34,450 Нет? 231 00:11:34,450 --> 00:11:34,830 ОК. 232 00:11:34,830 --> 00:11:36,900 >> Так что мы будем видеть сегодня? 233 00:11:36,900 --> 00:11:39,300 Прежде всего, я собираюсь говорить о задача классификации. 234 00:11:39,300 --> 00:11:41,440 Таким образом, тот, который я был говоря о спаме. 235 00:11:41,440 --> 00:11:46,820 То, что я собираюсь сделать, это, учитывая текст песню, вы можете попытаться выяснить, 236 00:11:46,820 --> 00:11:49,810 с высокой вероятностью который является певцом? 237 00:11:49,810 --> 00:11:53,590 Давайте предположим, что у меня есть песни из леди Гага и Кэти Перри, если я дам вам 238 00:11:53,590 --> 00:11:58,130 Новая песня, вы можете выяснить, если это Кэти Перри или Леди Гага? 239 00:11:58,130 --> 00:12:01,490 >> Второй, я просто хочу поговорить о проблеме сегментации. 240 00:12:01,490 --> 00:12:05,780 Так что я не знаю, если вы, ребята, знаю, но Китайский, японский, другу Восточной Азии 241 00:12:05,780 --> 00:12:08,090 языки, и другие языки в общем, не имеют 242 00:12:08,090 --> 00:12:09,830 пробелы между словами. 243 00:12:09,830 --> 00:12:13,540 И потом, если вы думаете о том, как этого ваш компьютер рода попыток 244 00:12:13,540 --> 00:12:18,600 понять обработки естественного языка, это выглядит на слова и 245 00:12:18,600 --> 00:12:21,500 пытается понять отношения между ними, не так ли? 246 00:12:21,500 --> 00:12:25,440 Но тогда, если у вас есть китайский, и вы имеют нулевые пробелы, это действительно трудно 247 00:12:25,440 --> 00:12:28,360 выяснить, каково отношение между слова, потому что они не имеют никаких 248 00:12:28,360 --> 00:12:29,530 слова в первую очередь. 249 00:12:29,530 --> 00:12:32,600 Так что вам нужно сделать то, что называется Сегментация который просто означает, положив 250 00:12:32,600 --> 00:12:36,490 пространства между тем, что мы назвали бы слова на этих языках. 251 00:12:36,490 --> 00:12:37,740 Смысл? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> А потом мы собираемся говорить о синтаксисе. 254 00:12:41,540 --> 00:12:44,050 Так что просто немного о естественной язык обработки. 255 00:12:44,050 --> 00:12:45,420 Это будет просто обзор. 256 00:12:45,420 --> 00:12:50,700 Так что сегодня, в основном, что я хочу сделать это дать Вам парней немного 257 00:12:50,700 --> 00:12:53,930 внутри каковы возможности что вы можете сделать с вычислительной 258 00:12:53,930 --> 00:12:54,960 лингвистика. 259 00:12:54,960 --> 00:13:00,410 И тогда вы сможете увидеть то, что вы думаете прохладно к числу тех вещей. 260 00:13:00,410 --> 00:13:02,270 А может быть, вы можете думать о проекте и прийти поговорить со мной. 261 00:13:02,270 --> 00:13:05,260 И я могу дать вам совет о том, как его реализовать. 262 00:13:05,260 --> 00:13:09,060 >> Так синтаксис будет немного о Graph Поиск и машины 263 00:13:09,060 --> 00:13:09,670 перевод. 264 00:13:09,670 --> 00:13:13,650 Я просто хочу, чтобы дать пример того, как вы могли бы, например, перевести 265 00:13:13,650 --> 00:13:16,020 что-то из португальского на английский. 266 00:13:16,020 --> 00:13:17,830 Звучит хорошо? 267 00:13:17,830 --> 00:13:19,293 >> Итак, сначала задача классификации. 268 00:13:19,293 --> 00:13:23,590 Скажу, что эта часть семинара будет самым сложным 269 00:13:23,590 --> 00:13:27,560 один только потому, что там происходит быть некоторое кодирование. 270 00:13:27,560 --> 00:13:29,470 Но это будет Python. 271 00:13:29,470 --> 00:13:34,380 Я знаю, вы, ребята, не знаю, Python, поэтому Я просто хочу, чтобы объяснить на высокой 272 00:13:34,380 --> 00:13:35,750 уровень, что я делаю. 273 00:13:35,750 --> 00:13:40,900 И у вас нет по-настоящему заботиться слишком много о синтаксисе, потому что это 274 00:13:40,900 --> 00:13:42,140 что-то вы, ребята, можете узнать. 275 00:13:42,140 --> 00:13:42,540 ОК? 276 00:13:42,540 --> 00:13:43,580 Звучит хорошо. 277 00:13:43,580 --> 00:13:46,020 >> Так в чем же проблема классификации? 278 00:13:46,020 --> 00:13:49,140 Таким образом, вы дали некоторые песни, чтобы песня, и вы хотите, чтобы догадаться, 279 00:13:49,140 --> 00:13:50,620 кто поет ее. 280 00:13:50,620 --> 00:13:54,045 И это может быть для любого вида других проблем. 281 00:13:54,045 --> 00:13:59,980 Таким образом, можно, например, у вас есть Президентская кампания и у вас есть 282 00:13:59,980 --> 00:14:02,610 речь, и вы хотите найти , если это было, например, 283 00:14:02,610 --> 00:14:04,470 Обама или Митт Ромни. 284 00:14:04,470 --> 00:14:07,700 Или вы можете иметь кучу писем и Вы хотите, чтобы выяснить, если они 285 00:14:07,700 --> 00:14:08,890 спамом или нет. 286 00:14:08,890 --> 00:14:11,440 Так что это просто классификации некоторых данные, основанные на словах 287 00:14:11,440 --> 00:14:13,790 что у вас там. 288 00:14:13,790 --> 00:14:16,295 >> Таким образом, чтобы сделать это, вы должны сделать некоторые предположения. 289 00:14:16,295 --> 00:14:20,570 Так много о вычислительной лингвистики делает предположения, 290 00:14:20,570 --> 00:14:24,100 обычно умные предположения, так что Вы можете получить хорошие результаты. 291 00:14:24,100 --> 00:14:26,670 Попытка создать модель для него. 292 00:14:26,670 --> 00:14:31,290 А потом попробовать его и посмотреть, если это работает, если он дает хорошую точность. 293 00:14:31,290 --> 00:14:33,940 И если это произойдет, то вы попытаться улучшить его. 294 00:14:33,940 --> 00:14:37,640 Если этого не произойдет, вы, как, в порядке, может быть, я должны сделать другой предположение. 295 00:14:37,640 --> 00:14:44,030 >> Таким образом, предположение, что мы собираемся сделать то, что художник, как правило, поет 296 00:14:44,030 --> 00:14:49,220 о теме несколько раз, и, возможно, использует слова несколько раз просто 297 00:14:49,220 --> 00:14:50,270 потому что они привыкли к нему. 298 00:14:50,270 --> 00:14:51,890 Вы можете просто думать о своем другу. 299 00:14:51,890 --> 00:14:57,350 Я уверен, что все вы, ребята, есть друзья что сказать, их подписи фразу, 300 00:14:57,350 --> 00:14:59,260 буквально для каждого отдельного предложения - 301 00:14:59,260 --> 00:15:02,660 как какого-то определенного слова или некоторых конкретных фраза, что мол для 302 00:15:02,660 --> 00:15:04,020 каждый приговор. 303 00:15:04,020 --> 00:15:07,920 >> А что вы можете сказать, что если вы видите приговор, который имеет подпись 304 00:15:07,920 --> 00:15:11,450 Фраза, можно догадаться, что, вероятно, ваш друг 305 00:15:11,450 --> 00:15:13,310 один говорит это, не так ли? 306 00:15:13,310 --> 00:15:18,410 Так вы сделаете это предположение, а затем это, как вы создать модель. 307 00:15:18,410 --> 00:15:24,440 >> Пример, который я собираюсь дать на как Lady Gaga, например, люди 308 00:15:24,440 --> 00:15:27,430 сказать, что она использует "BABY" для все ее номер один песни. 309 00:15:27,430 --> 00:15:32,270 А на самом деле это видео, которое показывает она говорила слово "ребенок" для 310 00:15:32,270 --> 00:15:33,410 разные песни. 311 00:15:33,410 --> 00:15:33,860 >> [ВИДЕОВОСПРОИЗВЕДЕНИЕ] 312 00:15:33,860 --> 00:15:34,310 >> - (Поет) Детские. 313 00:15:34,310 --> 00:15:36,220 Детские. 314 00:15:36,220 --> 00:15:37,086 Детские. 315 00:15:37,086 --> 00:15:37,520 Детские. 316 00:15:37,520 --> 00:15:37,770 Детские. 317 00:15:37,770 --> 00:15:38,822 Малыш. 318 00:15:38,822 --> 00:15:39,243 Детские. 319 00:15:39,243 --> 00:15:40,085 Детские. 320 00:15:40,085 --> 00:15:40,510 Детские. 321 00:15:40,510 --> 00:15:40,850 Детские. 322 00:15:40,850 --> 00:15:41,090 >> [КОНЕЦ ВИДЕОВОСПРОИЗВЕДЕНИЕ- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS ФРЕЙТАШ: Так что, я думаю, 40 песни здесь, в котором она говорит 324 00:15:44,020 --> 00:15:48,690 Слово "ребенок". Таким образом, вы можете в основном думаю что, если вы видите песню, которая имеет 325 00:15:48,690 --> 00:15:52,180 слово "ребенок", есть некоторые высокие Вероятность того, что это Леди Гага. 326 00:15:52,180 --> 00:15:56,450 Но давайте попробуем развивать это далее более формально. 327 00:15:56,450 --> 00:16:00,470 >> Таким образом, эти тексты к песням Леди Гага и Кэти Перри. 328 00:16:00,470 --> 00:16:04,120 Таким образом, вы посмотрите на Lady Gaga, вы видите, что они есть много случаев из "ребенка", 329 00:16:04,120 --> 00:16:07,710 много вхождений "пути". А потом Кэти Перри имеет много вхождений 330 00:16:07,710 --> 00:16:10,360 "," Много вхождений "огонь". 331 00:16:10,360 --> 00:16:14,560 >> Поэтому в основном то, что мы хотим сделать, это, вы получите лирику. 332 00:16:14,560 --> 00:16:20,480 Давайте предположим, что вы получаете лирику для песня, которая является "ребенок", просто "ребенок". Если 333 00:16:20,480 --> 00:16:24,750 вы просто получите слово "ребенок", и это все данные, которые у вас есть с 334 00:16:24,750 --> 00:16:27,880 Леди Гага и Кэти Перри, которые бы вы догадались это человек, 335 00:16:27,880 --> 00:16:29,370 кто поет песню? 336 00:16:29,370 --> 00:16:32,360 Леди Гага или Кэти Перри? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, не так ли? 338 00:16:33,150 --> 00:16:37,400 Потому что она единственная, кто говорит "Ребенок". Это звучит глупо, не так ли? 339 00:16:37,400 --> 00:16:38,760 Хорошо, это действительно просто. 340 00:16:38,760 --> 00:16:41,860 Я просто смотрю на двух песен и Конечно, она единственная, кто имеет 341 00:16:41,860 --> 00:16:42,660 "Ребенок". 342 00:16:42,660 --> 00:16:44,740 >> Но что, если у вас есть куча слов? 343 00:16:44,740 --> 00:16:50,900 Если у вас есть свежая Лирика, что-то как, "ребенок, я просто 344 00:16:50,900 --> 00:16:51,610 пошли, чтобы видеть [? ФТ?] 345 00:16:51,610 --> 00:16:54,020 лекция ", или что-то в этом роде, и то вы на самом деле должны выяснить - 346 00:16:54,020 --> 00:16:55,780 на основе всех этих слов - 347 00:16:55,780 --> 00:16:58,350 который является художник, который, вероятно, пел эту песню? 348 00:16:58,350 --> 00:17:01,860 Так давайте попробуем разработать это немного дальше. 349 00:17:01,860 --> 00:17:05,630 >> Итак, на основе только на данных, которые мы получил, кажется, что Гага, вероятно, 350 00:17:05,630 --> 00:17:06,260 певец. 351 00:17:06,260 --> 00:17:07,904 Но как мы можем написать это более формально? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 И это будет немного Немного статистики. 354 00:17:13,140 --> 00:17:15,880 Так что, если вы заблудились, просто попробуйте понять концепцию. 355 00:17:15,880 --> 00:17:18,700 Это не имеет значения, если вы понимаете, уравнения на отлично. 356 00:17:18,700 --> 00:17:22,150 Это все будет в Интернете. 357 00:17:22,150 --> 00:17:25,490 >> Поэтому в основном то, что я расчета является вероятность того, что эта песня по 358 00:17:25,490 --> 00:17:28,040 Леди Гага, учитывая, что - 359 00:17:28,040 --> 00:17:30,660 так этот бар означает, учитывая, что - 360 00:17:30,660 --> 00:17:33,680 Я видел слово "ребенок". Имеет ли это смысл? 361 00:17:33,680 --> 00:17:35,540 Так что я пытаюсь вычислить что вероятность. 362 00:17:35,540 --> 00:17:38,540 >> Так что есть эта теорема называется Теорема Байеса, что говорит о том, что 363 00:17:38,540 --> 00:17:43,330 вероятность данного B, является вероятность B дали, раз 364 00:17:43,330 --> 00:17:47,660 вероятность, по вероятности В. Это длинный уравнение. 365 00:17:47,660 --> 00:17:51,970 Но то, что вы должны понять, от то есть, что это то, что я хочу 366 00:17:51,970 --> 00:17:52,830 рассчитать, не так ли? 367 00:17:52,830 --> 00:17:56,570 Таким образом, вероятность того, что эта песня по Леди Гага учитывая, что я увидел слово 368 00:17:56,570 --> 00:17:58,230 "Ребенок". 369 00:17:58,230 --> 00:18:02,960 >> А теперь, что я получаю является вероятность слова "ребенок" с учетом 370 00:18:02,960 --> 00:18:04,390 что у меня есть Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 А что такое, что в принципе? 372 00:18:07,220 --> 00:18:10,500 Это означает,, что является Возможность поступления слово "ребенок" 373 00:18:10,500 --> 00:18:12,130 в Gaga текстах? 374 00:18:12,130 --> 00:18:16,240 Если я хочу, чтобы вычислить, что в очень простой способ, это просто число 375 00:18:16,240 --> 00:18:23,640 раз я вижу "Baby" от общего количества слов в текстах Gaga, не так ли? 376 00:18:23,640 --> 00:18:27,600 Какова частота, что я вижу, это слово в работе Гага? 377 00:18:27,600 --> 00:18:30,530 Смысл? 378 00:18:30,530 --> 00:18:33,420 >> Второе слагаемое вероятность Gaga. 379 00:18:33,420 --> 00:18:34,360 Что это значит? 380 00:18:34,360 --> 00:18:38,550 Это в основном означает, что Вероятность классификации 381 00:18:38,550 --> 00:18:40,690 некоторые тексты как Gaga? 382 00:18:40,690 --> 00:18:45,320 И это немного странно, но давайте думать о примере. 383 00:18:45,320 --> 00:18:49,230 Так скажем, что вероятность наличие "ребенка" в песне то же самое 384 00:18:49,230 --> 00:18:51,760 для Гага и Бритни Спирс. 385 00:18:51,760 --> 00:18:54,950 Но Бритни Спирс имеет в два раза больше песен, чем Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Так что если кто-то просто случайно дает Лирика "ребенка", первое, что вы 387 00:19:00,570 --> 00:19:04,710 смотреть на это, то, что вероятность наличие "ребенка" в песне Gaga, "ребенок" 388 00:19:04,710 --> 00:19:05,410 в песне Бритни? 389 00:19:05,410 --> 00:19:06,460 И это то же самое. 390 00:19:06,460 --> 00:19:10,040 >> Так Второе, что вы увидите, это, хорошо, что есть вероятность 391 00:19:10,040 --> 00:19:13,770 это лирические сама по себе будучи Гага лирические, и какова вероятность 392 00:19:13,770 --> 00:19:15,380 будучи лирическая Бритни? 393 00:19:15,380 --> 00:19:18,950 Так, так как Бритни имеет так много больше лирику чем Гага, вы, вероятно, 394 00:19:18,950 --> 00:19:21,470 скажем, ну, это, вероятно, лирическая Бритни. 395 00:19:21,470 --> 00:19:23,340 Так вот почему у нас есть это назвать прямо здесь. 396 00:19:23,340 --> 00:19:24,670 Вероятность Gaga. 397 00:19:24,670 --> 00:19:26,950 Имеет смысл? 398 00:19:26,950 --> 00:19:28,660 Так ли это? 399 00:19:28,660 --> 00:19:29,370 ОК. 400 00:19:29,370 --> 00:19:33,500 >> И последнее есть вероятность из "ребенка", который не 401 00:19:33,500 --> 00:19:34,810 имеет значения, что много. 402 00:19:34,810 --> 00:19:39,940 Но это вероятность видя "Baby" на английском языке. 403 00:19:39,940 --> 00:19:42,725 Мы обычно не волнует, что много о этого термина. 404 00:19:42,725 --> 00:19:44,490 Имеет ли это смысл? 405 00:19:44,490 --> 00:19:48,110 Таким образом, вероятность Гага называется априорная вероятность 406 00:19:48,110 --> 00:19:49,530 классовой Gaga. 407 00:19:49,530 --> 00:19:53,840 Потому что это просто означает, что, то, что вероятность того, что класс - 408 00:19:53,840 --> 00:19:55,520 что Гага - 409 00:19:55,520 --> 00:19:59,350 только в общем, только без условий. 410 00:19:59,350 --> 00:20:02,560 >> А потом, когда у меня есть вероятность Гага дано "ребенок", мы называем это плюс 411 00:20:02,560 --> 00:20:06,160 слезящимися вероятность, потому что это вероятность наличия 412 00:20:06,160 --> 00:20:08,300 Гага учитывая некоторые доказательства. 413 00:20:08,300 --> 00:20:11,050 Поэтому я даю вам доказательства что я увидел слово ребенка и 414 00:20:11,050 --> 00:20:12,690 песня имеет смысла? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 ОК. 417 00:20:16,410 --> 00:20:22,400 >> Так что если я подсчитал, что для каждого из песен для Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 что это было бы - 419 00:20:25,916 --> 00:20:27,730 судя по всему, я не могу двигаться в этом. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Вероятность Gaga будет что-то вроде 2 более 24, раз 1/2, 422 00:20:36,920 --> 00:20:38,260 более 2 более 53. 423 00:20:38,260 --> 00:20:40,640 Это не имеет значения, если вы знаете, что эти цифры и откуда. 424 00:20:40,640 --> 00:20:44,750 Но это всего лишь число, которое будет быть больше, чем 0, верно? 425 00:20:44,750 --> 00:20:48,610 >> А потом, когда я делаю Кэти Перри, вероятность "ребенка" учитывая Кэти 426 00:20:48,610 --> 00:20:49,830 уже 0, верно? 427 00:20:49,830 --> 00:20:52,820 Потому что нет никакого "ребенок" в Кэти Перри. 428 00:20:52,820 --> 00:20:56,360 Так то это становится 0, а Гага побед, что означает, что Гага 429 00:20:56,360 --> 00:20:57,310 вероятно, певец. 430 00:20:57,310 --> 00:20:58,560 Имеет ли это смысл? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 ОК. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Так что, если я хочу, чтобы сделать это более официальный, Я могу на самом деле модель 435 00:21:11,750 --> 00:21:12,700 по нескольким словам. 436 00:21:12,700 --> 00:21:14,610 Так скажем, что у меня есть что-то как, "ребенок, Я 437 00:21:14,610 --> 00:21:16,030 в огне, "или что-то. 438 00:21:16,030 --> 00:21:17,760 Так что имеет несколько слов. 439 00:21:17,760 --> 00:21:20,880 И в этом случае, вы можете увидеть что "ребенок" находится в Gaga, 440 00:21:20,880 --> 00:21:21,710 но это не в Katy. 441 00:21:21,710 --> 00:21:24,940 И "огонь" находится в Katy, но это не в Gaga, не так ли? 442 00:21:24,940 --> 00:21:27,200 Так она становится сложнее, не так ли? 443 00:21:27,200 --> 00:21:31,440 Потому что кажется, что вы почти есть связь между ними. 444 00:21:31,440 --> 00:21:36,980 >> Так что вы должны сделать, это предположить, независимость среди слов. 445 00:21:36,980 --> 00:21:41,210 Так в основном, что это значит, что Я просто вычисляя, что является 446 00:21:41,210 --> 00:21:44,330 Возможность поступления "ребенка", что является вероятность увидеть «я», и 447 00:21:44,330 --> 00:21:46,670 "Я", и "на" и "огонь" все отдельно. 448 00:21:46,670 --> 00:21:48,670 Тогда я умножения всех из них. 449 00:21:48,670 --> 00:21:52,420 И я вижу, что есть вероятность видеть целое предложение. 450 00:21:52,420 --> 00:21:55,210 Смысл? 451 00:21:55,210 --> 00:22:00,270 >> Так в основном, если у меня есть только одно слово, то, что я хочу найти это аргумент макс, 452 00:22:00,270 --> 00:22:05,385 что означает, что класс, который является дает мне наибольшую вероятность? 453 00:22:05,385 --> 00:22:10,010 Так в чем же класс, который дает меня самая высокая вероятность 454 00:22:10,010 --> 00:22:11,940 вероятность класса дали слово. 455 00:22:11,940 --> 00:22:17,610 Таким образом, в этом случае, Гага дано "ребенка". Или Кэти дано "ребенка". Смысл? 456 00:22:17,610 --> 00:22:21,040 >> И только от Байеса, что уравнение, которое я показал, 457 00:22:21,040 --> 00:22:24,780 мы создаем эту фракцию. 458 00:22:24,780 --> 00:22:28,750 Единственное, что вы видите, что вероятность слова с учетом 459 00:22:28,750 --> 00:22:31,370 изменения классов в зависимости от класса, не так ли? 460 00:22:31,370 --> 00:22:34,260 Количество "Baby" с, что у меня есть в Gaga отличается от Katy. 461 00:22:34,260 --> 00:22:37,640 Вероятность класса также изменения, потому что это просто число 462 00:22:37,640 --> 00:22:39,740 песен каждый из них имеет. 463 00:22:39,740 --> 00:22:43,980 >> Но вероятность того, что само слово будет одинаковым для всех 464 00:22:43,980 --> 00:22:44,740 художники, верно? 465 00:22:44,740 --> 00:22:47,150 Таким образом, вероятность того, что слова просто, что вероятность 466 00:22:47,150 --> 00:22:49,820 видя, что слово в Английский язык? 467 00:22:49,820 --> 00:22:51,420 Так что это то же самое для всех из них. 468 00:22:51,420 --> 00:22:55,790 Так, так как это постоянно, мы можем просто отказаться от этого, а не заботиться о нем. 469 00:22:55,790 --> 00:23:00,230 Так что это будет на самом деле уравнение мы ищем. 470 00:23:00,230 --> 00:23:03,360 >> И если у меня есть несколько слов, я еще придется до 471 00:23:03,360 --> 00:23:04,610 Вероятность здесь. 472 00:23:04,610 --> 00:23:06,980 Единственное, что я умножения вероятность 473 00:23:06,980 --> 00:23:08,490 все остальные слова. 474 00:23:08,490 --> 00:23:10,110 Так что я умножения всех из них. 475 00:23:10,110 --> 00:23:12,610 Смысл? 476 00:23:12,610 --> 00:23:18,440 Это выглядит странно, но в основном означает, рассчитать до класса, и 477 00:23:18,440 --> 00:23:22,100 затем умножить на вероятность каждого из слов, находящихся в этом классе. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> И вы знаете, что вероятность Слово дано класс будет 480 00:23:29,150 --> 00:23:34,520 сколько раз вы увидите, что слово в что класс, деленное на количество 481 00:23:34,520 --> 00:23:37,020 Слова, которые вы имеете в том, что класс в целом. 482 00:23:37,020 --> 00:23:37,990 Смысл? 483 00:23:37,990 --> 00:23:41,680 Это просто, как "ребенок" было 2 более количество слов, которые 484 00:23:41,680 --> 00:23:43,020 У меня была в лирике. 485 00:23:43,020 --> 00:23:45,130 Так что просто частота. 486 00:23:45,130 --> 00:23:46,260 >> Но есть одна вещь. 487 00:23:46,260 --> 00:23:51,250 Помните, как я показывал, что вероятность "Baby", являющихся текстах 488 00:23:51,250 --> 00:23:56,350 от Кэти Перри 0 только потому, что Кэти Перри не было "Baby" вообще? 489 00:23:56,350 --> 00:24:04,900 Но это звучит немного резко, чтобы просто просто сказать, что текст песни не может быть от 490 00:24:04,900 --> 00:24:10,040 художник только потому, что они не имеют это слово в частности в любое время. 491 00:24:10,040 --> 00:24:13,330 >> Таким образом, вы могли бы просто сказать, ну, если вы нет это слово, я собираюсь 492 00:24:13,330 --> 00:24:15,640 дать вам более низкую вероятность, но я просто не собираюсь 493 00:24:15,640 --> 00:24:17,420 дать вам 0 сразу. 494 00:24:17,420 --> 00:24:21,040 Потому что, может быть, это было что-то вроде, "Огонь, огонь, огонь, огонь", который является 495 00:24:21,040 --> 00:24:21,990 полностью Кэти Перри. 496 00:24:21,990 --> 00:24:26,060 А потом "ребенок", и это только идет, чтобы 0 сразу, потому что был один 497 00:24:26,060 --> 00:24:27,250 "Ребенок". 498 00:24:27,250 --> 00:24:31,440 >> Поэтому в основном то, что мы делаем что-то называется Лапласа сглаживания. 499 00:24:31,440 --> 00:24:36,260 И это просто означает, что я даю некоторая вероятность даже к словам 500 00:24:36,260 --> 00:24:37,850 что не существует. 501 00:24:37,850 --> 00:24:43,170 Так, что я делаю то, что, когда я расчета этого, я всегда добавляю 1 к 502 00:24:43,170 --> 00:24:44,180 числитель. 503 00:24:44,180 --> 00:24:48,060 Таким образом, даже если слово не существует, в В этом случае, если это 0, я до сих пор 504 00:24:48,060 --> 00:24:51,250 расчета это как 1 над общее количество слов. 505 00:24:51,250 --> 00:24:55,060 В противном случае, я получаю, сколько слов У меня есть и я добавить 1. 506 00:24:55,060 --> 00:24:58,300 Так я рассчитываю в обоих случаях. 507 00:24:58,300 --> 00:25:00,430 Смысл? 508 00:25:00,430 --> 00:25:03,060 >> Так что теперь давайте сделаем некоторые кодирования. 509 00:25:03,060 --> 00:25:06,440 Я собираюсь должны сделать это довольно быстро, но это просто важно, чтобы вам 510 00:25:06,440 --> 00:25:08,600 ребята понять концепции. 511 00:25:08,600 --> 00:25:13,450 Итак, что мы пытаемся сделать точно реализовать это 512 00:25:13,450 --> 00:25:14,330 вещь, которую я только что сказал, - 513 00:25:14,330 --> 00:25:19,110 Я хочу, чтобы ты положил текст из Леди Гага и Кэти Перри. 514 00:25:19,110 --> 00:25:22,980 И программа будет в состоянии говорят, что если эти новые тексты из Gaga 515 00:25:22,980 --> 00:25:24,170 или Кэти Перри. 516 00:25:24,170 --> 00:25:25,800 Смысл? 517 00:25:25,800 --> 00:25:27,530 ОК. 518 00:25:27,530 --> 00:25:30,710 >> Так что я эту программу я собираюсь позвонить classify.py. 519 00:25:30,710 --> 00:25:31,970 Так что это Python. 520 00:25:31,970 --> 00:25:34,210 Это новый язык программирования. 521 00:25:34,210 --> 00:25:38,020 Это очень похоже на некоторые способы C и PHP. 522 00:25:38,020 --> 00:25:43,180 Это похоже, потому что, если вы хотите узнать Python узнав C, это 523 00:25:43,180 --> 00:25:46,270 действительно не так много вызов только потому, что Python намного проще 524 00:25:46,270 --> 00:25:47,520 чем C, в первую очередь. 525 00:25:47,520 --> 00:25:49,370 И много чего уже реализован для вас. 526 00:25:49,370 --> 00:25:56,820 Итак, как как PHP имеет функции, которые отсортировать список, или добавить что-то 527 00:25:56,820 --> 00:25:58,780 на массив, или бла, бла, бла. 528 00:25:58,780 --> 00:26:00,690 Python имеет все те также. 529 00:26:00,690 --> 00:26:05,960 >> Так что я просто собираюсь объяснить быстро как мы могли бы сделать классификацию 530 00:26:05,960 --> 00:26:07,860 Проблема здесь. 531 00:26:07,860 --> 00:26:13,230 Так скажем, что в этом случае, у меня есть песни из Гага и Кэти Перри. 532 00:26:13,230 --> 00:26:21,880 Таким образом, что у меня есть эти тексты в том, что первое слово из песни является 533 00:26:21,880 --> 00:26:25,250 имя художника, и остальное лирика. 534 00:26:25,250 --> 00:26:29,470 Так скажем, что у меня есть этот список в которых первый является стихи Gaga. 535 00:26:29,470 --> 00:26:31,930 Так вот я на правильном пути. 536 00:26:31,930 --> 00:26:35,270 А на следующий один Кэти, и она имеет также тексты песен. 537 00:26:35,270 --> 00:26:38,040 >> Так что это, как вы заявляете, переменная в Python. 538 00:26:38,040 --> 00:26:40,200 Вы не должны дать тип данных. 539 00:26:40,200 --> 00:26:43,150 Вы просто написать "текст", вроде как в PHP. 540 00:26:43,150 --> 00:26:44,890 Смысл? 541 00:26:44,890 --> 00:26:47,770 >> Так что те вещи, которые я должен рассчитать, чтобы иметь возможность рассчитать 542 00:26:47,770 --> 00:26:49,360 вероятности? 543 00:26:49,360 --> 00:26:55,110 У меня есть для расчета «априорные» из каждого из различных 544 00:26:55,110 --> 00:26:56,710 классы, у меня нет. 545 00:26:56,710 --> 00:27:06,680 У меня есть для расчета "боковых зубов", или в значительной степени вероятности 546 00:27:06,680 --> 00:27:12,150 каждый из различных слов, которые У меня может быть для каждого художника. 547 00:27:12,150 --> 00:27:17,210 Таким образом, внутри Gaga, например, я собираюсь иметь список, сколько раз я вижу 548 00:27:17,210 --> 00:27:19,250 каждое из слов. 549 00:27:19,250 --> 00:27:20,760 Смысл? 550 00:27:20,760 --> 00:27:25,370 >> И, наконец, я просто хочу, чтобы иметь Список называется "слова", что просто будет 551 00:27:25,370 --> 00:27:29,780 иметь сколько слов я есть для каждого художника. 552 00:27:29,780 --> 00:27:33,760 Таким образом, для Gaga, например, когда я смотрю к лирике, я, по-моему, 24 553 00:27:33,760 --> 00:27:34,750 слова в общей сложности. 554 00:27:34,750 --> 00:27:38,970 Так этот список просто придется Гага 24, и Кэти другой номер. 555 00:27:38,970 --> 00:27:40,130 Смысл? 556 00:27:40,130 --> 00:27:40,560 ОК. 557 00:27:40,560 --> 00:27:42,530 >> Так что теперь, на самом деле, давайте перейти к кодированию. 558 00:27:42,530 --> 00:27:45,270 Таким образом, в Python, вы можете на самом деле вернуться кучу разные 559 00:27:45,270 --> 00:27:46,630 вещи из функции. 560 00:27:46,630 --> 00:27:50,810 Так что я собираюсь создать эту функцию называется "условным", который собирается 561 00:27:50,810 --> 00:27:53,890 вернуть все из тех вещей, "приоры", что "вероятности", и 562 00:27:53,890 --> 00:28:05,690 "слова". Таким образом, "условная", и это будет ставя под "лирики". 563 00:28:05,690 --> 00:28:11,510 >> Так что теперь я хочу, чтобы вы на самом деле написать эту функцию. 564 00:28:11,510 --> 00:28:17,750 Таким образом, способ, которым я могу написать это функция Я просто определил это 565 00:28:17,750 --> 00:28:20,620 функционировать с "определение". Так я и сделал "определение условно, "и это занимает 566 00:28:20,620 --> 00:28:28,700 "Текст". И то, что это будет делать является, в первую очередь, у меня есть свои априорные 567 00:28:28,700 --> 00:28:31,030 что я хочу, чтобы вычислить. 568 00:28:31,030 --> 00:28:34,330 >> Таким образом, способ, которым я могу это сделать, это создать словарь в Python, который 569 00:28:34,330 --> 00:28:37,320 в значительной степени то же самое, что хэш стол, или это как итеративный 570 00:28:37,320 --> 00:28:40,480 Массив в PHP. 571 00:28:40,480 --> 00:28:44,150 Это, как я объявить словарь. 572 00:28:44,150 --> 00:28:53,580 И в основном это означает то, что априорные из Gaga 0,5, например, если 573 00:28:53,580 --> 00:28:57,200 50% из лирики от Гага, 50% из Katy. 574 00:28:57,200 --> 00:28:58,450 Смысл? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Так что я должен выяснить, как для расчета априорные. 577 00:29:03,680 --> 00:29:07,120 >> Следующие те, которые я должен сделать, также, являются вероятностями и слова. 578 00:29:07,120 --> 00:29:17,100 Так вероятности Gaga список всех вероятностей того, что я 579 00:29:17,100 --> 00:29:19,160 есть для каждого из слов для Gaga. 580 00:29:19,160 --> 00:29:23,880 Так что, если я иду в вероятностях Gaga "Ребенок", например, он даст мне 581 00:29:23,880 --> 00:29:28,750 что-то вроде 2 по 24 в этом случае. 582 00:29:28,750 --> 00:29:30,070 Смысл? 583 00:29:30,070 --> 00:29:36,120 Так я иду в "вероятности", перейдите в "Гага" ведро, что имеет список всех 584 00:29:36,120 --> 00:29:40,550 слова Gaga, то я иду в "ребенка", и я вижу вероятность. 585 00:29:40,550 --> 00:29:45,940 >> И, наконец у меня есть это "Слова" словарь. 586 00:29:45,940 --> 00:29:53,620 Так вот, "вероятности". А потом "слова". Так что, если я могу сделать "слова", "Gaga", 587 00:29:53,620 --> 00:29:58,330 что произойдет то, что это даст мне 24, говоря, что я 588 00:29:58,330 --> 00:30:01,990 есть 24 слов в текстах из Gaga. 589 00:30:01,990 --> 00:30:04,110 Имеет смысл? 590 00:30:04,110 --> 00:30:07,070 Так вот, "слова" равно Дах-Дах-дах. 591 00:30:07,070 --> 00:30:07,620 Хорошо 592 00:30:07,620 --> 00:30:12,210 >> Так что я собираюсь сделать, это я собираюсь перебора каждого из текстах, так 593 00:30:12,210 --> 00:30:14,490 каждой из строк, которые У меня есть в списке. 594 00:30:14,490 --> 00:30:18,040 И я собираюсь рассчитать те вещи для каждого из кандидатов. 595 00:30:18,040 --> 00:30:19,950 Имеет смысл? 596 00:30:19,950 --> 00:30:21,700 Так что я должен сделать для петли. 597 00:30:21,700 --> 00:30:26,300 >> Таким образом, в Python, что я могу сделать, это "для линии в текстах. "то же самое, 598 00:30:26,300 --> 00:30:28,000 "Для каждого" заявление в PHP. 599 00:30:28,000 --> 00:30:33,420 Помните, как если бы это был PHP я мог сказать "для каждого текстах как 600 00:30:33,420 --> 00:30:35,220 линия ". Имеет смысл? 601 00:30:35,220 --> 00:30:38,900 Так что я беру каждой из линий, в этом случай, эта строка и следующая 602 00:30:38,900 --> 00:30:44,540 строка так и для каждой из линий, что я собираюсь сделать, это во-первых, я собираюсь 603 00:30:44,540 --> 00:30:49,150 разделить эту строку в список слова, разделенных пробелами. 604 00:30:49,150 --> 00:30:53,730 >> Так здорово, что о Python является то, что вы могли бы просто Google, как "как я могу 605 00:30:53,730 --> 00:30:58,220 разбить строку на слова? "И это собираюсь рассказать вам, как это сделать. 606 00:30:58,220 --> 00:31:04,890 И то, как это сделать, это просто "линия = Line.split () ", и это в основном 607 00:31:04,890 --> 00:31:08,640 собираюсь дать Вам список каждое из слов здесь. 608 00:31:08,640 --> 00:31:09,620 Имеет смысл? 609 00:31:09,620 --> 00:31:15,870 Так что теперь я сделал, что я хочу знать, который является певцом этой песни. 610 00:31:15,870 --> 00:31:20,130 А для этого я просто должен получить Первый элемент массива, не так ли? 611 00:31:20,130 --> 00:31:26,390 Поэтому я могу только сказать, что я "певец = Линия (0) "Имеет смысл? 612 00:31:26,390 --> 00:31:32,010 >> А потом, что мне нужно сделать, это, в первую все, что я собираюсь обновить сколько 613 00:31:32,010 --> 00:31:36,130 слова у меня под "Гага". так что я просто собирается подсчитать, сколько слов я 614 00:31:36,130 --> 00:31:38,690 есть в этом списке, не так ли? 615 00:31:38,690 --> 00:31:41,910 Потому что это, сколько слов у меня в лирике, и я просто хочу, чтобы 616 00:31:41,910 --> 00:31:44,120 добавить его в "Gaga" массива. 617 00:31:44,120 --> 00:31:47,090 Имеет ли это смысл? 618 00:31:47,090 --> 00:31:49,010 Не слишком большой акцент на синтаксиса. 619 00:31:49,010 --> 00:31:50,430 Думайте больше о понятиях. 620 00:31:50,430 --> 00:31:52,400 Это самая важная часть. 621 00:31:52,400 --> 00:31:52,720 ОК. 622 00:31:52,720 --> 00:32:00,260 >> Так что я могу сделать это, если "Гага" является уже в этом списке, так что "если певец в 623 00:32:00,260 --> 00:32:03,190 слова ", что означает, что я уже есть слова, Gaga. 624 00:32:03,190 --> 00:32:06,640 Я просто хочу добавить дополнительный слова к этому. 625 00:32:06,640 --> 00:32:15,810 Так что я делаю, это "слова (певица) + = Len (строка) - 1 ". 626 00:32:15,810 --> 00:32:18,250 И тогда я могу просто сделать Длина линии. 627 00:32:18,250 --> 00:32:21,860 Так как многие элементы I иметь в массиве. 628 00:32:21,860 --> 00:32:27,060 И что я должен сделать минус 1 только потому, что первый элемент массива является просто 629 00:32:27,060 --> 00:32:29,180 певец и тех, кто не являются тексты. 630 00:32:29,180 --> 00:32:31,420 Имеет смысл? 631 00:32:31,420 --> 00:32:32,780 ОК. 632 00:32:32,780 --> 00:32:35,820 >> "В противном случае," это означает, что я хочу на самом деле вставить Gaga в список. 633 00:32:35,820 --> 00:32:45,990 Так что я просто сделать "слова (певица) = Len (строка) - 1, "жаль. 634 00:32:45,990 --> 00:32:49,200 Таким образом, единственное различие между ними линии является то, что на этот раз, это не так 635 00:32:49,200 --> 00:32:51,080 существуют еще, так что я просто его инициализации. 636 00:32:51,080 --> 00:32:53,820 Это один я на самом деле добавление. 637 00:32:53,820 --> 00:32:55,570 ОК. 638 00:32:55,570 --> 00:32:59,480 Так что это было добавление к словам. 639 00:32:59,480 --> 00:33:03,040 >> Теперь я хочу добавить к настоятелей. 640 00:33:03,040 --> 00:33:05,480 Так как я могу вычислить априорные? 641 00:33:05,480 --> 00:33:11,580 В приоры можно рассчитать во сколько раз. 642 00:33:11,580 --> 00:33:15,340 Так сколько раз вы видите, что певец среди всех певцов, которые вы 643 00:33:15,340 --> 00:33:16,380 есть, не так ли? 644 00:33:16,380 --> 00:33:18,810 Таким образом, для Gaga и Кэти Перри, в этом случае, я вижу Gaga 645 00:33:18,810 --> 00:33:20,570 один раз, Кэти Перри раз. 646 00:33:20,570 --> 00:33:23,320 >> Поэтому, в основном настоятели для Gaga и Кэти Перри будет 647 00:33:23,320 --> 00:33:24,390 быть просто одним, не так ли? 648 00:33:24,390 --> 00:33:26,500 Вы просто, сколько раз Я вижу художника. 649 00:33:26,500 --> 00:33:28,740 Так что это очень легко вычислить. 650 00:33:28,740 --> 00:33:34,100 Я могу только что-то подобное, как например, "если певец в настоятелей, "Я просто собираюсь 651 00:33:34,100 --> 00:33:38,970 добавить 1 к их настоятели окне. 652 00:33:38,970 --> 00:33:51,000 Так, "приоры (петь)" + = 1 ", а затем" еще " Я собираюсь сделать «априорные (певица) 653 00:33:51,000 --> 00:33:55,000 = 1 ". Имеет смысл? 654 00:33:55,000 --> 00:34:00,080 >> Так что, если он не существует, я просто поставить как 1, в противном случае я просто добавьте 1. 655 00:34:00,080 --> 00:34:11,280 Итак, теперь все, что у меня осталось сделать также добавить каждое из слов в 656 00:34:11,280 --> 00:34:12,290 вероятности. 657 00:34:12,290 --> 00:34:14,889 Так что я должен подсчитать, сколько раз Я вижу каждого из слов. 658 00:34:14,889 --> 00:34:18,780 Так что я просто должен сделать еще один цикл в линии. 659 00:34:18,780 --> 00:34:25,190 >> Так, первое, что я собираюсь сделать, это проверить, если певица уже имеет 660 00:34:25,190 --> 00:34:26,969 вероятности массив. 661 00:34:26,969 --> 00:34:31,739 Так я проверяю, если певец не есть массив вероятности, я просто 662 00:34:31,739 --> 00:34:34,480 собирается инициализировать один для них. 663 00:34:34,480 --> 00:34:36,400 Это даже не массив, извините, это словарь. 664 00:34:36,400 --> 00:34:43,080 Так вероятности певицы собирается быть открытой словарь, так что я 665 00:34:43,080 --> 00:34:45,830 просто инициализации словаря для него. 666 00:34:45,830 --> 00:34:46,820 ОК? 667 00:34:46,820 --> 00:34:58,330 >> И теперь я могу реально сделать для петли для расчета каждого из слов ' 668 00:34:58,330 --> 00:35:00,604 вероятности. 669 00:35:00,604 --> 00:35:01,540 ОК. 670 00:35:01,540 --> 00:35:04,160 Так что я могу сделать это для петли. 671 00:35:04,160 --> 00:35:06,590 Так что я просто хочу, чтобы итерации по массиву. 672 00:35:06,590 --> 00:35:15,320 Таким образом, способ, которым я могу сделать это в Python является "для г в диапазоне". С 1 673 00:35:15,320 --> 00:35:19,200 потому что я хочу, чтобы начать в секунду элемент, потому что первый является 674 00:35:19,200 --> 00:35:20,260 Имя певца. 675 00:35:20,260 --> 00:35:24,990 Так от одного до Длина линии. 676 00:35:24,990 --> 00:35:29,760 И когда я в диапазоне она на самом деле идти от как здесь от 1 до Len из 677 00:35:29,760 --> 00:35:30,740 Линия минус 1. 678 00:35:30,740 --> 00:35:33,810 Так что уже делает эту штуку делать н минус 1 для массивов, которые очень 679 00:35:33,810 --> 00:35:35,500 удобно. 680 00:35:35,500 --> 00:35:37,850 Имеет смысл? 681 00:35:37,850 --> 00:35:42,770 >> Таким образом, для каждого из них, то, что я собираюсь сделать, это, как и в другом, 682 00:35:42,770 --> 00:35:50,320 Я собираюсь проверить, если слово в этом Положение в линейке уже 683 00:35:50,320 --> 00:35:51,570 вероятности. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 А потом, как я сказал здесь, вероятности слова, как в я ставлю 686 00:35:57,260 --> 00:35:58,400 "вероятности (певица)». 687 00:35:58,400 --> 00:35:59,390 Таким образом, имя певицы. 688 00:35:59,390 --> 00:36:03,450 Так что, если это уже в "Probabilit (певец)", это означает, что я 689 00:36:03,450 --> 00:36:11,960 хотите добавить к нему 1, так что я собираюсь сделать "вероятности (певец)", а 690 00:36:11,960 --> 00:36:14,100 Слово называется "линия (я)". 691 00:36:14,100 --> 00:36:22,630 Я собираюсь добавить 1 и "еще" Я просто собирается инициализировать его в 1. 692 00:36:22,630 --> 00:36:23,880 "Линия (я)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Имеет смысл? 695 00:36:28,420 --> 00:36:30,180 >> Так, по моим расчетам все массивы. 696 00:36:30,180 --> 00:36:36,580 Итак, теперь все, что я должен сделать для Этот просто "вернуться априорные, 697 00:36:36,580 --> 00:36:43,230 вероятности и слова. «Давайте увидеть, если таковые имеются, в порядке. 698 00:36:43,230 --> 00:36:45,690 Вроде все работает до сих пор. 699 00:36:45,690 --> 00:36:46,900 Так, в этом есть смысл? 700 00:36:46,900 --> 00:36:47,750 В некотором роде? 701 00:36:47,750 --> 00:36:49,280 ОК. 702 00:36:49,280 --> 00:36:51,980 Так что теперь у меня есть все вероятности. 703 00:36:51,980 --> 00:36:55,100 Так что теперь единственное, что у меня осталось просто иметь эту вещь, что 704 00:36:55,100 --> 00:36:58,650 вычисляет произведение все вероятностей, когда я получаю лирику. 705 00:36:58,650 --> 00:37:06,270 >> Так скажем, что я хочу сейчас называть эта функция "классифицировать ()" и 706 00:37:06,270 --> 00:37:08,880 вещь, которая функция принимает это просто аргумент. 707 00:37:08,880 --> 00:37:13,170 Скажем "Детка, я в огне", и это собирается выяснить, что является 708 00:37:13,170 --> 00:37:14,490 Вероятность того, что это Gaga? 709 00:37:14,490 --> 00:37:16,405 Какова вероятность того, что это Кэти? 710 00:37:16,405 --> 00:37:19,690 Звучит хорошо? 711 00:37:19,690 --> 00:37:25,750 Так что я просто придется создать Новая функция называется "классифицировать ()" и 712 00:37:25,750 --> 00:37:29,180 он собирается принять некоторые текст песни, а также. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 И, кроме того лирике Я также должны отправить априорные, 715 00:37:36,160 --> 00:37:37,700 вероятности и слова. 716 00:37:37,700 --> 00:37:44,000 Так что я собираюсь послать текст, априорные, вероятности, слова. 717 00:37:44,000 --> 00:37:51,840 >> Так это происходит текст, априорные, вероятности, слова. 718 00:37:51,840 --> 00:37:53,530 Так, для чего это нужно? 719 00:37:53,530 --> 00:37:57,180 Это в основном будет идти через все возможные кандидаты, которые вы 720 00:37:57,180 --> 00:37:58,510 иметь в качестве певца. 721 00:37:58,510 --> 00:37:59,425 А где те кандидаты? 722 00:37:59,425 --> 00:38:01,020 Они в настоятелей, не так ли? 723 00:38:01,020 --> 00:38:02,710 Поэтому у меня есть все те, там. 724 00:38:02,710 --> 00:38:07,870 Так что я собираюсь есть словарь из всех возможных кандидатов. 725 00:38:07,870 --> 00:38:14,220 А потом за каждого кандидата в настоятели, так это означает, что он собирается 726 00:38:14,220 --> 00:38:17,740 быть Гага, Кэти если бы мне пришлось более было бы больше. 727 00:38:17,740 --> 00:38:20,410 Я собираюсь начать расчет эта вероятность. 728 00:38:20,410 --> 00:38:28,310 Вероятность как мы видели в PowerPoint является Предыдущие раз 729 00:38:28,310 --> 00:38:30,800 Продукт каждого из другие вероятности. 730 00:38:30,800 --> 00:38:32,520 >> Так что я могу сделать то же самое здесь. 731 00:38:32,520 --> 00:38:36,330 Я могу просто сделать вероятность первоначально только перед. 732 00:38:36,330 --> 00:38:40,340 Так настоятели кандидата. 733 00:38:40,340 --> 00:38:40,870 Не так ли? 734 00:38:40,870 --> 00:38:45,360 И теперь у меня есть для перебора всех Слова, которые я имею в лирике быть 735 00:38:45,360 --> 00:38:48,820 возможность добавлять вероятность для каждого из них, в порядке? 736 00:38:48,820 --> 00:38:57,900 Так, "в слово в текстах", что я собираюсь сделать, это, если слово в 737 00:38:57,900 --> 00:39:01,640 "вероятности (кандидаты)", которые означает, что это слово, которое 738 00:39:01,640 --> 00:39:03,640 Кандидат должен в своих текстах - 739 00:39:03,640 --> 00:39:05,940 например, "ребенок" для Gaga - 740 00:39:05,940 --> 00:39:11,710 то, что я собираюсь сделать, это что вероятность собирается умножить 741 00:39:11,710 --> 00:39:22,420 на 1 плюс вероятностей кандидат в этом слове. 742 00:39:22,420 --> 00:39:25,710 И это называется "Слово". 743 00:39:25,710 --> 00:39:32,440 Это делится на количество слов что у меня есть для этого кандидата. 744 00:39:32,440 --> 00:39:37,450 Общее количество слов, которые у меня есть для певицы, что я смотрю на. 745 00:39:37,450 --> 00:39:40,290 >> "Else". это означает, что это новое слово так что было бы, как например 746 00:39:40,290 --> 00:39:41,860 "Огонь" для Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Так что я просто хочу сделать 1 по "Слово (кандидат)". 748 00:39:45,760 --> 00:39:47,710 Так что я не хочу поставить этот термин здесь. 749 00:39:47,710 --> 00:39:50,010 >> Так что это будет в основном копирование и вставка этого. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Но я собираюсь удалить эту часть. 752 00:39:56,000 --> 00:39:57,610 Так что это просто будет 1 по этому поводу. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Звучит хорошо? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 И теперь в конце, я просто хочу, чтобы печатать имя кандидата и 757 00:40:09,700 --> 00:40:15,750 вероятность того, что у вас есть из имея S на их текстах. 758 00:40:15,750 --> 00:40:16,200 Имеет смысл? 759 00:40:16,200 --> 00:40:18,390 И я на самом деле даже не нужен этот словарь. 760 00:40:18,390 --> 00:40:19,510 Имеет смысл? 761 00:40:19,510 --> 00:40:21,810 >> Итак, давайте посмотрим, если это на самом деле работает. 762 00:40:21,810 --> 00:40:24,880 Так что, если я запускаю это, он не работает. 763 00:40:24,880 --> 00:40:26,130 Подождите одну секунду. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Слова (кандидаты)", "слова (кандидаты)", это 766 00:40:31,720 --> 00:40:33,750 имя массива. 767 00:40:33,750 --> 00:40:41,435 ОК Таким образом, это говорит, что есть какая-то ошибка для кандидата в настоятелей. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Позвольте мне просто расслабиться немного. 770 00:40:48,760 --> 00:40:50,360 ОК. 771 00:40:50,360 --> 00:40:51,305 Давайте попробуем. 772 00:40:51,305 --> 00:40:51,720 ОК. 773 00:40:51,720 --> 00:40:58,710 >> Так он дает Кэти Перри имеет это Вероятность этого раза 10 до 774 00:40:58,710 --> 00:41:02,200 минус 7, и Гага это раз от 10 до минус 6. 775 00:41:02,200 --> 00:41:05,610 Итак, вы видите это показывает, что Гага имеет более высокую вероятность. 776 00:41:05,610 --> 00:41:09,260 Таким образом, "Детка, я в огне" является вероятно, песня Gaga. 777 00:41:09,260 --> 00:41:10,580 Имеет смысл? 778 00:41:10,580 --> 00:41:12,030 Так что это то, что мы сделали. 779 00:41:12,030 --> 00:41:16,010 >> Этот код будет размещен на сайте, так что вы, ребята, можете проверить его. 780 00:41:16,010 --> 00:41:20,720 Может быть, использовать некоторые из них, если вы хотите, чтобы сделать проект или что-то подобное. 781 00:41:20,720 --> 00:41:22,150 ОК. 782 00:41:22,150 --> 00:41:25,930 Это было как раз, чтобы показать что вычислительная 783 00:41:25,930 --> 00:41:27,230 лингвистика код выглядит. 784 00:41:27,230 --> 00:41:33,040 Но теперь давайте вернемся к более Высокий уровень вещи. 785 00:41:33,040 --> 00:41:33,340 ОК. 786 00:41:33,340 --> 00:41:35,150 >> Таким образом, другие проблемы, которые я говорил о - 787 00:41:35,150 --> 00:41:37,550 проблема сегментации является первым из них. 788 00:41:37,550 --> 00:41:40,820 Так у вас тут по-японски. 789 00:41:40,820 --> 00:41:43,420 И тогда вы увидите, что нет пространства. 790 00:41:43,420 --> 00:41:49,110 Так что это в основном означает, что это верхняя часть кресла, не так ли? 791 00:41:49,110 --> 00:41:50,550 Вы говорите по-японски? 792 00:41:50,550 --> 00:41:52,840 Это верхняя часть кресла, не так ли? 793 00:41:52,840 --> 00:41:54,480 >> СТУДЕНТ: Я не знаю, что кандзи там есть. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS ФРЕЙТАШ: Это [говорение по-японски] 795 00:41:57,010 --> 00:41:57,950 ОК. 796 00:41:57,950 --> 00:42:00,960 Так что в основном означает кафедру вершине. 797 00:42:00,960 --> 00:42:03,620 Так что если вы должны были поставить пробел было бы здесь. 798 00:42:03,620 --> 00:42:05,970 И тогда у вас есть [? Уэда-Сан -. ?] 799 00:42:05,970 --> 00:42:09,040 Которые в основном означает, г-н Уэда. 800 00:42:09,040 --> 00:42:13,180 И вы видите, что "Уэда" и у вас есть пространство, а затем "Сан -." Итак, вы видите, что 801 00:42:13,180 --> 00:42:15,470 здесь вы "Ue", как сам по себе. 802 00:42:15,470 --> 00:42:17,750 И вот у него есть характер рядом с ним. 803 00:42:17,750 --> 00:42:21,720 >> Так что это не так, как в этих языках символов означает слово его, чтобы вы 804 00:42:21,720 --> 00:42:23,980 просто положить много пробелов. 805 00:42:23,980 --> 00:42:25,500 Персонажи связаны друг с другом. 806 00:42:25,500 --> 00:42:28,680 И они могут быть вместе как два, три, один. 807 00:42:28,680 --> 00:42:34,520 Таким образом, вы на самом деле нужно создать какой-то из способ положить эти пробелы. 808 00:42:34,520 --> 00:42:38,850 >> И это то, что всякий раз, когда вы получаете Данные из этих азиатских языков, 809 00:42:38,850 --> 00:42:40,580 все приходит нечленистые. 810 00:42:40,580 --> 00:42:45,940 Потому что нет тот, кто пишет по-японски или китайский пишет пробелами. 811 00:42:45,940 --> 00:42:48,200 Всякий раз, когда вы пишете по-китайски, Японский вы просто написать все, 812 00:42:48,200 --> 00:42:48,710 без пробелов. 813 00:42:48,710 --> 00:42:52,060 Он даже не имеет смысла поставить пробелы. 814 00:42:52,060 --> 00:42:57,960 Итак, когда вы получаете данные из, некоторые Азиатских языков Восток, если вы хотите 815 00:42:57,960 --> 00:43:00,760 сделать что-то с этим вы должны сегменте в первую очередь. 816 00:43:00,760 --> 00:43:05,130 >> Подумайте делать пример тексты без пробелов. 817 00:43:05,130 --> 00:43:07,950 Таким образом, только текст песни, которые вы должны будет приговоры, не так ли? 818 00:43:07,950 --> 00:43:09,470 , Разделенных точками. 819 00:43:09,470 --> 00:43:13,930 Но затем, как раз предложение будет не помогает на предоставление информации 820 00:43:13,930 --> 00:43:17,760 от того, кто эти тексты на. 821 00:43:17,760 --> 00:43:18,120 Не так ли? 822 00:43:18,120 --> 00:43:20,010 Таким образом, вы должны ставит пробелы в первую очередь. 823 00:43:20,010 --> 00:43:21,990 Итак, как можно это сделать? 824 00:43:21,990 --> 00:43:24,920 >> Так потом приходит идея языке модель, которая что-то действительно 825 00:43:24,920 --> 00:43:26,870 важно для вычислительных лингвистика. 826 00:43:26,870 --> 00:43:32,790 Таким образом, языковая модель в основном таблица вероятностей, что шоу 827 00:43:32,790 --> 00:43:36,260 прежде всего какова вероятность того, это слово в языке? 828 00:43:36,260 --> 00:43:39,590 Так, показывающий, как часто слово. 829 00:43:39,590 --> 00:43:43,130 А потом еще и показывающую соотношение между словами в предложении. 830 00:43:43,130 --> 00:43:51,500 >> Таким образом, основная идея состоит в том, если незнакомец пришел Вам и сказал приговор 831 00:43:51,500 --> 00:43:55,600 Вы, какова вероятность того, что для Например, "это моя сестра [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 был приговор, что человек сказал? 833 00:43:57,480 --> 00:44:00,380 Так, очевидно, некоторые приговоры чаще, чем другие. 834 00:44:00,380 --> 00:44:04,450 Например, "доброе утро" или "хорошо ночь ", или" Эй, "гораздо более 835 00:44:04,450 --> 00:44:08,260 общего, чем большинство предложений что у нас есть по-английски. 836 00:44:08,260 --> 00:44:11,060 Так почему же эти предложения более частыми? 837 00:44:11,060 --> 00:44:14,060 >> Прежде всего, это потому, что у вас есть слова, которые чаще. 838 00:44:14,060 --> 00:44:20,180 Так, например, если вы говорите, что собака большой, и собака гигантская, вы 839 00:44:20,180 --> 00:44:23,880 обычно, вероятно, услышать Собака большая чаще, потому что "большой" является более 840 00:44:23,880 --> 00:44:27,260 часто на английском языке, чем "гигантская". Так, один из 841 00:44:27,260 --> 00:44:30,100 вещи частота слово. 842 00:44:30,100 --> 00:44:34,490 >> Вторая вещь, которая действительно важно только 843 00:44:34,490 --> 00:44:35,490 порядок слов. 844 00:44:35,490 --> 00:44:39,500 Таким образом, это принято говорить "кошка внутри коробки. ", но вы этого не сделаете, как правило, 845 00:44:39,500 --> 00:44:44,250 см. в "окне внутри кот." так Вы видите, что есть некоторая важность 846 00:44:44,250 --> 00:44:46,030 в порядке слов. 847 00:44:46,030 --> 00:44:50,160 Вы не можете просто сказать, что эти двое предложения имеют одинаковую вероятность 848 00:44:50,160 --> 00:44:53,010 только потому, что у них есть те же самые слова. 849 00:44:53,010 --> 00:44:55,550 Вы на самом деле должны заботиться о порядке, а также. 850 00:44:55,550 --> 00:44:57,650 Смысл? 851 00:44:57,650 --> 00:44:59,490 >> Так что же нам делать? 852 00:44:59,490 --> 00:45:01,550 Так что я мог бы попытаться получить вас? 853 00:45:01,550 --> 00:45:04,400 Я пытаюсь заставить вас, что мы позвонить модели н-граммовые. 854 00:45:04,400 --> 00:45:09,095 Так модели н-грамм основном предположить что для каждого слова, которое 855 00:45:09,095 --> 00:45:10,960 у вас есть в предложении. 856 00:45:10,960 --> 00:45:15,020 Это вероятность наличия, что Слово есть зависит не только от 857 00:45:15,020 --> 00:45:18,395 Частота этого слова в языке, но также и от слов, которые 858 00:45:18,395 --> 00:45:19,860 окружают его. 859 00:45:19,860 --> 00:45:25,810 >> Так, например, как правило, когда вы видите что-то вроде или на вы 860 00:45:25,810 --> 00:45:28,040 вероятно, увидим существительное после него, не так ли? 861 00:45:28,040 --> 00:45:31,750 Потому что, когда у вас есть предлог обычно это занимает существительное после него. 862 00:45:31,750 --> 00:45:35,540 Или если у вас есть глагол, который транзитивно Вы обычно собираются 863 00:45:35,540 --> 00:45:36,630 есть словосочетание. 864 00:45:36,630 --> 00:45:38,780 Так что это будет иметь существительное где-то вокруг него. 865 00:45:38,780 --> 00:45:44,950 >> Так, в основном, то, что он делает то, что это считает вероятность наличия 866 00:45:44,950 --> 00:45:47,960 слова рядом друг с другом, когда Вы расчета 867 00:45:47,960 --> 00:45:49,050 вероятность предложения. 868 00:45:49,050 --> 00:45:50,960 И вот, что такое язык модель в принципе. 869 00:45:50,960 --> 00:45:54,620 Просто говорю, что это вероятность из имеющего удельную 870 00:45:54,620 --> 00:45:57,120 Приговор в языке? 871 00:45:57,120 --> 00:45:59,110 Так почему же, что полезно, в основном? 872 00:45:59,110 --> 00:46:02,390 И в первую очередь то, что модель н-г, то? 873 00:46:02,390 --> 00:46:08,850 >> Так модель н-г означает, что каждое слово зависит от 874 00:46:08,850 --> 00:46:12,700 Следующий N минус 1 слов. 875 00:46:12,700 --> 00:46:18,150 Так, в основном, это означает, что если я смотрю, например, на CS50 TF, когда 876 00:46:18,150 --> 00:46:21,500 Я вычисления вероятности приговор, будешь как " 877 00:46:21,500 --> 00:46:25,280 вероятность того, слово "" раза вероятность наличия " 878 00:46:25,280 --> 00:46:31,720 CS50 "раз вероятность наличия "CS50 TF." Так, в основном, я считаю 879 00:46:31,720 --> 00:46:35,720 все возможные способы растягивая ее. 880 00:46:35,720 --> 00:46:41,870 >> А потом, как правило, когда вы делаете это, как в проекте, вы ставите N быть 881 00:46:41,870 --> 00:46:42,600 низкое значение. 882 00:46:42,600 --> 00:46:45,930 Так, как правило, имеют биграмм или триграмм. 883 00:46:45,930 --> 00:46:51,090 Так что вы просто посчитать два словами, группа из двух слов, или трех слов, 884 00:46:51,090 --> 00:46:52,620 просто за сбои в работе. 885 00:46:52,620 --> 00:46:56,395 А также потому, может быть, если у вас есть что-то вроде "The CS50 TF." Когда вы 886 00:46:56,395 --> 00:47:00,510 есть "TF", это очень важно, что "CS50" рядом с ним, не так ли? 887 00:47:00,510 --> 00:47:04,050 Эти две вещи, как правило, рядом друг с другом. 888 00:47:04,050 --> 00:47:06,410 >> Если вы думаете о "TF", это, вероятно, будет иметь то, что 889 00:47:06,410 --> 00:47:07,890 Класс это TF'ing для. 890 00:47:07,890 --> 00:47:11,330 Кроме того, "" что действительно важно для CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Но если у вас есть что-то вроде "The CS50 TF пошел в класс и дал их 892 00:47:14,570 --> 00:47:20,060 студенты некоторые конфеты. "" Конфеты "и" " не имеют никакого отношения действительно, не так ли? 893 00:47:20,060 --> 00:47:23,670 Они так далеко друг от друга, что это действительно не имеет значения, что 894 00:47:23,670 --> 00:47:25,050 слова у вас есть. 895 00:47:25,050 --> 00:47:31,210 >> Так, делая биграмм или триграмма, это просто означает, что вы ограничиваете 896 00:47:31,210 --> 00:47:33,430 себе некоторых слов что вокруг. 897 00:47:33,430 --> 00:47:35,810 Смысл? 898 00:47:35,810 --> 00:47:40,630 Итак, когда вы хотите сделать сегментацию, в основном, то, что вы хотите сделать, это увидеть 899 00:47:40,630 --> 00:47:44,850 каковы все возможные способы, которые вы можете разбить предложение. 900 00:47:44,850 --> 00:47:49,090 >> Такой, что вы видите, что является вероятность каждого из этих предложений 901 00:47:49,090 --> 00:47:50,880 существующих в языке? 902 00:47:50,880 --> 00:47:53,410 Так что вы делаете это как, ну, пусть мне попробовать поставить пробел здесь. 903 00:47:53,410 --> 00:47:55,570 Таким образом, вы поставить пробел есть и вы видите, что является 904 00:47:55,570 --> 00:47:57,590 вероятность того, что приговор? 905 00:47:57,590 --> 00:48:00,240 Тогда вы, как, в порядке, может быть, что не было настолько хорошо. 906 00:48:00,240 --> 00:48:03,420 Так что я поставить пробел там и пространстве там, и вам рассчитать 907 00:48:03,420 --> 00:48:06,240 Вероятность сейчас, и вы видите, что это высокая вероятность. 908 00:48:06,240 --> 00:48:12,160 >> Так что это алгоритм называется ТАНГО Алгоритм сегментации, который 909 00:48:12,160 --> 00:48:14,990 на самом деле то, что было бы действительно остыть в течение проекта, который 910 00:48:14,990 --> 00:48:20,860 в основном берет нечленистые текст, который может быть японский или китайский или, может быть, 911 00:48:20,860 --> 00:48:26,080 Английский без пробелов и пытается поместить пробелы между словами и это делает 912 00:48:26,080 --> 00:48:29,120 что с помощью языковую модель и пытаясь разглядеть, что является самым высоким 913 00:48:29,120 --> 00:48:31,270 вероятность вы можете получить. 914 00:48:31,270 --> 00:48:32,230 ОК. 915 00:48:32,230 --> 00:48:33,800 Так что это сегментация. 916 00:48:33,800 --> 00:48:35,450 >> Теперь синтаксис. 917 00:48:35,450 --> 00:48:40,940 Так, синтаксис используется для так много вещей, прямо сейчас. 918 00:48:40,940 --> 00:48:44,880 Таким образом, для Graph Поиск, для Siri для почти любой вид природного 919 00:48:44,880 --> 00:48:46,490 язык обработки у вас есть. 920 00:48:46,490 --> 00:48:49,140 Так что важно вещи о синтаксисе? 921 00:48:49,140 --> 00:48:52,390 Так, предложения в целом имеют что мы называем составляющие. 922 00:48:52,390 --> 00:48:57,080 Какие вроде как группы слов которые имеют функцию в предложении. 923 00:48:57,080 --> 00:49:02,220 И они не могут действительно быть друг от друга. 924 00:49:02,220 --> 00:49:07,380 >> Так что, если я говорю, например, "Лорен любит Мило. "Я знаю, что" Лорен "является 925 00:49:07,380 --> 00:49:10,180 составной и затем "любит Мило "также еще один. 926 00:49:10,180 --> 00:49:16,860 Потому что вы не можете сказать, как "Лорен Мило любит "иметь тот же смысл. 927 00:49:16,860 --> 00:49:18,020 Это не будет иметь тот же смысл. 928 00:49:18,020 --> 00:49:22,500 Или я не могу сказать, как "Мило Lauren любит. "Не все имеет те же 929 00:49:22,500 --> 00:49:25,890 означает делать это. 930 00:49:25,890 --> 00:49:31,940 >> Таким образом, две более важные вещи, о Синтаксис являются лексические типы которых является 931 00:49:31,940 --> 00:49:35,390 в основном функция, что вы есть слова сами по себе. 932 00:49:35,390 --> 00:49:39,180 Таким образом, вы должны знать, что "Лорен" и "Мило" существительные. 933 00:49:39,180 --> 00:49:41,040 "Любовь" это глагол. 934 00:49:41,040 --> 00:49:45,660 И вторая важная вещь что они фразовые типы. 935 00:49:45,660 --> 00:49:48,990 Таким образом, вы знаете, что "любит Майло" на самом деле является словесное фраза. 936 00:49:48,990 --> 00:49:52,390 Поэтому, когда я говорю "Лорен", я знаю, что Лорен делает что-то. 937 00:49:52,390 --> 00:49:53,620 Что она делает? 938 00:49:53,620 --> 00:49:54,570 Она любящая Майло. 939 00:49:54,570 --> 00:49:56,440 Так что это все дело. 940 00:49:56,440 --> 00:50:01,640 Но его компоненты существительное и глагол. 941 00:50:01,640 --> 00:50:04,210 Но вместе, они делают глагол фразу. 942 00:50:04,210 --> 00:50:08,680 >> Итак, что мы можем реально сделать с компьютерная лингвистика? 943 00:50:08,680 --> 00:50:13,810 Так что, если у меня есть кое-что для примера «друзья Allison». Я вижу, если я просто 944 00:50:13,810 --> 00:50:17,440 сделал синтаксический дерево я буду знать, что "Друзья" является именная это 945 00:50:17,440 --> 00:50:21,480 существительное, а затем "из Allison» является предложная, в котором "из" является 946 00:50:21,480 --> 00:50:24,810 предложение и "Аллисон" является существительным. 947 00:50:24,810 --> 00:50:30,910 Что я мог сделать, это научить свой компьютер , что, когда у меня есть Именная один и 948 00:50:30,910 --> 00:50:33,080 затем предложная. 949 00:50:33,080 --> 00:50:39,020 Так в данном случае, "друзья", а затем "из Мило "Я знаю, что это означает, что 950 00:50:39,020 --> 00:50:43,110 NP2, второй, владеет NP1. 951 00:50:43,110 --> 00:50:47,680 >> Так что я могу создать какое-то отношение, какая-то функции для него. 952 00:50:47,680 --> 00:50:52,370 Поэтому, когда я вижу эту структуру, которая совпадает хотя бы с "друзьями 953 00:50:52,370 --> 00:50:56,030 Эллисон: "Я знаю, что Эллисон владеет друзей. 954 00:50:56,030 --> 00:50:58,830 Так что друзья являются чем-то что Эллисон имеет. 955 00:50:58,830 --> 00:50:59,610 Имеет смысл? 956 00:50:59,610 --> 00:51:01,770 Так что это в основном то, что График Поиск делает. 957 00:51:01,770 --> 00:51:04,360 Это просто создает правила для многих вещей. 958 00:51:04,360 --> 00:51:08,190 Так «друзья Allison", "мои друзья кто живет в Кембридже "," мои друзья 959 00:51:08,190 --> 00:51:12,970 кто учился в Гарварде ". Это создает правила для всех этих вещей. 960 00:51:12,970 --> 00:51:14,930 >> Теперь машинного перевода. 961 00:51:14,930 --> 00:51:18,850 Так, машинный перевод также что-то статистический. 962 00:51:18,850 --> 00:51:21,340 А на самом деле, если вы попали в компьютерная лингвистика, много 963 00:51:21,340 --> 00:51:23,580 Ваш материал будет статистика. 964 00:51:23,580 --> 00:51:26,670 Так как я делал пример с много вероятностей, что я был 965 00:51:26,670 --> 00:51:30,540 расчета, и тогда вы получите на это очень небольшое количество, это финал 966 00:51:30,540 --> 00:51:33,180 Вероятность, и вот что дает вам ответ. 967 00:51:33,180 --> 00:51:37,540 Машинный перевод также использует статистическая модель. 968 00:51:37,540 --> 00:51:44,790 И если вы хотите думать о машине перевод в простейшая 969 00:51:44,790 --> 00:51:48,970 образом, то, что вы можете думать только перевести слово в слово, не так ли? 970 00:51:48,970 --> 00:51:52,150 >> Когда вы изучаете язык для первый раз, что, как правило, что 971 00:51:52,150 --> 00:51:52,910 что вы делаете, не так ли? 972 00:51:52,910 --> 00:51:57,050 Если хотите, то вы перевести предложение на Вашем языке к языку 973 00:51:57,050 --> 00:52:00,060 Вы учитесь, как правило, во-первых, вы перевести каждое из слов 974 00:52:00,060 --> 00:52:03,180 индивидуально, а затем попробуйте положить слова на свои места. 975 00:52:03,180 --> 00:52:07,100 >> Так что, если я хотел, чтобы перевести это, [ГОВОРЯ ПОРТУГАЛИИ] 976 00:52:07,100 --> 00:52:10,430 , что означает "белая кошка убежала." Если бы я хотел, чтобы перевести его из 977 00:52:10,430 --> 00:52:13,650 С португальского на английский, то, что я может сделать, это, во-первых, я просто 978 00:52:13,650 --> 00:52:14,800 перевести слово в слово. 979 00:52:14,800 --> 00:52:20,570 Так «о» "," "гато", "кошка" "Бранко", "белый", а затем "fugio" является 980 00:52:20,570 --> 00:52:21,650 "Убежал". 981 00:52:21,650 --> 00:52:26,130 >> Так то у меня есть все слова здесь, но они не в порядке. 982 00:52:26,130 --> 00:52:29,590 Это как "кошка белый убежал" который безграмотно. 983 00:52:29,590 --> 00:52:34,490 Так, то я могу иметь второй шаг, который собирается быть найти идеал 984 00:52:34,490 --> 00:52:36,610 положение для каждого из слов. 985 00:52:36,610 --> 00:52:40,240 Так что я знаю, что я на самом деле хочу иметь "Белая кошка" вместо "кошка, белый." Так 986 00:52:40,240 --> 00:52:46,050 что я могу сделать, это, самые наивные методу было бы создать все 987 00:52:46,050 --> 00:52:49,720 возможных перестановок слова, из позиций. 988 00:52:49,720 --> 00:52:53,300 А потом посмотреть, что один имеет Наибольшая вероятность в соответствии 989 00:52:53,300 --> 00:52:54,970 на мой языковой модели. 990 00:52:54,970 --> 00:52:58,390 А потом, когда я найти тот, который имеет наибольшая вероятность его, что 991 00:52:58,390 --> 00:53:01,910 вероятно, "белая кошка убежала," вот мой перевод. 992 00:53:01,910 --> 00:53:06,710 >> И это простой способ объяснения как много машинного перевода 993 00:53:06,710 --> 00:53:07,910 алгоритмы работы. 994 00:53:07,910 --> 00:53:08,920 Имеет ли это смысл? 995 00:53:08,920 --> 00:53:12,735 Это также то, очень интересно что вы, ребята могут, может быть, разведку 996 00:53:12,735 --> 00:53:13,901 Окончательный проект, да? 997 00:53:13,901 --> 00:53:15,549 >> СТУДЕНТ: Ну, ты сказал, что наивный способ, так в чем 998 00:53:15,549 --> 00:53:17,200 не-наивным способом? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS ФРЕЙТАШ: не-наивным способом? 1000 00:53:18,400 --> 00:53:19,050 ОК. 1001 00:53:19,050 --> 00:53:22,860 Таким образом, первое, что в этом плохого этот метод в том, что я только что перевел 1002 00:53:22,860 --> 00:53:24,330 слова, слово в слово. 1003 00:53:24,330 --> 00:53:30,570 Но иногда у вас есть слова, которые может иметь несколько переводов. 1004 00:53:30,570 --> 00:53:32,210 Я собираюсь попытаться думать чего-то. 1005 00:53:32,210 --> 00:53:37,270 Например, "манга" в португальском банке либо "калечить" или "рукав". Так 1006 00:53:37,270 --> 00:53:40,450 когда вы пытаетесь перевести слово словом, это может быть давая вам 1007 00:53:40,450 --> 00:53:42,050 то, что не имеет никакого смысла. 1008 00:53:42,050 --> 00:53:45,770 >> Таким образом, вы на самом деле хотите, чтобы вы посмотрите на все возможные переводы 1009 00:53:45,770 --> 00:53:49,840 слова и увидеть, в первую очередь, каков порядок. 1010 00:53:49,840 --> 00:53:52,000 Мы говорили о перестановки вещи? 1011 00:53:52,000 --> 00:53:54,150 Чтобы увидеть все возможные заказы и выбрать один с самой высокой 1012 00:53:54,150 --> 00:53:54,990 вероятность? 1013 00:53:54,990 --> 00:53:57,860 Вы также можете выбрать все возможные переводы для каждого 1014 00:53:57,860 --> 00:54:00,510 слово, а затем посмотреть - 1015 00:54:00,510 --> 00:54:01,950 в сочетании с перестановок - 1016 00:54:01,950 --> 00:54:03,710 какой имеет высокую вероятность. 1017 00:54:03,710 --> 00:54:08,590 >> Кроме того, вы также можете посмотреть на не только слова, но фразы. 1018 00:54:08,590 --> 00:54:11,700 так что вы можете проанализировать отношения между слова и затем получить 1019 00:54:11,700 --> 00:54:13,210 лучше перевод. 1020 00:54:13,210 --> 00:54:16,690 Также что-то еще, так что в этом семестре Я на самом деле занимался исследованиями в 1021 00:54:16,690 --> 00:54:19,430 Китайско-английский машинного перевода, так в переводе с 1022 00:54:19,430 --> 00:54:20,940 Китайский на английский язык. 1023 00:54:20,940 --> 00:54:26,760 >> И то, что мы сделать, это, помимо использования статистическая модель, которая является просто 1024 00:54:26,760 --> 00:54:30,570 видя вероятности видя некоторые позиции в предложении, я 1025 00:54:30,570 --> 00:54:35,360 на самом деле также добавить некоторые синтаксис для моей модель, говоря о, если бы я увидеть этот вид 1026 00:54:35,360 --> 00:54:39,420 строительства, это то, что я хочу чтобы изменить его, когда я перевожу. 1027 00:54:39,420 --> 00:54:43,880 Таким образом, вы также можете добавить какую-то элемент синтаксиса, чтобы сделать 1028 00:54:43,880 --> 00:54:47,970 перевод более эффективным и точнее. 1029 00:54:47,970 --> 00:54:48,550 ОК. 1030 00:54:48,550 --> 00:54:51,010 >> Итак, как можно начать, если вы хотите сделать что-то в вычислительной 1031 00:54:51,010 --> 00:54:51,980 лингвистика? 1032 00:54:51,980 --> 00:54:54,560 >> Во-первых, вы выбираете проект который включает в себя языки. 1033 00:54:54,560 --> 00:54:56,310 Так, есть так много там. 1034 00:54:56,310 --> 00:54:58,420 Там так много вещей, которые вы можете сделать. 1035 00:54:58,420 --> 00:55:00,510 А потом можно думать о модели что вы можете использовать. 1036 00:55:00,510 --> 00:55:04,710 Обычно это означает, что мышление предположения, так же как, ну, когда я был 1037 00:55:04,710 --> 00:55:05,770 как мышления лирики. 1038 00:55:05,770 --> 00:55:09,510 Я подумала: хорошо, если я хочу, чтобы выяснить из который написал это, я, вероятно, хотите 1039 00:55:09,510 --> 00:55:15,400 посмотреть на словах человек использовал и увидеть, кто очень часто использует это слово. 1040 00:55:15,400 --> 00:55:18,470 Поэтому постарайтесь, чтобы делать предположения и стараюсь думать о моделях. 1041 00:55:18,470 --> 00:55:21,395 И тогда вы можете также искать онлайн рода проблемы, что у вас есть, 1042 00:55:21,395 --> 00:55:24,260 и он собирается предложить к вам моделей, которые, может быть, 1043 00:55:24,260 --> 00:55:26,560 моделируется что вещь хорошо. 1044 00:55:26,560 --> 00:55:29,080 >> А также вы всегда можете написать мне. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 И я могу только ответить на ваши вопросы. 1047 00:55:34,940 --> 00:55:38,600 Мы можем даже может встретиться, чтобы я мог дать предложения о путях 1048 00:55:38,600 --> 00:55:41,490 реализации проекта. 1049 00:55:41,490 --> 00:55:45,610 И я имею в виду, если вы попали в компьютерная лингвистика, это будет 1050 00:55:45,610 --> 00:55:46,790 чтобы быть большим. 1051 00:55:46,790 --> 00:55:48,370 Вы будете видеть там такой потенциал. 1052 00:55:48,370 --> 00:55:52,060 И индустрия хочет нанять Вы так плохо из-за этого. 1053 00:55:52,060 --> 00:55:54,720 Поэтому я надеюсь, вы, ребята, наслаждался этим. 1054 00:55:54,720 --> 00:55:57,030 Если вы, ребята есть какие-либо вопросы, Вы можете спросить меня после этого. 1055 00:55:57,030 --> 00:55:58,280 Но спасибо. 1056 00:55:58,280 --> 00:56:00,150