LUCAS ФРЕЙТАШ: Эй. Приветствую всех. Меня зовут Лукас Фрейтас. Я младший в [неразборчиво] изучения информатика с акцентом в компьютерная лингвистика. Так что мой вторичный находится в языке и лингвистическая теория. Я действительно взволнован, чтобы научить вас, ребята немного о поле. Это очень захватывающая область для изучения. Также с большим потенциалом на будущее. Так что, я очень рад, что вы, ребята, рассматривают проекты в компьютерная лингвистика. И я буду более чем счастлив советую Кто-нибудь из вас, если вы решите преследовать одну из них. 

Итак, прежде всего, каковы вычислительная лингвистика? Так компьютерная лингвистика является Пересечение между лингвистикой и информатика. Итак, что такое лингвистика? Что такое информатика? Ну от лингвистики, что мы принимаем являются языками. Так лингвистика на самом деле изучение естественного языка в целом. Так естественный язык - мы говорим о язык, который мы можем использовать, чтобы общаются друг с другом. Так что мы не точно говорю о С или Java. Мы говорим больше о английском и Китайский и другие языки, которые мы использовать для связи друг с другом. 

Сложная вещь о том, что в том, что Прямо сейчас у нас есть почти 7000 языков в мире. Таким образом, есть довольно высокий разнообразие языков, что мы можем учиться. А потом вы думаете, что это, вероятно, очень трудно сделать, например, перевод с одного языка на другом, учитывая, что вы должны почти 7000 из них. Так что, если вы думаете, что делать перевод с одного языка на другой, вы есть едва ли не больше, чем на миллион различные комбинации, которые вы можете есть от языка к языку. Так что это действительно вызов, чтобы сделать некоторые Такая система примером перевод каждый язык. 

Так, лингвистика относится с синтаксисом, семантика, прагматика. Вы, ребята точно не нужно знать, что они есть. Но очень интересная вещь в том, что как носитель, когда вы узнаете, язык как ребенка, вы на самом деле узнать все из тех вещей, - семантика синтаксис и прагматика - самостоятельно. И никто не должен учить вас синтаксис вам понять, как приговоры структурированы. Таким образом, это действительно интересно, потому что это то, что приходит очень интуитивно. 

И что вы принимаете от информатика? Ну и самое главное, что мы есть в информатике, в первую все, искусственный интеллект и машинное обучение. Итак, что мы пытаемся делать вычислительная лингвистика является научить ваш компьютер, как сделать что-то с языком. 

Так, например, в машине перевод. Я пытался научить мой компьютер хау знать, как переход от одной языка на другой. Так, в основном нравится учение компьютерные два языка. Если я делаю обработки естественного языка, что имеет место, например, из Facebook, График Поиск, вы учите ваш компьютер, как понять Запросы также. 

Так что, если вы говорите "фотографий моего друзья. "Facebook не лечит, что в целом строки, которая имеет просто куча слов. Это на самом деле понимает отношения между "фото" и "моих друзей" и понимает, что "фото" являются собственностью "моих друзей". 

Так, что это часть, например, обработки естественного языка. Он пытается понять, что это отношение между слова в предложении. И большой вопрос, не так ли научить компьютер, как говорить язык в целом? Что очень интересный вопрос, чтобы думаю, как бы, может быть, в будущем, вы собираетесь быть в состоянии говорить на свой мобильный телефон. Вроде как то, что мы делаем с Siri, но нечто большее, как, вы можете на самом деле говорить все, что вы хотите, и телефон собирается все понимаю. И это может иметь последующие вопросы и продолжать говорить. Это то, что действительно интересно, на мой взгляд. 

Так, что-то о естественных языках. Что-то действительно интересно естественные языки, что и это кредит на мой профессор лингвистики, Мария Полинский. Она приводит пример, и я думаю, это действительно интересно. Потому что мы выучить язык от того, когда мы родились, а затем наш родной язык вид растет на нас. 

И в основном вы узнаете язык от минимальной мощностью, не так ли? Ты просто получении ввода из вашего родители, что звучит ваш язык нравится, и вы просто научиться. Таким образом, это интересно, потому что если вы посмотрите на этих предложений, например. Глядишь, "Мэри надевает пальто каждого раз она уходит из дома ". 

В этом случае, возможно, чтобы иметь Слово "она" относятся к Марии, не так ли? Вы можете сказать: "Мария ставит на пальто каждый раз, когда Мэри оставляет дом. ", так что все в порядке. Но тогда, если вы посмотрите на предложения "Она надевает пальто каждый раз Мэри выходит из дома. "Вы знаете, что это Нельзя сказать, что "она" является ссылаясь на Марии. 

Там нет способ сказать, что "Мария ставит на пальто каждый раз Мэри оставляет дом. "Так что это интересно, потому что это вид интуиции что каждый носитель языка имеет. И никто не учили, что это так, что синтаксис работает. И что вы можете иметь только этот "она" ссылаясь на Марии в этом первом случае, а на самом деле в этом другом тоже, но не в этом. Но все рода получает к тому же ответа. Все согласны с тем на этом. Так что это действительно интересно, как хотя вы не знаете всех правил на Вашем языке вы отчасти понимаю как работает язык. 

Так самое интересное о природных язык, что вы не должны знаю ни синтаксис знать, если приговор грамматически или безграмотно для в большинстве случаев. Которая заставляет вас думать, что, может быть, то, что происходит то, что через вашу жизнь, вы просто держать становится все больше и больше приговоры сказал вам. И тогда вы держите запоминания все предложения. А потом, когда кто-то говорит вам, что-то, вы слышите эту фразу и вы посмотрите на вашего словарного запаса приговоров и посмотреть, если что приговор есть. И если она есть у вас говорят, что это грамматическая. Если это не вы сказать, что это безграмотно. 

Так, в этом случае, вы бы сказали, о, так у вас есть огромный список всех возможные предложения. А потом, когда вы слышите фразу, Вы знаете, если это грамматическая или не на его основе. Дело в том, что если вы посмотрите на фраза, например, " пятиглавый CS50 ТФ приготовленные слепых осьминог, используя DAPA кружку ". Это определенно не приговор что вы слышали раньше. Но в то же время вы знаете, что это в значительной степени грамматических, не так ли? Там нет грамматических ошибок и вы можете сказать, что это возможно приговор. 

Так что заставляет нас думать, что на самом деле способ, которым мы узнаем язык является не только , имея огромную базу данных можно слова или предложения, но больше понимание соотношение между слова в этих предложениях. Имеет ли это смысл? Так, то вопрос в том, может компьютеры изучать языки? Можем ли мы научить язык с компьютерами? 

Итак, давайте думать о различии между носителем языка и компьютер. Итак, что же происходит с динамиком? Ну, носитель языка узнает язык от воздействия на него. Обычно ее ранние детские годы. Так, в основном, вы просто родить ребенка, и вы продолжать говорить с ним, и это просто учится говорить язык, не так ли? Итак, вы в основном давая вход для ребенка. Так, вы можете утверждать, что компьютер может сделать то же самое, не так ли? Вы можете просто дать языку в качестве вклада в компьютере. 

Как, например, куча файлов что есть книги на английском языке. Может быть, это один из способов, что вам могли бы научить компьютер английский, не так ли? И в самом деле, если вы думаете об этом, она принимает вас, может быть, пару дней, чтобы прочитать книгу. Для компьютера это занимает секунды, чтобы смотреть на все слова в книге. Таким образом, вы можете думать, что может быть только этот Аргумент вклада вокруг вас, это не достаточно, чтобы сказать, что это то, что только люди могут сделать. Вы можете думать компьютеры также можете получить вход. 

Вторая вещь, что носители языка также есть мозг, который имеет Возможность изучения языка. Но если вы думаете об этом, Мозг является твердой вещью. Когда вы родились, это уже не установлен - это ваш мозг. И, как ты вырастешь, вы просто получите более ввод языке и, возможно, питательные вещества и другие вещи. Но в значительной степени ваш мозг является твердой вещью. 

Так что вы можете сказать, ну, может быть, вы можете построить компьютер, который имеет кучу функции и методы, которые просто имитируют Возможность изучения языка. Так что в этом смысле, можно сказать,, ну, я может есть компьютер, который имеет все Что еще следует выучить язык. И последнее, что в том, что уроженец динамик узнает от проб и ошибок. Поэтому в основном еще одна важная вещь в изучение языка является то, что вы вроде из узнать вещи, сделав обобщения, что вы слышите. 

Итак, как вы растут вы узнаете, что некоторые слова больше похожи существительных, некоторые другие из них прилагательные. И вы не должны есть какие-либо знание лингвистики понять, что. Но вы просто знаю, что есть некоторые слова расположены в некоторой части Приговор и некоторые другие в другом части приговора. 

И, что, когда вы делаете что-то, что как приговор, который не правильно - может быть, из-за более обобщения например. Может быть, когда вы растете, вы заметите, что множественное число, как правило, формируется положить S на конец слова. А потом вы попытаетесь сделать множественное число "Олень", как "оленей" или "зуб", как "Tooths". Итак ваши родители или кто-то исправляет вас и говорит, нет, множественное число от "Олень" является "олень", а множественное число от "зуба" есть "зубы". А потом вы узнаете эти вещи. Так вы узнаете из проб и ошибок. 

Но вы также можете сделать это с компьютером. Вы можете иметь то, что называется обучение с подкреплением. Какие в основном, как давать компьютер награда, когда он делает что-то правильно. И придав ему противоположное награды и когда он делает что-то не так. Вы можете увидеть, что, если вы идете в Google Translate, и вы пытаетесь перевести предложение, это просит вас для обратной связи. Так что, если вы говорите, ну, есть лучший перевод этой фразы. Вы можете ввести его, а затем, если много люди продолжают говорить, что это лучше, перевод, он просто узнает, что она должны использовать эту перевод вместо один он давал. 

Таким образом, это очень философский вопрос чтобы увидеть, если компьютеры будут в состоянии говорить или нет в будущем. Но у меня есть большие надежды, что они могут только на основе этих аргументов. Но это только больше философский вопрос. 

Таким образом, хотя компьютеры все еще не может говорить, что те вещи, которые мы можем сделать? Некоторые действительно классные вещи являются классификации данных. Так, например, вы, ребята, знаете, что услуги электронной почты сделать, для Например, фильтрация спама. Поэтому, когда вы получаете спам, это пытается фильтровать в другой коробке. Так, как это сделать? Это не то, что компьютер просто знает что адреса электронной почты рассылки спама. Так что это в большей степени базируется на содержании сообщение, или, может быть название, или возможно, некоторые картины, которые у вас есть. 

Так, в основном, то, что вы можете сделать, это получить много данных писем, которые спам, письма, которые не спам, а также узнать, что вид модели, которые вы имеете в Те, которые являются спамом. И это является частью вычислительной лингвистика. Она называется классификации данных. И мы на самом деле происходит, чтобы увидеть пример, что в следующих слайдах. 

Вторая вещь естественный язык обработка которых это то, что График Поиск делает того, чтобы позволить Вы пишете предложение. И это доверяет вам понять, что смысл и дает Вы лучший результат. На самом деле, если вы идете в Google или Bing и вы будете искать что-то вроде Леди Высота Гага, вы на самом деле происходит чтобы получить 5 "1" вместо информации от нее, потому что это на самом деле понимает то, что вы говорите. Так вот часть природного язык обработки. 

Или также, когда вы используете Siri, прежде у вас есть алгоритм, который пытается перевести то, что вы говорите, словами, в тексте. А потом он пытается перевести что в смысле. Так что все это часть естественной язык обработки. 

Тогда у вас есть машинный перевод - которые на самом деле одна из моих любимых - который просто перевод с языка на другой. Таким образом, вы можете думать, что, когда вы делаете машинный перевод, у вас есть бесконечные возможности приговоров. Так что нет никакого способа, чтобы просто хранить каждый перевод. Таким образом, вы должны придумать интересное Алгоритмы, чтобы иметь возможность перевести каждый Приговор в некотором роде. 

Вы, ребята, есть какие-либо вопросы до сих пор? Нет? ОК. 

Так что мы будем видеть сегодня? Прежде всего, я собираюсь говорить о задача классификации. Таким образом, тот, который я был говоря о спаме. То, что я собираюсь сделать, это, учитывая текст песню, вы можете попытаться выяснить, с высокой вероятностью который является певцом? Давайте предположим, что у меня есть песни из леди Гага и Кэти Перри, если я дам вам Новая песня, вы можете выяснить, если это Кэти Перри или Леди Гага? 

Второй, я просто хочу поговорить о проблеме сегментации. Так что я не знаю, если вы, ребята, знаю, но Китайский, японский, другу Восточной Азии языки, и другие языки в общем, не имеют пробелы между словами. И потом, если вы думаете о том, как этого ваш компьютер рода попыток понять обработки естественного языка, это выглядит на слова и пытается понять отношения между ними, не так ли? Но тогда, если у вас есть китайский, и вы имеют нулевые пробелы, это действительно трудно выяснить, каково отношение между слова, потому что они не имеют никаких слова в первую очередь. Так что вам нужно сделать то, что называется Сегментация который просто означает, положив пространства между тем, что мы назвали бы слова на этих языках. Смысл? 

А потом мы собираемся говорить о синтаксисе. Так что просто немного о естественной язык обработки. Это будет просто обзор. Так что сегодня, в основном, что я хочу сделать это дать Вам парней немного внутри каковы возможности что вы можете сделать с вычислительной лингвистика. И тогда вы сможете увидеть то, что вы думаете прохладно к числу тех вещей. А может быть, вы можете думать о проекте и прийти поговорить со мной. И я могу дать вам совет о том, как его реализовать. 

Так синтаксис будет немного о Graph Поиск и машины перевод. Я просто хочу, чтобы дать пример того, как вы могли бы, например, перевести что-то из португальского на английский. Звучит хорошо? 

Итак, сначала задача классификации. Скажу, что эта часть семинара будет самым сложным один только потому, что там происходит быть некоторое кодирование. Но это будет Python. Я знаю, вы, ребята, не знаю, Python, поэтому Я просто хочу, чтобы объяснить на высокой уровень, что я делаю. И у вас нет по-настоящему заботиться слишком много о синтаксисе, потому что это что-то вы, ребята, можете узнать. ОК? Звучит хорошо. 

Так в чем же проблема классификации? Таким образом, вы дали некоторые песни, чтобы песня, и вы хотите, чтобы догадаться, кто поет ее. И это может быть для любого вида других проблем. Таким образом, можно, например, у вас есть Президентская кампания и у вас есть речь, и вы хотите найти , если это было, например, Обама или Митт Ромни. Или вы можете иметь кучу писем и Вы хотите, чтобы выяснить, если они спамом или нет. Так что это просто классификации некоторых данные, основанные на словах что у вас там. 

Таким образом, чтобы сделать это, вы должны сделать некоторые предположения. Так много о вычислительной лингвистики делает предположения, обычно умные предположения, так что Вы можете получить хорошие результаты. Попытка создать модель для него. А потом попробовать его и посмотреть, если это работает, если он дает хорошую точность. И если это произойдет, то вы попытаться улучшить его. Если этого не произойдет, вы, как, в порядке, может быть, я должны сделать другой предположение. 

Таким образом, предположение, что мы собираемся сделать то, что художник, как правило, поет о теме несколько раз, и, возможно, использует слова несколько раз просто потому что они привыкли к нему. Вы можете просто думать о своем другу. Я уверен, что все вы, ребята, есть друзья что сказать, их подписи фразу, буквально для каждого отдельного предложения - как какого-то определенного слова или некоторых конкретных фраза, что мол для каждый приговор. 

А что вы можете сказать, что если вы видите приговор, который имеет подпись Фраза, можно догадаться, что, вероятно, ваш друг один говорит это, не так ли? Так вы сделаете это предположение, а затем это, как вы создать модель. 

Пример, который я собираюсь дать на как Lady Gaga, например, люди сказать, что она использует "BABY" для все ее номер один песни. А на самом деле это видео, которое показывает она говорила слово "ребенок" для разные песни. 

[ВИДЕОВОСПРОИЗВЕДЕНИЕ] 

- (Поет) Детские. Детские. Детские. Детские. Детские. Малыш. Детские. Детские. Детские. Детские. 

[КОНЕЦ ВИДЕОВОСПРОИЗВЕДЕНИЕ- 

LUCAS ФРЕЙТАШ: Так что, я думаю, 40 песни здесь, в котором она говорит Слово "ребенок". Таким образом, вы можете в основном думаю что, если вы видите песню, которая имеет слово "ребенок", есть некоторые высокие Вероятность того, что это Леди Гага. Но давайте попробуем развивать это далее более формально. 

Таким образом, эти тексты к песням Леди Гага и Кэти Перри. Таким образом, вы посмотрите на Lady Gaga, вы видите, что они есть много случаев из "ребенка", много вхождений "пути". А потом Кэти Перри имеет много вхождений "," Много вхождений "огонь". 

Поэтому в основном то, что мы хотим сделать, это, вы получите лирику. Давайте предположим, что вы получаете лирику для песня, которая является "ребенок", просто "ребенок". Если вы просто получите слово "ребенок", и это все данные, которые у вас есть с Леди Гага и Кэти Перри, которые бы вы догадались это человек, кто поет песню? Леди Гага или Кэти Перри? Lady Gaga, не так ли? Потому что она единственная, кто говорит "Ребенок". Это звучит глупо, не так ли? Хорошо, это действительно просто. Я просто смотрю на двух песен и Конечно, она единственная, кто имеет "Ребенок". 

Но что, если у вас есть куча слов? Если у вас есть свежая Лирика, что-то как, "ребенок, я просто пошли, чтобы видеть [? ФТ?] лекция ", или что-то в этом роде, и то вы на самом деле должны выяснить - на основе всех этих слов - который является художник, который, вероятно, пел эту песню? Так давайте попробуем разработать это немного дальше. 

Итак, на основе только на данных, которые мы получил, кажется, что Гага, вероятно, певец. Но как мы можем написать это более формально? И это будет немного Немного статистики. Так что, если вы заблудились, просто попробуйте понять концепцию. Это не имеет значения, если вы понимаете, уравнения на отлично. Это все будет в Интернете. 

Поэтому в основном то, что я расчета является вероятность того, что эта песня по Леди Гага, учитывая, что - так этот бар означает, учитывая, что - Я видел слово "ребенок". Имеет ли это смысл? Так что я пытаюсь вычислить что вероятность. 

Так что есть эта теорема называется Теорема Байеса, что говорит о том, что вероятность данного B, является вероятность B дали, раз вероятность, по вероятности В. Это длинный уравнение. Но то, что вы должны понять, от то есть, что это то, что я хочу рассчитать, не так ли? Таким образом, вероятность того, что эта песня по Леди Гага учитывая, что я увидел слово "Ребенок". 

А теперь, что я получаю является вероятность слова "ребенок" с учетом что у меня есть Lady Gaga. А что такое, что в принципе? Это означает,, что является Возможность поступления слово "ребенок" в Gaga текстах? Если я хочу, чтобы вычислить, что в очень простой способ, это просто число раз я вижу "Baby" от общего количества слов в текстах Gaga, не так ли? Какова частота, что я вижу, это слово в работе Гага? Смысл? 

Второе слагаемое вероятность Gaga. Что это значит? Это в основном означает, что Вероятность классификации некоторые тексты как Gaga? И это немного странно, но давайте думать о примере. Так скажем, что вероятность наличие "ребенка" в песне то же самое для Гага и Бритни Спирс. Но Бритни Спирс имеет в два раза больше песен, чем Lady Gaga. Так что если кто-то просто случайно дает Лирика "ребенка", первое, что вы смотреть на это, то, что вероятность наличие "ребенка" в песне Gaga, "ребенок" в песне Бритни? И это то же самое. 

Так Второе, что вы увидите, это, хорошо, что есть вероятность это лирические сама по себе будучи Гага лирические, и какова вероятность будучи лирическая Бритни? Так, так как Бритни имеет так много больше лирику чем Гага, вы, вероятно, скажем, ну, это, вероятно, лирическая Бритни. Так вот почему у нас есть это назвать прямо здесь. Вероятность Gaga. Имеет смысл? Так ли это? ОК. 

И последнее есть вероятность из "ребенка", который не имеет значения, что много. Но это вероятность видя "Baby" на английском языке. Мы обычно не волнует, что много о этого термина. Имеет ли это смысл? Таким образом, вероятность Гага называется априорная вероятность классовой Gaga. Потому что это просто означает, что, то, что вероятность того, что класс - что Гага - только в общем, только без условий. 

А потом, когда у меня есть вероятность Гага дано "ребенок", мы называем это плюс слезящимися вероятность, потому что это вероятность наличия Гага учитывая некоторые доказательства. Поэтому я даю вам доказательства что я увидел слово ребенка и песня имеет смысла? ОК. 

Так что если я подсчитал, что для каждого из песен для Lady Gaga, что это было бы - судя по всему, я не могу двигаться в этом. Вероятность Gaga будет что-то вроде 2 более 24, раз 1/2, более 2 более 53. Это не имеет значения, если вы знаете, что эти цифры и откуда. Но это всего лишь число, которое будет быть больше, чем 0, верно? 

А потом, когда я делаю Кэти Перри, вероятность "ребенка" учитывая Кэти уже 0, верно? Потому что нет никакого "ребенок" в Кэти Перри. Так то это становится 0, а Гага побед, что означает, что Гага вероятно, певец. Имеет ли это смысл? ОК. 

Так что, если я хочу, чтобы сделать это более официальный, Я могу на самом деле модель по нескольким словам. Так скажем, что у меня есть что-то как, "ребенок, Я в огне, "или что-то. Так что имеет несколько слов. И в этом случае, вы можете увидеть что "ребенок" находится в Gaga, но это не в Katy. И "огонь" находится в Katy, но это не в Gaga, не так ли? Так она становится сложнее, не так ли? Потому что кажется, что вы почти есть связь между ними. 

Так что вы должны сделать, это предположить, независимость среди слов. Так в основном, что это значит, что Я просто вычисляя, что является Возможность поступления "ребенка", что является вероятность увидеть «я», и "Я", и "на" и "огонь" все отдельно. Тогда я умножения всех из них. И я вижу, что есть вероятность видеть целое предложение. Смысл? 

Так в основном, если у меня есть только одно слово, то, что я хочу найти это аргумент макс, что означает, что класс, который является дает мне наибольшую вероятность? Так в чем же класс, который дает меня самая высокая вероятность вероятность класса дали слово. Таким образом, в этом случае, Гага дано "ребенка". Или Кэти дано "ребенка". Смысл? 

И только от Байеса, что уравнение, которое я показал, мы создаем эту фракцию. Единственное, что вы видите, что вероятность слова с учетом изменения классов в зависимости от класса, не так ли? Количество "Baby" с, что у меня есть в Gaga отличается от Katy. Вероятность класса также изменения, потому что это просто число песен каждый из них имеет. 

Но вероятность того, что само слово будет одинаковым для всех художники, верно? Таким образом, вероятность того, что слова просто, что вероятность видя, что слово в Английский язык? Так что это то же самое для всех из них. Так, так как это постоянно, мы можем просто отказаться от этого, а не заботиться о нем. Так что это будет на самом деле уравнение мы ищем. 

И если у меня есть несколько слов, я еще придется до Вероятность здесь. Единственное, что я умножения вероятность все остальные слова. Так что я умножения всех из них. Смысл? Это выглядит странно, но в основном означает, рассчитать до класса, и затем умножить на вероятность каждого из слов, находящихся в этом классе. 

И вы знаете, что вероятность Слово дано класс будет сколько раз вы увидите, что слово в что класс, деленное на количество Слова, которые вы имеете в том, что класс в целом. Смысл? Это просто, как "ребенок" было 2 более количество слов, которые У меня была в лирике. Так что просто частота. 

Но есть одна вещь. Помните, как я показывал, что вероятность "Baby", являющихся текстах от Кэти Перри 0 только потому, что Кэти Перри не было "Baby" вообще? Но это звучит немного резко, чтобы просто просто сказать, что текст песни не может быть от художник только потому, что они не имеют это слово в частности в любое время. 

Таким образом, вы могли бы просто сказать, ну, если вы нет это слово, я собираюсь дать вам более низкую вероятность, но я просто не собираюсь дать вам 0 сразу. Потому что, может быть, это было что-то вроде, "Огонь, огонь, огонь, огонь", который является полностью Кэти Перри. А потом "ребенок", и это только идет, чтобы 0 сразу, потому что был один "Ребенок". 

Поэтому в основном то, что мы делаем что-то называется Лапласа сглаживания. И это просто означает, что я даю некоторая вероятность даже к словам что не существует. Так, что я делаю то, что, когда я расчета этого, я всегда добавляю 1 к числитель. Таким образом, даже если слово не существует, в В этом случае, если это 0, я до сих пор расчета это как 1 над общее количество слов. В противном случае, я получаю, сколько слов У меня есть и я добавить 1. Так я рассчитываю в обоих случаях. Смысл? 

Так что теперь давайте сделаем некоторые кодирования. Я собираюсь должны сделать это довольно быстро, но это просто важно, чтобы вам ребята понять концепции. Итак, что мы пытаемся сделать точно реализовать это вещь, которую я только что сказал, - Я хочу, чтобы ты положил текст из Леди Гага и Кэти Перри. И программа будет в состоянии говорят, что если эти новые тексты из Gaga или Кэти Перри. Смысл? ОК. 

Так что я эту программу я собираюсь позвонить classify.py. Так что это Python. Это новый язык программирования. Это очень похоже на некоторые способы C и PHP. Это похоже, потому что, если вы хотите узнать Python узнав C, это действительно не так много вызов только потому, что Python намного проще чем C, в первую очередь. И много чего уже реализован для вас. Итак, как как PHP имеет функции, которые отсортировать список, или добавить что-то на массив, или бла, бла, бла. Python имеет все те также. 

Так что я просто собираюсь объяснить быстро как мы могли бы сделать классификацию Проблема здесь. Так скажем, что в этом случае, у меня есть песни из Гага и Кэти Перри. Таким образом, что у меня есть эти тексты в том, что первое слово из песни является имя художника, и остальное лирика. Так скажем, что у меня есть этот список в которых первый является стихи Gaga. Так вот я на правильном пути. А на следующий один Кэти, и она имеет также тексты песен. 

Так что это, как вы заявляете, переменная в Python. Вы не должны дать тип данных. Вы просто написать "текст", вроде как в PHP. Смысл? 

Так что те вещи, которые я должен рассчитать, чтобы иметь возможность рассчитать вероятности? У меня есть для расчета «априорные» из каждого из различных классы, у меня нет. У меня есть для расчета "боковых зубов", или в значительной степени вероятности каждый из различных слов, которые У меня может быть для каждого художника. Таким образом, внутри Gaga, например, я собираюсь иметь список, сколько раз я вижу каждое из слов. Смысл? 

И, наконец, я просто хочу, чтобы иметь Список называется "слова", что просто будет иметь сколько слов я есть для каждого художника. Таким образом, для Gaga, например, когда я смотрю к лирике, я, по-моему, 24 слова в общей сложности. Так этот список просто придется Гага 24, и Кэти другой номер. Смысл? ОК. 

Так что теперь, на самом деле, давайте перейти к кодированию. Таким образом, в Python, вы можете на самом деле вернуться кучу разные вещи из функции. Так что я собираюсь создать эту функцию называется "условным", который собирается вернуть все из тех вещей, "приоры", что "вероятности", и "слова". Таким образом, "условная", и это будет ставя под "лирики". 

Так что теперь я хочу, чтобы вы на самом деле написать эту функцию. Таким образом, способ, которым я могу написать это функция Я просто определил это функционировать с "определение". Так я и сделал "определение условно, "и это занимает "Текст". И то, что это будет делать является, в первую очередь, у меня есть свои априорные что я хочу, чтобы вычислить. 

Таким образом, способ, которым я могу это сделать, это создать словарь в Python, который в значительной степени то же самое, что хэш стол, или это как итеративный Массив в PHP. Это, как я объявить словарь. И в основном это означает то, что априорные из Gaga 0,5, например, если 50% из лирики от Гага, 50% из Katy. Смысл? Так что я должен выяснить, как для расчета априорные. 

Следующие те, которые я должен сделать, также, являются вероятностями и слова. Так вероятности Gaga список всех вероятностей того, что я есть для каждого из слов для Gaga. Так что, если я иду в вероятностях Gaga "Ребенок", например, он даст мне что-то вроде 2 по 24 в этом случае. Смысл? Так я иду в "вероятности", перейдите в "Гага" ведро, что имеет список всех слова Gaga, то я иду в "ребенка", и я вижу вероятность. 

И, наконец у меня есть это "Слова" словарь. Так вот, "вероятности". А потом "слова". Так что, если я могу сделать "слова", "Gaga", что произойдет то, что это даст мне 24, говоря, что я есть 24 слов в текстах из Gaga. Имеет смысл? Так вот, "слова" равно Дах-Дах-дах. Хорошо 

Так что я собираюсь сделать, это я собираюсь перебора каждого из текстах, так каждой из строк, которые У меня есть в списке. И я собираюсь рассчитать те вещи для каждого из кандидатов. Имеет смысл? Так что я должен сделать для петли. 

Таким образом, в Python, что я могу сделать, это "для линии в текстах. "то же самое, "Для каждого" заявление в PHP. Помните, как если бы это был PHP я мог сказать "для каждого текстах как линия ". Имеет смысл? Так что я беру каждой из линий, в этом случай, эта строка и следующая строка так и для каждой из линий, что я собираюсь сделать, это во-первых, я собираюсь разделить эту строку в список слова, разделенных пробелами. 

Так здорово, что о Python является то, что вы могли бы просто Google, как "как я могу разбить строку на слова? "И это собираюсь рассказать вам, как это сделать. И то, как это сделать, это просто "линия = Line.split () ", и это в основном собираюсь дать Вам список каждое из слов здесь. Имеет смысл? Так что теперь я сделал, что я хочу знать, который является певцом этой песни. А для этого я просто должен получить Первый элемент массива, не так ли? Поэтому я могу только сказать, что я "певец = Линия (0) "Имеет смысл? 

А потом, что мне нужно сделать, это, в первую все, что я собираюсь обновить сколько слова у меня под "Гага". так что я просто собирается подсчитать, сколько слов я есть в этом списке, не так ли? Потому что это, сколько слов у меня в лирике, и я просто хочу, чтобы добавить его в "Gaga" массива. Имеет ли это смысл? Не слишком большой акцент на синтаксиса. Думайте больше о понятиях. Это самая важная часть. ОК. 

Так что я могу сделать это, если "Гага" является уже в этом списке, так что "если певец в слова ", что означает, что я уже есть слова, Gaga. Я просто хочу добавить дополнительный слова к этому. Так что я делаю, это "слова (певица) + = Len (строка) - 1 ". И тогда я могу просто сделать Длина линии. Так как многие элементы I иметь в массиве. И что я должен сделать минус 1 только потому, что первый элемент массива является просто певец и тех, кто не являются тексты. Имеет смысл? ОК. 

"В противном случае," это означает, что я хочу на самом деле вставить Gaga в список. Так что я просто сделать "слова (певица) = Len (строка) - 1, "жаль. Таким образом, единственное различие между ними линии является то, что на этот раз, это не так существуют еще, так что я просто его инициализации. Это один я на самом деле добавление. ОК. Так что это было добавление к словам. 

Теперь я хочу добавить к настоятелей. Так как я могу вычислить априорные? В приоры можно рассчитать во сколько раз. Так сколько раз вы видите, что певец среди всех певцов, которые вы есть, не так ли? Таким образом, для Gaga и Кэти Перри, в этом случае, я вижу Gaga один раз, Кэти Перри раз. 

Поэтому, в основном настоятели для Gaga и Кэти Перри будет быть просто одним, не так ли? Вы просто, сколько раз Я вижу художника. Так что это очень легко вычислить. Я могу только что-то подобное, как например, "если певец в настоятелей, "Я просто собираюсь добавить 1 к их настоятели окне. Так, "приоры (петь)" + = 1 ", а затем" еще " Я собираюсь сделать «априорные (певица) = 1 ". Имеет смысл? 

Так что, если он не существует, я просто поставить как 1, в противном случае я просто добавьте 1. Итак, теперь все, что у меня осталось сделать также добавить каждое из слов в вероятности. Так что я должен подсчитать, сколько раз Я вижу каждого из слов. Так что я просто должен сделать еще один цикл в линии. 

Так, первое, что я собираюсь сделать, это проверить, если певица уже имеет вероятности массив. Так я проверяю, если певец не есть массив вероятности, я просто собирается инициализировать один для них. Это даже не массив, извините, это словарь. Так вероятности певицы собирается быть открытой словарь, так что я просто инициализации словаря для него. ОК? 

И теперь я могу реально сделать для петли для расчета каждого из слов ' вероятности. ОК. Так что я могу сделать это для петли. Так что я просто хочу, чтобы итерации по массиву. Таким образом, способ, которым я могу сделать это в Python является "для г в диапазоне". С 1 потому что я хочу, чтобы начать в секунду элемент, потому что первый является Имя певца. Так от одного до Длина линии. И когда я в диапазоне она на самом деле идти от как здесь от 1 до Len из Линия минус 1. Так что уже делает эту штуку делать н минус 1 для массивов, которые очень удобно. Имеет смысл? 

Таким образом, для каждого из них, то, что я собираюсь сделать, это, как и в другом, Я собираюсь проверить, если слово в этом Положение в линейке уже вероятности. А потом, как я сказал здесь, вероятности слова, как в я ставлю "вероятности (певица)». Таким образом, имя певицы. Так что, если это уже в "Probabilit (певец)", это означает, что я хотите добавить к нему 1, так что я собираюсь сделать "вероятности (певец)", а Слово называется "линия (я)". Я собираюсь добавить 1 и "еще" Я просто собирается инициализировать его в 1. "Линия (я)". Имеет смысл? 

Так, по моим расчетам все массивы. Итак, теперь все, что я должен сделать для Этот просто "вернуться априорные, вероятности и слова. «Давайте увидеть, если таковые имеются, в порядке. Вроде все работает до сих пор. Так, в этом есть смысл? В некотором роде? ОК. Так что теперь у меня есть все вероятности. Так что теперь единственное, что у меня осталось просто иметь эту вещь, что вычисляет произведение все вероятностей, когда я получаю лирику. 

Так скажем, что я хочу сейчас называть эта функция "классифицировать ()" и вещь, которая функция принимает это просто аргумент. Скажем "Детка, я в огне", и это собирается выяснить, что является Вероятность того, что это Gaga? Какова вероятность того, что это Кэти? Звучит хорошо? Так что я просто придется создать Новая функция называется "классифицировать ()" и он собирается принять некоторые текст песни, а также. И, кроме того лирике Я также должны отправить априорные, вероятности и слова. Так что я собираюсь послать текст, априорные, вероятности, слова. 

Так это происходит текст, априорные, вероятности, слова. Так, для чего это нужно? Это в основном будет идти через все возможные кандидаты, которые вы иметь в качестве певца. А где те кандидаты? Они в настоятелей, не так ли? Поэтому у меня есть все те, там. Так что я собираюсь есть словарь из всех возможных кандидатов. А потом за каждого кандидата в настоятели, так это означает, что он собирается быть Гага, Кэти если бы мне пришлось более было бы больше. Я собираюсь начать расчет эта вероятность. Вероятность как мы видели в PowerPoint является Предыдущие раз Продукт каждого из другие вероятности. 

Так что я могу сделать то же самое здесь. Я могу просто сделать вероятность первоначально только перед. Так настоятели кандидата. Не так ли? И теперь у меня есть для перебора всех Слова, которые я имею в лирике быть возможность добавлять вероятность для каждого из них, в порядке? Так, "в слово в текстах", что я собираюсь сделать, это, если слово в "вероятности (кандидаты)", которые означает, что это слово, которое Кандидат должен в своих текстах - например, "ребенок" для Gaga - то, что я собираюсь сделать, это что вероятность собирается умножить на 1 плюс вероятностей кандидат в этом слове. И это называется "Слово". Это делится на количество слов что у меня есть для этого кандидата. Общее количество слов, которые у меня есть для певицы, что я смотрю на. 

"Else". это означает, что это новое слово так что было бы, как например "Огонь" для Lady Gaga. Так что я просто хочу сделать 1 по "Слово (кандидат)". Так что я не хочу поставить этот термин здесь. 

Так что это будет в основном копирование и вставка этого. Но я собираюсь удалить эту часть. Так что это просто будет 1 по этому поводу. Звучит хорошо? И теперь в конце, я просто хочу, чтобы печатать имя кандидата и вероятность того, что у вас есть из имея S на их текстах. Имеет смысл? И я на самом деле даже не нужен этот словарь. Имеет смысл? 

Итак, давайте посмотрим, если это на самом деле работает. Так что, если я запускаю это, он не работает. Подождите одну секунду. "Слова (кандидаты)", "слова (кандидаты)", это имя массива. ОК Таким образом, это говорит, что есть какая-то ошибка для кандидата в настоятелей. Позвольте мне просто расслабиться немного. ОК. Давайте попробуем. ОК. 

Так он дает Кэти Перри имеет это Вероятность этого раза 10 до минус 7, и Гага это раз от 10 до минус 6. Итак, вы видите это показывает, что Гага имеет более высокую вероятность. Таким образом, "Детка, я в огне" является вероятно, песня Gaga. Имеет смысл? Так что это то, что мы сделали. 

Этот код будет размещен на сайте, так что вы, ребята, можете проверить его. Может быть, использовать некоторые из них, если вы хотите, чтобы сделать проект или что-то подобное. ОК. Это было как раз, чтобы показать что вычислительная лингвистика код выглядит. Но теперь давайте вернемся к более Высокий уровень вещи. ОК. 

Таким образом, другие проблемы, которые я говорил о - проблема сегментации является первым из них. Так у вас тут по-японски. И тогда вы увидите, что нет пространства. Так что это в основном означает, что это верхняя часть кресла, не так ли? Вы говорите по-японски? Это верхняя часть кресла, не так ли? 

СТУДЕНТ: Я не знаю, что кандзи там есть. 

LUCAS ФРЕЙТАШ: Это [говорение по-японски] ОК. Так что в основном означает кафедру вершине. Так что если вы должны были поставить пробел было бы здесь. И тогда у вас есть [? Уэда-Сан -. ?] Которые в основном означает, г-н Уэда. И вы видите, что "Уэда" и у вас есть пространство, а затем "Сан -." Итак, вы видите, что здесь вы "Ue", как сам по себе. И вот у него есть характер рядом с ним. 

Так что это не так, как в этих языках символов означает слово его, чтобы вы просто положить много пробелов. Персонажи связаны друг с другом. И они могут быть вместе как два, три, один. Таким образом, вы на самом деле нужно создать какой-то из способ положить эти пробелы. 

И это то, что всякий раз, когда вы получаете Данные из этих азиатских языков, все приходит нечленистые. Потому что нет тот, кто пишет по-японски или китайский пишет пробелами. Всякий раз, когда вы пишете по-китайски, Японский вы просто написать все, без пробелов. Он даже не имеет смысла поставить пробелы. Итак, когда вы получаете данные из, некоторые Азиатских языков Восток, если вы хотите сделать что-то с этим вы должны сегменте в первую очередь. 

Подумайте делать пример тексты без пробелов. Таким образом, только текст песни, которые вы должны будет приговоры, не так ли? , Разделенных точками. Но затем, как раз предложение будет не помогает на предоставление информации от того, кто эти тексты на. Не так ли? Таким образом, вы должны ставит пробелы в первую очередь. Итак, как можно это сделать? 

Так потом приходит идея языке модель, которая что-то действительно важно для вычислительных лингвистика. Таким образом, языковая модель в основном таблица вероятностей, что шоу прежде всего какова вероятность того, это слово в языке? Так, показывающий, как часто слово. А потом еще и показывающую соотношение между словами в предложении. 

Таким образом, основная идея состоит в том, если незнакомец пришел Вам и сказал приговор Вы, какова вероятность того, что для Например, "это моя сестра [? GTF"?] был приговор, что человек сказал? Так, очевидно, некоторые приговоры чаще, чем другие. Например, "доброе утро" или "хорошо ночь ", или" Эй, "гораздо более общего, чем большинство предложений что у нас есть по-английски. Так почему же эти предложения более частыми? 

Прежде всего, это потому, что у вас есть слова, которые чаще. Так, например, если вы говорите, что собака большой, и собака гигантская, вы обычно, вероятно, услышать Собака большая чаще, потому что "большой" является более часто на английском языке, чем "гигантская". Так, один из вещи частота слово. 

Вторая вещь, которая действительно важно только порядок слов. Таким образом, это принято говорить "кошка внутри коробки. ", но вы этого не сделаете, как правило, см. в "окне внутри кот." так Вы видите, что есть некоторая важность в порядке слов. Вы не можете просто сказать, что эти двое предложения имеют одинаковую вероятность только потому, что у них есть те же самые слова. Вы на самом деле должны заботиться о порядке, а также. Смысл? 

Так что же нам делать? Так что я мог бы попытаться получить вас? Я пытаюсь заставить вас, что мы позвонить модели н-граммовые. Так модели н-грамм основном предположить что для каждого слова, которое у вас есть в предложении. Это вероятность наличия, что Слово есть зависит не только от Частота этого слова в языке, но также и от слов, которые окружают его. 

Так, например, как правило, когда вы видите что-то вроде или на вы вероятно, увидим существительное после него, не так ли? Потому что, когда у вас есть предлог обычно это занимает существительное после него. Или если у вас есть глагол, который транзитивно Вы обычно собираются есть словосочетание. Так что это будет иметь существительное где-то вокруг него. 

Так, в основном, то, что он делает то, что это считает вероятность наличия слова рядом друг с другом, когда Вы расчета вероятность предложения. И вот, что такое язык модель в принципе. Просто говорю, что это вероятность из имеющего удельную Приговор в языке? Так почему же, что полезно, в основном? И в первую очередь то, что модель н-г, то? 

Так модель н-г означает, что каждое слово зависит от Следующий N минус 1 слов. Так, в основном, это означает, что если я смотрю, например, на CS50 TF, когда Я вычисления вероятности приговор, будешь как " вероятность того, слово "" раза вероятность наличия " CS50 "раз вероятность наличия "CS50 TF." Так, в основном, я считаю все возможные способы растягивая ее. 

А потом, как правило, когда вы делаете это, как в проекте, вы ставите N быть низкое значение. Так, как правило, имеют биграмм или триграмм. Так что вы просто посчитать два словами, группа из двух слов, или трех слов, просто за сбои в работе. А также потому, может быть, если у вас есть что-то вроде "The CS50 TF." Когда вы есть "TF", это очень важно, что "CS50" рядом с ним, не так ли? Эти две вещи, как правило, рядом друг с другом. 

Если вы думаете о "TF", это, вероятно, будет иметь то, что Класс это TF'ing для. Кроме того, "" что действительно важно для CS50 TF. Но если у вас есть что-то вроде "The CS50 TF пошел в класс и дал их студенты некоторые конфеты. "" Конфеты "и" " не имеют никакого отношения действительно, не так ли? Они так далеко друг от друга, что это действительно не имеет значения, что слова у вас есть. 

Так, делая биграмм или триграмма, это просто означает, что вы ограничиваете себе некоторых слов что вокруг. Смысл? Итак, когда вы хотите сделать сегментацию, в основном, то, что вы хотите сделать, это увидеть каковы все возможные способы, которые вы можете разбить предложение. 

Такой, что вы видите, что является вероятность каждого из этих предложений существующих в языке? Так что вы делаете это как, ну, пусть мне попробовать поставить пробел здесь. Таким образом, вы поставить пробел есть и вы видите, что является вероятность того, что приговор? Тогда вы, как, в порядке, может быть, что не было настолько хорошо. Так что я поставить пробел там и пространстве там, и вам рассчитать Вероятность сейчас, и вы видите, что это высокая вероятность. 

Так что это алгоритм называется ТАНГО Алгоритм сегментации, который на самом деле то, что было бы действительно остыть в течение проекта, который в основном берет нечленистые текст, который может быть японский или китайский или, может быть, Английский без пробелов и пытается поместить пробелы между словами и это делает что с помощью языковую модель и пытаясь разглядеть, что является самым высоким вероятность вы можете получить. ОК. Так что это сегментация. 

Теперь синтаксис. Так, синтаксис используется для так много вещей, прямо сейчас. Таким образом, для Graph Поиск, для Siri для почти любой вид природного язык обработки у вас есть. Так что важно вещи о синтаксисе? Так, предложения в целом имеют что мы называем составляющие. Какие вроде как группы слов которые имеют функцию в предложении. И они не могут действительно быть друг от друга. 

Так что, если я говорю, например, "Лорен любит Мило. "Я знаю, что" Лорен "является составной и затем "любит Мило "также еще один. Потому что вы не можете сказать, как "Лорен Мило любит "иметь тот же смысл. Это не будет иметь тот же смысл. Или я не могу сказать, как "Мило Lauren любит. "Не все имеет те же означает делать это. 

Таким образом, две более важные вещи, о Синтаксис являются лексические типы которых является в основном функция, что вы есть слова сами по себе. Таким образом, вы должны знать, что "Лорен" и "Мило" существительные. "Любовь" это глагол. И вторая важная вещь что они фразовые типы. Таким образом, вы знаете, что "любит Майло" на самом деле является словесное фраза. Поэтому, когда я говорю "Лорен", я знаю, что Лорен делает что-то. Что она делает? Она любящая Майло. Так что это все дело. Но его компоненты существительное и глагол. Но вместе, они делают глагол фразу. 

Итак, что мы можем реально сделать с компьютерная лингвистика? Так что, если у меня есть кое-что для примера «друзья Allison». Я вижу, если я просто сделал синтаксический дерево я буду знать, что "Друзья" является именная это существительное, а затем "из Allison» является предложная, в котором "из" является предложение и "Аллисон" является существительным. Что я мог сделать, это научить свой компьютер , что, когда у меня есть Именная один и затем предложная. Так в данном случае, "друзья", а затем "из Мило "Я знаю, что это означает, что NP2, второй, владеет NP1. 

Так что я могу создать какое-то отношение, какая-то функции для него. Поэтому, когда я вижу эту структуру, которая совпадает хотя бы с "друзьями Эллисон: "Я знаю, что Эллисон владеет друзей. Так что друзья являются чем-то что Эллисон имеет. Имеет смысл? Так что это в основном то, что График Поиск делает. Это просто создает правила для многих вещей. Так «друзья Allison", "мои друзья кто живет в Кембридже "," мои друзья кто учился в Гарварде ". Это создает правила для всех этих вещей. 

Теперь машинного перевода. Так, машинный перевод также что-то статистический. А на самом деле, если вы попали в компьютерная лингвистика, много Ваш материал будет статистика. Так как я делал пример с много вероятностей, что я был расчета, и тогда вы получите на это очень небольшое количество, это финал Вероятность, и вот что дает вам ответ. Машинный перевод также использует статистическая модель. И если вы хотите думать о машине перевод в простейшая образом, то, что вы можете думать только перевести слово в слово, не так ли? 

Когда вы изучаете язык для первый раз, что, как правило, что что вы делаете, не так ли? Если хотите, то вы перевести предложение на Вашем языке к языку Вы учитесь, как правило, во-первых, вы перевести каждое из слов индивидуально, а затем попробуйте положить слова на свои места. 

Так что, если я хотел, чтобы перевести это, [ГОВОРЯ ПОРТУГАЛИИ] , что означает "белая кошка убежала." Если бы я хотел, чтобы перевести его из С португальского на английский, то, что я может сделать, это, во-первых, я просто перевести слово в слово. Так «о» "," "гато", "кошка" "Бранко", "белый", а затем "fugio" является "Убежал". 

Так то у меня есть все слова здесь, но они не в порядке. Это как "кошка белый убежал" который безграмотно. Так, то я могу иметь второй шаг, который собирается быть найти идеал положение для каждого из слов. Так что я знаю, что я на самом деле хочу иметь "Белая кошка" вместо "кошка, белый." Так что я могу сделать, это, самые наивные методу было бы создать все возможных перестановок слова, из позиций. А потом посмотреть, что один имеет Наибольшая вероятность в соответствии на мой языковой модели. А потом, когда я найти тот, который имеет наибольшая вероятность его, что вероятно, "белая кошка убежала," вот мой перевод. 

И это простой способ объяснения как много машинного перевода алгоритмы работы. Имеет ли это смысл? Это также то, очень интересно что вы, ребята могут, может быть, разведку Окончательный проект, да? 

СТУДЕНТ: Ну, ты сказал, что наивный способ, так в чем не-наивным способом? 

LUCAS ФРЕЙТАШ: не-наивным способом? ОК. Таким образом, первое, что в этом плохого этот метод в том, что я только что перевел слова, слово в слово. Но иногда у вас есть слова, которые может иметь несколько переводов. Я собираюсь попытаться думать чего-то. Например, "манга" в португальском банке либо "калечить" или "рукав". Так когда вы пытаетесь перевести слово словом, это может быть давая вам то, что не имеет никакого смысла. 

Таким образом, вы на самом деле хотите, чтобы вы посмотрите на все возможные переводы слова и увидеть, в первую очередь, каков порядок. Мы говорили о перестановки вещи? Чтобы увидеть все возможные заказы и выбрать один с самой высокой вероятность? Вы также можете выбрать все возможные переводы для каждого слово, а затем посмотреть - в сочетании с перестановок - какой имеет высокую вероятность. 

Кроме того, вы также можете посмотреть на не только слова, но фразы. так что вы можете проанализировать отношения между слова и затем получить лучше перевод. Также что-то еще, так что в этом семестре Я на самом деле занимался исследованиями в Китайско-английский машинного перевода, так в переводе с Китайский на английский язык. 

И то, что мы сделать, это, помимо использования статистическая модель, которая является просто видя вероятности видя некоторые позиции в предложении, я на самом деле также добавить некоторые синтаксис для моей модель, говоря о, если бы я увидеть этот вид строительства, это то, что я хочу чтобы изменить его, когда я перевожу. Таким образом, вы также можете добавить какую-то элемент синтаксиса, чтобы сделать перевод более эффективным и точнее. ОК. 

Итак, как можно начать, если вы хотите сделать что-то в вычислительной лингвистика? 

Во-первых, вы выбираете проект который включает в себя языки. Так, есть так много там. Там так много вещей, которые вы можете сделать. А потом можно думать о модели что вы можете использовать. Обычно это означает, что мышление предположения, так же как, ну, когда я был как мышления лирики. Я подумала: хорошо, если я хочу, чтобы выяснить из который написал это, я, вероятно, хотите посмотреть на словах человек использовал и увидеть, кто очень часто использует это слово. Поэтому постарайтесь, чтобы делать предположения и стараюсь думать о моделях. И тогда вы можете также искать онлайн рода проблемы, что у вас есть, и он собирается предложить к вам моделей, которые, может быть, моделируется что вещь хорошо. 

А также вы всегда можете написать мне. me@lfreitas.com. И я могу только ответить на ваши вопросы. Мы можем даже может встретиться, чтобы я мог дать предложения о путях реализации проекта. И я имею в виду, если вы попали в компьютерная лингвистика, это будет чтобы быть большим. Вы будете видеть там такой потенциал. И индустрия хочет нанять Вы так плохо из-за этого. Поэтому я надеюсь, вы, ребята, наслаждался этим. Если вы, ребята есть какие-либо вопросы, Вы можете спросить меня после этого. Но спасибо.