LUCAS Фрейташ: Ей. Вітаю всіх. Мене звуть Лукас Фрейтас. Я молодший у [нерозбірливо] вивчення інформатика з акцентом в комп'ютерна лінгвістика. Так що мій вторинний знаходиться в мові і лінгвістична теорія. Я дійсно схвильований, щоб навчити вас, хлопці трохи про поле. Це дуже захоплююча область для вивчення. Також з великим потенціалом на майбутнє. Так що, я дуже радий, що ви, хлопці, розглядають проекти в комп'ютерна лінгвістика. І я буду більш ніж щасливий раджу Хто-небудь з вас, якщо ви вирішите переслідувати одну з них. 

Отже, насамперед, якими є обчислювальна лінгвістика? Так комп'ютерна лінгвістика є Перетин між лінгвістикою і інформатика. Отже, що таке лінгвістика? Що таке інформатика? Ну від лінгвістики, що ми приймаємо є мовами. Так лінгвістика насправді вивчення природної мови в цілому. Так природна мова - ми говоримо про мову, який ми можемо використовувати, щоб спілкуються один з одним. Так що ми не точно кажу о С або Java. Ми говоримо більше про англійською та Китайська та інші мови, які ми використовувати для зв'язку один з одним. 

Складна річ про те, що в тому, що Прямо зараз у нас є майже 7000 мов у світі. Таким чином, є досить високий різноманітність мов, що ми можемо вчитися. А потім ви думаєте, що це, ймовірно, дуже важко зробити, наприклад, переклад з однієї мови на іншому, враховуючи, що ви повинні майже 7000 з них. Так що, якщо ви думаєте, що робити переклад з однієї мови на іншу, ви є чи не більше, ніж на мільйон різні комбінації, які ви можете Тобто від мови до мови. Так що це дійсно виклик, щоб зробити деякі Така система прикладом переклад кожна мова. 

Так, лінгвістика ставиться з синтаксисом, семантика, прагматика. Ви, хлопці точно не потрібно знати, що вони є. Але дуже цікава річ у тому, що як носій, коли ви дізнаєтеся, мова як дитину, ви насправді дізнатися всі з тих речей, - семантика синтаксис і прагматика - самостійно. І ніхто не повинен вчити вас синтаксис вам зрозуміти, як вироки структуровані. Таким чином, це дійсно цікаво, тому що це те, що приходить дуже інтуїтивно. 

І що ви приймаєте від інформатика? Ну і найголовніше, що ми є в інформатиці, в першу все, штучний інтелект і машинне навчання. Отже, що ми намагаємося робити обчислювальна лінгвістика є навчити ваш комп'ютер, як зробити щось з мовою. 

Так, наприклад, в машині переклад. Я намагаюся навчити мій комп'ютер хау знати, як перехід від однієї мови на іншу. Так, в основному подобається вчення комп'ютерні дві мови. Якщо я роблю обробки природної мови, що має місце, наприклад, з Facebook, Графік Пошук, ви вчите ваш комп'ютер, як зрозуміти Запити також. 

Так що, якщо ви говорите "фотографій мого друзі. "Facebook не лікує, що в цілому рядки, яка має просто купа слів. Це насправді розуміє відносини між "фото" і "моїх друзів" і розуміє, що "фото" є власністю "моїх друзів". 

Так, що це частина, наприклад, обробки природної мови. Він намагається зрозуміти, що це відношення між слова в реченні. І велике питання, чи не так навчити комп'ютер, як говорити мову в цілому? Що дуже цікаве питання, щоб думаю, як би, може бути, в майбутньому, ви збираєтеся бути в змозі говорити на свій мобільний телефон. Ніби як то, що ми робимо з Siri, але щось більше, як, ви можете насправді говорити все, що ви хочете, і телефон збирається все розумію. І це може мати наступні питання і продовжувати говорити. Це те, що дійсно цікаво, на мій погляд. 

Так, щось про природних мовах. Щось дійсно цікаво природні мови, що і це кредит на мій професор лінгвістики, Марія Полинський. Вона наводить приклад, і я думаю, це дійсно цікаво. Тому що ми вивчити мову від того, коли ми народилися, а потім наш рідний мову вид росте на нас. 

І в основному ви дізнаєтеся мову від мінімальної потужністю, чи не так? Ти просто отриманні введення з вашого батьки, що звучить ваш мову подобається, і ви просто навчитися. Таким чином, це цікаво, тому що якщо ви подивитеся на цих пропозицій, наприклад. Дивишся, "Мері надягає пальто кожного раз вона йде з дому ". 

У цьому випадку, можливо, щоб мати Слово "вона" відносяться до Марії, чи не так? Ви можете сказати: "Марія ставить на пальто кожен раз, коли Мері залишає будинок. ", так що все в порядку. Але тоді, якщо ви подивитеся на пропозиції "Вона одягає пальто кожен раз Мері виходить з дому. "Ви знаєте, що це Не можна сказати, що "вона" є посилаючись на Марії. 

Там немає спосіб сказати, що "Марія ставить на пальто кожен раз Мері залишає будинок. "Так що це цікаво, тому що це вид інтуїції що кожен носій мови має. І ніхто не вчили, що це так, що синтаксис працює. І що ви можете мати тільки цей "вона" посилаючись на Марії в цьому першому випадку, а насправді в цьому іншому теж, але не в цьому. Але все роду отримує до того ж відповіді. Усі згодні з тим на цьому. Так що це дійсно цікаво, як хоча ви не знаєте всіх правил на Вашому мовою ви почасти розумію як працює мова. 

Так найцікавіше про природні мову, що ви не повинні знаю ні синтаксис знати, якщо вирок граматично або безграмотно для в більшості випадків. Яка змушує вас думати, що, може бути, те, що відбувається те, що через ваше життя, ви просто тримати стає все більше і більше вироки сказав вам. І тоді ви тримаєте запам'ятовування всі пропозиції. А потім, коли хтось говорить вам, щось, ви чуєте цю фразу і ви подивіться на вашого словникового запасу вироків і подивитися, якщо що вирок є. І якщо вона є у вас кажуть, що це граматична. Якщо це не ви сказати, що це безграмотно. 

Так, в цьому випадку, ви б сказали, о, так у вас є величезний список всіх можливі пропозиції. А потім, коли ви чуєте фразу, Ви знаєте, якщо це граматична або не так на його основі. Справа в тому, що якщо ви подивитеся на фраза, наприклад, " п'ятиглавий CS50 ТФ приготовані сліпих восьминіг, використовуючи DAPA кухоль ". Це безумовно не вирок що ви чули раніше. Але в той же час ви знаєте, що це в значній мірі граматичних, чи не так? Там немає граматичних помилок і ви можете сказати, що це можливо вирок. 

Так що змушує нас думати, що насправді спосіб, яким ми дізнаємося мова є не тільки , Маючи величезну базу даних можна слова чи пропозиції, але більше розуміння співвідношення між слова в цих пропозиціях. Чи має це сенс? Так, то питання в тому, може комп'ютери вивчати мови? Чи можемо ми навчити мову з комп'ютерами? 

Отже, давайте думати про відмінність між носієм мови і комп'ютер. Отже, що ж відбувається з динаміком? Ну, носій мови дізнається мову від впливу на нього. Зазвичай її ранні дитячі роки. Так, в основному, ви просто народити дитину, і ви продовжувати говорити з ним, і це просто вчиться говорити мову, чи не так? Отже, ви в основному даючи вхід для дитини. Так, ви можете стверджувати, що комп'ютер може зробити те ж саме, чи не так? Ви можете просто дати мови в якості внеску в комп'ютері. 

Як, наприклад, купа файлів що є книги англійською мовою. Може бути, це один із способів, що вам могли б навчити комп'ютер англійська, чи не так? І справді, якщо ви думаєте про це, вона приймає вас, може бути, пару днів, щоб прочитати книгу. Для комп'ютера це займає секунди, щоб дивитися на всі слова в книзі. Таким чином, ви можете думати, що може бути тільки цей Аргумент вкладу навколо вас, це не достатньо, щоб сказати, що це те, що тільки люди можуть зробити. Ви можете думати комп'ютери також можете отримати вхід. 

Друга річ, що носії мови також є мозок, який має Можливість вивчення мови. Але якщо ви думаєте про це, Мозок є твердою річчю. Коли ви народилися, це вже не встановлено - це ваш мозок. І, як ти виростеш, ви просто отримаєте більш введення мовою і, можливо, поживні речовини та інші речі. Але значною мірою ваш мозок є твердою річчю. 

Так що ви можете сказати, ну, може бути, ви можете побудувати комп'ютер, який має купу функції і методи, які просто імітують Можливість вивчення мови. Так що в цьому сенсі, можна сказати,, ну, я може є комп'ютер, який має всі Що ще слід вивчити мову. І останнє, що в тому, що уродженець динамік дізнається від проб і помилок. Тому в основному ще одна важлива річ в вивчення мови є те, що ви начебто з дізнатися речі, зробивши узагальнення, що ви чуєте. 

Отже, як ви ростуть ви дізнаєтеся, що деякі слова більше схожі іменників, деякі інші з них прикметники. І ви не повинні їсти будь-які знання лінгвістики зрозуміти, що. Але ви просто знаю, що є деякі слова розташовані в деякій частині Вирок і деякі інші в іншому частини вироку. 

І, що, коли ви робите щось, що як вирок, що не правильно - може бути, через більш узагальнення наприклад. Може бути, коли ви ростете, ви помітите, що множина, як правило, формується покласти S на кінець слова. А потім ви спробуєте зробити множина "Олень", як "оленів" або "зуб", як "Tooths". Отже ваші батьки або хтось виправляє вас і говорить, ні, множина від "Олень" є "олень", а множина від "зуба" є "зуби". А потім ви дізнаєтеся ці речі. Так ви дізнаєтеся з проб і помилок. 

Але ви також можете зробити це з комп'ютером. Ви можете мати те, що називається навчання з підкріпленням. Які в основному, як давати комп'ютер нагорода, коли він робить щось правильно. І надавши йому протилежне нагороди і коли він робить щось не так. Ви можете побачити, що, якщо ви йдете в Google Translate, і ви намагаєтеся перевести пропозицію, це просить вас для зворотного зв'язку. Так що, якщо ви говорите, ну, є кращий переклад цієї фрази. Ви можете ввести його, а потім, якщо багато люди продовжують говорити, що це краще, переклад, він просто дізнається, що вона повинні використовувати цю переклад замість один він давав. 

Таким чином, це дуже філософське питання щоб побачити, якщо комп'ютери будуть в змозі говорити чи ні в майбутньому. Але у мене є великі надії, що вони можуть тільки на основі цих аргументів. Але це тільки більше філософський питання. 

Таким чином, хоча комп'ютери все ще не може говорити, що ті речі, які ми можемо зробити? Деякі дійсно класні речі є класифікації даних. Так, наприклад, ви, хлопці, знаєте, що послуги електронної пошти зробити, для Наприклад, фільтрація спаму. Тому, коли ви отримуєте спам, це намагається фільтрувати в іншій коробці. Так, як це зробити? Це не те, що комп'ютер просто знає що адреси електронної пошти розсилки спаму. Так що це більшою мірою базується на змісті повідомлення, або, може бути назва, або можливо, деякі картини, які у вас є. 

Так, в основному, те, що ви можете зробити, це отримати багато даних листів, які спам, листи, які не спам, а також дізнатися, що вигляд моделі, які ви маєте на Ті, які є спамом. І це є частиною обчислювальної лінгвістика. Вона називається класифікації даних. І ми насправді відбувається, щоб побачити приклад, що в наступних слайдах. 

Друга річ природна мова обробка яких це те, що Графік Пошук робить того, щоб дозволити Ви пишете пропозицію. І це довіряє вам зрозуміти, що сенс і дає Ви кращий результат. Насправді, якщо ви йдете в Google або Bing і ви будете шукати щось подібне Леді Висота Гага, ви насправді відбувається щоб отримати 5 "1" замість інформації від неї, тому що це насправді розуміє те, що ви говорите. Так ось частина природного мова обробки. 

Або також, коли ви використовуєте Siri, перш у вас є алгоритм, який намагається перевести те, що ви говорите, словами, в тексті. А потім він намагається перевести що в сенсі. Так що все це частина природної мова обробки. 

Тоді у вас є машинний переклад - які насправді одна з моїх улюблених - який просто переклад з мови на іншу. Таким чином, ви можете думати, що, коли ви робите машинний переклад, у вас є нескінченні можливості вироків. Так що немає ніякого способу, щоб просто зберігати кожний переказ. Таким чином, ви повинні придумати цікаве Алгоритми, щоб мати можливість перевести кожен Вирок в деякому роді. 

Ви, хлопці, є які-небудь питання досі? Ні? ОК. 

Так що ми будемо бачити сьогодні? Перш за все, я збираюся говорити про завдання класифікації. Таким чином, той, який я був кажучи про спам. Те, що я збираюся зробити, це, враховуючи текст пісню, ви можете спробувати з'ясувати, з високою ймовірністю який є співаком? Давайте припустимо, що у мене є пісні з леді Гага і Кеті Перрі, якщо я дам вам Нова пісня, ви можете з'ясувати, якщо це Кеті Перрі або Леді Гага? 

Другий, я просто хочу поговорити про проблему сегментації. Так що я не знаю, якщо ви, хлопці, знаю, але Китайська, японська, другу Східної Азії мови, та інші мови загалом, не мають прогалини між словами. І потім, якщо ви думаєте про те, як цього ваш комп'ютер роду спроб зрозуміти обробки природної мови, це виглядає на слова і намагається зрозуміти відносини між ними, чи не так? Але тоді, якщо у вас є китайський, і ви мають нульові прогалини, це дійсно важко з'ясувати, яке відношення між слова, тому що вони не мають жодних слова в першу чергу. Так що вам потрібно зробити те, що називається Сегментація який просто означає, поклавши простору між тим, що ми назвали б слова на цих мовах. Сенс? 

А потім ми збираємося говорити про синтаксис. Так що просто трохи про природної мова обробки. Це буде просто огляд. Так що сьогодні, в основному, що я хочу зробити це дати Вам хлопців трохи всередині які можливості що ви можете зробити з обчислювальною лінгвістика. І тоді ви зможете побачити те, що ви думаєте прохолодно до числа тих речей. А може бути, ви можете думати про проект і прийти поговорити зі мною. І я можу дати вам пораду про те, як його реалізувати. 

Так синтаксис буде трохи про Graph Пошук і машини переклад. Я просто хочу, щоб дати приклад того, як ви могли б, наприклад, перевести щось з португальського на англійську. Звучить добре? 

Отже, спочатку завдання класифікації. Скажу, що ця частина семінару буде найскладнішим один тільки тому, що там відбувається бути деяке кодування. Але це буде Python. Я знаю, ви, хлопці, не знаю, Python, тому Я просто хочу, щоб пояснити на високій рівень, що я роблю. І у вас немає по-справжньому піклуватися занадто багато про синтаксис, тому що це щось ви, хлопці, можете дізнатися. ОК? Звучить добре. 

Так в чому ж проблема класифікації? Таким чином, ви дали деякі пісні, щоб пісня, і ви хочете, щоб здогадатися, хто співає її. І це може бути для будь-якого виду інших проблем. Таким чином, можна, наприклад, у вас є Президентська кампанія і у вас є мова, і ви хочете знайти , Якщо це було, наприклад, Обама чи Мітт Ромні. Або ви можете мати купу листів і Ви хочете, щоб з'ясувати, якщо вони спамом чи ні. Так що це просто класифікації деяких дані, засновані на словах що у вас там. 

Таким чином, щоб зробити це, ви повинні зробити деякі припущення. Так багато про обчислювальної лінгвістики робить припущення, зазвичай розумні припущення, так що Ви можете отримати хороші результати. Спроба створити модель для нього. А потім спробувати його і подивитися, якщо це працює, якщо він дає хорошу точність. І якщо це станеться, то ви спробувати поліпшити його. Якщо цього не станеться, ви, як, в порядку, може бути, я повинні зробити інший припущення. 

Таким чином, припущення, що ми збираємося зробити те, що художник, як правило, співає про тему кілька разів, і, можливо, використовує слова кілька разів просто тому що вони звикли до нього. Ви можете просто думати про своє одному. Я впевнений, що всі ви, хлопці, є друзі що сказати, їх підписи фразу, буквально для кожного окремого пропозиції - як якогось певного слова або деяких конкретних фраза, що мовляв для кожен вирок. 

А що ви можете сказати, що якщо ви бачите вирок, який має підпис Фраза, можна здогадатися, що, ймовірно, ваш друг один каже це, чи не так? Так ви зробите це припущення, а потім це, як ви створити модель. 

Приклад, який я збираюся дати на як Lady Gaga, наприклад, люди сказати, що вона використовує "BABY" для всі її номер один пісні. А насправді це відео, яке показує вона говорила слово "дитина" для різні пісні. 

[Відеовідтворення] 

- (Співає) Дитячі. Дитячі. Дитячі. Дитячі. Дитячі. Малиш. Дитячі. Дитячі. Дитячі. Дитячі. 

[КІНЕЦЬ відеовідтворення- 

LUCAS Фрейташ: Так що, я думаю, 40 пісні тут, в якому вона говорить Слово "дитина". Таким чином, ви можете в основному думаю що, якщо ви бачите пісню, яка має слово "дитина", є деякі високі Імовірність того, що це Леді Гага. Але давайте спробуємо розвивати це далі більш формально. 

Таким чином, ці тексти до пісень Леді Гага і Кеті Перрі. Таким чином, ви подивіться на Lady Gaga, ви бачите, що вони є багато випадків з "дитини", багато входжень "шляху". А потім Кеті Перрі має багато входжень "," Багато входжень "вогонь". 

Тому в основному те, що ми хочемо зробити, це, ви отримаєте лірику. Давайте припустимо, що ви отримуєте лірику для пісня, яка є "дитина", просто "дитина". Якщо ви просто отримаєте слово "дитина", і це всі дані, які у вас є з Леді Гага і Кеті Перрі, які б ви здогадалися це людина, хто співає пісню? Леді Гага або Кеті Перрі? Lady Gaga, чи не так? Тому що вона єдина, хто говорить "Дитина". Це звучить нерозумно, чи не так? Добре, це дійсно просто. Я просто дивлюся на двох пісень і Звичайно, вона єдина, хто має "Дитина". 

Але що, якщо у вас є купа слів? Якщо у вас є свіжа Лірика, щось як, "дитина, я просто пішли, щоб бачити [? ФТ?] лекція ", або щось в цьому роді, і то ви насправді повинні з'ясувати - на основі всіх цих слів - який є художник, який, ймовірно, співав цю пісню? Так давайте спробуємо розробити це трохи далі. 

Отже, на основі тільки на даних, які ми отримав, здається, що Гага, ймовірно, співак. Але як ми можемо написати це більш формально? І це буде трохи Трохи статистики. Так що, якщо ви заблукали, просто спробуйте зрозуміти концепцію. Це не має значення, якщо ви розумієте, рівняння на відмінно. Це все буде в Інтернеті. 

Тому в основному те, що я розрахунку є ймовірність того, що ця пісня по Леді Гага, враховуючи, що - так цей бар означає, враховуючи, що - Я бачив слово "дитина". Чи має це сенс? Так що я намагаюся обчислити що ймовірність. 

Так що є ця теорема називається Теорема Байеса, що говорить про те, що ймовірність даного B, є ймовірність B дали, раз ймовірність, по ймовірності В. Це довгий рівняння. Але те, що ви повинні зрозуміти, від тобто, що це те, що я хочу розрахувати, чи не так? Таким чином, ймовірність того, що ця пісня по Леді Гага враховуючи, що я побачив слово "Дитина". 

А тепер, що я отримую є ймовірність слова "дитина" з урахуванням що у мене є Lady Gaga. А що таке, що в принципі? Це означає,, що є Можливість надходження слово "дитина" в Gaga текстах? Якщо я хочу, щоб обчислити, що в дуже простий спосіб, це просто число раз я бачу "Baby" від загальної кількості слів у текстах Gaga, чи не так? Яка частота, що я бачу, це слово в роботі Гага? Сенс? 

Другий доданок ймовірність Gaga. Що це означає? Це в основному означає, що Імовірність класифікації деякі тексти як Gaga? І це трохи дивно, але давайте думати про приклад. Так скажімо, що ймовірність наявність "дитини" в пісні те ж саме для Гага і Брітні Спірс. Але Брітні Спірс має в два рази більше пісень, ніж Lady Gaga. Так що якщо хтось просто випадково дає Лірика "дитину", перше, що ви дивитися на це, те, що ймовірність наявність "дитини" в пісні Gaga, "дитина" у пісні Брітні? І це те ж саме. 

Так Друге, що ви побачите, це, добре, що є вірогідність це ліричні сама по собі будучи Гага ліричні, і яка вірогідність будучи лірична Брітні? Так, так як Брітні має так багато більше лірику ніж Гага, ви, ймовірно, скажімо, ну, це, ймовірно, лірична Брітні. Так ось чому у нас є це назвати прямо тут. Імовірність Gaga. Має сенс? Чи так це? ОК. 

І останнє є ймовірність з "дитини", який не має значення, що багато. Але це ймовірність бачачи "Baby" англійською мовою. Ми зазвичай не хвилює, що багато про цього терміна. Чи має це сенс? Таким чином, ймовірність Гага називається апріорна ймовірність класової Gaga. Тому що це просто означає, що, те, що ймовірність того, що клас - що Гага - тільки в загальному, тільки без умов. 

А потім, коли у мене є ймовірність Гага дано "дитина", ми називаємо це плюс сльозяться ймовірність, тому що це ймовірність наявності Гага враховуючи деякі докази. Тому я даю вам докази що я побачив слово дитини і пісня має сенсу? ОК. 

Так що якщо я підрахував, що для кожного з пісень для Lady Gaga, що це було б - судячи з усього, я не можу рухатися в цьому. Імовірність Gaga буде щось на зразок 2 більше 24, раз 1/2, більше 2 більше 53. Це не має значення, якщо ви знаєте, що ці цифри і звідки. Але це всього лише число, яке буде бути більше, ніж 0, вірно? 

А потім, коли я роблю Кеті Перрі, ймовірність "дитини" враховуючи Кеті вже 0, вірно? Тому що немає ніякого "дитина" в Кеті Перрі. Так то це стає 0, а Гага перемог, що означає, що Гага ймовірно, співак. Чи має це сенс? ОК. 

Так що, якщо я хочу, щоб зробити це більш офіційний, Я можу насправді модель за кількома словами. Так скажемо, що у мене є щось як, "дитина, Я у вогні, "або щось. Так що має кілька слів. І в цьому випадку, ви можете побачити що "дитина" знаходиться в Gaga, але це не в Katy. І "вогонь" знаходиться в Katy, але це не в Gaga, чи не так? Так вона стає складніше, чи не так? Тому що здається, що ви майже є зв'язок між ними. 

Так що ви повинні зробити, це припустити, незалежність серед слів. Так в основному, що це означає, що Я просто вираховуючи, що є Можливість надходження "дитини", що є ймовірність побачити «я», і "Я", і "на" і "вогонь" все окремо. Тоді я множення всіх з них. І я бачу, що є вірогідність бачити ціле речення. Сенс? 

Так в основному, якщо у мене є тільки одне слово, те, що я хочу знайти це аргумент макс, що означає, що клас, який є дає мені найбільшу ймовірність? Так в чому ж клас, який дає мене найвища ймовірність ймовірність класу дали слово. Таким чином, в цьому випадку, Гага дано "дитини". Або Кеті дано "дитини". Сенс? 

І лише від Байеса, що рівняння, яке я показав, ми створюємо цю фракцію. Єдине, що ви бачите, що ймовірність слова з урахуванням зміни класів залежно від класу, чи не так? Кількість "Baby" з, що у мене є в Gaga відрізняється від Katy. Імовірність класу також зміни, тому що це просто число пісень кожен з них має. 

Але ймовірність того, що саме слово буде однаковим для всіх художники, вірно? Таким чином, ймовірність того, що слова просто, що ймовірність бачачи, що слово в Англійська мова? Так що це те ж саме для всіх з них. Так, так як це постійно, ми можемо просто відмовитися від цього, а не дбати про нього. Так що це буде насправді рівняння ми шукаємо. 

І якщо у мене є кілька слів, я ще доведеться до Ймовірність тут. Єдине, що я множення ймовірність всі інші слова. Так що я множення всіх з них. Сенс? Це виглядає дивно, але в основному означає, розрахувати до класу, і потім помножити на ймовірність кожного зі слів, що знаходяться в цьому класі. 

І ви знаєте, що ймовірність Слово дано клас буде скільки разів ви побачите, що слово в що клас, поділене на кількість Слова, які ви маєте в тому, що клас в цілому. Сенс? Це просто, як "дитина" було 2 більш кількість слів, які У мене була в ліриці. Так що просто частота. 

Але є одна річ. Пам'ятаєте, як я показував, що ймовірність "Baby", що є текстах від Кеті Перрі 0 тільки тому, що Кеті Перрі не було "Baby" взагалі? Але це звучить трохи різко, щоб просто просто сказати, що текст пісні не може бути від художник тільки тому, що вони не мають це слово зокрема в будь-який час. 

Таким чином, ви могли б просто сказати, ну, якщо ви ні це слово, я збираюся дати вам більш низьку ймовірність, але я просто не збираюся дати вам 0 відразу. Бо, може бути, це було щось на зразок, "Вогонь, вогонь, вогонь, вогонь", який є повністю Кеті Перрі. А потім "дитина", і це тільки йде, щоб 0 відразу, тому що був один "Дитина". 

Тому в основному те, що ми робимо щось називається Лапласа згладжування. І це просто означає, що я даю деяка ймовірність навіть до слів що не існує. Так, що я роблю те, що, коли я розрахунку цього, я завжди додаю 1 до чисельник. Таким чином, навіть якщо слово не існує, в У цьому випадку, якщо це 0, я до сих пір розрахунку це як 1 над загальна кількість слів. В іншому випадку, я отримую, скільки слів У мене є і я додати 1. Так я розраховую в обох випадках. Сенс? 

Так що тепер давайте зробимо деякі кодування. Я збираюся повинні зробити це досить швидко, але це просто важливо, щоб вам хлопці зрозуміти концепції. Отже, що ми намагаємося зробити точно реалізувати це річ, яку я тільки що сказав, - Я хочу, щоб ти поклав текст з Леді Гага і Кеті Перрі. І програма буде в змозі кажуть, що якщо ці нові тексти з Gaga або Кеті Перрі. Сенс? ОК. 

Так що я цю програму я збираюся подзвонити classify.py. Так що це Python. Це нова мова програмування. Це дуже схоже на деякі способи C і PHP. Це схоже, тому що, якщо ви хочете дізнатися Python дізнавшись C, це дійсно не так багато виклик тільки тому, що Python набагато простіше ніж C, в першу чергу. І багато чого вже реалізований для вас. Отже, як як PHP має функції, які відсортувати список, або додати щось на масив, або бла, бла, бла. Python має всі ті також. 

Так що я просто збираюся пояснити швидко як ми могли б зробити класифікацію Проблема тут. Так скажемо, що в цьому випадку, у мене є пісні з Гага і Кеті Перрі. Таким чином, що у мене є ці тексти в тому, що перше слово з пісні є ім'я художника, і інше лірика. Так скажемо, що у мене є цей список в яких перший є вірші Gaga. Так от я на правильному шляху. А наступного один Кеті, і вона має також тексти пісень. 

Так що це, як ви заявляєте, змінна в Python. Ви не повинні дати тип даних. Ви просто написати "текст", ніби як в PHP. Сенс? 

Так що ті речі, які я повинен розрахувати, щоб мати можливість розрахувати ймовірності? У мене є для розрахунку «апріорні» з кожного з різних класи, у мене немає. У мене є для розрахунку "бічних зубів", або в значній мірі ймовірності кожен з різних слів, які У мене може бути для кожного художника. Таким чином, усередині Gaga, наприклад, я збираюся мати список, скільки разів я бачу кожне зі слів. Сенс? 

І, нарешті, я просто хочу, щоб мати Список називається "слова", що просто буде мати скільки слів я Тобто для кожного художника. Таким чином, для Gaga, наприклад, коли я дивлюся до лірики, я, по-моєму, 24 слова в цілому. Так цей список просто доведеться Гага 24, і Кеті інший номер. Сенс? ОК. 

Отже, тепер, власне, давайте перейти до кодування. Таким чином, в Python, ви можете насправді повернутися купу різні речі з функції. Так що я збираюся створити цю функцію називається "умовним", який збирається повернути всі з тих речей, "Пріори", що "ймовірності", і "Слова". Таким чином, "умовна", і це буде ставлячи під "лірики". 

Так що тепер я хочу, щоб ви насправді написати цю функцію. Таким чином, спосіб, яким я можу написати це функція Я просто визначив це функціонувати з "визначення". Так я і зробив "визначення умовно, "і це займає "Текст". І те, що це буде робити є, в першу чергу, у мене є свої апріорні що я хочу, щоб обчислити. 

Таким чином, спосіб, яким я можу це зробити, це створити словник в Python, який в значній мірі те ж саме, що хеш стіл, або це як ітеративний Масив в PHP. Це, як я оголосити словник. І в основному це означає те, що апріорні з Gaga 0,5, наприклад, якщо 50% з лірики від Гага, 50% з Katy. Сенс? Так що я повинен з'ясувати, як для розрахунку апріорні. 

Наступні ті, які я повинен зробити, також, є ймовірностями і слова. Так ймовірності Gaga список всіх ймовірностей того, що я Тобто для кожного зі слів для Gaga. Так що, якщо я йду в ймовірностях Gaga "Дитина", наприклад, він дасть мені щось на зразок 2 по 24 в цьому випадку. Сенс? Так я йду в "ймовірності", перейдіть в "Гага" відро, що має список всіх слова Gaga, то я йду в "дитини", і я бачу ймовірність. 

І, нарешті у мене є це "Слова" словник. Так от, "ймовірності". А потім "Слова". Так що, якщо я можу зробити "слова", "Gaga", що відбудеться те, що це дасть мені 24, кажучи, що я є 24 слів в текстах з Gaga. Має сенс? Так от, "слова" одно Дах-Дах-дах. Добре 

Так що я збираюся зробити, це я збираюся перебору кожного з текстах, так кожного з рядків, які У мене є в списку. І я збираюся розрахувати ті речі для кожного з кандидатів. Має сенс? Так що я повинен зробити для петлі. 

Таким чином, в Python, що я можу зробити, це "для лінії в текстах. "те ж саме, "Для кожного" заяву в PHP. Пам'ятаєте, як якщо б це був PHP я міг сказати "для кожного текстах як лінія ". Має сенс? Так що я беру кожної з ліній, в цьому випадок, цей рядок і наступна рядок так і для кожної з ліній, що я збираюся зробити, це по-перше, я збираюся розділити цей рядок до списку слова, розділених пробілами. 

Так здорово, що про Python є те, що ви могли б просто Google, як "як я можу розбити рядок на слова? "І це збираюся розповісти вам, як це зробити. І те, як це зробити, це просто "лінія = Line.split () ", і це в основному збираюся дати Вам список кожне зі слів тут. Має сенс? Так що тепер я зробив, що я хочу знати, який є співаком цієї пісні. А для цього я просто повинен отримати Перший елемент масиву, чи не так? Тому я можу тільки сказати, що я "співак = Лінія (0) "Має сенс? 

А потім, що мені потрібно зробити, це, в першу все, що я збираюся оновити скільки слова у мене під "Гага". так що я просто збирається підрахувати, скільки слів я є в цьому списку, чи не так? Тому що це, скільки слів у мене в ліриці, і я просто хочу, щоб додати його в "Gaga" масиву. Чи має це сенс? Не надто великий акцент на синтаксису. Думайте більше про поняттях. Це найважливіша частина. ОК. 

Так що я можу зробити це, якщо "Гага" є вже в цьому списку, так що "якщо співак у слова ", що означає, що я вже є слова, Gaga. Я просто хочу додати додатковий слова до цього. Так що я роблю, це "слова (співачка) + = Len (рядок) - 1 ". І тоді я можу просто зробити Довжина лінії. Так як багато елементів I мати в масиві. І що я повинен зробити мінус 1 тільки тому, що перший елемент масиву є просто співак і тих, хто не є тексти. Має сенс? ОК. 

"В іншому випадку," це означає, що я хочу насправді вставити Gaga в список. Так що я просто зробити "слова (співачка) = Len (рядок) - 1, "шкода. Таким чином, єдина відмінність між ними лінії є те, що на цей раз, це не так існують ще, так що я просто його ініціалізації. Це один я насправді додавання. ОК. Так що це було додавання до слів. 

Тепер я хочу додати до настоятелів. Так як я можу вирахувати апріорні? У пріори можна розрахувати у скільки разів. Так скільки разів ви бачите, що співак серед всіх співаків, які ви є, чи не так? Таким чином, для Gaga і Кеті Перрі, в цьому випадку, я бачу Gaga один раз, Кеті Перрі разів. 

Тому, в основному настоятелі для Gaga і Кеті Перрі буде бути просто одним, чи не так? Ви просто, скільки разів Я бачу художника. Так що це дуже легко вирахувати. Я можу тільки щось подібне, як наприклад, "якщо співак у настоятелів, "Я просто збираюся додати 1 до їх настоятелі вікні. Так, "пріори (співати)" + = 1 ", а потім" ще " Я збираюся зробити «апріорні (співачка) = 1 ". Має сенс? 

Так що, якщо він не існує, я просто поставити як 1, в іншому випадку я просто додайте 1. Отже, тепер все, що у мене залишилося зробити також додати кожне з слів в ймовірності. Так що я повинен підрахувати, скільки разів Я бачу кожного зі слів. Так що я просто повинен зробити ще один цикл в лінії. 

Так, перше, що я збираюся зробити, це перевірити, якщо співачка вже має ймовірності масив. Так я перевіряю, якщо співак не є масив ймовірності, я просто збирається ініціалізувати один для них. Це навіть не масив, вибачте, це словник. Так ймовірності співачки збирається бути відкритою словник, так що я просто ініціалізації словника для нього. ОК? 

І тепер я можу реально зробити для петлі для розрахунку кожного зі слів ' ймовірності. ОК. Так що я можу зробити це для петлі. Так що я просто хочу, щоб ітерації по масиву. Таким чином, спосіб, яким я можу зробити це в Python є "для г в діапазоні". З 1 тому що я хочу, щоб почати в секунду елемент, тому що перший є Ім'я співака. Так від одного до Довжина лінії. І коли я в діапазоні вона насправді йти від як тут від 1 до Len з Лінія мінус 1. Так що вже робить цю штуку робити н мінус 1 для масивів, які дуже зручно. Має сенс? 

Таким чином, для кожного з них, то, що я збираюся зробити, це, як і в іншому, Я збираюся перевірити, якщо слово в цьому Положення в лінійці вже ймовірності. А потім, як я сказав тут, ймовірності слова, як в я ставлю "Ймовірності (співачка)». Таким чином, ім'я співачки. Так що, якщо це вже в "Probabilit (співак)", це означає, що я хочете додати до нього 1, так що я збираюся зробити "ймовірності (співак)", а Слово називається "лінія (я)". Я збираюся додати 1 і "ще" Я просто збирається ініціювати його в 1. "Лінія (я)". Має сенс? 

Так, за моїми розрахунками все масиви. Отже, тепер все, що я повинен зробити для Цей просто "повернутися апріорні, ймовірності та слова. «Давайте побачити, якщо такі є, гаразд. Начебто все працює до цих пір. Так, в цьому є сенс? У деякому роді? ОК. Так що тепер у мене є всі ймовірності. Так що тепер єдине, що в мене залишилося просто мати цю річ, що обчислює твір все ймовірностей, коли я отримую лірику. 

Так скажемо, що я хочу зараз називати ця функція "класифікувати ()" і річ, яка функція приймає це просто аргумент. Скажімо "Дитинко, я у вогні", і це збирається з'ясувати, що є Імовірність того, що це Gaga? Яка ймовірність того, що це Кеті? Звучить добре? Так що я просто доведеться створити Нова функція називається "класифікувати ()" і він збирається прийняти деякі текст пісні, а також. І, крім того ліриці Я також повинні відправити апріорні, ймовірності та слова. Так що я збираюся послати текст, апріорні, ймовірності, слова. 

Так це відбувається текст, апріорні, ймовірності, слова. Так, для чого це потрібно? Це в основному буде йти через все можливі кандидати, які ви мати в якості співака. А де ті кандидати? Вони в настоятелів, чи не так? Тому у мене є всі ті, там. Так що я збираюся є словник з усіх можливих кандидатів. А потім за кожного кандидата в настоятелі, так це означає, що він збирається бути Гага, Кеті якби мені довелося більш було б більше. Я збираюся почати розрахунок ця ймовірність. Імовірність як ми бачили в PowerPoint є Попередні раз Продукт кожного з інші ймовірності. 

Так що я можу зробити те ж саме тут. Я можу просто зробити ймовірність спочатку тільки перед. Так настоятелі кандидата. Чи не так? І тепер у мене є для перебору всіх Слова, які я маю в ліриці бути можливість додавати ймовірність для кожного з них, в порядку? Так, "в слово в текстах", що я збираюся зробити, це, якщо слово в "Ймовірності (кандидати)", які означає, що це слово, яке Кандидат повинен у своїх текстах - наприклад, "дитина" для Gaga - те, що я збираюся зробити, це що ймовірність збирається помножити на 1 плюс ймовірностей кандидат в цьому слові. І це називається "Слово". Це ділиться на кількість слів що у мене є для цього кандидата. Загальна кількість слів, які у мене є для співачки, що я дивлюся на. 

"Else". це означає, що це нове слово так що було б, як наприклад "Вогонь" для Lady Gaga. Так що я просто хочу зробити 1 по "Слово (кандидат)". Так що я не хочу поставити цей термін тут. 

Так що це буде в основному копіювання і вставка цього. Але я збираюся видалити цю частину. Так що це просто буде 1 з цього приводу. Звучить добре? І тепер наприкінці, я просто хочу, щоб друкувати ім'я кандидата і ймовірність того, що у вас є з маючи S на їх текстах. Має сенс? І я насправді навіть не потрібен цей словник. Має сенс? 

Отже, давайте подивимося, якщо це насправді працює. Так що, якщо я запускаю це, він не працює. Зачекайте одну секунду. "Слова (кандидати)", "слова (кандидати)", це ім'я масиву. ОК Таким чином, це говорить, що є якась помилка для кандидата в настоятелів. Дозвольте мені просто розслабитися небагато. ОК. Давайте спробуємо. ОК. 

Так він дає Кеті Перрі має це Вірогідність цього разу 10 до мінус 7, і Гага це раз від 10 до мінус 6. Отже, ви бачите це показує, що Гага має більш високу ймовірність. Таким чином, "Дитинко, я у вогні" є ймовірно, пісня Gaga. Має сенс? Так що це те, що ми зробили. 

Цей код буде розміщений на сайті, щоб ви, хлопці, можете перевірити його. Може бути, використовувати деякі з них, якщо ви хочете, щоб зробити проект або щось подібне. ОК. Це було якраз, щоб показати що обчислювальна лінгвістика код виглядає. Але тепер давайте повернемося до більш Високий рівень речі. ОК. 

Таким чином, інші проблеми, які я говорив про - проблема сегментації є першим з них. Так у вас тут по-японськи. І тоді ви побачите, що немає простору. Так що це в основному означає, що це верхня частина крісла, чи не так? Ви говорите по-японськи? Це верхня частина крісла, чи не так? 

СТУДЕНТ: Я не знаю, що кандзі там є. 

LUCAS Фрейташ: Це [говоріння по-японськи] ОК. Так що в основному означає кафедру вершині. Так що якщо ви повинні були поставити пробіл було б тут. І тоді у вас є [? Уеда-Сан -. ?] Які в основному означає, пан Уеда. І ви бачите, що "Уеда" і у вас є простір, а потім "Сан -." Отже, ви бачите, що тут ви "Ue", як сам по собі. І ось у нього є характер поруч з ним. 

Так що це не так, як в цих мовах символів означає слово його, щоб ви просто покласти багато прогалин. Персонажі пов'язані один з одним. І вони можуть бути разом як два, три, один. Таким чином, ви насправді потрібно створити якийсь з спосіб покласти ці прогалини. 

І це те, що всякий раз, коли ви отримуєте Дані з цих азіатських мов, все приходить нечленістие. Тому що немає той, хто пише по-японськи або китайський пише пробілами. Всякий раз, коли ви пишете по-китайськи, Японський ви просто написати все, без пробілів. Він навіть не має сенсу поставити пробіли. Отже, коли ви отримуєте дані з, деякі Азіатських мов Схід, якщо ви хочете зробити щось з цим ви повинні сегменті в першу чергу. 

Подумайте робити приклад тексти без пробілів. Таким чином, тільки текст пісні, які ви повинні буде вироки, чи не так? , Розділених точками. Але потім, як раз пропозиція буде не допомагає на надання інформації від того, хто ці тексти на. Чи не так? Таким чином, ви повинні ставить прогалини в першу чергу. Отже, як можна це зробити? 

Так потім приходить ідея мові модель, яка щось дійсно важливо для обчислювальних лінгвістика. Таким чином, мовна модель в основному таблиця ймовірностей, що шоу насамперед яка ймовірність того, це слово в мові? Так, що показує, як часто слово. А потім ще й ніколи співвідношення між словами в реченні. 

Таким чином, основна ідея полягає в тому, якщо незнайомець прийшов Вам і сказав вирок Ви, яка ймовірність того, що для Наприклад, "це моя сестра [? GTF"?] був вирок, що чоловік сказав? Так, очевидно, деякі вироки частіше, ніж інші. Наприклад, "добрий ранок" або "добре ніч ", або" Ей, "набагато більш спільного, ніж більшість пропозицій що у нас є по-англійськи. Так чому ж ці пропозиції частішими? 

Насамперед, це тому, що у вас є слова, які частіше. Так, наприклад, якщо ви говорите, що собака великий, і собака гігантська, ви зазвичай, ймовірно, почути Собака велика частіше, тому що "великий" є більш часто англійською мовою, ніж "гігантська". Так, один з речі частота слово. 

Друга річ, яка дійсно важливо тільки порядок слів. Таким чином, це прийнято говорити "кішка всередині коробки. ", але ви цього не зробите, як правило, см. в "вікні всередині кіт." так Ви бачите, що є деяка важливість в порядку слів. Ви не можете просто сказати, що ці двоє пропозиції мають однакову ймовірність тільки тому, що у них є ті ж самі слова. Ви насправді повинні дбати про порядок, а також. Сенс? 

Так що ж нам робити? Так що я міг би спробувати отримати вас? Я намагаюся змусити вас, що ми подзвонити моделі н-грамові. Так моделі н-грам основному припустити що для кожного слова, яке у вас є в реченні. Це ймовірність наявності, що Слово є залежить не тільки від Частота цього слова в мові, але також і від слів, які оточують його. 

Так, наприклад, як правило, коли ви бачите щось на зразок або на ви ймовірно, побачимо іменник після нього, чи не так? Тому що, коли у вас є прийменник зазвичай це займає іменник після нього. Або якщо у вас є дієслово, який транзитивно Ви зазвичай збираються є словосполучення. Так що це матиме іменник десь навколо нього. 

Так, в основному, те, що він робить те, що це вважає ймовірність наявності слова поруч один з одним, коли Ви розрахунку ймовірність пропозиції. І ось, що таке мова модель в принципі. Просто кажу, що це ймовірність з що має питому Вирок у мові? Так чому ж, що корисно, в основному? І в першу чергу те, що модель н-г, то? 

Так модель н-г означає, що кожне слово залежить від Наступний N мінус 1 слів. Так, в основному, це означає, що якщо я дивлюся, наприклад, на CS50 TF, коли Я обчислення ймовірності вирок, будеш як " ймовірність того, слово "" рази ймовірність наявності " CS50 "раз ймовірність наявності "CS50 TF." Так, в основному, я вважаю всі можливі способи розтягуючи її. 

А потім, як правило, коли ви робите це, як у проекті, ви ставите N бути низьке значення. Так, як правило, мають биграмм або триграм. Так що ви просто порахувати два словами, група з двох слів, або трьох слів, просто за збої в роботі. А також тому, може бути, якщо у вас є щось на кшталт "The CS50 TF." Коли ви є "TF", це дуже важливо, що "CS50" поруч з ним, чи не так? Ці дві речі, як правило, поруч один з одним. 

Якщо ви думаєте про "TF", це, ймовірно, буде мати те, що Клас це TF'ing для. Крім того, "" що дійсно важливо для CS50 TF. Але якщо у вас є щось на кшталт "The CS50 TF пішов у клас і дав їх студенти деякі цукерки. "" Цукерки "і" " не мають ніякого відношення дійсно, чи не так? Вони так далеко один від одного, що це дійсно не має значення, що слова у вас є. 

Так, роблячи биграмм або триграмма, це просто означає, що ви обмежуєте собі деяких слів що навколо. Сенс? Отже, коли ви хочете зробити сегментацію, в основному, те, що ви хочете зробити, це побачити якими є всі можливі способи, які ви можете розбити пропозицію. 

Такий, що ви бачите, що є ймовірність кожного з цих пропозицій існуючих в мові? Так що ви робите це як, ну, нехай мені спробувати поставити пробіл тут. Таким чином, ви поставити пробіл є і ви бачите, що є ймовірність того, що вирок? Тоді ви, як, в порядку, може бути, що не було настільки добре. Так що я поставити пробіл там і просторі там, і вам розрахувати Імовірність зараз, і ви бачите, що це висока ймовірність. 

Так що це алгоритм називається ТАНГО Алгоритм сегментації, який насправді те, що було б дійсно охолонути протягом проекту, який в основному бере нечленістие текст, який може бути японський або китайський або, може бути, Англійська без пробілів і намагається помістити пропуски між словами і це робить що за допомогою мовну модель і намагаючись розгледіти, що є найвищим ймовірність ви можете отримати. ОК. Так що це сегментація. 

Тепер синтаксис. Так, синтаксис використовується для так багато речей, прямо зараз. Таким чином, для Graph Пошук, для Siri для майже будь-який вид природного мова обробки у вас є. Так що важливо речі про синтаксис? Так, пропозиції в цілому мають що ми називаємо складові. Які ніби як групи слів які мають функцію в реченні. І вони не можуть дійсно бути один від одного. 

Так що, якщо я кажу, наприклад, "Лорен любить Мило. "Я знаю, що" Лорен "є складовою і потім "любить Мило "також ще один. Тому що ви не можете сказати, як "Лорен Міло любить "мати той же зміст. Це не буде мати той же зміст. Або я не можу сказати, як "Міло Lauren любить. "Не все має ті ж означає робити це. 

Таким чином, дві важливіші речі, про Синтаксис є лексичні типи яких є в основному функція, що ви є слова самі по собі. Таким чином, ви повинні знати, що "Лорен" і "Мило" іменники. "Любов" це дієслово. І друга важлива річ що вони фразові типи. Таким чином, ви знаєте, що "любить Майло" насправді є словесне фраза. Тому, коли я говорю "Лорен", я знаю, що Лорен робить щось. Що вона робить? Вона любляча Майло. Так що це все справа. Але його компоненти іменник і дієслово. Але разом, вони роблять дієслово фразу. 

Отже, що ми можемо реально зробити за комп'ютерна лінгвістика? Так що, якщо у мене є дещо для прикладу «Друзі Allison». Я бачу, якщо я просто зробив синтаксичний дерево я буду знати, що "Друзі" є іменна це іменник, а потім "з Allison» є прийменникова, в якому "з" є пропозицію і "Аллісон" є іменником. Що я міг зробити, це навчити свій комп'ютер , Що, коли у мене є Іменна один і потім прийменникова. Так в даному випадку, "друзі", а потім "з Мило "Я знаю, що це означає, що NP2, другий, володіє NP1. 

Так що я можу створити якесь відношення, якась функції для нього. Тому, коли я бачу цю структуру, яка збігається хоча б з "друзями Еллісон: "Я знаю, що Еллісон володіє друзів. Так що друзі є чимось що Еллісон має. Має сенс? Так що це в основному те, що Графік Пошук робить. Це просто створює правила для багатьох речей. Так «друзі Allison", "мої друзі хто живе в Кембриджі "," мої друзі хто вчився в Гарварді ". Це створює правила для всіх цих речей. 

Тепер машинного перекладу. Так, машинний переклад також щось статистичний. А насправді, якщо ви потрапили в комп'ютерна лінгвістика, багато Ваш матеріал буде статистика. Так як я робив приклад з багато ймовірностей, що я був розрахунку, і тоді ви отримаєте на це дуже невелика кількість, це фінал Імовірність, і ось що дає вам відповідь. Машинний переклад також використовує статистична модель. І якщо ви хочете думати про машину переклад в найпростіша чином, те, що ви можете думати тільки перекласти слово в слово, чи не так? 

Коли ви вивчаєте мову для перший раз, що, як правило, що що ви робите, чи не так? Якщо хочете, то ви перевести пропозицію на Вашому мовою до мови Ви вчитеся, як правило, по-перше, ви перевести кожне з слів індивідуально, а потім спробуйте покласти слова на свої місця. 

Так що, якщо я хотів, щоб перевести це, [ГОВОРЯЧИ ПОРТУГАЛІЇ] , Що означає "біла кішка втекла." Якби я хотів, щоб перевести його з З португальської на англійську, то, що я може зробити, це, по-перше, я просто перекласти слово в слово. Так «о» "," "гато", "кішка" "Бранко", "білий", а потім "fugio" є "Утік". 

Так то у мене є всі слова тут, але вони не в порядку. Це як "кішка білий втік" який безграмотно. Так, то я можу мати другий крок, який збирається бути знайти ідеал положення для кожного зі слів. Так що я знаю, що я насправді хочу мати "Біла кішка" замість "кішка, білий." Так що я можу зробити, це, самі наївні методу було б створити всі можливих перестановок слова, з позицій. А потім подивитися, що один має Найбільша вірогідність відповідно на мій мовної моделі. А потім, коли я знайти той, який має найбільша ймовірність його, що ймовірно, "біла кішка втекла," ось мій переклад. 

І це простий спосіб пояснення як багато машинного перекладу алгоритми роботи. Чи має це сенс? Це також те, дуже цікаво що ви, хлопці можуть, може бути, розвідку Остаточний проект, так? 

СТУДЕНТ: Ну, ти сказав, що наївний спосіб, так в чому НЕ-наївним способом? 

LUCAS Фрейташ: не-наївним способом? ОК. Таким чином, перше, що в цьому поганого цей метод в тому, що я тільки що переклав слова, слово в слово. Але іноді у вас є слова, які може мати кілька перекладів. Я збираюся спробувати думати чогось. Наприклад, "манга" у португальському банку або "калічити" або "рукав". Так коли ви намагаєтеся перекласти слово словом, це може бути даючи вам те, що не має ніякого сенсу. 

Таким чином, ви насправді хочете, щоб ви подивіться на все можливі переклади слова і побачити, в першу чергу, який порядок. Ми говорили про перестановки речі? Щоб побачити всі можливі замовлення і вибрати один з найвищою ймовірність? Ви також можете вибрати всі можливі переклади для кожного слово, а потім подивитися - в поєднанні з перестановок - який має високу ймовірність. 

Крім того, ви також можете подивитися на НЕ тільки слова, але фрази. так що ви можете проаналізувати відносини між слова і потім отримати краще переклад. Також щось ще, так що в цьому семестрі Я насправді займався дослідженнями в Китайсько-англійський машинного перекладу, так в перекладі з Китайський на англійську мову. 

І те, що ми зробити, це, крім використання статистична модель, яка є просто бачачи ймовірності бачачи деякі позиції в реченні, я насправді також додати деякі синтаксис для моєї модель, говорячи про, якби я побачити цей вид будівництва, це те, що я хочу щоб змінити його, коли я перекладаю. Таким чином, ви також можете додати якусь елемент синтаксису, щоб зробити переклад більш ефективним і точніше. ОК. 

Отже, як можна почати, якщо ви хочете зробити щось в обчислювальній лінгвістика? 

По-перше, ви обираєте проект який включає в себе мови. Так, є так багато там. Там так багато речей, які ви можете зробити. А потім можна думати про модель що ви можете використовувати. Зазвичай це означає, що мислення припущення, так само як, ну, коли я був як мислення лірики. Я подумала: добре, якщо я хочу, щоб з'ясувати з який написав це, я, ймовірно, хочете подивитися на словах людина використовував і побачити, хто дуже часто використовує це слово. Тому постарайтеся, щоб робити припущення і намагаюся думати про моделях. І тоді ви можете також шукати онлайн роду проблеми, що у вас є, і він збирається запропонувати до вас моделей, які, може бути, моделюється що річ добре. 

А також ви завжди можете написати мені. me@lfreitas.com. І я можу тільки відповісти на ваші запитання. Ми можемо навіть може зустрітися, щоб я міг дати пропозиції про шляхи реалізації проекту. І я маю на увазі, якщо ви потрапили в комп'ютерна лінгвістика, це буде щоб бути великим. Ви будете бачити там такий потенціал. І індустрія хоче найняти Ви так погано через це. Тому я сподіваюся, ви, хлопці, насолоджувався цим. Якщо ви, хлопці є питання, Ви можете запитати мене після цього. Але спасибі.