LUCAS FREITAS: Ahoj. Vítáme každého. Mé jméno je Lucas Freitas. Jsem junior na [neslyšitelný] studium výpočetní technika se zaměřením na počítačová lingvistika. Takže moje sekundární je v jazyce a lingvistické teorie. Jsem opravdu nadšený, že učit vás kluci něco málo o této oblasti. Je to velmi vzrušující prostor ke studiu. Rovněž s velkým potenciálem pro budoucnost. Takže jsem opravdu nadšená, že vy uvažujete o projekty v počítačová lingvistika. A já budu více než rád poradí někdo z vás, zda se rozhodnete sledují jeden z nich. 

Takže v první řadě to, co je výpočetní lingvistika? Takže počítačová lingvistika je Průsečík mezi lingvistiky a počítačová věda. Takže, co je lingvistika? Co je to počítačová věda? No z lingvistiky, co Vezmeme jsou jazyky. Takže lingvistika je vlastně studium přirozeného jazyka obecně. Takže přirozený jazyk - hovoříme o jazyk, který jsme vlastně použít k vzájemně komunikovat. Takže jsme zrovna mluví o C nebo Java. Mluvíme více o angličtině a Číňané a další jazyky, které jsme používají ke komunikaci mezi sebou navzájem. 

Náročná věc, o to je to, že teď máme téměř 7000 jazyků na světě. Takže existuje poměrně vysoká odrůda jazyků, které můžeme studovat. A pak si myslím, že je to pravděpodobně velmi těžké udělat, například, překlad z jednoho jazyka do jiné, za to, že máte téměř 7000 z nich. Takže, pokud si myslíte, že děláte překlad z jednoho jazyka do druhého si mají téměř více než milion různé kombinace, které můžete se od jazyka k jazyku. Takže je to opravdu náročné udělat nějaké druh příklad překladu systému každý jazyk. 

Takže, lingvistika zachází s syntaxí, sémantika, pragmatika. Vy ne zrovna potřebujete vědět, co jsou. Ale velmi zajímavá věc je, že jako rodilý mluvčí, když se naučíte jazyk jako dítě, vlastně učit všechny ty věci - syntaxe sémantika a pragmatika - sami. A nikdo se naučit syntaxi pro abyste pochopili, jak věty jsou strukturované. Takže, je to opravdu zajímavé, protože je to něco, co je velmi intuitivně. 

A co bereš od počítačová věda? No, nejdůležitější věc, kterou bychom mají v informatice je první vše, umělá inteligence a strojové učení. Takže to, co se snažíme dělat výpočetní lingvistika je vyučovat váš počítač, jak něco udělat s jazykem. 

Tak, například, v přístroji překlad. Snažím se učit můj počítač how vědět, jak přejít z jednoho jazyka do druhého. Takže, v podstatě rád učení počítačové dva jazyky. Pokud se mi zpracování přirozeného jazyka, což je případ například Facebook je graf Vyhledávání, učíte počítač, jak porozumět dotazy dobře. 

Takže, když řeknete "fotografie z mého přátelé. "Facebook neléčí, že jako celý řetězec, který má jen banda slov. Je to vlastně chápe vztah mezi "fotky" a "moji přátelé" a chápe, že "fotky" jsou vlastnost "mých přátel." 

Tak, to je část, například, zpracování přirozeného jazyka. Snaží se porozumět tomu, co je vztah mezi slova ve větě. A velká otázka je, můžete naučit počítač, jak mluvit jazyka obecně? Což je velmi zajímavá otázka, myslím, jako by snad v budoucnu, budete mít možnost poraďte se se svým mobilním telefonem. Něco jako to, co děláme s Siri, ale něco jako, můžete skutečně říkat, co chcete, a telefon bude rozumět všemu. A to může mít navazující otázky a dál mluvit. To je něco, co opravdu vzrušující, podle mého názoru. 

Takže, něco o přirozených jazyků. Něco opravdu zajímavé přirozené jazyky je to, že, a to je úvěr na můj profesor lingvistiky, Maria Polinsky. Dává příklad a myslím, že je to opravdu zajímavé. Vzhledem k tomu, učíme jazyk od okamžiku, kdy se narodíme a pak náš rodák Jazyk druh roste na nás. 

A v podstatě se naučíte jazyk od minimální vstup, ne? Vy jste jen dostat vstup z vašeho rodiče o tom, co váš jazyk zvuky líbí a prostě se to naučit. Takže, je to zajímavé, protože když se podíváte v těchto větách, například. Můžete se podívat, "Mary staví na kabát každé čas odejde z domu. " 

V tomto případě je možné mít Slovo "to" se vztahují k Marii, že jo? Můžete říci: "Mary staví na kabát pokaždé, když opouští Mary dům. "tak, že je v pořádku. Ale pak když se podíváte na věty "Ona si vezme kabát pokaždé Mary opustí dům. "Víš, že je to možné říci, že "ona" je s odkazem na Marii. 

Neexistuje žádný způsob, jak říct, že "Mary klade na kabát pokaždé Mary listy dům. "Tak to je zajímavé, protože toto je ten druh intuice že každý rodilý mluvčí má. A nikdo se učili, že je to tak, že syntaxe funguje. A to můžete mít jen tuto "ona" s odkazem na Marii v tomto prvním případě, a ve skutečnosti v této jiné taky, ale ne v tomhle. Ale každý druh dostane na stejnou odpověď. Všichni se shodují na tom. Tak to je opravdu zajímavé, jak i neznáte všechna pravidla ve vašem jazyce tak nějak pochopit, jak jazyk funguje. 

Takže zajímavá věc, o přírodní jazyk, je, že nemusíte neznám syntaxi vědět, zda věta je gramatická nebo ungrammatical pro ve většině případů. Což si myslím, že možná to, co se stane, je, že přes svého života, budete jen držet stále více a více věty řekl pro vás. A pak budete mít zapamatování všechny vět. A pak, když vám někdo řekne, něco, uslyšíte větu a se díváte na svého slovníku vět a zjistit, zda že věta je tam. A pokud je tam máte říkají, že je to gramatický. Pokud to není řeknete, že je to ungrammatical. 

Takže v tomto případě, byste řekli, oh, takže máte obrovský seznam všech Možné tresty. A pak, když uslyšíte větu, Víte, jestli je to gramatický nebo není založen na tom. Věc je, že když se podíváte na věty, například " pět v čele CS50 TFS vařené slepého chobotnice pomocí daPa hrnek. "Je to rozhodně ne trest že jste slyšeli předtím. Ale zároveň víte, že je to skoro gramatické, že jo? Nejsou žádné gramatické chyby a lze říci, že je to možné trest. 

Tak to z nás dělá si myslí, že ve skutečnosti tak, že se učíme jazyk není jen tím, že má obrovskou databázi možný slova nebo věty, ale více pochopení vztahu mezi Slova v těchto větách. Má to smysl? Takže pak je otázka, může Počítače se učí jazyky? Můžeme učit jazyk počítače? 

Takže, pojďme přemýšlet o rozdílu mezi rodilým mluvčím jazyka a počítač. Takže, co se stane s reproduktoru? No, rodilý mluvčí učí jazyk z expozice k ní. Obvykle jeho rané dětství. Takže, v podstatě, stačí mít dítě, a pořád mluvit k němu, a to jen učí, jak mluvit jazyk, ne? Takže, jste v podstatě dává vstup pro dítě. Takže, pak můžete tvrdit, že počítač můžete udělat totéž, ne? Stačí si jen dát JAZYKA jako vstup do počítače. 

Jako například banda souborů které mají knihy v angličtině. Možná, že je to jeden ze způsobů, které vám by se mohla učit počítač English, jo? A ve skutečnosti, pokud si myslíte, že o tom, to se ti možná pár dny, číst knihu. Na počítači to trvá sekundu podívejte se na všechny slova v knize. Takže si můžete myslet, že může být jen to Argument vstup z kolem vás, to nestačí říci, že je to něco, co jen člověk může dělat. Můžete si myslet počítače mohou také získat vstup. 

Druhá věc je, že rodilí mluvčí také mozek, který má schopnost učení se jazyka. Ale pokud si myslíte, že o tom, Mozek je solidní věc. Když jste se narodili, je to již nastaven - To je váš mozek. A jak vyrosteš, stačí si více Vstup jazyka a možná živiny a další věci. Ale do značné míry se váš mozek je pevná věc. 

Takže můžete říct, dobře, možná můžete postavit počítač, který má spoustu funkce a metody, které jen napodobují schopnost učení se jazyka. Takže v tomto smyslu, dalo by se říct, dobře, já může mít počítač, který má všechny věci, které jsem se potřebují naučit jazyk. A poslední věc je, že nativní mluvčí učí od pokusů a omylů. Takže v podstatě další důležitá věc jazykového vzdělávání je, že druh z naučit věci tím, že zobecnění toho, co slyšíte. 

Takže, jak jste vyrůstal jste se dozvěděli, že některá slova jsou jako podstatná jména, některé další z nich jsou adjektiva. A nemusíte mít jakýkoli znalost lingvistiky pochopit, že. Ale prostě vím, že je některá slova jsou umístěny v určité části věta a některé další v jiných části věty. 

A že když děláte něco, co je jako věta, že není správné - možná proto, že z více než generalizace například. Možná, když jste vyrůstal, si všimnete že množné číslo je obvykle tvořil tím, že by s při konec slova. A pak se pokusíte udělat množný "jelen" jako "jeleni" nebo "zub" je "zubu." Takže pak se vaše rodiče, nebo někdo opraví a řekne, ne, množné číslo "jelen" je "jelen", a množný "zub" je "zuby". A pak naučíte ty věci. Takže jste se dozvěděli od pokusů a omylů. 

Ale můžete si také udělat, že s počítačem. Můžete mít něco, co nazývá posilované učení. Což je v podstatě jako dávat Počítač odměna kdykoli to dělá něco správně. A dávat to opak odměnu a když se dělá něco špatného. Můžete skutečně vidět, že když jdete do Google Translate a zkuste přeložit větu, že zeptá se vás, pro zpětnou vazbu. Takže když říkáte, ach, tam je lepší překlad pro tuto větu. Můžete zadejte jej a pak, pokud hodně lidé stále říkají, že je lepší překlad, to prostě zjistí, že je to by se namísto použít tento překlad kdo to dával. 

Takže, je to velmi filozofická otázka zjistit, zda počítače se bude schopen mluvit, nebo ne v budoucnosti. Ale já jsem si velké naděje, že mohou právě na základě těchto argumentů. Ale je to jen více filozofický otázka. 

Takže i když počítače stále nemůže mluvit, jaké jsou věci, které můžeme dělat? Některé opravdu cool věci jsou klasifikace dat. Tak, například, vy víte, že e-mailové služby, ano, pro příklad, filtrování spamu. Takže pokaždé, když obdržíte spam, to se snaží filtrovat na jiné pole. Tak jak to dělá, že? Není to tak, že počítač prostě ví, jaké e-mailové adresy jsou odesílání spamu. Takže je to víc na základě obsahu zprávy, nebo možná titulu, nebo možná nějaký vzor, ​​který máte. 

Takže, v podstatě, co můžete udělat, je dostat Mnoho údajů o e-maily, které jsou spam, e-maily, které nejsou spam, a dozvědět se, co druh vzorů máte v ty, které jsou spam. A toto je část výpočetních lingvistika. Říká se klasifikace dat. A my vlastně uvidí příklad, že v příštích snímků. 

Druhá věc je přirozený jazyk zpracování, což je věc, která se Graf Hledání dělá z nájmu můžete napsat větu. A věří, že chápete, co je smysl a dává Jste lepší výsledek. Ve skutečnosti, pokud jdete na Google nebo Bing a hledat něco jako dáma Výška Gaga, jste vlastně děje získat 5 '1 "namísto informací od ní, protože to vlastně chápe co mluvíš. Takže to je součástí přírodního zpracování jazyka. 

Nebo také v případě, že používáte Siri, první Máte algoritmus, který se snaží překládat, co říkáš do slov v textu. A pak se snaží překládat že na významu. Takže to vše je součástí přírodní zpracování jazyka. 

Pak máte strojového překladu - , který je ve skutečnosti jedna z mých oblíbených - který je jen překlad z jazyka do druhého. Takže si můžete myslet, že když děláte strojový překlad, máte nekonečné možnosti vět. Takže neexistuje žádný způsob, jak jen ukládání každý překlad. Takže budete muset přijít s zajímavý algoritmy, aby bylo možné překládat každý věta nějakým způsobem. 

Vy máte nějaké otázky tak daleko? Ne? OK. 

Takže to, co budeme dnes vidět? Za prvé, budu mluvit o tom, Problém klasifikace. Takže ten, že jsem byl říká o spamu. Co budu dělat, je vzhledem k tomu, Text skladby skladbu, můžete se pokusit přijít na to, s vysokou pravděpodobností kdo je zpěvačka? Řekněme, že mám písničky od Lady Gaga a Katy Perry, kdybych vám nový song, můžete zjistit, zda to je Katy Perry nebo Lady Gaga? 

Druhý, já jsem jen mluvit o problému segmentace. Tak nevím, jestli vy víte, ale Čínština, japonština, další východní Asie jazyky a další jazyky obecně, nemají mezery mezi slovy. A pak, pokud si myslíte, že o tom, jak této počítač druhu pokusů na pochopit, zpracování přirozeného jazyka, to vypadá na slova a se snaží pochopit vztahy mezi nimi, ne? Ale pak, pokud máte čínsky, a mají nulové mezery, je to opravdu těžké zjistit, jaký je vztah mezi slova, protože nemají žádné slova na prvním místě. Takže budete muset udělat něco, co nazývá segmentace, která prostě znamená uvedení mezery mezi tím, co bychom nazvali slova v těchto jazycích. Smysl? 

A pak budeme mluvit o syntaxi. Takže jen trochu o přírodní zpracování jazyka. Bude to mít jen přehled. Takže dnes, v podstatě to, co chci dělat, se vám kluci trochu uvnitř, jaké jsou možnosti které můžete dělat s výpočetních lingvistika. A pak vidíte, co si myslíte je v pohodě mezi těmito věcmi. A možná, že si můžete myslet o projektu a přijít se mnou mluvit. A mohu vám poradit o tom, jak to provést. 

Takže syntaxe bude trochu o Graf vyhledávání a stroje překlad. Jdu dát příklad toho, jak můžete například překládat něco z portugalštiny do angličtiny. Zní to dobře? 

Tak za prvé, problém klasifikace. Řeknu, že tato část semináře bude nejnáročnější jeden jen proto, že se děje být některé kódování. Ale to bude Python. Vím, že vy nevíte, Python, takže Jdu vysvětlit na vysoké úrovni to, co dělám. A nemusíte se opravdu záleží také hodně o syntaxi, protože to je něco, co vy můžete naučit. OK? To zní dobře. 

Tak v čem je problém klasifikace? Takže vzhledem k některé texty na píseň, a chcete hádat který je zpívat. A to může být pro jakýkoli druh dalších problémů. Takže to může být, například, máte prezidentská kampaň a máte řeč, a chcete najít , jestli je to, například, Obama a Mitt Romney. Nebo můžete mít spoustu e-mailů a Chcete-li zjistit, zda jsou spam nebo ne. Takže je to jen klasifikaci některých Údaje založené na slova že jste tam. 

Takže to, že budete muset provést některé předpoklady. Takže hodně o počítačové lingvistiky dělá předpokladů, obvykle inteligentní předpoklady, aby můžete získat dobré výsledky. Snažím se vytvořit model pro ni. A pak se to vyzkoušet a zjistit, jestli to funguje, v případě, že vám dává dobrou přesnost. A pokud ano, pak jste pokusit se zlepšit. Pokud tomu tak není, budete rád, OK, možná jsem by měl jiný předpoklad. 

Takže předpoklad, že budeme je to, že umělec se obvykle zpívá o tématu několikrát, a možná používá slova několikrát jen protože jsou na to zvyklí. Stačí si jen myslet na svého přítele. Jsem si jistý, kluci mají přátele které říkají, jejich podpis frázi, doslova pro každou větu - jako nějaká konkrétní slova nebo některých specifických fráze, které říkají, že pro každý trest. 

A to, co mohu říci, je, že když vidíte větu, která má podpis fráze, můžete hádat, že pravděpodobně Váš přítel je kdo říká, že jo? Tak uděláte tento předpoklad a pak to, jak vytvořit model. 

Příklad, že budu dávat je na jak Lady Gaga, například, lidé říkají, že ona používá "dítě" na všechny její číslo jedna písně. A ve skutečnosti je to video, které ukazuje, jí říkat slovo "dítě" pro různé písně. 

[PŘEHRÁVÁNÍ] 

- (SINGING) Dětská. Dítě. Dítě. Dítě. Dítě. Babe. Dítě. Dítě. Dítě. Dítě. 

[END VIDEOPŘEHRÁVÁNÍ- 

LUCAS FREITAS: Takže tam jsou, myslím, 40 písní zde ve kterém ona říká Slovo "dítě." Takže si můžete v podstatě hádat že když vidíte skladbu, která má slovo "dítě", tam je nějaký vysoký pravděpodobnost, že je to Lady Gaga. Ale zkusme se na rozvoji této dále pak formálně. 

Takže se jedná o texty k písním od Lady Gaga a Katy Perry. Takže se podíváte na Lady Gaga, můžete vidí mají mnoho výskytů "dítě," Mnoho výskytů "způsobem." A pak Katy Perry má mnoho výskytů "," Mnoho výskytů "ohně." 

Takže v podstatě to, co chceme to znamená, že dostanete lyriku. Řekněme, že budete mít lyriku pro píseň, která je "dítě" jen "dítě." Jestliže stačí si slovo "dítě", a to je všechna data, která jste od Lady Gaga a Katy Perry, která by můžete hádat, je osoba, kdo zpívá písničku? Lady Gaga nebo Katy Perry? Lady Gaga, že jo? Vzhledem k tomu, že je jediný, kdo říká, že "Dítě." Zní to hloupě, že jo? OK, je to opravdu snadné. Jen se dívám na dvou písních a Samozřejmě, ona je jediná, kdo má "Dítě." 

Ale co když máte spoustu slov? Máte-li skutečný lyrická, něco jako "dítě, já jen šel vidět [? CFT?] přednáška, "nebo něco takového, a pak jste skutečně zjistit, - na základě všech těchto slov - kdo je umělec, který pravděpodobně zpíval tuto píseň? Takže pojďme se snaží rozvíjet Tento kousek dál. 

OK, takže na základě jen na data, která se má, zdá se, že Gaga je pravděpodobně zpěvák. Ale jak můžeme psát to více formálně? A tam to bude trochu Trochu statistiky. Takže pokud jste se ztratili, ať to zkusí pochopit pojem. Nezáleží na tom, jestli mi rozumíte rovnice dobře. To vše bude on-line. 

Takže v podstatě to, co jsem výpočet je pravděpodobnost, že tato píseň je o Lady Gaga za předpokladu, že - takže to znamená, bar za předpokladu, že - Viděl jsem slovo "dítě". Má to smysl? Takže se snažím vypočítat že pravděpodobnost. 

Takže tam je to věta nazývá Bayesův teorém, který říká, že pravděpodobnost daného B, je pravděpodobnost B vzhledem k A, doba pravděpodobnost, než pravděpodobnost B. Jedná se o dlouhý rovnice. Ale to, co musíte pochopit, ze to je, že to je to, co chci vypočítat, že jo? Takže pravděpodobnost, že píseň je o Lady Gaga za předpokladu, že jsem viděl slovo "Dítě." 

A teď, co jsem dostat je pravděpodobnost, že se slovo "dítě" vzhledem že mám Lady Gaga. A co je to v podstatě? Co to znamená je to, co je pravděpodobnost vidět slovo "dítě" V Gaga texty? Pokud chci, aby vypočítali, že ve velmi Jednoduchý způsob, je to jen číslo Časy vidím "dítě" na celkovém počtu slov v Gaga texty, ne? Jaká je frekvence, kterou vidím že slovo Gaga práci? Smysl? 

Druhý termín je pravděpodobnost Gaga. Co to znamená? To v podstatě znamená, že to, co je pravděpodobnost zařazení Některé texty jsou Gaga? A to je trochu divné, ale pojďme myslet na příkladu. Takže řekněme, že pravděpodobnost s "dítě" v písni je stejný pro Gaga a Britney Spears. Ale Britney Spears má dvakrát více písní, než Lady Gaga. Takže pokud vám někdo jen náhodně dává Slova "dítě", první věc, kterou podívat se na to, co je pravděpodobnost s "dítě" ve Gaga píseň, "dítě" ve Britney písni? A to je to samé. 

Takže druhá věc, kterou uvidíte, je, dobře, co je pravděpodobnost Tento lyrický samo o sobě, že Gaga lyric, a jaká je pravděpodobnost, že že Britney lyrický? Takže od Britney má tolik víc texty než Gaga, by pravděpodobně řekněme, no, to je asi Britney lyrický. Takže to je důvod, proč máme tento nazvat přímo zde. Pravděpodobnost Gaga. Dává to smysl? Má to? OK. 

A poslední je jen pravděpodobnost o "dítě", které není opravdu záležitost, která hodně. Ale je to pravděpodobnost vidět "dítě" v angličtině. Obvykle je to jedno, že hodně o tom termínu. Má to smysl? Takže pravděpodobnost Gaga je volal před pravděpodobnosti třídního Gaga. Vzhledem k tomu, to jen znamená, že to, co je pravděpodobnost, že bude tuto třídu - který je Gaga - jen obecně, jen bez podmínek. 

A pak, když jsem se pravděpodobnost Gaga vzhledem k "dítě," říkáme a uslzené pravděpodobnosti, protože je to pravděpodobnost, že bude Gaga uveden nějaký důkaz. Takže dávám vám důkazy že jsem viděl slovo dítě a Píseň smysl? OK. 

Takže když jsem spočítal, že pro každý z písní pro Lady Gaga, co by to bylo - Zdá se, že nemůžu pohnout to. Pravděpodobnost, že Gaga bude něco podobného, ​​2 přes 24, časy 1/2, více než 2 po 53. Nezáleží na tom, jestli víte, co tato čísla jsou zasílány z. Ale je to jen číslo, které se bude být větší než 0, ne? 

A pak, když jsem to Katy Perry, pravděpodobnost "dítě", vzhledem Katy je Již 0, ne? Protože neexistuje žádný "dítě" Katy Perry. Takže pak to bude 0, a Gaga vítězství, což znamená, že Gaga je pravděpodobně zpěvák. Má to smysl? OK. 

Takže pokud chci, aby to více úředníka, Mohu skutečně udělat model Pro více slov. Takže řekněme, že mám něco, co jako "baby, já jsem v ohni, "nebo tak něco. Tak to má více slov. A v tomto případě, můžete vidět že "dítě" je Gaga, ale to není v Katy. A "oheň" je v Katy, ale to není v Gaga, že jo? Takže je to čím dál složitější, že jo? Vzhledem k tomu, zdá se, že téměř mít kravatu mezi nimi. 

Takže to, co musíte udělat, je předpokládat, nezávislost mezi slova. Takže v podstatě to, co to znamená, že Já jen výpočet toho, jaká je pravděpodobnost vidět "dítě," to, co je pravděpodobnost vidět "já", a "Já", a "o" a "oheň," všechny samostatně. Pak jsem vynásobením všechny z nich. A já jsem viděl, co je pravděpodobnost, vidět celou větu. Smysl? 

Takže v podstatě, když mám jen jedno slovo, to, co chci najít, je arg max, což znamená, že to, co je třída, která je mi dává největší pravděpodobnost? Takže to, co je třída, která dává mě nejvyšší pravděpodobnost pravděpodobnost třídy daného slova. Takže v tomto případě, vzhledem k tomu Gaga "dítě." Stejně Katy "dítě." Smysl? 

A právě z Bayes, že rovnice, že jsem ukázal, jsme se vytvořit tento zlomek. Jediná věc je, že vidíte, že pravděpodobnost slova vzhledem změny třídy v závislosti na třídě, že jo? Počet "Baby" s, které jsem V Gaga se liší od Katy. Pravděpodobnost třídy také změny, protože je to jen číslo písní každý z nich má. 

Ale pravděpodobnost, že se slova sám bude stejná pro všechny umělci, že jo? Takže pravděpodobnost, že slovo je Jen to, co je pravděpodobnost vidět, že slovo Anglický jazyk? Takže je to stejné pro všechny z nich. Takže, protože to je konstanta, můžeme jen pokles to a nezajímá o to. Takže to bude skutečně rovnice hledáme. 

A pokud mám více slov, jsem ještě bude mít před pravděpodobnost zde. Jediná věc je, že jsem násobení pravděpodobnost všechny ostatní slova. Takže jsem vynásobením všechny z nich. Smysl? Vypadá to divně, ale v podstatě znamená, výpočet předchozí třídy, a pak násobit pravděpodobností každého slov je v této třídě. 

A víte, že pravděpodobnost Slovo vzhledem třída bude kolikrát vidíte, že slovo že třída, děleno počtem slova, máte v tom, že třída obecně. Smysl? Je to, jak "dítě" bylo 2 přes počet slov, které Měl jsem v textu. Takže jen frekvence. 

Ale je tu jedna věc. Vzpomínám si, jak jsem se o tom, že pravděpodobnost "Baby" bytí texty od Katy Perry 0. jen proto, že Katy Perry neměl "dítě" vůbec? Ale zní to trochu krutý jen jednoduše říci, že texty nemohou být z umělec jen proto, že nemají tento výraz zejména kdykoliv. 

Takže jste mohli jen říct, dobře, pokud nemají slovo, budu vám nižší pravděpodobnost, ale já prostě nebude vám 0. hned. Vzhledem k tomu, možná to bylo něco jako, "Oheň, oheň, oheň, oheň," který je úplně Katy Perry. A pak "dítě", a to jen dokazuje, 0 hned, protože tam byl jeden "Dítě." 

Takže v podstatě to, co děláme, je něco, co tzv. Laplace vyhlazování. A to jen znamená, že dávám určitou pravděpodobností i slov že neexistují. Takže to, co dělám, je, že když jsem výpočtu to, vždycky jsem přidat 1 až čitatel. Takže i když slovo neexistuje, v V tomto případě, pokud je to 0, jsem stále výpočet toto jako jeden přes Celkový počet slov. Jinak jsem si, kolik slov Mám a jsem přidat 1 ks. Takže jsem počítal pro oba případy. Smysl? 

Takže teď pojďme udělat nějaké kódování. Budu muset udělat to docela rychle, ale to je jen důležité, aby vám kluci pochopit koncepty. Takže to, co se snažíme dělat je přesně realizovat tento věc, kterou jsem právě řekl - Chci vám dát texty od Lady Gaga a Katy Perry. A program se bude moci říci, zda tyto nové texty jsou od Gaga nebo Katy Perry. Smysl? OK. 

Tak jsem si tento program Jdu volat classify.py. Tak tohle je Python. Je to nový programovací jazyk. To je velmi podobné v některých způsoby, jak C a PHP. Je to podobné, protože pokud chcete učit Python po znát C, je to opravdu není, že velkou výzvu jen proto, že Python je mnohem jednodušší než C, v první řadě. A spousta věcí se již implementován pro vás. Tak, jak jako PHP má funkce, které seřadit seznam, nebo přidat něco na pole, nebo bla, bla, bla. Python má všechny ty, které jsou dobře. 

Tak jsem jen tak vysvětlit rychle jak bychom mohli udělat klasifikaci problém zde. Takže řekněme, že v tomto případě mám texty z Gaga a Katy Perry. Způsobem, že mám ty texty, je, že první slovo textu je jméno umělce, a zbytek je text. Takže řekněme, že mám tento seznam v nichž první je text od Gaga. Tak tady jsem na správné cestě. A další je Katy, a má také texty. 

Tak to je, jak deklarovat proměnná v Pythonu. Nemusíte dávat datový typ. Stačí napsat "texty" Něco jako v PHP. Smysl? 

Takže jaké jsou věci, které jsem se vypočítat, aby bylo možné vypočítat pravděpodobnosti? Musím vypočítat "priors" každého jiný třídy, které mám. Musím vypočítat "distální", nebo do značné míry pravděpodobnosti každého z různých slov, která Mohu mít pro každého umělce. Takže v rámci Gaga, například, já jdu mít seznam kolikrát vidím každý ze slov. Smysl? 

A nakonec, já jen budu muset Seznam s názvem "slova", která se právě chystá mít, kolik slov jsem mít pro každého umělce. Takže pro Gaga, například, když se podívám k textu, jsem, myslím, 24 Slova celkem. Takže tento seznam je jen bude mít Gaga 24, a Katy jiné číslo. Smysl? OK. 

Takže teď, vlastně, pojďme jít na kódování. Takže v Pythonu, můžete skutečně návrat na spoustu různých věci z funkce. Takže jdu vytvořit tuto funkci tzv. "podmíněné", který se bude vrátit všechny ty věci, "priors," že "pravděpodobnost", a "slova." Takže "podmíněné", a to je bude volat do "texty." 

Takže teď chci, abyste skutečně napsat tuto funkci. Takže způsob, že mohu napsat tento funkce jsem definovala fungovat s "def." Tak jsem to udělal "def podmíněné ", a to při "Texty." A co to bude dělat je, v první řadě, mám priors že chci počítat. 

Takže způsob, jak to můžu udělat, je vytvořit slovník v jazyce Python, který je skoro totéž jako hash stůl, nebo je to jako iterativní pole v PHP. To je, jak Prohlašuji slovník. A v podstatě to, co to znamená, že priors Gaga je 0,5, například v případě, 50% z textů jsou z Gaga, 50% jsou od Katy. Smysl? Tak jsem se přijít na to, jak pro výpočet priors. 

Příští ty, které musím udělat, i, jsou pravděpodobnosti a slova. Takže pravděpodobnost Gaga je seznam ze všech pravděpodobností, že jsem se pro každý ze slov pro Gaga. Takže když jdu na pravděpodobnosti Gaga "Dítě", například, že to mi něco jako 2 v průběhu 24 v tomto případě. Smysl? Tak já jdu na "pravděpodobnost", přejděte ke "Gaga" kbelík, který má seznam všech slova Gaga, pak jdu na "dítě," a vidím pravděpodobnost. 

A nakonec jsem si to "Slova" slovník. Zde tedy, "pravděpodobnosti." A pak "slova." Takže když jsem to "slovo", "Gaga", co se stane, je, že je to mi dáš 24, říká, že jsem má 24 slov v textech z Gaga. Dává to smysl? Tak tady, "slova" rovná Dah-Dah-DAH. OK 

Takže, co budu dělat, je budu iteraci každý z textů, tak každý z řetězců, které Mám v seznamu. A budu počítat ty věci pro každý z kandidátů. Dává to smysl? Takže musím udělat pro smyčce. 

Takže v Pythonu, co mohu udělat, je "pro linku v textech. "totéž jako "Pro každý" prohlášení v PHP. Vzpomínám si, jak kdyby to bylo PHP jsem mohl říci: "pro každý text jako linka. "Dává to smysl? Takže beru každý z řádků, v tomto případ, tento řetězec a další řetězec, takže pro každou z linek, co jsem dělat, je první, budu rozdělit tento řádek v seznamu slov oddělených mezerami. 

Takže super věc o Pythonu je, že můžete jen Google, jako je "Jak mohu rozdělit řetězec do slov? "A je to ti říct, jak to udělat. A způsob, jak to udělat, je to jen "linka = Line.split () "a je to v podstatě dám vám seznam s každý ze slov zde. Dává to smysl? Takže teď, že jsem to udělal, že chci vědět, kdo je zpěvačka této písně. A k tomu, že jsem se dostat První prvek pole, ne? Takže můžu jen říct, že jsem "zpěvák = Linka (0) "Dává to smysl? 

A to, co musím udělat, pak je první všichni, budu aktualizovat, kolik slova, která jsem si pod "Gaga". takže jsem jen bude počítat, kolik slov jsem mají v tomto seznamu, ne? Protože to je to, kolik slov mám ve slovech a já jen tak přidat do "Gaga" pole. Má to smysl? Nepoužívejte příliš soustředí na syntaxi. Přemýšlejte více o pojmy. To je ta nejdůležitější část. OK. 

Takže to, co jsem si to, je-li "Gaga" je Již v tomto seznamu, tak "pokud zpěvák slova ", což znamená, že jsem se již mají slova by Gaga. Chci jen přidat další slova, že. Takže to, co dělám, je "slova (zpěvák) + = Len (line) - 1 ". A pak jsem si jen udělat délka vedení. Tak kolik prvků I se v poli. A musím udělat minus 1 jen proto, že První prvek pole je jen zpěvák a ty nejsou texty. Dává to smysl? OK. 

"Jinak," znamená to, že chci, aby skutečně vložit Gaga do seznamu. Tak jsem prostě "slova (zpěvák) = Len (line) - 1, "Omlouvám se. Takže jediný rozdíl mezi těmito dvěma vedení je, že tato jedna, to není dosud neexistují, a tak jsem jen inicializaci. Tenhle jsem vlastně přidat. OK. Takže to bylo přidáním slov. 

Teď chci přidat Převorů. Tak jak to mám vypočítat priors? Převorové lze vypočítat podle toho, jak kolikrát. Takže kolikrát vidíte, že zpěvák mezi všemi, které jste zpěváků mít, že jo? Takže pro Gaga a Katy Perry, v tomto případě vidím Gaga jednou, Katy Perry jednou. 

Takže v podstatě se priors pro Gaga a pro Katy Perry by být jen jeden, ne? Právě jste kolikrát Vidím umělce. Tak to je velmi snadné vypočítat. Mohu jen něco podobného jako jako "pokud zpěvák v priors, "Jdu přidat 1 až jejich Priors pole. Takže, "priors (zpívat)" + = 1 "a pak" jiný " Budu dělat, "priors (zpěvák) = 1. "Dává to smysl? 

Takže pokud to neexistuje, jen jsem dal jako 1, jinak jsem jen přidat 1 ks. OK, tak teď všechno, co jsem odešel dělat je také přidat každý z slov pravděpodobnosti. Takže mám počítat, kolikrát Vidím každý ze slov. Tak jsem prostě musel udělat další pro smyčku v řadě. 

Takže první věc, kterou budu dělat, je zkontrolujte, zda zpěvačka už má pravděpodobnosti pole. Takže jsem kontrolovat, zda zpěvák není mají pravděpodobnosti pole, já jsem jen bude inicializovat jeden pro ně. Není to ani pole, je mi líto, je to slovník. Takže pravděpodobnost zpěváka se děje být otevřený slovník, takže jsem jen inicializaci slovník pro něj. OK? 

A teď může skutečně udělat pro smyčce pro výpočet každé ze slov " pravděpodobnosti. OK. Takže to, co mohu udělat, je pro smyčce. Tak jsem jen tak iteraci přes pole. Takže tak, že to můžu udělat v Pythonu je "for i in range." Od 1. protože chci začít v druhé element, protože první z nich je Název zpěvák. Takže z jednoho do délka vedení. A když jsem se pohybují ve skutečnosti jít od jako zde od 1 do len z linka minus 1. Tak to už dělá tu věc dělat n minus 1 pro pole, které je velmi pohodlné. Dává to smysl? 

Takže pro každého z nich, co budu udělat, je, stejně jako ve druhé, Jdu zjistit, jestli slovo v tomto pozice v řadě je již v pravděpodobnosti. A pak, když jsem řekl tady, pravděpodobnosti slova, jako v dal jsem "pravděpodobnosti (zpěvák)". Takže jméno zpěváka. Takže pokud je to již v roce "Probabilit (zpěvák)", znamená to, že jsem Chcete přidat 1 k němu, takže budu dělat, "pravděpodobnosti (zpěvák)" a Slovo se nazývá "linka (i)". Chystám se přidat 1 a "jiný" Jsem jen bude inicializovat na hodnotu 1. "Linka (i)". Dává to smysl? 

Tak, I vypočtená všech polí. Takže teď vše, co mám udělat pro tohle je prostě "vrátit priors, pravděpodobnosti a slova. "Pojďme zjistit, zda existují nějaké, OK. Zdá se, že vše funguje tak daleko. Tak, to dává smysl? V nějakým způsobem? OK. Takže teď mám všechny pravděpodobnosti. Takže teď to jediné, co mi zbylo je jen mít tu věc, že vypočítá součin všech Pravděpodobnosti, když jsem si texty. 

Takže řekněme, že chci, aby se zavolat Tato funkce "klasifikace ()" a věc, která funkce má je jen argumentem. Řekněme, že "Baby, jsem na oheň" a je to bude zjistit, co je pravděpodobnost, že je to Gaga? Jaká je pravděpodobnost, že je to Katie? Zní to dobře? Takže jsem prostě muset vytvořit nová funkce s názvem "klasifikace ()" a že to bude trvat nějaký texty stejně. A kromě textů i já muset poslat priors, pravděpodobnosti a slova. Takže budu posílat texty, priors, pravděpodobnost, slova. 

Takže je to s texty, priors, pravděpodobnost, slova. Takže, co to dělá? Je to v podstatě se chystá projít všechny možné kandidáty, které jste mít jako zpěvák. A kde jsou ty kandidáty? Jsou v priors, že jo? Tak jsem si všechny ty tam. Takže budu mít slovník ze všech možných kandidátů. A pak pro každého kandidáta v priors, tak to znamená, že to bude bude Gaga, Katie, kdybych měl více, že to bude víc. Chystám se začít výpočtu tato pravděpodobnost. Pravděpodobnost, jak jsme viděli v PowerPoint je dřívější časy produkt každého další pravděpodobnosti. 

Tak jsem si to tady samé. Mohu jen to, pravděpodobnost je zpočátku jen před. Takže priors kandidáta. Je to tak? A teď mám pro iteraci přes všechny slova, která mám v textu se možné přidat pravděpodobnost pro každou z nich, OK? Takže, "slova v textech" co budu udělat, je, pokud je slovo v "pravděpodobnosti (kandidátských)", které Znamená to, že je to slovo, které kandidát má ve svých textech - Například, "dítě" pro Gaga - co budu dělat, je to, že pravděpodobnost se bude násobit o 1 a pravděpodobnosti na kandidát na toto slovo. A jmenuje se "slovo". Tento dělený počtem slov že mám pro tohoto kandidáta. Celkový počet slov, které mám pro zpěváka, který jsem při pohledu na. 

"Else". to znamená, že je nové slovo tak to by bylo, jako například "Oheň" pro Lady Gaga. Takže chci jen udělat jeden přes "Slovo (kandidát)". Takže nechci, aby tento termín zde. 

Takže to bude v podstatě kopírování a vkládání toto. Ale já jdu smazat tuto část. Takže je to jen bude 1 přes to. Zní to dobře? A teď na konci, já jen tak vytisknout jméno kandidáta a pravděpodobnost, že budete mít z má S na svých textech. Dává to smysl? A já vlastně ani nemám je třeba tento slovník. Dává to smysl? 

Takže, pojďme zjistit, jestli to skutečně funguje. Takže když jsem spustit to, se to nebude fungovat. Počkejte jednu sekundu. "Slova (kandidátských)", "slova (kandidátských)", to je název pole. OK Tak, to říká, že je to nějaký bug pro kandidáta na priors. Dovolte mi jen chill trochu. OK. Pojďme to zkusit. OK. 

Tak to dává Katy Perry má tento pravděpodobnost, že tento násobek 10 na minus 7, a Gaga má tento krát 10 na minus 6. Takže vidíte, že ukazuje, že Gaga má vyšší pravděpodobnost. Takže "Miláčku, já jsem na Fire" je pravděpodobně Gaga píseň. Dává to smysl? Takže to je to, co jsme udělali. 

Tento kód se bude vyslán on-line, takže vy můžete podívat. Možná, že použití některé z nich, pokud si chcete udělat projekt, nebo něco podobného. OK. To bylo jen ukázat, Co výpočetní lingvistika kód vypadá. Ale teď pojďme k další Vysoká úroveň věci. OK. 

Takže další problémy jsem mluvil o - problém segmentace je první z nich. Takže máte tu japonštinu. A pak vidíte, že nejsou tam žádné mezery. Takže je to v podstatě znamená, že je horní židle, ne? Můžete mluvit japonsky? Je to nejvyšší ze židle, že jo? 

STUDENT: Nevím, co kanji tam je. 

LUCAS FREITAS: Je to [MLUVÍCÍ japonský] OK. Takže to v podstatě znamená, že předsednictví vrcholu. Takže pokud byste měli dát prostor to bude tady. A pak máte [? Ueda-san. ?] Což v podstatě znamená, že pan Ueda. A vidíte, že "Ueda" a máte prostor a pak se "san". Takže vidíte, že zde "Ue" je jako sama o sobě. A tady je má charakter vedle ní. 

Takže to není jako v těch jazycích znaky, což znamená slovo to, aby vám stačí dát hodně prostoru. Postavy se vztahují ke každému jiný. A mohou být spolu jako dvě, tři, jeden. Takže jste skutečně vytvořit nějaký o způsob, jak dát tyto prostory. 

A to je to, že vždy, když se dostanete Údaje z těchto asijských jazyků, vše, co přijde unsegmented. Protože nikdo, kdo píše japonsky nebo čínské píše s mezerami. Kdykoli budete psát čínsky, Japonská stačí napsat vše bez mezer. To nemá ani smysl dát prostor. Takže, když se dostanete data z některé Východní Asie jazyk, pokud chcete skutečně něco udělat s tím musíte segmentu jako první. 

Zamyslete se nad tím na příklad texty bez mezer. Takže pouze texty, které mají Bude věty, ne? Oddělených tečkami. Ale pak mají jen trest bude není opravdu pomoci na to, aby informace kdo ty texty jsou o. Je to tak? Takže byste měli staví první mezery. Tak jak můžete dělat, že? 

Takže pak přijde myšlenka jazyka model, který je něco, co opravdu důležité pro výpočetní lingvistika. Takže jazykový model je v podstatě tabulka pravděpodobností, že ukazuje v první řadě to, co je pravděpodobnost mít slovo v jazyce? Tak ukazuje, jak často je slovo. A pak také ukazuje vztah mezi slovy ve větě. 

Takže hlavní myšlenkou je, že pokud cizinec přišel pro vás a řekl větu si, jaká je pravděpodobnost, že pro například, "tohle je moje sestra [? GTF"?] byla věta, že člověk říká? Takže samozřejmě některé věty jsou častější než jiné. Například, "dobré ráno" nebo "dobrý noc, "nebo" hej tam, "je mnohem více časté než většina vět že máme angličtinu. Tak proč jsou ty tresty častější? 

Za prvé, je to proto, že máte slova, která jsou častější. Tak, například, když řeknete, že pes je velký, a pes je obrovský, můžete obvykle asi slyšet pes je velký častěji, protože "velká" je více často v angličtině, než "gigantický". Takže jeden z co je slovo frekvence. 

Druhá věc, která je opravdu Důležitá je jen Pořadí slov. Tak, to je běžné říkat "kočka je uvnitř krabice. ", ale ty nejsou obvykle viz v "krabici uvnitř je kočka." tak Vidíte, že tam je nějaký význam v pořadí slov. Nemůžete jen tak říct, že ti dva věty mají stejnou pravděpodobnost jen proto, že mají stejná slova. Ve skutečnosti musíte starat o pořadí stejně. Smysl? 

Tak co budeme dělat? Takže to, co jsem mohl pokusit dostat vás? Snažím se vám to, co jsme zavolejte modely n-gram. Takže n-gramové modely v podstatě předpokládá, že pro každé slovo, které máte ve větě. Je to pravděpodobnost, že mít Slovo zde závisí nejen na Frekvence tohoto slova v jazyce, ale také na slova, která se jej obklopuje. 

Tak například, obvykle, když vidíte, něco jako na, nebo na ty jsi pravděpodobně bude vidět podstatné jméno po něm, ne? Vzhledem k tomu, když máte předložku Obvykle to trvá podstatné jméno po něm. Nebo pokud máte sloveso, které je tranzitivní obvykle se chystáte mají jmennou frázi. Takže to bude mít podstatné jméno někde kolem něj. 

Takže, v podstatě, co to udělá, je, že se domnívá, že pravděpodobnost, že bude slova vedle sebe, když jste výpočtu pravděpodobnost věty. A to je to, co o jazyk, model je v podstatě. Jen říkám, co je pravděpodobnost, mít specifický věta v jazyce? Tak proč je to užitečné, v podstatě? A v první řadě to, co je Model n-gram, pak? 

Takže modelu n-gram znamená, že každé slovo je závislá na další N minus 1 slov. Takže, v podstatě, to znamená, že pokud se podívám, například na CS50 TF při Já výpočet pravděpodobnosti věta, budete mít jako " pravděpodobnost, že bude slovo "" krát pravděpodobnost, že bude " CS50 "krát pravděpodobnost, že bude "CS50 TF." Takže v podstatě jsem počítat všechny možné způsoby natahovat to. 

A pak se obvykle, když děláte to, jako v projektu, dáte N se nízká hodnota. Takže, obvykle bigrams nebo trigramů. Takže stačí počítat dvě slovy, skupina dvou slov, nebo tří slov, jen za funkční problémy. A také proto, že možná máte-li něco jako "The CS50 TF." Když mají "TF", to je velmi důležité, aby "CS50" je vedle ní, že jo? Tyto dvě věci jsou obvykle vedle sebe. 

Pokud si myslíte, že "TF", to je asi bude mít to, co Třída je to TF'ing pro. Také "" je velmi důležité, pro CS50 TF. Ale pokud máte něco jako "The CS50 TF šel do třídy a dal jejich Studenti nějaký bonbón. "" Candy "a" " nemají žádný vztah opravdu, že jo? Jsou tak daleko od sebe, že to není opravdu jedno, co Slova máte. 

Takže tím, že dělá bigram nebo trigram, že prostě znamená, že jste omezení sami na některých slov které jsou v okolí. Smysl? Takže pokud chcete udělat segmentace, v podstatě, co chcete udělat, je vidět jaké jsou všechny možné způsoby, jak můžete segmentu větu. 

Takový, že vidíte, co je pravděpodobnost, že každé z těchto vět existující v jazyce? Takže to, co děláte, je rád, dobře, ať me se snaží dát prostor zde. Tak jsi dal prostor zde a uvidíte, co je pravděpodobnost této věty? Pak jste jako, OK, možná že to není tak dobré. Tak jsem dal prostor tam a prostor tam, a vypočítat pravděpodobnost nyní, a uvidíte, že je vyšší pravděpodobnost. 

Tak tohle je algoritmus s názvem TANGO segmentace algoritmus, který je vlastně něco, co by bylo opravdu v pohodě pro projekt, který v podstatě se unsegmented text, který mohou být japonské nebo čínské, nebo možná Anglicky bez mezer a snaží se dát mezery mezi slovy a to dělá že pomocí jazyka modelu a se snaží zjistit, co je nejvyšší Pravděpodobnost můžete dostat. OK. Tak tohle je segmentace. 

Nyní syntaxe. Takže, syntaxe je používán pro tolik věcí, právě teď. Takže Graf vyhledávání, pro Siri pro skoro jakýkoli druh přírodní zpracování jazyka, který máte. Takže to, co je důležité věci, o syntaxi? Takže, věty mají obecně co nazýváme složky. Jaké jsou něco jako skupiny slov které mají funkci ve větě. A nemohou být opravdu od sebe. 

Takže, když řeknu, například, "Lauren miluje Milo. "Já vím, že" Lauren "je složka a pak "lásky Milo "je také jiný. Vzhledem k tomu, nemůžete říct, jako "Lauren Milo miluje "mají stejný význam. Nebude to mít stejný význam. Nebo Nemůžu říct, že jako "Milo Lauren miluje. "Ne všechno, co má stejný což znamená, dělat, že. 

Takže dvě další důležité věci, o Syntaxe jsou lexikální typy, které je v podstatě funkce, která vám mají slova sami. Takže musíte vědět, že "Lauren" a "Milo" jsou podstatná jména. "Láska" je sloveso. A druhá důležitá věc je, že jsou frázová typy. Takže víte, že "miluje Milo" je vlastně slovní fráze. Takže když říkám "Lauren," já vím, že Lauren se něco dělat. Co to dělá? Ona je milující Milo. Tak to je celá věc. Ale jeho komponenty jsou podstatné jméno a sloveso. Ale dohromady, dělají sloveso frázi. 

Takže, co můžeme skutečně udělat s počítačová lingvistika? Takže, když mám něco, co například "přátelé Allison." Vidím, jestli jsem se syntaktický strom bych vědět, že "Přátelé" je jmenná fráze je podstatné jméno a pak "Allison" je předložkové fráze, v nichž "z" je návrh a "Allison" je podstatné jméno. To, co jsem mohl udělat, je naučit počítač že když mám jmenná fráze jedno a pak předložkové fráze. Takže v tomto případě, "přátelé" a pak "z Milo "Já vím, že to znamená, že NP2, druhá, vlastní NP1. 

Tak jsem se vytvořit nějaký vztah, nějaká funkce pro ni. Takže když vidím tuto strukturu, která odpovídá přesně s "přáteli Allison, "já vím, že Allison vlastní přátele. Takže přátelé jsou něco, že Allison má. Dává to smysl? Tak to je v podstatě to, co Graf Search dělá. Je to jen vytváří pravidla na spoustu věcí. Takže "přátelé Allison", "moji přátelé kteří žijí v Cambridge, "" svým přátelům kteří jdou na Harvardu. "Vytváří pravidla pro všechny ty věci. 

Nyní strojový překlad. Takže, strojový překlad, je také něco statistické. A skutečně, pokud jste se zapojili do počítačová lingvistika, hodně vaše věci bude statistika. Takže jak jsem dělal příklad s hodně pravděpodobností, že jsem byl výpočtu, a pak se dostanete k tomu velmi malé číslo, které je konečné pravděpodobnost, a to je to, co vám dává odpověď. Strojový překlad také používá statistický model. A chcete-li myslet na stroji překlad v nejjednodušší Mimochodem, co si můžete myslet, je jen překládat slovo od slova, že jo? 

Když se učíte jazyk pro Poprvé, to je obvykle to, co vy, že jo? Pokud chcete, můžete přeložit větu ve vašem jazyce do jazyka učíte, obvykle jako první, přeložit každý ze slov individuálně, a potom zkuste dát slova na místo. 

Takže když jsem chtěl, aby to přeložit, [MLUVÍCÍ portugalský] , což znamená "bílá kočka utekla." Pokud bych to chtěl přeložit z Portugalština do angličtiny, to, co jsem mohl udělat, je, jako první, jen jsem překládat slovo od slova. Takže "o" je "," "gato", "kočka", "Branco", "bílá", a pak "fugio" je "Utekl." 

Tak jsem si všechna slova zde, ale to není v pořádku. Je to jako "kočka bílá utekl" který je ungrammatical. Takže, pak mohu mít druhý krok, který se bude najít ideální pozice pro každý ze slov. Takže vím, že jsem vlastně chci mít "Bílý kocour" místo "kočka bílý." Tak co mohu udělat, je, nejvíce naivní metodu by bylo vytvořit všechny možné permutace slova, pozic. A pak zjistit, který z nich má Nejvyšší pravděpodobnost podle do mého jazyka modelu. A pak, když jsem se najít ten, který má nejvyšší pravděpodobnost, že, který je pravděpodobně "bílý kocour utekl," to je můj překlad. 

A to je jednoduchý způsob, jak vysvětlit jak hodně strojového překladu algoritmy pracují. Má to smysl? To je také něco, co opravdu vzrušující že vy můžete možná průzkum Konečný projekt, jo? 

STUDENT: No, říkal, že to bylo naivní způsob, takže to, co je non-naivní cesta? 

LUCAS FREITAS: non-naivní cesta? OK. Takže první věc, která je špatného na tom, tato metoda je, že jsem přeložil slova, slovo od slova. Ale někdy budete muset slova, která může mít více překladů. Budu se snažit myslet něco. Například, "manga" v portugalské plechovce buď "mandl" nebo "rukáv". Tak když se snažíte přeložit slovo slovem, to by mohlo být, že vám něco, co nedává smysl. 

Takže vy vlastně chcete, aby se podíváte na všechny možné překlady slova a vidět, v první řadě, co je rozkaz. Povídali jsme si o permutating věci? Chcete-li zobrazit všechny možné příkazy a vybrat ten s nejvyšší pravděpodobnost? Můžete si také vybrat všechny možné překlady pro každého slovo a pak uvidíme - v kombinaci s permutací - , který z nich má nejvyšší pravděpodobnost. 

Plus, můžete se také podívat na to jen slova, ale věty. takže můžete analyzovat vztahy mezi slova a pak se lepší překlad. Také něco jiného, ​​tak tento semestr Já jsem vlastně dělal výzkum v Čínsko-anglický strojový překlad, takže překládání z Čínská do angličtiny. 

A něco, co děláme, je, kromě použití statistický model, který je právě vidět pravděpodobností vidět některé pozice ve větě, že jsem vlastně také přidat nějakou syntaxi my Model, řka: Ach, když vidím tento druh výstavby, to je to, co chci to změnit, když jsem se překládat. Takže můžete také přidat nějaký prvek syntaxe, aby Překlad účinnější a přesnější. OK. 

Tak jak můžete začít, chcete-li dělat něco ve výpočetní lingvistika? 

Nejprve si vyberete projekt , která se týká jazyků. Takže, tam je tak mnoho tam venku. Je tu tolik věcí, které můžete udělat. A pak můžete přemýšlet o modelu které můžete použít. Obvykle to znamená, že myšlení předpoklady, as jako, oh, když jsem byl jako myšlení textu. Byl jsem rád, dobře, jestli chci přijít out, který to napsal, asi chci podívat se na slova, osoba používá a zjistit, kdo používá toto slovo velmi často. Takže se snaží, aby předpoklady a zkuste se zamyslet modelů. A pak se můžete také vyhledat online druh problému, který máte, a bude to o tom, aby vás modely, které možná modelovat tu věc dobře. 

A také můžete vždy napište mi. me@lfreitas.com. A mohu jen odpovědět na vaše otázky. Můžeme dokonce mohli setkat, takže můžu dávat návrhy na způsoby realizaci projektu. A mám na mysli, když se zapojit do počítačová lingvistika, že to bude být skvělý. Budeš vidět, že je tak velký potenciál. A průmysl chce najmout jste tak špatné, protože to. Takže doufám, že vy užil toto. Jestliže vy máte nějaké dotazy, můžete mě požádat po tomto. Ale děkuji.