LUCAS FREITAS: Szia. Üdvözlünk mindenkit. A nevem Lucas Freitas. Én vagyok a junior [hallható] tanuló számítástechnika amelynek középpontjában a számítógépes nyelvészet. Szóval a második van a nyelv és nyelvészeti elmélet. Nagyon izgatott vagyok, hogy tanítani titeket egy kicsit a területen. Ez egy nagyon izgalmas terület tanulni. Szintén egy csomó potenciális a jövőre nézve. Szóval, nagyon izgatott vagyok, hogy a srácok fontolgatja projektek számítógépes nyelvészet. És én több mint boldog, hogy tanácsot Mindenkinek, aki szereti, ha úgy dönt, hogy folytatni egy ilyen. 

Tehát először is mi számítási nyelvészet? Így számítógépes nyelvészet a kereszteződés között nyelvészet és számítástechnika. Szóval, mi a nyelvészet? Mi az a számítógép-tudomány? Nos a nyelvészet, milyen vesszük a nyelven. Tehát nyelvészet valójában a tanulmány A természetes nyelv általában. Így természetes nyelv - beszélünk nyelv, amit ténylegesen használni a kommunikálnak egymással. Szóval nem éppen beszél a C vagy a Java. Beszélünk többet az angol és a Kínai és más nyelveken, hogy mi használni, hogy kommunikálni tudjanak egymással. 

A kihívást jelentő dolog ez az, hogy most már majdnem 7000 nyelv a világon. Tehát elég nagy változatosság A nyelv, amit lehet tanulni. És akkor úgy gondolja, hogy ez valószínűleg nagyon nehéz megtenni, például, fordítás egyik nyelvről a Más, figyelembe véve, hogy van közel 7000 közül. Tehát, ha úgy gondolja, csinál fordítás egyik nyelvről a másikra, hogy már szinte több, mint egy millió a különböző kombinációk, hogy akkor van a nyelv a nyelvet. Szóval ez tényleg kihívás, hogy némi ilyen például fordítói rendszer minden egyes nyelvet. 

Tehát, nyelvészet kezeli a kódokat, szemantika, pragmatika. Ti nem pontosan kell tudni, hogy mi is azok. De az nagyon érdekes dolog az, hogy mint egy anyanyelvi beszélő, ha megtanulod nyelvet gyerek, hogy tényleg tanulni minden olyan dolog - szintaxis szemantika és a pragmatika - egyedül. És senkinek sem kell tanítani szintaxis megérteni, hogyan mondatok strukturált. Szóval, ez nagyon érdekes, mert ez valami, ami nagyon ösztönösen. 

És mit vesz a a számítástechnika? Nos, a legfontosabb dolog, amit van a számítógép-tudomány első minden, a mesterséges intelligencia és a gépi tanulás. Szóval, mit próbálunk csinál számítógépes nyelvészet tanít a számítógép, hogyan kell csinálni valamit a nyelvet. 

Így például, a gépi fordítás. Próbálom megtanítani a számítógépet, hogy tudni, hogyan lehet átmenet egyik nyelvről a másikra. Szóval, alapvetően szeretek tanítani A számítógép két nyelven. Ha ezt a természetes nyelvi feldolgozás, ami a helyzet például a Facebook grafikon Search, tanítani a számítógép, hogyan kell érteni lekérdezések is. 

Tehát, ha azt mondod: "a képek a barátok. "Facebook nem kezelni, hogy az egész szöveg, amely csak egy csomó szó. Valójában megérti a kapcsolat a "fényképeket" és a "barátaim", és megérti, hogy a "fényképek" vannak tulajdonsága "a barátaim." 

Szóval, ez egy részét, például a természetes nyelvi feldolgozás. Ez próbálom megérteni, mi az összefüggés A szavak egy mondatban. És a nagy kérdés az, tud tanítani a számítógép, hogyan kell beszélni a nyelv általában? Ami egy nagyon érdekes kérdés, hogy hiszem, mintha talán a jövőben, fogsz tudni beszélni a mobiltelefonján. Olyan, mint amit teszünk a Siri, de valami hasonló, akkor valóban azt mondják, amit akarsz, és a telefon fog érteni mindent. És ez lehet nyomon követni kérdése és folyamatosan beszélni. Ez valami nagyon izgalmas, véleményem. 

Tehát, valami természetes nyelvek. Valami igazán érdekes a az, hogy a természetes nyelvek, és ez hitel a nyelvészet professzora, Maria Polinsky. Ő ad példát, és azt hiszem, ez nagyon érdekes. Mert tanulnak nyelvet, amikor mi született, majd a natív nyelve fajta nő ránk. 

És alapvetően tanulni nyelvet A minimális input, igaz? Te csak most be az Ön szülei, amit a nyelvi hangok szeretem, és csak tanulni. Szóval, ez érdekes, mert ha megnézi ezeken a mondatokat, például. Úgy nézel ki, "Mary felveszi a kabátot minden alkalommal, amikor elhagyja a házat. " 

Ebben az esetben, akkor lehetséges, hogy a szó "ő" utal Mary, nem igaz? Azt lehet mondani, hogy "Mary hozza a kabátot minden alkalommal, Mary elhagyja a ház. "úgy, hogy rendben van. De ha megnézi a mondat "Leteszi a kabátot minden alkalommal Mary elhagyja a házat. "tudod, hogy az lehet azt mondani, hogy "ő" utalva Mary. 

Nincs módja mondván, hogy "Mary helyezi a kabátot minden alkalommal Mary elhagyja a ház. "Szóval ez érdekes, mert ez az a fajta intuíció hogy minden anyanyelvi beszélő. És senki nem tanította, hogy ez az is, hogy a szintaxis működik. És hogy lehet csak ez a "lány" utalva Mária az első esetben, és valóban a másik is, de nem ez. De mindenki olyan lesz hogy ugyanazt a választ. Mindenki egyetért abban, hogy a. Szóval ez tényleg érdekes, hogy annak ellenére, nem tudod, hogy az összes szabályt az Ön nyelvén akkor milyen érti hogy a nyelv működik. 

Tehát az érdekes dolog a természetes nyelv az, hogy nem kell ismer szintaxis tudni, ha egy mondat a nyelvtani vagy nyelvtanilag helytelen a legtöbb esetben. Ami úgy gondolja, hogy talán mi történik, hogy az életedet, akkor csak egyre több és több mondatokat mondta neked. És akkor ne memorizálás az összes mondatok. És amikor valaki azt mondja, valamit, hallod, ez a mondat, és akkor nézd meg a szókincs mondatok és nézd meg, ez a mondat van. És ha ott azt mondják, hogy a nyelvtani. Ha nem mondod, hogy ez nyelvtanilag helytelen. 

Tehát ebben az esetben, akkor azt mondanám, ó, így van egy hatalmas listát az összes lehetséges mondatokat. És amikor meghallja a mondatot, tudod, ha ez nyelvtani vagy nem alapuló. A lényeg az, hogy ha megnézi egy mondatot, például a "The ötfejű CS50 TFs főtt a vakok polip egy DAPA bögre. "Ez biztosan nem a mondat amit hallott. De ugyanakkor tudja, hogy ez elég sok nyelvtani, ugye? Nincs nyelvtani hibák és azt lehet mondani, hogy az ez egy lehetséges mondatot. 

Így tesz bennünket gondolja, hogy valóban a módon, hogy megtudjuk, a nyelv nem csak azáltal, hogy egy hatalmas adatbázis a lehetséges szavakat vagy mondatokat, hanem inkább megértése közötti kapcsolat szavak ezek mondatokat. Van ennek értelme? Tehát akkor a kérdés az, hogy számítógépek nyelvtanulásra? Meg tudjuk tanítani nyelvet a számítógépek? 

Szóval, most gondolom, a különbség között egy-egy anyanyelvi nyelv és egy számítógép. Szóval, mi történik a hangszóró? Nos, az anyanyelvi tanul nyelvet való kitettség is. Általában a korai gyermekkorban év. Szóval, alapvetően, csak van egy baba, és tartsa beszél, és ez csak megtanulja, hogyan kell beszélni a nyelvet, nem igaz? Szóval alapvetően ad bemenet a baba. Tehát, akkor azzal érvelnek, hogy a számítógép lehet nem ugyanaz a dolog, ugye? Akkor csak ad nyelv bemeneti a számítógéphez. 

Mint például egy csomó kép amelyek a könyvek angolul. Talán ez az egyik módja, hogy esetleg tanítani a számítógép angolul, ugye? És valóban, ha belegondolunk, tart, akkor talán egy-két nap olvasni a könyvet. Egy számítógépet tart a második nézd meg a szavak egy könyvben. Így gondolja, hogy lehet, hogy csak ezt a érv bemenet körül, ez nem elég azt mondani, hogy ez valami, hogy csak az ember képes. Ön szerint a számítógépek is kap bemenetet. 

A másik dolog az, hogy anyanyelvi is van egy agy, amely nyelvtanulási képesség. De ha belegondolunk, agy szilárd dolog. Amikor megszületett, ez már be van állítva - Ez az agyad. És ahogy nőnek fel, csak még több beviteli nyelv, és talán a tápanyagok és egyéb dolgokat. De elég sok az agy szilárd dolog. 

Szóval lehet mondani, talán akkor építeni egy számítógép, amely egy csomó funkciókat és módszereket, hogy csak utánozzák nyelvtanulási képesség. Tehát ebben az értelemben, mondhatni, nos, lehet egy számítógép, amely a dolog, amit meg kell tanulni a nyelvet. És az utolsó dolog az, hogy a natív beszélő tanul próba-és hiba. Tehát alapvetően egy másik fontos dolog nyelvtanulás az, hogy ilyen A tanulni a dolgokat, hogy általánosítások, amit hallasz. 

Szóval, ahogy nőnek fel, akkor megtudjuk, hogy Néhány szó inkább, mint a főnevek, más közül melléknevek. És akkor nem kell semmilyen ismerete nyelvészet megérteni, hogy. De csak tudod, van néhány szót vannak elhelyezve egy részét a mondat és mások, más részei a mondat. 

És ha nem valamit, ami mint egy mondatot, hogy nem helyes - talán azért, mert a túlzott általánosítás pl. Lehet, hogy amikor felnőnek, azt veszi észre, hogy a többes szám általában létre azáltal, hogy egy S-nél a végén a szót. És akkor próbálja meg a többes száma "Szarvas", mint "szarvas" vagy a "fogat", mint "Tooths." Tehát akkor a szülők vagy a valaki kijavítja és azt mondja, nem, a többes "Szarvas" a "szarvas", és a többes "fog" a "fogak". És akkor tanulni ezeket a dolgokat. Szóval tanulni próbálgatással. 

De azt is megteheti, hogy az számítógéppel. Lehet, hogy valami úgynevezett megerősítése tanulás. Ami alapvetően, mint ami a számítógép jutalmat, amikor ez valamit helyesen. És így ez az ellentéte a jutalom és ha valami rosszat csinál. Tudod valójában látni, hogy ha megy a Google Translate, és megpróbál lefordítani egy mondatot, akkor kéri a visszajelzést. Tehát, ha azt mondod, ó, van egy jobb fordítás ezt a mondatot. Akkor írja be azt, és aztán, ha sok az emberek folyamatosan azt mondja, hogy van egy jobb fordítás, csak tanulja meg, kell használni, hogy fordítás helyett Az egyik azt adta. 

Tehát ez egy nagyon filozófiai kérdés hogy ha a számítógép lesz képes beszélni, vagy sem a jövőben. De nagy reményeket, hogy azok csak az azokon alapuló érveket. De ez csak inkább egy filozófiai kérdés. 

Tehát míg a számítógépek még mindig nem tud beszélni, melyek azok a dolgok, amit tehetünk? Vannak nagyon klassz dolog adatok osztályozására. Így például, ha tudjátok e-mail szolgáltatások nem, mert Például spamszűrő. Tehát, ha kap spam, megpróbálja kiszűrni az egy dobozt. Tehát hogyan csinál ez? Ez nem olyan, mint a számítógép csak tudja milyen e-mail címek küldött spam. Szóval ez inkább a tartalma alapján a Az üzenet, vagy talán a címet, vagy talán néhány mintát, hogy van. 

Szóval, alapvetően, amit tehetünk, hogy egy sok adatot e-mailek a spam, e-maileket, nem spam, és megtanulják, milyen milyen minták vannak a is, hogy spam. És ez is része a számítási nyelvészet. Úgy hívják adatok osztályozására. És mi valóban lesz, hogy egy példa erre a következő diák. 

A másik dolog az a természetes nyelv feldolgozása, amely az a dolog, hogy a Grafikon Keresés csinál hagyta írsz egy mondat. És bízik abban, hogy megértsék, mi a jelentése, és ad egy jobb eredményt. Igazából, ha megy a Google vagy a Bing és keres valamit, mint Lady Gaga magassága, akkor valóban megy kap 5 '1 "helyett az információ tőle, mert valóban megérti miről beszélsz. Szóval, ez is része a természetes nyelvi feldolgozás. 

Vagy akkor is, ha a 'használ Siri, az első van egy algoritmust, amely megpróbálja lefordítani, amit mond a szavak a szövegben. És akkor megpróbálja lefordítani hogy a jelentés. Szóval ez mind része a természetes nyelvi feldolgozás. 

Akkor gépi fordítás - ami valójában egy kedvencem - ami csak fordítunk a nyelvről a másikra. Így gondolom, hogy ha csinálsz gépi fordítás, akkor végtelen lehetőségeket mondatok. Így nincs mód csak tárolására minden egyes fordítást. Tehát meg kell, hogy jöjjön fel érdekes algoritmusok, hogy képes legyen lefordítani minden egyes mondat valamilyen módon. 

Srácok bármilyen kérdése eddig? Nem? OK. 

Szóval, mit fogunk látni ma? Először fogok beszélni az osztályozási probléma. Tehát az, hogy én mondás a spam. Mit fogok csinálni is, mivel dalszöveg egy dalt, akkor megpróbálja kitalálni nagy valószínűséggel ki az énekes? Tegyük fel, hogy van dalok Lady Gaga és Katy Perry, ha adok neked egy új dalt, meg tudja kitalálni, ha ez Katy Perry, vagy Lady Gaga? 

A második, én csak fog beszélni a szegmentálás problémát. Szóval nem tudom, hogy tudjátok, de Kínai, a japán, a többi kelet-ázsiai nyelveket, és más nyelveken általában nem rendelkeznek szóköz a szavak között. És ha belegondolunk az is, hogy számítógép fajta megpróbálja érti a természetes nyelvi feldolgozás, úgy néz ki, a szavak és a megpróbálja megérteni a kapcsolatok közöttük, igaz? De ha a kínai, és nulla terek, ez tényleg nehéz megtudja, mi a viszonya szóval, mert nem rendelkeznek semmilyen szó elején. Tehát meg kell csinálni valamit az úgynevezett szegmentáció ami csak annyit jelent, amivel terek között nevezni, amit szóval ezeken a nyelveken. Értelme? 

És akkor mi lesz beszélni szintaxis. Szóval, csak egy kicsit a természetes nyelvi feldolgozás. Ez lesz csak egy áttekintést. Így ma, alapvetően mit akarok csinálni nem ad nektek egy kicsit az belsejében milyen lehetőség hogy meg tudod csinálni számítási nyelvészet. És akkor mit gondolsz hűvös között ezeket a dolgokat. És talán akkor gondolom a projekt és gyere velem beszélni. És adhatok tanácsot az, hogyan valósítható meg. 

Tehát szintaxis lesz egy kicsit a grafikon Search és a gép fordítás. Én csak fog adni egy példát, hogyan akkor például fordítás valamit a portugál angol. Jól hangzik? 

Tehát először a besorolási problémát. Azt mondom, hogy ez a része a szeminárium lesz a legnagyobb kihívást az egyik csak azért, mert ott lesz hogy valami kódolás. De ez lesz a Python. Tudom, hogy a srácok nem tudják, Python, így Én csak fogja elmagyarázni a magas szinten, hogy mit csinálok. És akkor nem kell igazán érdekel túl sokat a szintaxis mert ez valami, amit a srácok lehet tanulni. OK? Jól hangzik. 

Tehát mi az osztályozási probléma? Szóval adott néhány dalszöveget egy dalt, és szeretné kitalálni aki énekel is. És ez lehet bármilyen Az egyéb problémák. Így lehet például, hogy van egy elnökválasztási kampány és van egy beszéd, és meg akarja találni ki, ha volt is, például Obama és Mitt Romney. Vagy van egy csomó e-mailek és Ön szeretné, hogy kitaláljuk, ha spam vagy sem. Tehát csak osztályozó néhány adatok alapján a szavak hogy van ott. 

Így kell csinálni, hogy meg kell hogy egyes feltételezések. Szóval egy csomó a számítógépes nyelvészet teszi feltételezések, általában okos feltételezések, úgy, hogy lehet jó eredményeket elérni. Megpróbál létrehozni egy modell is. És akkor próbáld ki, és nézd meg, hogy működik, ha ez ad jó pontossággal. És ha igen, akkor próbálja javítani. Ha nem, te, mint, OK, talán kell, hogy egy másik feltételezés. 

Tehát a feltételezés, hogy fogunk hogy az, hogy egy művész általában énekel egy témáról többször, és talán használ szavakat többször csak mert ők hozzászoktak. Ön gondoljunk csak a barátja. Biztos vagyok benne, a srácok mind barátai azt mondják, hogy aláírás kifejezést, a szó szoros értelmében minden egyes mondat - mint egy adott szó, vagy bizonyos mondat, hogy azt mondják a minden egyes mondatot. 

És mit lehet mondani, hogy ha látsz egy mondatot, hogy egy aláírás kifejezés, akkor hiszem, hogy talán a barátod a aki azt mondja, igaz? Szóval, hogy ezt a feltételezést, majd ez hogyan hozzon létre egy modellt. 

A példa, hogy fogok adni, a hogyan Lady Gaga, például az emberek azt mondják, hogy ő használja "baby" az minden őt számú dalt. És valójában ez egy olyan videót, amely megmutatja, ő mondja a "baby" az különböző dalokat. 

[VIDEÓ LEJÁTSZÁS] 

- (Ének) Baba. Baba. Baba. Baba. Baba. Babe. Baba. Baba. Baba. Baba. 

[END videolejátszás- 

LUCAS FREITAS: Tehát vannak, azt hiszem, 40 dal van, amelyben azt mondja, a szó "baby". Így alapvetően kitalálni hogy ha látsz egy dalt, amely a "baba", van néhány nagy a valószínűsége, hogy ez a Lady Gaga. De próbáljuk fejleszteni ezt a további, hivatalosan. 

Tehát ezek a szövegek a dalok Lady Gaga és Katy Perry. Akkor nézd meg Lady Gaga, látod, hogy van egy csomó olyan eseményt "baby", a csomó olyan eseményt az "út". És akkor Katy Perry-nek rengeteg előfordulásának A "," Egy csomó olyan eseményt a "tűz". 

Tehát alapvetően, hogy mit akarunk nem is, akkor kap egy lírai. Tegyük fel, hogy kapsz egy lírai a dal, a "baby", csak "baby". Ha csak kap a "baba", és ez a az összes adat, hogy van a Lady Gaga és Katy Perry, ki akkor hiszem, az a személy, ki énekli a dalt? Lady Gaga vagy Katy Perry? Lady Gaga, nem igaz? Mert ő az egyetlen, aki azt mondja, "Baby". Ez hülyén hangzik, ugye? OK, ez nagyon egyszerű. Én csak néztem a két dalt, és a Persze, ő az egyetlen, aki "Baby". 

De mi van, ha van egy csomó szó? Ha van egy valódi lírai, valami mint "baby, én csak Elmentem a [? CFT?] előadás ", vagy valami ilyesmi, és a akkor tényleg kell kitalálni - alapja az összes ezeket a szavakat - aki a művész, aki valószínűleg énekelte ezt a dalt? Így próbáljuk fejleszteni ez egy kicsit tovább. 

OK, szóval alapján csak az adatok, hogy mi van, úgy tűnik, hogy Gaga valószínűleg az énekes. De hogyan lehet írni ezt még hivatalosan? És ott lesz egy kis kis statisztika. Tehát, ha eltéved, csak próbáld hogy megértsék a koncepció. Nem számít, ha érti Az egyenletek tökéletesen. Ez mind lesz online. 

Tehát alapvetően, amit én kiszámítása az a valószínűsége, hogy ez a dal a Lady Gaga tekintettel arra, hogy - így ez a sáv azt jelenti, tekintettel arra, hogy - Láttam a "baba". Van ennek értelme? Szóval próbálok számítani hogy a valószínűsége. 

Tehát ez a tétel az úgynevezett Bayes-tétel azt mondja, hogy a valószínűsége, hogy egy adott B, a valószínűsége B adott A,-szerese a Egy valószínűsége, több mint annak a valószínűsége, B. Ez egy hosszú egyenlet. De, hogy mit kell érteni a ez az, hogy ez az, amit akarok számítani, igaz? Tehát annak a valószínűsége, hogy ez a dal a Lady Gaga mivel láttam a szót "Baby". 

És most mit kapok a valószínűsége a "baby" adott hogy van Lady Gaga. És mi az, hogy alapvetően? Ez azt jelenti, hogy mi az a valószínűsége látni a "baby" A Gaga dalszöveg? Ha azt akarom, kiszámítható, hogy egy nagyon egyszerű módja, ez csak a számát Néha látni "baby" teljes számához szavak Gaga dalszöveg, ugye? Mi az a frekvencia, amit lát hogy a szó Gaga munkája? Értelme? 

A második kifejezés a valószínűsége Gaga. Mit jelent ez? Ez alapvetően azt jelenti, hogy mi az a valószínűsége osztályozása Néhány dalszövegeket Gaga? És ez furcsa, de Gondoljunk csak egy példa. Tehát mondjuk, hogy a valószínűsége miután "baby" egy dal ugyanaz A Gaga és Britney Spears. De Britney Spears kétszer több dal, mint Lady Gaga. Tehát, ha valaki csak véletlenszerűen ad dalszövegek "baby", az első dolog, amit nézd meg, mi a valószínűsége miután "baby" egy Gaga dal, "baby" egy Britney dal? És ez ugyanaz a dolog. 

Tehát a második dolog, hogy látni fogod, az, Nos, mi a valószínűsége ez a lírai önmagában, hogy egy Gaga lírai, és ami annak a valószínűsége, , hogy egy Britney dalszöveg? Tehát, mivel Britney oly sok más Lyrics mint Gaga, akkor valószínűleg mondjuk, nos, ez valószínűleg Britney lírai. Szóval ezért van ez a távon itt. Valószínűsége Gaga. Van értelme? Vagy igen? OK. 

És az utolsó egy csak a valószínűsége A "baby", amely nem igazán számít, hogy sok. De ez a valószínűsége látás "baby" angolul. Általában nem érdekel, hogy sokat ezt a kifejezést. Van ennek értelme? Tehát a valószínűsége Gaga úgynevezett előzetes valószínűsége az osztály Gaga. Mert ez csak azt jelenti, hogy mi a valószínűsége annak, hogy az osztály - ami Gaga - csak általánosságban, csak A feltétel nélküli. 

És ha van valószínűsége Gaga adott "baby" hívjuk plus könnyes a valószínűsége, mert a valószínűsége annak, Gaga adott bizonyíték. Szóval így bizonyítékot láttam a szót, baba és a dal értelme? OK. 

Szóval ha kiszámította, hogy az egyes A dalt Lady Gaga, mi lenne - úgy tűnik, nem tudok mozogni ezt. Annak a valószínűsége, Gaga lesz valami olyasmit, 2. több mint 24-szer 1/2, több mint 2 több mint 53. Nem számít, ha tudod, mit ezek a számok jönnek. De ez csak egy szám, ami megy hogy több, mint 0, igaz? 

És akkor, amikor én Katy Perry, a valószínűsége "baby" adott Katy Már 0, igaz? Mert nincs "baby" Katy Perry. Tehát akkor ez 0 lesz, és Gaga nyer, ami azt jelenti, hogy Gaga talán az énekes. Van ennek értelme? OK. 

Tehát, ha azt szeretnénk, hogy ez több hivatalos, Én valójában nem a modell több szóra. Tehát mondjuk, hogy van valami, mint "baby, én vagyok a tűz ", vagy valami. Így már több szót. És ebben az esetben, akkor láthatjuk, hogy a "baby" van Gaga, de ez nem a Katy. És a "tűz" Katy, de ez nem a Gaga, ugye? Így egyre trükkösebb, nem igaz? Mert úgy tűnik, hogy szinte egy döntetlen a kettő között. 

Szóval, mit kell tennie, hogy feltételezzük, függetlenség között a szavakat. Tehát alapvetően ez azt jelenti, hogy az Én csak számítási mi a valószínűsége a látás "baby", ami a valószínűsége a látás "Én", és "Vagyok", és az "a" és "tűz" mind külön-külön. Akkor én megszorozzuk mindet. És én láttam, mi a valószínűsége látni az egész mondatot. Értelme? 

Tehát alapvetően, ha már csak egy szó, mit akarok találni az arg max, ami azt jelenti, hogy mi az az osztály, amely hogy nekem a legnagyobb a valószínűsége? Tehát mi az az osztály, hogy ad nekem a legnagyobb valószínűséggel a valószínűsége osztály adott szó. Tehát ebben az esetben, mivel Gaga "baby". Vagy Katy adott "baby". Értelme? 

És csak a Bayes, hogy egyenlet mutattam, hozunk létre, ez a frakció. Az egyetlen dolog, amit látni, hogy annak valószínűsége, hogy az adott szó osztály függően változik az osztály, nem igaz? A számos "baby" s hogy van A Gaga eltér Katy. Annak valószínűsége, hogy az osztály is változás, mert ez csak a számot A dal minden megvan. 

De a valószínűsége, hogy a szó maga lesz azonos a művészek, ugye? Tehát annak a valószínűsége, a szó csak, mi a valószínűsége látta ezt a szót a Angol nyelv? Tehát ugyanaz mindegyik. Tehát, mivel ez állandó, mi csak vidd ezt, és nem érdekli. Így ez lesz valójában az egyenlet keresünk. 

És ha több szót, én vagyok még mindig megy, hogy a korábbi valószínűség itt. Az egyetlen dolog, hogy én vagyok szorozni a valószínűsége, a többi szót. Szóval megszorozzuk mindet. Értelme? Úgy néz ki, furcsa, de alapvetően azt jelenti, kiszámításához előzetes az osztály, és majd szorozzuk meg a valószínűsége az egyes A szavak, hogy ebben az osztályban. 

És tudod, hogy a valószínűsége, hogy egy szó, mivel egy osztály lesz a hányszor látod ezt a szót a hogy az osztály, osztva a száma szó van, hogy az osztály általában. Értelme? Hogy ez csupán a "baby" volt 2 vége a szavak száma, amely Volt a szövegben. Tehát csak a frekvencia. 

De van egy dolog. Emlékszel, volt, azt mutatja, hogy a valószínűsége "baby" lenni Lyrics Katy Perry volt, 0, csak azért, mert Katy Perry nem volt "baby" egyáltalán? De ez hangzik egy kicsit durva, hogy csak egyszerűen azt mondják, hogy a dalszöveg nem lehet a művész csak azért, mert nincs ez a szó különösen bármikor. 

Szóval, akkor csak azt mondom, jó, ha Nem kell ezt a szót, megyek kapsz egy kisebb valószínűsége, de én csak nem fog Önnek 0. azonnal. Mert lehet, hogy volt valami hasonló, "Tűz, tűz, tűz, tűz", ami Teljesen Katy Perry. És akkor "baby", és ez csak azt 0 azonnal, mert volt egy "Baby". 

Tehát alapvetően, amit csinálunk valami úgynevezett Laplace simítás. És ez csak azt jelenti, hogy én adom bizonyos valószínűséggel még a szavak , amelyek nem léteznek. Szóval, mit tegyek, hogy amikor én vagyok számításához, mindig adjunk hozzá 1 a a számláló. Tehát, még akkor is, ha a szó nem létezik, a Ebben az esetben, ha ez 0, még mindig számításához az 1 feletti összes szavak száma. Egyébként, kapok, hogy hány szót Én és én adjunk hozzá 1. Szóval számítok mindkét esetben. Értelme? 

Most keressük meg a kódolás. Megyek, hogy kell csinálni, hogy elég gyorsan, de ez csak fontos, hogy srácok megérteni a fogalmakat. Tehát mi próbálunk csinálni pontosan végrehajtja-e ezt dolog, hogy én mondtam - Azt akarom, hogy lyrics Lady Gaga és Katy Perry. És a program lesz, hogy képes legyen azt mondják, ha ezek az új szövegek a Gaga vagy Katy Perry. Értelme? OK. 

Szóval ezt a programot fogom hívni classify.py. Szóval ez a Python. Ez egy új programozási nyelv. Ez nagyon hasonlít bizonyos a módját, hogy a C és a PHP. Ez hasonló, mert, ha azt szeretné, hogy tanulni Python után tudta C, ez tényleg nem olyan nagy kihívás csak azért, mert Python sokkal könnyebb mint a C, először is. És egy csomó dolog már végre az Ön számára. Hogy mennyire, mint a PHP funkciók rendezni egy listát, vagy hozzáfűzni valamit egy tömb, vagy bla, bla, bla. Python összes ilyen is. 

Szóval csak úgy elmagyarázni gyorsan hogyan tudnánk a besorolás problémát itt. Tehát mondjuk, hogy ebben az esetben már lyrics from Gaga és Katy Perry. A módja, hogy én azokat a dalszöveg, hogy Az első szó a dalszöveg a nevét, a művész, és a többi a dalszöveg. Tehát mondjuk, hogy én ezt a listát amely az első a lyrics by Gaga. Szóval itt vagyok a jó úton. És a következő egy Katy, és azt is a szöveget. 

Szóval így Ön kijelenti, változó a Python. Nem kell, hogy az adat típusát. Csak írni "lyrics" olyan, mint a PHP. Értelme? 

Tehát mi van a dolog, amit meg kell kiszámítja, hogy képes kiszámítani a valószínűségek? Be kell számítani a "priusza" Az egyes különböző osztályok, hogy van. Be kell számítani a "utódai" vagy nagyjából a valószínűsége minden egyes különböző szavak Tudok minden művész számára. Tehát a Gaga például, megyek , hogy egy listát, hogy hány alkalommal látom az egyes szavak. Értelme? 

És végül, én csak megy, hogy a lista a "szavak", hogy csak megy hogy hány szó, amit hogy az egyes művész. Így Gaga, például amikor nézek hogy a dalszövegeket, én, azt hiszem, 24 szó összesen. Tehát ez a lista csak megy, hogy Gaga 24, és Katy egy másik számot. Értelme? OK. 

Tehát most, tényleg, most megy a kódolás. Tehát Python, akkor valóban vissza egy csomó különböző dolgokat a funkciót. Ezért fogom létrehozni ezt a funkciót az úgynevezett "feltételes", ami megy vissza minden olyan dolog, a "Priusza", a "valószínűség", és a "Szavak." Tehát "feltételes", és ez fogja szólítani a "lyrics". 

Most azt akarom, hogy tényleg írni ezt a funkciót. Így az is, hogy tudok írni ezt funkció csak meghatározott ezt működnek "def." Így aztán "def feltételes ", és ez tart "Lyrics". És mi ez fog tenni van, először is, ott van a priusza hogy szeretnék számítani. 

Így az is, hogy meg tudom csinálni, hogy hozzon létre szótár Python, ami nagyjából ugyanaz, mint a hash asztal, vagy olyan, mint egy iteratív tömb PHP-ben. Így Kijelentem szótárban. És tulajdonképpen ez mit jelent az, hogy a A priusza Gaga 0,5, például, ha 50%-a szövegek a Gaga, 50%-a Katy. Értelme? Szóval meg kell kitalálni, hogyan kiszámításához priusza. 

A következő is, hogy meg kell tennem, azt is, a valószínűségek és a szavak. Tehát a valószínűsége Gaga a lista minden valószínűség, amit van az egyes szavak Gaga. Tehát, ha elmegyek valószínűségét Gaga "Baby", például, hogy ad nekem olyasmi, mint 2 több mint 24 ebben az esetben. Értelme? Szóval megy a "valószínűség" megy a "Gaga" vödör, hogy van egy lista az összes A Gaga szavak, aztán megyek a "baby" és látom a valószínűsége. 

És végül ezt "Szavak" szótár. Tehát itt, "valószínűségek." És akkor "Szavak." Tehát, ha én "szó", "Gaga" hogy mi fog történni, hogy ez fog adni nekem 24, mondván, hogy én van 24 szó belül lyrics Gaga. Van értelme? Tehát itt, "szó" egyenlő Dah-dah-dah. Rendben 

Szóval, mit fogok tenni, hogy én fogok végighaladni mind a szövegeket, tehát mindegyik a húrok, hogy Nekem van a listán. És fogok számítani azokat a dolgokat az egyes jelöltek. Van értelme? Így kell csinálni egy for ciklus. 

Tehát Python, mit tehetek, hogy "a vonal a dalszöveg. "Ugyanaz a dolog, mint a "Minden" kijelentés PHP. Ne feledje, hogy ha ez a PHP tudtam mondani, hogy "az egyes dalszövegeket sorban. "Van értelme? Szóval figyelembe az egyes vonalak, ebben a esetben, ez a szöveg és a következő karakterlánc így az egyes sorok, amit én fog tenni az első, megyek szét ezt a sort a lista szavai szóközzel elválasztva. 

Tehát a jó dolog az, hogy a Python akkor csak a Google, mint a "Hogyan szét egy stringet szóval? "És ez fogja mondani, hogyan kell csinálni. És így kell csinálni, ez csak "vonal = Line.split () ", és ez alapvetően fog adni egy listát az egyes szavak itt. Van értelme? Most, hogy én, hogy tudni akarom, aki az énekes ezt a dalt. És erre én csak azt, hogy a első eleme a tömb, nem igaz? Szóval csak annyit, hogy: "az énekes = Vonal (0) "Van értelme? 

És akkor mit kell tennie, hogy először a Minden, fogom frissíteni, hogy hány szó van a "Gaga". így vagyok fog számítani, hogy hány szó, amit van a listán, igaz? Mert ez az, hogy hány szó van a szöveget és én csak megy, hozzá a "Gaga" tömb. Van ennek értelme? Nem túlságosan az a szintaxis. Többet gondol a fogalmakat. Ez a legfontosabb része. OK. 

Szóval, mit tehetek, hogy ha a "Gaga" az már a listán, így a "ha énekes szó ", ami azt jelenti, hogy már Van szavakat Gaga. Én csak azt szeretném felvenni a kiegészítő szó, hogy az. Szóval, amit csinálok, hogy "szó (énekes) + = Len (line) - 1 ". És akkor én is csak ezt a a vonal hossza. Hány elemet I van a tömbben. És azt kell tennie, mínusz 1, csak azért, mert az első elem a tömb csak egy énekes, és azok nem dalszöveg. Van értelme? OK. 

"Más," azt jelenti, hogy azt akarom, hogy tényleg helyezze Gaga a listába. Szóval csak nem "szavak (énekes) = Len (line) - 1, "sajnálom. Tehát az egyetlen különbség a két sorok az, hogy ez egy, ez nem létezik, úgyhogy én csak inicializálása azt. Ez az egy Én tényleg hozzá. OK. Tehát ez volt hozzá a szavakat. 

Most azt akarom felvenni a priusza. Szóval hogyan tudom kiszámítani a priusza? A priusza lehet számítani hány alkalommal. Szóval, hányszor látod, hogy énekes között az énekesek, hogy van, igaz? Így Gaga és Katy Perry, Ebben az esetben, látom Gaga Egyszer, Katy Perry egyszer. 

Tehát alapvetően a priusza a Gaga és Katy Perry csak az egyik, igaz? Csak hányszor Látom a művész. Tehát ez nagyon könnyen kiszámítható. Én is csak valami hasonlót, mint például: "ha énekes priusza, "Én csak megy hozzá 1 a priusza dobozt. Tehát, "priusza (énekel)" + = 1 ", majd a" más " Azt fogom tenni "priusza (énekes) = 1. "Van értelme? 

Tehát, ha nem létezik, csak fel mint az 1, különben csak adjunk hozzá 1. OK, így most minden, amit még meg kell tennünk is hozzá az egyes szavakat a valószínűségek. Szóval meg kell számolni, hogy hányszor Látom, az egyes szavak. Szóval csak meg kell csinálni egy másik a hurok a sorban. 

Tehát az első dolog, hogy én fogom csinálni az ellenőrizze, hogy az énekes már a valószínűségek tömb. Szóval ellenőrzése, ha az énekes nem egy valószínűségek tömb, én csak fog elindítani egy számukra. Ez még csak nem is egy tömb, bocs, ez egy szótárban. Tehát a valószínűsége énekes lesz hogy egy nyitott szótár, úgyhogy csak inicializálása egy szótár is. OK? 

És most már tényleg csinálni egy for ciklus kiszámításához az egyes szavak " valószínűségek. OK. Szóval, mit tehetek egy for ciklus. Szóval csak megy, halad-hatunk át a tömböt. Így az is, hogy meg tudom csinálni, hogy a Python a "for i in tartományban." 1 mert azt akarom, hogy indul a második mert az első elem az egyik a énekes nevét. Tehát egyet a a vonal hossza. És amikor nem mozog, hogy valójában megy mint itt 1-től Len a sorban mínusz 1. Így már nem, hogy a dolog csinál n mínusz 1 tömbök esetében, ami nagyon kényelmes. Van értelme? 

Így minden ilyen, amit én fogok tennie, hogy, csakúgy, mint a másik, Megyek, hogy ellenőrizze, a szó ebben a helyzetben a sorban már valószínűségek. És mint mondtam itt, valószínűségek szavak, mint tettem "Valószínűségek (énekes)." Tehát a nevét az énekes. Tehát ha ez már "Probabilit (énekes)", ez azt jelenti, hogy szeretne adni 1-et, így fogok do "valószínűségek (énekes)", valamint a szóval az úgynevezett "vonal (i)". Megyek adjunk hozzá 1 és a "más" vagyok, majd formázza meg 1-re. "Line (i)." Van értelme? 

Szóval, számított összes tömbök. Szóval, most, minden, amit meg kell tenni ez csak "vissza priusza, valószínűségek és a szavak. "Hadd nézd meg, van-e olyan, az OK gombra. Úgy tűnik, minden működik eddig. Így, hogy van értelme? Valamilyen módon? OK. Így most már minden valószínűség. Tehát most az egyetlen dolog, ami maradt csak azért, hogy azt a dolgot, hogy kiszámítja a termék valamennyi valószínűségek, ha kapok a szövegeket. 

Tehát mondjuk, amit szeretnék most hívja ezt a funkciót "sorolja ()", és a dolog, hogy a függvény csak egy érv. Mondjuk "Baby, én vagyok a tűz", és ez fog rájönni, hogy mi az a a valószínűsége, hogy ez Gaga? Mi a valószínűsége hogy ez Katie? Jól hangzik? Szóval, csak megy, hogy hozzon létre egy az új funkció az úgynevezett "sorolja ()" és a ez megy, hogy néhány dalszöveg is. És különben is a szöveg azt is meg kell küldeni a priusza, a valószínűségek és a szavak. Így fogok küldeni dalszöveg, priusza, valószínűségek, szavak. 

Tehát ez vesz dalszöveg, priusza, valószínűségek, szavak. Szóval, mit csinál? Ez alapvetően fog menni az összes a lehetséges jelölteket, hogy van, mint énekes. És hol vannak azok a jelöltek? Ők a priusza, igaz? Szóval van az összes ilyen ott. Szóval lesz egy szótár az összes lehetséges jelöltet. És akkor minden jelölt a priusza, így ez azt jelenti, hogy ez fog legyen Gaga, Katie, ha lenne inkább lenne. Fogom kezdeni kiszámítása ez a valószínűség. Annak a valószínűsége, mint láttuk, a PowerPoint a korábbi időkben a termék az egyes más valószínűségek. 

Így is ugyanezt itt. Én csak nem valószínűség kezdetben csak a korábbi. Így priusza a jelölt. Nem igaz? És most meg kell végighaladni a szó, hogy van a szövegben, hogy képes felvenni a valószínűsége mindegyik, rendben? Tehát, "a szó lyrics" mit fogok tennie, hogy, ha a szó a "Valószínűségek (jelölt)", amely azt jelenti, hogy ez a szó, hogy a jelölt azok lyrics - például a "baby" A Gaga - mit fogok tenni, hogy az valószínűséggel lesz szorozni 1, valamint a valószínűsége A jelölt ezt a szót. És ez a "szó". Ez osztva a szavak száma hogy van az, hogy a jelölt. Az összes szavak száma, hogy van az énekes, hogy én néztem. 

"Más". ez azt jelenti, hogy egy új szó így lenne, mint például "Tűz" Lady Gaga. Szóval csak azt akarom csinálni 1 feletti "Szó (jelölt)". Szóval nem akarom, hogy ezt a kifejezést itt. 

Így lesz alapvetően másolás és beillesztés ezt. De én fogom törölni ezt a részt. Szóval ez csak lesz 1 fölé. Jól hangzik? És most a végén, én csak megy, nyomtassa ki a nevét, a tagjelölt és a valószínűsége, hogy van a miután a S azok dalszöveg. Van értelme? És igazából nem is kell ez a szótár. Van értelme? 

Nos, lássuk, ha ez tényleg működik. Tehát, ha én vezetem ezt, nem működött. Várjon egy percet. "A szavak (jelölt)", "szavak (jelölt)", ez a neve a tömbben. OK Tehát azt mondja, van egy kis hiba a jelölt priusza. Hadd nyugodjon egy kicsit. OK. Próbáljuk meg. OK. 

Szóval ez ad Katy Perry van ez valószínűsége, hogy ez alkalommal 10-a mínusz 7, és Gaga is ezt szer 10 a mínusz 6. Így látod, ez azt mutatja, hogy Gaga nagyobb a valószínűsége. Tehát "Baby, én vagyok a tűz" Valószínűleg Gaga dalt. Van értelme? Szóval ez az, amit csináltunk. 

Ez a kód lesz írt az interneten, így ti is nézd meg. Lehet, hogy használ egy részét, ha azt szeretné, hogy nem egy projekt, vagy valami hasonló. OK. Ez csak azt mutatják, milyen számítási nyelvészet kód így néz ki. De most menjünk több a magas szintű dolgokat. OK. 

Tehát a másik probléma, amit beszélt - A szegmentáció probléma az első ezek közül. Szóval itt a japán. És akkor látom, hogy nincsenek szóközök. Tehát ez alapvetően azt jelenti, hogy a tetején a szék, nem igaz? Beszélsz japánul? Ez a tetején a szék, nem igaz? 

DIÁK: Én nem tudom, mi A kandzsi ott van. 

LUCAS FREITAS: Ez [Japánul] OK. Tehát ez gyakorlatilag azt jelenti, szék tetején. Tehát, ha kellett, hogy egy helyet lenne itt. És akkor [? Ueda-san. ?] Ami alapvetően azt jelenti, Mr. Ueda. És látod, hogy a "Ueda", és van egy helyet, majd a "szan." Tehát láthatjuk, hogy itt az "UE", mint önmagában. És itt van egy karakter mellette. 

Szóval ez nem olyan, mint az említett nyelvek karakter jelenti a szó, úgy, hogy csak hogy egy csomó terek. Karakterek egymáshoz való viszonya. És együtt lehetnek , mint két, három, egy. Szóval tényleg létre kell hozni valamilyen A megfogalmazás az adott tér. 

És ez a dolog, hogy amikor kapsz adatokat azoktól ázsiai nyelvek minden jön unsegmented. Mert senki, aki azt írja, a japán vagy kínai ír terek. Amikor írsz a kínai, Japán csak írni mindent szóköz nélkül. Ez nem is értelme tenni terek. Tehát akkor, amikor már az adatokat, néhány Kelet-ázsiai nyelvet, ha azt szeretnénk, hogy valóban tenni valamit ezzel meg kell szegmensben először. 

Gondoljunk ennek példáját A dalszöveg szóközök nélkül. Tehát az egyetlen dalszöveg, hogy van lesz mondatokat, nem igaz? Elválasztott. De majd miután csak a mondat nem igazán segít a tájékoztatásnak kik azok a szövegek által. Nem igaz? Szóval kell helyezi terek először. Szóval hogyan lehet csinálni? 

Így aztán jön az ötlet egy nyelvet modellt, amely valami nagyon fontos a számítási nyelvészet. Tehát egy nyelvi modell alapvetően egy táblázat valószínűsége, hogy show Először is, mi a valószínűsége , amelyek a szó olyan nyelven? Szóval, bemutatva, hogy milyen gyakran a szó. És akkor azt is mutatja, a kapcsolat a szavak egy mondatban. 

Tehát a fő gondolata az, hogy ha egy idegen jött neked és azt mondta, a mondat, hogy te, mi a valószínűsége, hogy a Például: "ez az én nővérem [? GTF"?] volt az a mondat, hogy az ember azt mondta? Így természetesen néhány mondat sokkal gyakoribb, mint mások. Például, a "jó reggel" vagy "jó éjszaka ", vagy" Szia, "sokkal gyakoribb, mint a legtöbb mondat hogy van egy angol. Akkor miért azok a mondatok gyakrabban? 

Először is, ez azért van, mert van szó, hogy gyakrabban. Így például, ha azt mondod, a kutya nagy, és a kutya hatalmas, akkor általában valószínűleg hallotta a kutya nagy gyakrabban, mert a "nagy" inkább gyakori az angol, mint a "hatalmas". Tehát, az egyik dolgok, a szó jelentése. 

A második dolog, ami nagyon csak a fontos sorrendben a szavakat. Szóval, ez a közös, hogy azt mondják: "a macska a dobozban. ", de általában nem lásd: "A doboz belsejében a macska." így látod, hogy van némi jelentősége A sorrendben a szavakat. Nem lehet csak mondani, hogy a két mondatok azonos valószínűséggel csak azért, mert ugyanazokkal a szavakkal. Te tényleg érdekel a rend is. Értelme? 

Szóval, mit tegyünk? Szóval, mit is meg kell kérni? Próbálok neked, amit hívja az n-gram modellek. Tehát n-gram modellek alapvetően feltételezi , hogy minden egyes szó van egy mondatban. Ez a valószínűsége annak, hogy a szó van nem csak attól függ a gyakorisága szó a nyelvben, hanem a szavak, amelyek vannak körülötte. 

Így például, általában akkor, ha látod valami ilyesmit vagy a te valószínűleg fog látni a főnév után, igaz? Mert ha van egy elöljáró általában tart egy főnév után. Vagy ha van egy ige, amely tranzitív általában fog egy főnév kifejezést. Ezért van, hogy egy főnév valahol azt. 

Tehát, alapjában véve, mit csinál az, hogy tartja a valószínűsége annak, szavakat egymás mellett, amikor te kiszámítása valószínűsége, hogy egy mondat. És ez az, amit a nyelv modell alapvetően. Csak azt mondom, mi a valószínűsége , hogy egy bizonyos mondat olyan nyelven? Akkor miért van az, hogy hasznos, alapvetően? És mindenekelőtt, ami egy n-gram modell, akkor? 

Így egy n-gram modell azt jelenti, hogy minden szó függ következő N mínusz 1 szó. Tehát, alapjában véve azt jelenti, hogy ha nézek, például az, amikor a TF CS50 Én kiszámítása valószínűsége a mondat, akkor, mint "a valószínűsége, hogy a "a" szer a valószínűsége, hogy a " CS50 "időkben a valószínűsége, hogy "A CS50 TF." Tehát, alapjában véve, Számítok minden lehetséges módon a nyújtás. 

És általában amikor ezt, mint a projekt, akkor tegye N, hogy alacsony értéket. Tehát általában bigrams vagy trigram. Úgy, hogy csak a gróf két szó, a csoport két szó, vagy három szót, csak a teljesítmény problémák. És azért is, mert lehet, ha valami, mint a "The CS50 TF." Ha van "TF", ez nagyon fontos, hogy "CS50" mellett, igaz? Ez a két dolog általában egymás mellett. 

Ha úgy gondolja, a "TF", ez valószínűleg lesz, hogy milyen osztály ez TF'ing a. Szintén "a" nagyon fontos A CS50 TF. De ha van valami, mint a "The CS50 TF ment az osztályba, és adták a diákok egy kis édesség. "" Candy "és az" a " nincs kapcsolat igazán, nem igaz? Annyira távol egymástól, hogy nem igazán számít, hogy mit szó van. 

Tehát ezzel a Bigram vagy trigram, akkor csak azt jelenti, hogy te korlátozása magát, hogy néhány szót , amelyek körül. Értelme? Szóval, ha akarsz szegmentáció, alapvetően, amit akarok, hogy látni mi minden lehetséges módon, hogy akkor szegmensben a mondatot. 

Úgy, hogy látod, mi a valószínűsége minden egyes ilyen mondat létező a nyelvet? Szóval, mit csinálsz, mint, nos, Megpróbálom, hogy egy helyet itt. Szóval hogy egy hely van és látod, mi a valószínűsége, ez a mondat? Akkor, mint, OK, talán nem is volt olyan jó. Szóval hogy egy hely van, és a tér ott, és kiszámítja a valószínűsége, és most azt látja, hogy ez egy nagyobb a valószínűsége. 

Tehát ez egy algoritmus úgynevezett TANGO szegmentáció algoritmus, amely valóban valami, ami igazán jó a projekt, amely alapvetően vesz unsegmented szöveg, amely lehet a japán vagy kínai, vagy esetleg Angol szóközök nélkül, és megpróbál tenni szóköz a szavak között és ez hogy segítségével a nyelvi modell próbálta, hogy mi a legmagasabb valószínűsége kaphat. OK. Szóval ez a szegmentáció. 

Most szintaxis. Tehát, szintaxis használják Olyan sok mindent most. Tehát a grafikon Search, a Siri nagyjából bármilyen természetes nyelvi feldolgozás van. Szóval, mi a fontos dolog szintaxis? Tehát, mondatok általában, nevezzük összetevőket. Melyek olyan, mint csoportok szavak amelyek funkciója a mondatban. És nem igazán lehet egymástól. 

Tehát, ha azt mondom, például "Lauren szereti Milo. "Tudom, hogy a" Lauren "egy alkotó, majd a "szerelmek Milo "is egy másik. Mert nem lehet mondani, mint a "Lauren Milo szereti ", hogy ugyanazt jelenti. Ez nem megy, hogy ugyanazt jelenti. Vagy nem tudok mondani, mint a "Milo Lauren szeret. "Nem minden ugyanaz jelenti csinálja. 

Így a két fontos dolgot szintaxis a lexikális típus, amely a alapvetően a funkció, amelyet volna a szavak maguk. Tehát meg kell tudni, hogy a "Lauren" és a "Milo" főnevek. "Love" egy ige. A másik fontos dolog az, hogy ők frazális típusok. Szóval tudjuk, hogy "szereti a Milo" valójában a verbális kifejezés. Tehát amikor azt mondom: "Lauren," Tudom, hogy Lauren csinál valamit. Mit csinál? Ő szerető Milo. Szóval ez az egész dolog. De annak összetevői főnév és ige. De együtt, hogy egy igei kifejezés. 

Szóval, mit tud valójában csinálni számítógépes nyelvészet? Tehát, ha van valami, például "Barátai Allison." Látom, ha csak nem a szintaktikai fa azt tudom, hogy "Barátok" egy főnév kifejezés ez a főnév, majd a "Allison" egy elöljárói kifejezést, amely "a" az a javaslat és "Allison" egy főnév. Mit tehettem a tanítani a számítógép , hogy amikor van egy főnév kifejezés egy és majd elöljárói kifejezést. Tehát ebben az esetben a "barátok", majd "a Milo: "Tudom, hogy ez azt jelenti, hogy NP2, a második, tulajdonosa NP1. 

Szóval lehet létrehozni valamiféle kapcsolat, valamilyen funkciót érte. Tehát, ha látom ezt a struktúrát, amely illeszkedik pontosan a "barátai Allison, "Tudom, hogy Allison birtokolja a barátok. Tehát a barátok valamit hogy Allison. Van értelme? Tehát ez alapvetően mi Grafikon Search csinál. Csak teremt szabályok egy csomó dolgot. Tehát "barátai Allison", "barátaim élő Cambridge "," barátaim akik csak a Harvard. "teremt szabályok az összes ezeket a dolgokat. 

Most gépi fordítás. Tehát, a gépi fordítás is valami statisztikai. És valóban, ha részt a számítógépes nyelvészet, sok A cucc lesz a statisztika. Szóval, ahogy csináltam a példát sok a valószínűsége, hogy én voltam kiszámítása, és akkor kap erre Nagyon kevés ez a végső valószínűsége, és ez az, ami megadja a választ. A gépi fordítás is használ a statisztikai modell. És ha azt szeretnénk gondolni gép fordítás a lehető legegyszerűbb Így, hogy mit is gondol csak fordítani szó szerint, nem igaz? 

Amikor a nyelvtanulás a először, hogy általában milyen csinálni, nem? Ha akarod lefordítani egy mondatot Ön nyelvén a nyelv tanulunk, általában az első, akkor lefordítani az egyes szavak külön-külön, majd próbálja az, hogy a szavakat a helyére. 

Tehát, ha akartam lefordítani ezt, [BESZÉD PORTUGÁL] ami azt jelenti: "a fehér macska megszökött." Ha akartam fordítani azt a Portugál angol, amit tehetett, először, csak translate szó szerint. Tehát az "o" az "a", "gato", "cat" "Branco", "fehér", majd "Fugio" az "Elszaladt". 

Így aztán az összes szó van, de nem azért. Ez olyan, mint "a macska fehér elszaladt" ami nyelvtanilag helytelen. Tehát, akkor én lehet egy második lépés, amely lesz megtalálni az ideális pozícióját az egyes szavak. Szóval tudom, hogy tényleg akarom, hogy "White cat" helyett a "macska fehér." Így mit tehetek az, hogy a legtöbb naiv módszer lenne létrehozni a lehetséges permutációja szóval pozíciók. És melyik az a legnagyobb valószínűség szerint az én nyelvi modell. És ha megtalálom az egyik, hogy a legnagyobb a valószínűsége, hogy, ami a valószínűleg "a fehér macska megszökött," ez az én fordítás. 

És ez egy egyszerű módja a magyarázatot hogy egy csomó gépi fordítás algoritmusok működnek. Van ennek értelme? Ez is valami igazán izgalmas, hogy ti is talán felfedezni a A projekt végső, igaz? 

DIÁK: Nos, azt mondtad, hogy A naiv módon, így mi a nem naiv módon? 

LUCAS FREITAS: A nem-naiv módon? OK. Tehát az első dolog, ami rosszul Ennek a módszernek az, hogy én csak lefordított szó, szó szerint. De néha van szó, lehet több nyelvre lefordítva. Meg fogom próbálni gondolkodni valami. Például a "manga" portugál lehet sem lehet "mángorló" vagy "tok". Így ha akarsz lefordítani szó szóval, lehet, hogy így valami, ami nincs értelme. 

Szóval valóban szeretné, hogy nézd meg az összes A lehetséges fordítása az szavak és látni, először is, mi a rend. Arról beszélgettünk, permutating a dolgokat? Az összes lehetséges megrendelések és válassza ki az egyik legmagasabb valószínűsége? Azt is megadhatja az összes lehetséges fordítások az egyes szót, és aztán majd meglátjuk - kombinálva a permutációk - melyik van a legnagyobb valószínűsége. 

Plusz, akkor is nézd meg nem csak szavak, hanem kifejezéseket. így elemezni közötti kapcsolatok a szavakat, majd kap egy jobb fordítást. Még valami, így ebben a félévben Én valójában csinál kutatás Kínai-angol gépi fordítás, így fordítunk Kínai angolra. 

És valamit teszünk, használata mellett statisztikai modell, ami csak látva a valószínűsége a látás Néhány helyzetben egy mondatban, én vagyok valójában is hozzá néhány szintaxis én modellt, mondván, jaj, ha ez a fajta az építőipar, ez az, amit akarok változtatni, hogy amikor fordítani. Így akkor is hozzá valamilyen eleme a szintaxis, hogy a fordítás hatékonyabb és pontosabb. OK. 

Szóval hogyan lehet elkezdeni, ha azt szeretnénk, tenni valamit a számítógépes nyelvészet? 

Először is, úgy dönt, a projekt amely magában foglalja nyelven. Tehát, van olyan sok odakinn. Annyi dolog, amit tehetünk. És akkor lehet gondolni a modell hogy tudod használni. Általában azt jelenti, hogy a gondolkodás a feltételezések, mint például, ó, mikor voltam mint a gondolkodás, a dalszöveg. Olyan voltam, mint, nos, ha azt szeretné, hogy kitaláljuk ki, ki írta ezt, valószínűleg szeretne hogy nézd meg a szavak a személy használják, és látni, aki használja ezt a szót nagyon gyakran. Így próbálja a feltételezéseket és gondolkodjon modellek. És akkor kereshet online a fajta probléma, hogy van, és ez fog javasolni nektek modelleket, hogy talán modellezni, hogy a dolog is. 

És még mindig e-mailt nekem. me@lfreitas.com. És én csak válaszolni a kérdéseire. Azt is lehet találkozni, így tudok hogy javaslatokat módja megvalósítása a projekt. És értem, ha részt a számítógépes nyelvészet, ez lesz hogy nagy. Fogsz látni ott van annyi potenciál. És az iparág akar felvenni Annyira rossz, mert az, hogy. Szóval remélem, hogy a srácok élvezték ezt. Ha a srácok bármilyen kérdése van, tudod kérdezni után. De azért köszönöm.