LUCAS FREITAS: Hey. Tere kõigile. Minu nimi on Lucas Freitas. Ma olen junior [kuuldamatu] õppimise arvutiteaduse fookus arvutilingvistika. Nii et minu teisese on keel ja keelelise teooria. Ma olen väga põnevil, et õpetada teid natuke valdkonnas. See on väga põnev ala õppima. Samuti on palju potentsiaali tulevikuks. Niisiis, ma olen väga põnevil, et te kaaluvad projektide arvutilingvistika. Ja ma olen rohkem kui õnnelik, et nõustada ükskõik, kui sa otsustad jätkama üks neist. 

Nii kõigepealt, millised on arvutuslikke keeleteadus? Nii arvutilingvistika on ristumine lingvistika ja arvutiteadus. Niisiis, mis on lingvistika? Mis on infotehnoloogia? Hästi lingvistika, mida võtame, on need keeled. Nii lingvistika on tegelikult uuring loomuliku keele üldiselt. Nii loomulik keel - me räägime keel, mida me tegelikult kasutada üksteisega suhelda. Nii et me ei rääkinud eriti umbes C või Java. Me räägime lähemalt inglise ja Hiina ja teistes keeltes, mida me shelda üksteisega. 

Keeruline asi see on, et Praegu on meil ligi 7000 maailma keeli. Seega on üsna kõrge sort keeli, et me saame õppida. Ja siis te arvate, et see on ilmselt väga raske teha, näiteks tõlkimine ühest keelest muu, arvestades, et teil on peaaegu 7000 neist. Niisiis, kui te arvate, teeme tõlge ühest keelest teise sa on peaaegu üle miljoni erinevaid kombinatsioone, mida saate on Keelest keeles. Nii et see on tõesti raske teha mõned selline näide tõlke süsteem iga keel. 

Niisiis, lingvistika kohtleb süntaks, semantika, pragmaatika. Te ei ole täpselt vaja teada mida nad on. Aga väga huvitav asi on see, et nagu emakeel, kui sa õpid keele kui laps, sa tegelikult õppida kõik need asjad - süntaks semantika ja pragmaatika - ise. Ja keegi ei õpetab süntaks et sa aru kuidas lause on struktureeritud. Nii, see on tõesti huvitav, sest see on midagi, mis tuleb väga intuitiivselt. 

Ja mida te võtate alates arvutiteadus? Noh, kõige olulisem asi, mida me on infotehnoloogia on esimene kõik, tehisintellekti ja masin õppe. Niisiis, mida me üritame teed arvutilingvistika on õpetada arvuti, kuidas midagi teha keelega. 

Nii, näiteks masina tõlge. Püüan õpetada minu arvuti, kuidas teada, kuidas üleminek ühelt keele vahel. Niisiis, põhimõtteliselt nagu õpetamine arvuti kahes keeles. Kui ma seda loomuliku keele töötlemise, mis kehtib näiteks Facebook Graph Search õpetad arvuti, kuidas mõista päringuid hästi. 

Niisiis, kui sa ütled "fotod minu sõbrad. "Facebook ei ravi, mis tervikuna string, mis on lihtsalt hunnik sõnu. See tegelikult mõistab seoses vahel "fotod" ja "Minu sõbrad" ja mõistab, et "fotod" on vara "mu sõbrad." 

Nii, et see on osa, näiteks loomuliku keele töötlemiseks. Ta püüab aru saada, mis on seos sõnad lause. Ja suur küsimus on, kas sa õpetada arvuti, kuidas rääkida keel üldiselt? Mis on väga huvitav küsimus arvad, sest kui võib-olla tulevikus sa lähed, et oleks võimalik rääkida oma mobiili. Selline tunne, mida me teeme koos Siri kuid midagi nagu saab tegelikult öelda, mida sa tahad ja telefon läheb kõigest aru. Ja see võib olla järelmeetmete küsimused ja edasi rääkida. See on midagi tõesti põnev, minu arvates. 

Niisiis, midagi loomulikus keeles. Midagi tõeliselt huvitavat loomulikus keeles on, ja see on krediidi minu keeleteaduse professor, Maria Polinsky. Ta toob näite ja ma arvan, see on tõesti huvitav. Kuna me õpime keele kui me sündinud ja siis meie emakeel keel liiki kasvab meile. 

Ja põhimõtteliselt sa õppida keelt alates minimaalne sisend, eks? Sa lihtsalt saada panus oma vanemad, mida teie keeles kõlab meeldib ja sa lihtsalt õppida seda. Nii, see on huvitav, sest kui te vaatate neile lausetest näiteks. Näed, "Mary paneb mantel iga kord, kui ta lahkub majast. " 

Sel juhul on võimalik, et on Sõna "ta" viitab Mary, eks? Sa ei saa öelda "Mary paneb mantel iga kord Mary jätab maja. "nii, et see on hea. Aga siis, kui te vaatate lause "Ta paneb mantel iga kord Mary lahkub majast. "sa tead, et see võimatu öelda, et "ta" on viidates Mary. 

Ei ole nii, et öelda, et "Mary paneb on mantel iga kord Mary jätab maja. "Nii et see on huvitav, sest see on selline intuitsioon et iga emakeelena kõneleja on. Ja keegi ei õpetanud, et see on nii, et süntaks töötab. Ja mis saab olla ainult see "ta" viidates Mary see esimene juhtum, ja tegelikult see muu liiga, kuid mitte seda. Aga igaüks omamoodi muutub sama vastus. Kõik nõustuvad sellega. Nii et see on tõesti huvitav, kuidas küll sa ei tea kõiki reegleid oma keele omamoodi aru kuidas keel töötab. 

Nii huvitav asi loomulik keel on see, et sa ei pea tea süntaks teada, kui lause on grammatilisi või ungrammatical eest enamikel juhtudel. Mis paneb sind arvama, et võib-olla see, mida juhtub see, et läbi oma elu, siis muudkui üha rohkem ja rohkem lauset öelnud sulle. Ja siis hoida meeldejätmist kõik laused. Ja kui keegi ütleb teile midagi, sa kuulsid seda lauset ja te vaatate oma sõnavara lauseid ja vaata, kas See lause on olemas. Ja kui see on olemas, sa öelda, et see grammatiline. Kui see ei ole teile öelda, et see ungrammatical. 

Niisiis, sel juhul sa ütleksid, oh, nii et teil on tohutu nimekiri kõigist karistus. Ja siis, kui sa kuuled lauset sa tead, kui see on grammatilisi või mitte selle põhjal. Asi on selles, et kui te vaatate lause, näiteks " viis otsaga CS50 TF keedetud pime kaheksajalad kasutades DAPA kruus. "On Kindlasti ei ole lause et olete kuulnud enne. Kuid samal ajal sa tead, et see päris palju grammatilisi, eks? Puuduvad grammatilisi vigu ja võib öelda, et see on võimalik lause. 

Nii et see paneb meid mõtlema, et tegelikult nii, et me õpime keelt ei ole ainult omades tohutu andmebaas võimalik sõnad või laused, kuid rohkem mõista seost sõnad need laused. Kas see on mõtet? Nii, siis küsimus on, kas arvutid keeli õppida? Kas me õpetame keel arvutitega? 

Nii, mõtleme selle vahe vahel emakeel keel ja arvuti. Niisiis, mis juhtub kõlar? Noh, emakeel õpib keel kokkupuudet. Tavaliselt oma varasest lapsepõlvest aastat. Niisiis, põhimõtteliselt, sa lihtsalt laps, ja hoiate rääkinud, ja see lihtsalt õpib rääkima keelt, eks? Niisiis, sa oled põhiliselt andes input lapsele. Nii, siis ei saa väita, et arvuti saab teha sama asi, eks? Võid lihtsalt anna keel sisendi arvuti. 

Nagu näiteks hunnik faile et on raamatuid inglise keeles. Võibolla see on üks viis, et sa võiks õpetada arvuti inglise, eks? Ja tegelikult, kui sa mõtled seda, see viib teid ehk paar päeva raamatut lugeda. Sest arvuti kulub teine vaata kõiki sõnu raamat. Nii et sa ei mõtle, et võib olla just see argument panusele ümber, see ei ole piisav, et öelda, et see on midagi, et ainult inimesed võivad teha. Võite mõelda arvutid Samuti võite sisestada. 

Teine asi on see, et emakeel Samuti on ajus, mis on Keeleõppe võimekus. Aga kui sa arvad, aju on hea asi. Kui olete sündinud, see on juba määratud - see on sinu aju. Ja kui sa suureks kasvad, siis lihtsalt saada rohkem input keele ja võibolla toitaineid ja muud kraami. Aga päris palju oma aju on hea asi. 

Nii saab öelda, hästi, äkki saab ehitada arvuti, mis on kamp funktsioone ja meetodeid, et lihtsalt matkivad Keeleõppe võimekus. Nii et selles mõttes võib öelda, ma võib olla arvuti, mis on kõik asjad, mida ma pean õppima keelt. Ja viimane asi on see, et native esineja õpib katse-eksituse meetodil. Nii et põhimõtteliselt on veel üks oluline asi keeleõpet, et sa lahke kohta õppima asju tehes üldistused, mida te kuulete. 

Nii nagu te kasvavad teil õppida, et Mõned sõnad on rohkem nagu nimisõnad, mõned teised on omadussõnad. Ja sa ei pea mingit teadmised lingvistika mõista, et. Aga sa tead, seal on mõned sõnad positsioneeritakse mingi osa lause ja mõned teised ka teistes osades lause. 

Ja mis siis, kui midagi, mis on nagu lause, et ei ole õige - võibolla, sest üle üldistus näiteks. Võib-olla, kui sa suureks, märkate et mitmuses on tavaliselt moodustatud pannes S juures lõpuks sõna. Ja siis sa püüad teha mitmus "Hirved" kui "hirved" või "geen" nagu "Tooths." Nii siis teie vanemad või keegi parandab teid ja ütleb, ei, mitmus "hirv" on "hirv", ja mitmus "hammas" on "hambad". Ja siis sa õpid neid asju. Nii et te õppida katse-eksituse meetodil. 

Aga sa võid ka teha koos arvutiga. Sul võib olla midagi, mida nimetatakse tugevdamine õppimist. Mis on põhimõtteliselt nagu andes arvuti tasu, kui see ei midagi õigesti. Ja annab see vastand tasu ja kui ta teeb midagi valesti. Võite tegelikult näha, et kui sa lähed Google Tõlgi ja püüad tõlkima lause, see küsib tagasisidet. Nii et kui te ütlete, oh, seal on parem tõlkimine selle lause. Sa võid kirjutada see üles ja siis kui palju inimesed hoiavad öeldes, et on parem tõlge, see lihtsalt saab teada, et ta peaks kasutama, et tõlge asemel üks ta andis. 

Nii, see on väga filosoofiline küsimus näha, kui arvutid hakkavad olema rääkida või mitte tulevikus. Aga mul on suured lootused, et nad saaksid lihtsalt põhinevad nende argumendid. Aga see on lihtsalt rohkem filosoofiline küsimus. 

Niisiis, kui arvuteid veel ei saa rääkida, Mis on asjad, mida me saame teha? Mõned lahedaid asju on andmete liigitus. Nii näiteks, te teate, et e-teenused teevad, sest Näiteks rämpsposti filtreerimine. Nii et kui te saate rämpsposti, see püüab filtreerida teise kasti. Niisiis, kuidas see seda teha? See ei ole nagu arvuti lihtsalt teab Mis e-posti aadressid on rämpsposti saatmiseks. Nii, et see põhineb rohkem sisu Sõnumi või äkki pealkirja või äkki mõned muster, mis sul on. 

Niisiis, põhimõtteliselt, mida saate teha, on saada palju andmeid kirju, mis on rämpspost, kirju, mis ei ole rämpsposti, ja õppida, mida liiki mustrid sul need, mis on rämpspost. Ja see on osa arvutuslikku keeleteadus. Seda nimetatakse andmete liigitus. Ja me tegelikult näeme näide et järgmisel slaidid. 

Teine asi on see loomulik keel töötlemine, mis on see, mis Graph Otsi teeb üürile Sa kirjutad lause. Ja ta usaldab sind mõista, mida tähendus ja annab sa parem tulemus. Tegelikult, kui te lähete Google või Bing ja otsida midagi Lady Gaga on kõrgus, sa oled tegelikult toimub saada 5 "1" asemel teave tema, sest ta tegelikult mõistab mida sa räägid. Nii et see osa looduslike keelekasutus. 

Või ka siis, kui te kasutate Siri esimene teil on algoritm, mis püüab tõlkida, mida sa räägid sõnadesse teksti. Ja siis ta üritab tõlkida et arvesse tähenduses. Nii et see kõik on osa looduslik keelekasutus. 

Siis on masintõlge - mis on tegelikult üks minu lemmikud - mis on lihtsalt tõlkimisel keelest teise. Nii et sa ei mõtle, et kui sa teed masintõlge, teil on erakordseid võimalusi lausetest. Nii et seal on kuidagi lihtsalt ladustamiseks iga tõlge. Nii et teil on tulla huvitav algoritme suutma tõlkida iga lause kuidagi. 

Kutid on küsimusi nii palju? Ei? OK. 

Mida me näeme täna? Esiteks, ma lähen rääkima klassifitseerimise probleemi. Niisiis see, kes ma olin räägivad rämpsposti. Mida ma teen on, arvestades lyrics laulu, võite proovida välja nuputada, suure tõenäosusega kes on laulja? Oletame, et mul on laule Lady Gaga ja Katy Perry, kui ma annan teile uus laul, saate aru saada, kui see on Katy Perry ja Lady Gaga? 

Teine, ma lihtsalt rääkida umbes segmenteerimine probleem. Nii et ma ei tea, kas te teate, kuid Hiina, jaapani, teistest Ida-Aasia keeles ja teistes keeltes üldiselt ei ole ruumide vahel sõnu. Ja siis, kui sa arvad, kuidas arvuti liiki üritab mõista loomuliku keele töötlemise, vaadeldakse sõnad ja püüab mõista suhete nende vahel, eks? Aga siis, kui teil on Hiina ja te on null ruumid, see on tõesti raske teada saada, mis on seos sõnadega, kuna neil ei ole mingit sõna alguses. Nii et sa pead tegema midagi, mida nimetatakse killustatust, mis tähendab lihtsalt pannes ruumide vahel, mida me nimetame sõnad nendes keeltes. Mõtet? 

Ja siis me läheme rääkida süntaks. Nii lihtsalt natuke loomulik keelekasutus. See saab olla ainult ülevaate. Nii et täna, põhimõtteliselt mida ma tahan teha on teile poisid natuke sees, millised on võimalused , mida saate teha koos arvutuslikku keeleteadus. Ja siis sa näed, mida sa arvad on lahe vahel neid asju. Ja võib-olla sa ei mõtle projekti ja tulevad minuga rääkima. Ja ma ei saa anda teile nõu kuidas seda rakendada. 

Nii süntaks läheb natuke umbes Graph Search and machine tõlge. Ma lihtsalt annan näide sellest, kuidas siis võiks näiteks tõlkida midagi portugali keeles. Kõlab hästi? 

Nii et esimene, klassifitseerimise probleemi. Ma ütlen, et see osa seminar saab olema kõige keerulisem üks lihtsalt sellepärast, et seal saab olla mõned kodeerimist. Aga see saab olema Python. Ma tean, et te ei tea, Python, nii Ma lihtsalt seletada on kõrge tase, mida ma teen. Ja sa ei pea hooli liiga palju süntaks, sest see on midagi kutid saavad õppida. OK? Kõlab hästi. 

Mis on liigituse probleem? Nii et sa oled andnud mõned lyrics laulu ja soovite arvan kes laulab seda. Ja see võib olla mis tahes liiki muid probleeme. Seega võib näiteks sul on presidendivalimiste kampaania ja pead kõne ja soovite leida välja, kui see oli näiteks Obama või Mitt Romney. Või teil on hunnik kirju ja sa tahad, et aru saada, kas nad on rämpspost või mitte. Nii et see on lihtsalt klassifitseerimisel mõned andmed põhinevad sõnad mis sul seal on. 

Nii et seda teha, pead sa teha mõningaid oletusi. Nii palju, arvutilingvistika teeb oletusi, tavaliselt smart eeldused, et saad häid tulemusi. Proovin luua mudel ta. Ja siis seda proovida ja vaata, kas see toimib, kui see annab sulle hea täpsus. Ja kui see on nii, siis proovida seda parandada. Kui seda ei ole, sa oled nagu, OK, võib-olla ma peaks eri eeldus. 

Seega eeldades, et me ei kavatse teha on see, et kunstnik tavaliselt laulab teemal, mitu korda, ja võib-olla kasutab sõnu mitu korda lihtsalt sest nad on sellega harjunud. Sa võid mõelda oma sõbraga. Ma olen kindel, et te kõik on sõbrad et öelda oma allkirja fraasi sõna otseses mõttes iga lause - nagu teatud sõna või teatud lause, mis nad ütlevad iga lause. 

Ja mida te ei saa öelda, et kui te näete lause, mis on allkirja fraasi, siis võib arvata, et tõenäoliselt sõber on üks ütleb ta, eks? Nii et sa eeldad ja seejärel see on, kuidas sa luua mudel. 

Näiteks, et ma annan on kuidas Lady Gaga on näiteks inimesed öelda, et ta kasutab "laps" eest kõik tema number üks laule. Ja tegelikult on see video, mis näitab, teda öeldes sõna "laps" eest erinevad laulud. 

[VIDEO PLAYBACK] 

- (Laul) Baby. Baby. Baby. Baby. Baby. Babe. Baby. Baby. Baby. Baby. 

[END VIDEO PLAYBACK- 

LUCAS FREITAS: Nii on, ma arvan, 40 laulu siin, kus ta ütleb, sõna "laps". Nii saab põhimõtteliselt arvan et kui näed laul, mis on sõna "laps", seal on mõned kõrge Tõenäosus, et see on Lady Gaga. Aga proovime arendada seda veelgi rohkem ametlikult. 

Nii et need on laulusõnu poolt Lady Gaga ja Katy Perry. Nii et te vaatate Lady Gaga, näed nad on palju juhtumeid "baby" palju esinemistest "viis". Ja siis Katy Perry on palju esinemistest "," Palju esinemistest "tulekahju". 

Ühesõnaga, mida me tahame vaja on, saad lüüriline. Oletame, et sa saad lüürika jaoks laul, mis on "laps", vaid "laps". Kui sa saad sõna "laps" ja selle on kõik andmed, mida on alates Lady Gaga ja Katy Perry, kes oleks sa vist on inimene kes laulab laulu? Lady Gaga või Katy Perry? Lady Gaga, eks? Sest ta on ainus, kes ütleb, "Laps". See kõlab tobedalt, eks? OK, see on tõesti lihtne. Ma lihtsalt vaatasin kaks laulu ja Muidugi, ta on ainus, kes on "Laps". 

Aga kui sul on hunnik sõnu? Kui teil on tegelik sõnadeni midagi nagu "kallis, ma lihtsalt käisime [? CFT?] loeng "või midagi sellist, ja siis tegelikult on aru saada - põhinevad kõik need sõnad - kes on kunstnik, kes tõenäoliselt laulis seda laulu? Seega proovime arendada see veidi kaugemale. 

OK, nii põhineb lihtsalt andmete kohta, mida me sain, tundub, et Gaga on ilmselt laulja. Aga kuidas me saame kirjutada see veel ametlikult? Ja seal saab olema veidi natuke statistikat. Nii et kui sa ära eksida, lihtsalt proovida mõista kontseptsiooni. See ei ole tähtis, kui sa aru võrrandid väga hästi. See kõik saab olema võrgus. 

Ühesõnaga, mida ma arvutamiseks on Tõenäosus, et see laul on poolt Lady Gaga, arvestades, et - nii see riba tähendab, arvestades, et - Ma nägin sõna "laps". Kas see on mõtet? Nii et ma üritan arvutada et tõenäosus. 

Nii on see teoreem nimetatakse Bayesi teoreem, mis ütleb, et tõenäosus antud B on tõenäosus B andnud, korda tõenäosus üle tõenäosus B. See on pikk võrrand. Aga mida sa pead mõistma, alates see on, et see on see, mida ma tahan arvutada, eks? Seega on tõenäosus, et see laul on poolt Lady Gaga, arvestades, et ma nägin sõna "Laps". 

Ja nüüd, mida ma saan on tõenäosus sõna "laps" antud et mul on Lady Gaga. Ja mis on see, et põhiliselt? Mida see tähendab, mis on tõenäosus näha sõna "laps" aastal Gaga lyrics? Kui ma tahan arvutada, et väga lihtsalt, see on lihtsalt number korda näen "beebi" üle koguarv sõnade Gaga lyrics, eks? Mis on sagedus, mis ma näen, et sõna Gaga töö? Mõtet? 

Teine mõiste on tõenäosus Gaga. Mida see tähendab? See tähendab põhimõtteliselt, mis on tõenäosust klassifitseerimisel mõned lyrics nagu Gaga? Ja see on omamoodi veider, kuid Mõtleme näiteks. Ütleme, et tõenäosus võttes "laps" on laul on sama jaoks Gaga ja Britney Spears. Aga Britney Spears on kaks korda rohkem laule kui Lady Gaga. Nii et kui keegi just juhuslikult annab teile lyrics "baby", esimene asi, mida vaadata, siis mis on tõenäosus võttes "laps" on Gaga laulu "Baby" in Britney laulu? Ja see on sama asi. 

Nii teine ​​asi, mida sa näed, on Noh, mis on tõenäosus see luuletus iseenesest on Gaga lyric, ja milline on tõenäosus on Britney luuletus? Niisiis, kuna Britney on nii palju rohkem lyrics kui Gaga, siis tõenäoliselt ütleme, et see on ilmselt Britney luuletus. Nii et miks meil seda liige siin. Tõenäosus Gaga. Mõtet? Kas see? OK. 

Ja viimane on lihtsalt tõenäosus "baby", mis ei ole tegelikult küsimus, et palju. Aga see on tõenäosus nägemine "laps" inglise keeles. Me tavaliselt ei huvita, et palju, et perspektiivis. Kas see on mõtet? Seega tõenäosus Gaga on kutsutakse enne tõenäosus klassi Gaga. Sest see lihtsalt tähendab, et see, mis on tõenäosus on, et klass - mis on Gaga - lihtsalt üldiselt vaid ilma tingimustes. 

Ja siis kui mul on tõenäosus Gaga antud "laps", siis me nimetame seda pluss pisarais tõenäosusega, sest see on tõenäosus on Gaga anda mõningaid tõendeid. Nii et ma annan sulle tõendeid et ma nägin sõna laps ja laulu mõtet? OK. 

Nii et kui ma välja arvutanud, et iga laulud Lady Gaga, Mis oleks - Ilmselt ma ei saa seda liigutada. Tõenäosus Gaga on midagi sellist, 2 üle 24, korda 1/2, üle 2 üle 53. See ei ole tähtis, kas sa tead, mida need numbrid tulevad. Aga see on lihtsalt number, mis läheb rohkem kui 0, eks? 

Ja siis, kui ma Katy Perry, tõenäosus "laps" antud Katy on juba 0, eks? Sest seal ei ole "laps" Katy Perry. Nii siis see muutub 0 ja Gaga võitu, mis tähendab, et Gaga on ilmselt laulja. Kas see on mõtet? OK. 

Nii et kui ma tahan teha seda veel ametlik, Ma ei saa tegelikult teha mudel Mitme sõna. Ütleme, et mul on midagi nagu "kallis, ma olen põlema "või midagi. Nii et see on mitu sõna. Ja sel juhul, näete et "laps" on Gaga, aga see pole Katy. Ja "tulekahju" on Katy, kuid see ei ole Gaga, eks? Nii see on üha keerukam, eks? Kuna tundub, et sa peaaegu on tie vahel kaks. 

Nii et mida sa pead tegema, on arvata, sõltumatuse vahel sõnu. Ühesõnaga, mida see tähendab, et Ma lihtsalt arvutada, mis on tõenäosusega näeme "laps", mis on tõenäosusega näeme "I" ja "Mina" ja "on" ja "tulekahju" kõik eraldi. Siis ma korrutades neid kõiki. Ja ma näen mis on tõenäosus näha terve lause. Mõtet? 

Ühesõnaga, kui mul on ainult üks sõna, mida ma tahan teada on arg max, mis tähendab, mis on klass, mis on annab mulle kõige tõenäolisem? Mis on klass, mis annab mulle kõige tõenäolisem tõenäosus klassi antud sõna. Nii et sel juhul Gaga antud "laps". Või Katy antud "laps". Mõtet? 

Ja just Bayes, et võrrand et ma näitasin, loome selles fraktsioonis. Ainuke asi on see, et sa näed, et tõenäosus sõna antud klass muutub olenevalt klassist, eks? Number "Baby" s, et mul on aastal Gaga erineb Katy. Tõenäosus klass ka muudatusi, sest see on lihtsalt number laule on igaühel neist. 

Aga tõenäosus sõna ise saab olema sama kõigi kunstnikud, eks? Seega on tõenäosus, et sõna on lihtsalt, milline on tõenäosus, et näeme, et sõna Inglise keeles? Nii et see on sama kõigile. Niisiis, kuna see on konstantne, saame lihtsalt tilk seda ja ei hooli sellest. Seega see on tegelikult võrrand me otsime. 

Ja kui mul on mitu sõna, ma olen ikkagi ise enne tõenäosus siin. Ainuke asi on see, et ma olen korrutades tõenäosus kõik muud sõnad. Nii et ma olen korrutades neid kõiki. Mõtet? Tundub imelik, kuid põhimõtteliselt tähendab, arvutada enne klassi ja seejärel korrutada tõenäosus iga sõnad on selles klassis. 

Ja sa tead, et tõenäosus sõna antud klass saab olema mitu korda sa näed, et sõna selle klassi jagatuna arvu sõnad, mida on selles klass üldiselt. Mõtet? See on lihtsalt, kuidas "laps" oli 2 üle sõnade arv Mul oli ka laulusõnad. Nii lihtsalt sagedust. 

Kuid on üks asi. Mäletan, kuidas ma olin näidanud, et tõenäosus "laps" on lyrics Katy Perry oli 0 lihtsalt sellepärast, et Katy Perry ei olnud "laps" üldse? Aga see kõlab natuke karm lihtsalt lihtsalt öelda, et sõnad ei tohi olla pärit artist lihtsalt sellepärast, et neil ei ole et sõna eriti igal ajal. 

Nii võib öelda, hästi, kui te ei ole see sõna, ma lähen teile väiksema tõenäosusega aga ma ei kavatse teile 0 kohe. Sest võib-olla oli midagi sellist, "Tule, tule, tule, tule," mis on täiesti Katy Perry. Ja siis "laps" ja see lihtsalt läheb 0 kohe, sest seal oli üks "Laps". 

Ühesõnaga, mida me teeme, on midagi nimetatakse Laplace'i silumiseks. Ja see tähendab lihtsalt, et ma annan teatud tõenäosusega isegi sõnu et ei ole olemas. Nii, mida ma teen, et kui ma olen arvutamisel seda, ma alati lisada 1 lugeja. Nii et isegi kui sõna ei ole olemas, on Sel juhul, kui see on 0, ma olen ikka veel arvutamisel seda 1 üle sõnade koguarv. Muidu ma saan, kui palju sõnu Mul on ja ma lisada 1. Ma loodan mõlemal juhul. Mõtet? 

Nüüd teeme mõned kodeerimist. Ma pean seda üsna kiiresti, aga see on lihtsalt oluline, et te poisid aru mõisted. Niisiis, mida me üritame teha on täpselt rakendada seda asi, mida ma just ütlesin - Ma tahan sind panna lyrics Lady Gaga ja Katy Perry. Ja programm hakkab saama öelda, kas need uued sõnad on pärit Gaga või Katy Perry. Mõtet? OK. 

Nii et mul on selle programmi ma lähen helistada classify.py. Nii et see on Python. See on uus programmeerimiskeel. See on väga sarnane mõnes viise C ja PHP. See on sarnane, sest kui sa tahad õppida Python pärast teades C, see on tõesti ei ole nii palju väljakutse lihtsalt sellepärast, et Python on palju lihtsam kui C, kõigepealt. Ja palju asju on juba rakendatud teile. Nii lihtsalt, kuidas nagu PHP on funktsioone, mis sorteerida nimekirja või lisada midagi massiivi või blah, blah, blah. Python on kõik need samuti. 

Nii et ma lihtsalt lähen selgitada kiiresti kuidas me võiksime teha klassifikatsioon probleem siin. Ütleme, et antud juhul on mul lyrics Gaga ja Katy Perry. Nii, et ma pean need sõnad on, et esimene sõna lyrics on Kunstniku nimi ja ülejäänud on lyrics. Ütleme, et mul on see nimekiri millest esimene on lyrics by Gaga. Nii et siin ma olen õigel teel. Ja järgmine on Katy ja see on ka laulusõnad. 

Nii et see on, kuidas deklareerida muutuja Python. Sa ei pea andma andmete liiki. Sa lihtsalt kirjutada "lyrics" selline nagu PHP. Mõtet? 

Millised on asju, mida ma pean arvutada, et oleks võimalik arvutada tõenäosused? Ma pean arvutama "priors" iga erineva klassi, et mul on. Ma pean arvutama "tagumikuga" või üsna palju tõenäosuste Iga erinev sõnade Saan iga kunstnik. Niisiis jooksul Gaga, näiteks, ma lähen on nimekiri, kui palju kordi ma näen iga sõna. Mõtet? 

Ja lõpuks, ma olen lihtsalt kavatse olla loendi nimega "sõnad" mis on lihtsalt läheb on, kui palju sõnu ma on iga kunstnik. Nii Gaga, näiteks kui ma vaatan libreto, olin ma arvan, et 24 sõnu kokku. Nii, et see nimekiri on lihtsalt saab olema Gaga 24 ja Katy teine ​​number. Mõtet? OK. 

Nüüd, tegelikult, olgem minge kodeerimine. Nii Python, saate tegelikult tagasi hunnik erinevaid asju funktsioon. Ma lähen, et luua seda funktsiooni nn "tingimisi", mis toimub tagasi kõik need asjad, "Priors" "tõenäosuste" ja "Sõnu." Nii "tingimisi", ja see on kavatse kahtluse "lyrics". 

Nüüd ma tahan, et sa tegelikult kirjutan seda funktsiooni. Niisiis, kuidas ma saan seda funktsiooni Ma määratletud käesoleva toimida "def." Nii et ma tegin "def tingimuseks, "ja see võtab "Lyrics". Ja mida see kavatseb teha on kõigepealt, mul on priors et ma tahan arvutada. 

Niisiis, kuidas ma saan seda teha, on luua sõnastik Python, mis on päris palju sama räsi lauda või see on nagu korduv massiivi PHP. See on, kuidas ma kuulutada sõnastik. Ja põhimõtteliselt tähendab see, et aprioorni Gaga on 0,5, kui näiteks 50% lyrics on pärit Gaga, 50% on pärit Katy. Mõtet? Nii et ma pean välja mõtlema, kuidas arvutada priors. 

Järgmisel need, mis ma pean tegema, ka, on tõenäosused ja sõnad. Nii tõenäosuste Gaga on nimekiri kõik tõenäosused, et ma on iga sõna jaoks Gaga. Nii et kui ma lähen tõenäosuste Gaga "Laps", näiteks, see annab mulle midagi 2 üle 24 juhul. Mõtet? Nii ma lähen "tõenäosuste" minna "Gaga" ämber, mis on nimekiri kõigist Gaga sõnul siis mine "laps" ja ma näen tõenäosust. 

Ja lõpuks ma pean seda "Sõnadega" sõnastik. Nii et siin, "tõenäosused." Ja siis "Sõnu." Nii et kui ma teen "sõnad", "Gaga" Mis juhtub on see, et see on annan mina 24 ja ütles, et ma on 24 sõnu lyrics Gaga. Mõtet? Nii et siin, "sõnad" on võrdne dah-dah-dah. Korras 

Niisiis, mida ma lähen tegema, on ma lähen Käi iga lyrics, nii iga stringe, mis Mul on nimekirjas. Ja ma lähen välja arvutada neid asju iga kandidaate. Mõtet? Nii et ma pean tegema silmus. 

Nii Python, mida ma teha saan, on "for real aastal lyrics. "sama, mis "Iga" väljavõte PHP. Mäletan, kuidas, kui see oli PHP suutsin öelda "iga lyrics nagu line. "Mõtet? Nii et ma võtan iga rida selles juhul see string ja järgmise string nii iga rida, mida ma lähen tegema, on esimene, ma lähen jagada seda rida nimekirja sõnad eraldatud tühikutega. 

Nii lahe asi Python on see, et võid lihtsalt Google nagu "Kuidas ma saan split string sõnu? "Ja see on ütlen teile, kuidas seda teha. Ja kuidas seda teha, see on lihtsalt "line = Line.split () "ja see on põhimõtteliselt annan teile nimekirja iga sõna siin. Mõtet? Nüüd, et ma tegin, et ma tahan teada, kes on laulja seda laulu. Ja seda, et ma pean esimene element massiivi, eks? Ma võin ainult öelda, et ma "laulja = Line (0) "Mõtet? 

Ja siis, mida ma pean tegema, on esmalt kõik, ma lähen uuendada, kui palju sõnad on mul all "Gaga". nii et ma olen lihtsalt läheb välja arvutada, kui palju sõnu ma on selles nimekirjas, eks? Sest see on, kui palju sõnu on mul aastal lyrics ja ma olen lihtsalt kavatse lisab ta "Gaga" massiivi. Kas see on mõtet? Ärge keskenduda liigselt süntaks. Rohkem mõtlema mõisted. See on kõige olulisem osa. OK. 

Niisiis, mida ma teha saan, on see, kui "Gaga" on juba selles nimekirjas, siis "kui laulja sõnad ", mis tähendab, et mul on juba on sõnu Gaga. Ma lihtsalt tahan, et lisada täiendavaid sõna selle peale. Niisiis, mida ma teha, on "sõnad (laulja) + = Len (line) - 1 ". Ja siis ma ei saa lihtsalt teha joone pikkus. Niisiis, kuidas paljud elemendid I on massiiv. Ja ma pean tegema, miinus 1 lihtsalt sellepärast, esimene element massiivi on lihtsalt laulja ja need ei ole lyrics. Mõtet? OK. 

"Else", see tähendab, et ma tahan, et tegelikult sisestada Gaga nimestikku. Nii et ma lihtsalt ei "sõna (laulja) = Len (line) - 1, "kahju. Niisiis ainus erinevus kahe read on, et see üks, see ei ole veel olemas, nii et ma olen lihtsalt lähtestamisel. See, mida ma olen tegelikult lisades. OK. Nii see oli, lisades sõnad. 

Nüüd tahan lisada priors. Niisiis, kuidas ma arvutada prioriteete? Priors saab arvutada poolt mitu korda. Nii mitu korda sa näed, et laulja hulgas kõik lauljad, et sa olema, eks? Nii Gaga ja Katy Perry, sel juhul ma näen Gaga kord, Katy Perry kord. 

Nii et põhimõtteliselt on kahtlustatud Gaga ja Katy Perry oleks ainult üks, eks? Sa lihtsalt mitu korda Näen kunstnik. Seega on see väga lihtne arvutada. Ma vaid midagi sarnast nagu näiteks "kui laulja priors, "Ma lihtsalt lisada 1 oma priors kasti. Niisiis, "priors (laulda)" + = 1 "ja siis" teine ​​" Ma lähen tegema, "priors (laulja) = 1. "Mõtet? 

Seega, kui seda ei ole ma lihtsalt panna kui 1, muidu ma lihtsalt lisada 1. OK, nii et nüüd on kõik, mis mul on jäänud teha Samuti lisage iga sõnu tõenäosused. Nii et ma pean lugema, mitu korda Ma näen iga sõna. Nii et ma lihtsalt pean seda veel silmus real. 

Nii et esimene asi, mida ma lähen tegema, on kontrollida, kas laulja on juba tõenäosuste massiivi. Nii et ma kontrollin, kas laulja ei on tõenäosus massiiv, ma olen lihtsalt läheb initsialiseerida üks neist. See ei ole isegi massiivi, vabandust, see sõnastik. Nii tõenäosuste laulja läheb olema avatud sõnastik, nii et ma olen lihtsalt algväärtustamisel sõnastik ta. OK? 

Ja nüüd ma ei saa tegelikult teha loop arvutada iga sõna " tõenäosused. OK. Niisiis, mida ma teha saan, on silmus. Nii et ma olen lihtsalt kavatse kinnitada, üle massiivi. Niisiis, kuidas ma saan teha, et Python on "for i in range." Alates 1. sest ma tahan alustada teises elemendina, kuna esimene on laulja nime. Nii ühest kuni joone pikkus. Ja kui ma ei ulatuvad tegelikult minna nagu siin 1 kuni len kohta line miinus 1. Nii see juba teeb seda asja tehes n miinus 1 massiive, mis on väga mugav. Mõtet? 

Seega on kõigi nende, mida ma teha, on, nagu ka teine, Ma lähen, et kontrollida, kas sõna selles positsiooni juhe juba tõenäosused. Ja siis kui ma ütlesin siin, tõenäosuste sõnad, nagu ma panna "Tõenäosuste (laulja)". Nii nime laulja. Nii et kui see on juba "Probabilit (laulja)," see tähendab, et ma soovite lisada 1 see, et ma lähen teha "tõenäosuste (laulja)" ja sõna on "line (i)". Ma lähen lisada 1 ja "teine" Ma olen lihtsalt läheb initsialiseerida see 1. "Line (i)". Mõtet? 

Niisiis, ma arvutatud kõik massiivid. Nii, nüüd on kõik, mis mul on, mida teha see on lihtsalt "return priors, tõenäosuste ja sõnad. "Teeme kas on üldse OK. Tundub, et kõik töötab siiani. Nii, et on mõtet? Mingil moel? OK. Nüüd on mul kõik tõenäosused. Nüüd on ainus asi, mis mulle on jäänud on lihtsalt olla, et asi, mis arvutab toote kogu tõenäosuste kui ma lyrics. 

Ütleme, et ma tahan nüüd helistada Selle funktsiooni "liigitada ()" ja asi, mis funktsioon jääb on lihtsalt argument. Ütleme "Kallis, ma olen põleb" ja see on läheb välja selgitada, mis on Tõenäosus, et see on Gaga? Milline on tõenäosus, et see on Katie? Kõlab hästi? Nii et ma olen lihtsalt kavatse on luua uus funktsioon nimega "liigitada ()" ja see aega võtab mõned lyrics samuti. Ja pealegi lyrics Olen ka saatma priors, tõenäosuste ja sõnad. Ma lähen saata lyrics, priors, tõenäosuste sõnu. 

Nii et see võtab lyrics, priors, tõenäosuste sõnu. Niisiis, mida see teeb? Põhiliselt läheb läbi kõik võimalikke kandidaate, et sa on laulja. Ja kus on need kandidaadid? Nad on kahtlustatud, eks? Nii et mul on kõik need olemas. Nii et ma lähen on sõnastik kõiki võimalikke kandidaate. Ja siis iga kandidaadi priors, nii et see tähendab, et see läheb olema Gaga, Katie, kui mul oleks rohkem oleks rohkem. Ma hakkan arvutamisel Selle tõenäosus. Tõenäosus, nagu nägime PowerPoint on eelnevalt korda toote iga teiste tõenäosused. 

Ma võin teha sama siin. Võin lihtsalt teha tõenäosus on esialgu ainult enne. Nii priors kandidaadi. Eks ole? Ja nüüd ma pean Käi kõik sõnad, mis mul on lyrics olla võimalik lisada tõenäosus iga neist, eks? Niisiis, "sest sõna lyrics" mida ma teha on, kui sõna on "Tõenäosuste (kandidaat)", mis tähendab, et see on sõna, mida kandidaadil on oma lyrics - näiteks "laps" jaoks Gaga - mida ma lähen tegema, on see, et tõenäosusega läheb korrutatakse 1. pluss tõenäosuste kandidaat, et sõna. Ja seda nimetatakse "sõnaga". See on jagatud sõnade arv et mul on, et kandidaat. Sõnade koguarv, mis mul on laulja, et ma otsin. 

"Else". see tähendab, et see on uus sõna nii et see oleks nagu näiteks "Tulekahju" Lady Gaga. Nii et ma tahan lihtsalt teha 1 üle "Sõna (kandidaat)". Nii et ma ei taha panna seda sõna. 

Nii et see saab olema põhimõtteliselt kopeerige see. Aga ma lähen kustutada osa. Nii et see on lihtsalt saab olema 1 üle, et. Kõlab hästi? Ja nüüd lõpuks, ma olen lihtsalt läheb prindi kandidaadi nimi ja tõenäosus, et teil on võttes S oma lyrics. Mõtet? Ja ma tegelikult ei ole isegi vaja seda sõnastikku. Mõtet? 

Nii, vaatame, kas see tegelikult toimib. Nii et kui ma saan seda, see ei tööta. Oota üks sekund. "Words (kandidaat)", "sõnad (kandidaat)", see on nimi massiivi. Ok, nii, see ütleb, et seal on mingi putukas kandidaat on eelnevalt karistatud. Lubage mul jahedus natuke. OK. Proovime. OK. 

Nii et see annab Katy Perry on see tõenäosus seda korda 10 miinus 7 ja Gaga on see korda 10 astmel miinus 6. Nii et näete see näitab, et Gaga on suurem tõenäosus. Nii "Kallis, ma olen Fire" on ilmselt Gaga laul. Mõtet? Nii et see on see, mida me tegime. 

Seda koodi läheb Internetti, Nii et te saate seda kontrollida. Võib-olla kasutada mõningaid seda, kui soovite teha projekti või midagi sarnast. OK. See oli lihtsalt näidata mida arvutuslikku lingvistika kood välja näeb. Aga nüüd lähme veel kõrge tase värk. OK. 

Nii muid probleeme I rääkisin - killustatust probleem on esimene neist. Nii et teil on siin Jaapani. Ja siis te näete, et puuduvad ruumid. Nii et see on põhimõtteliselt tähendab, et see on top tool, eks? Sa räägid Jaapani? See on top of tool, eks? 

Õpilane: Ma ei tea, mida kanji üle on. 

LUCAS FREITAS: See on [räägitakse jaapani keeles] OK. Nii et see tähendab põhimõtteliselt juhataja top. Nii et kui teil oli panna ruumi oleks siin. Ja siis on [? Ueda-san. ?] Mis põhimõtteliselt tähendab, härra Ueda. Ja te näete, et "Ueda" ja teil on ruumi ja siis "san". Nii et näete, et Siin "UE" on nagu iseenesest. Ja siin see on märk kõrval. 

Nii see ei meeldi nende keelte märkide tähendus sõna see, et sa lihtsalt panna palju ruume. Tegelased omavahel seotud. Ja nad võivad olla koos nagu kaks, kolm, üks. Nii et te tegelikult luua mingi on võimalus panna ruumid. 

Ja see on see, et iga kord, kui sa saad andmeid nende Aasia keeltes, kõike tuleb unsegmented. Sest keegi, kes kirjutab jaapani või hiina kirjutab koos tühikutega. Kui sa oled kirjalikult hiina, Jaapani sa lihtsalt kirjutada kõike ilma tühikuteta. See ei ole isegi mõtet panna ruumid. Niisiis, kui sa saad andmeid, mõned Ida-Aasia keeles, kui soovite tegelikult midagi teha, et pead segment esimene. 

Mõtlema näiteks lyrics tühikuteta. Nii et ainus lyrics, et teil on on lause, eks? Eraldatud perioodidel. Aga siis oleks lihtsalt lause ei aita edasi, mis sisaldab teavet kes need sõnad on poolt. Eks ole? Nii et sa peaksid paneb ruumid esimene. Niisiis, kuidas sa seda tegid? 

Siis tuleb mõte keel mudel, mis on midagi, mida tegelikult oluline arvutuslikku keeleteadus. Niisiis keel mudel on sisuliselt tabel tõenäosuste et näitab Kõigepealt, mis on tõenäosus võttes sõna keeles? Nii näitab, kuidas sageli sõna. Ja siis ka näitab seoses sõnade lauses. 

Seega on peamine idee on, kui võõras tuli sina ja ütles lause teid, mis on tõenäosus, et Näiteks: "See on mu õde [? GTFi"?] oli lause, et inimene ütles? Nii et ilmselt mõned laused rohkem levinud kui teised. Näiteks: "Tere hommikust!" Või "hea öösel "või" Tere, "on palju rohkem ühist kui enamik lauseid et meil on inglise keel. Miks on need laused sagedamini? 

Esiteks sellepärast, et teil on sõnad, mis on sagedamini. Nii näiteks, kui te ütlete, et koer on suur ja koer on hiiglaslik, siis tavaliselt kuulen et koer on suur sagedamini, sest "suur" on sagedased inglise kui "hiiglaslik". Niisiis, üks asjad on sõna sagedus. 

Teine asi, mis on tõesti tähtis on vaid sõnade järjekord. Niisiis, see on tavaline, et öelda: "kass karbi sees. "Aga sa ei ole tavaliselt vt "kasti sees on kass." nii te näete, et seal on mõned tähtsust aastal järjekorras sõnu. Sa ei saa lihtsalt öelda, et need kaks laused on sama tõenäosus lihtsalt sellepärast, et nad on sama sõna. Sa tegelikult on hoolitseda umbes, et samuti. Mõtet? 

Mida me siis teeme? Niisiis, mida ma võiks proovida sulle? Ma üritan sulle, mida me kutsuvad n-gramm mudeleid. Nii n-gramm mudelid põhimõtteliselt eeldada et iga sõna, mis teil on lause. See tõenäosus on, et sõna ei sõltu mitte ainult sagedusega, et sõna keeles, vaid ka sõnu, mis on seda ümbritsevad. 

Nii näiteks, tavaliselt siis, kui te näete midagi on või olete Tõenäoliselt näeme nimisõna pärast seda, eks? Sest kui sul on eessõna Tavaliselt kulub nimisõna pärast seda. Või kui teil on verb, mis on transitiivne sa tavaliselt hakkavad on nimisõna fraas. Nii et see saab olema nimisõna kuskil see. 

Niisiis, põhimõtteliselt, mida ta teeb, on see, et leiab tõenäosus on sõnad üksteise kõrval, kui sa oled arvutamisel tõenäosus lause. Ja see, mida keel mudel on sisuliselt. Lihtsalt öeldes, mis on tõenäosus võttes konkreetseid lause keeles? Miks see nii on kasulik, põhiliselt? Ja kõigepealt, mis on n-gramm mudel, siis? 

Nii n-gramm mudel tähendab, et Iga sõna, sõltub Järgmine N miinus 1 sõnad. Niisiis, põhimõtteliselt tähendab see, et kui ma vaatan, Näiteks on CS50 TF kui Ma arvutamisel tõenäosus lause, siis saad nagu " tõenäosus on sõna "the" korda tõenäosus on " CS50 "korda tõenäosus on "CS50 TF". Niisiis, põhimõtteliselt, ma loodan kõiki võimalusi venitades seda. 

Ja siis tavaliselt siis, kui sa seda teed, nagu projekti, paned N olla madala väärtusega. Nii on tavaliselt bigrams või trigrams. Nii et sa lihtsalt loota kaks sõna, grupp kahte sõna või kolm sõna, lihtsalt jõudlus. Ja ka sellepärast, et võib-olla, kui teil on midagi "CS50 TF". Kui te on "TF", et see on väga oluline, et "CS50" kõrval on see, eks? Need kaks asja on tavaliselt üksteise kõrval. 

Kui sa arvad, et "TF", on see ilmselt läheb on see, mida klass see TF'ing eest. Ka "" on tõesti oluline jaoks CS50 TF. Aga kui sul on midagi "CS50 TF läks klassi ja andis oma õpilased kommi. "" Candy "ja" " ei ole seost tegelikult, eks? Nad on nii üksteisest väga kaugel, et see ei ole tegelikult oluline, mida sõnad olete. 

Nii tehes Bigrammi või trigram, see tähendab lihtsalt, et sa piiramine ise mõned sõnad mis on umbes. Mõtet? Nii et kui sa tahad teha killustatust Põhimõtteliselt, mida sa tahad teha, on näha, mis kõik on võimalik viisil, mis saate segment lause. 

Selline, et sa näed, mida on tõenäosus iga nimetatud lausete olemasoleva keeles? Niisiis, mida sa teed on nagu, noh, las ma proovin panna ruumi siin. Nii paned ruumi seal ja sa näed, mida on tõenäosus, et lause? Siis on nagu OK, võib-olla see ei olnud nii hea. Nii panin ruumi seal ja ruum seal, ja sa arvutada tõenäosus nüüd, ja te näete, et see on suurem tõenäosus. 

Nii et see on algoritm, mida nimetatakse TANGO segmenteerimine algoritmi, mis on tegelikult midagi, mis oleks tõesti lahe projekt, mis Põhiliselt kulub unsegmented teksti võib olla jaapani või hiina või äkki English tühikuteta ja üritab panna tühikud sõnade ja see et kasutades keele mudeli püüdes näha, mis on suurim tõenäosusega saad. OK. Nii et see on killustatust. 

Nüüd süntaks. Niisiis, süntaks on kasutatud nii palju asju kohe. Nii Graph Search jaoks Siri jaoks päris palju tahes looduslik keelekasutus olete. Millised on oluline asju süntaks? Niisiis, lauseid üldiselt on mida me nimetame koostisosad. Mis on selline nagu sõnagruppide mis on funktsioon lauses. Ja nad ei saa tõesti olla teineteisest. 

Niisiis, kui ma ütlen, näiteks "Lauren armastab Milo. "Ma tean, et" Lauren "on koostisosa ja seejärel "armastab Milo "on ka teine. Sest sa ei saa öelda, nagu "Lauren Milo armastab "on sama tähendus. See ei kavatse olla sama tähendus. Või ma ei saa öelda, nagu "Milo Lauren armastab. "Mitte kõik on sama mis tähendab seda tehes. 

Nii kaks tähtsam asju süntaks on leksikaalse liigid, mis on põhiliselt funktsiooni, mida on sõnu, mida ise. Nii et sa pead teadma, et "Lauren" ja "Milo" on nimisõnad. "Love" on verb. Ja teine ​​oluline asi on see, et nad phrasal tüübid. Nii et sa tead, et "armastab Milo" tegelikult sõnaline väljend. Nii et kui ma ütlen "Lauren" Ma tean, et Lauren teeb midagi. Mida ta teeb? Ta armastav Milo. Nii et see on kogu asja. Aga selle komponentide nimisõna ja verb. Aga koos nad verb lause. 

Niisiis, mida me tegelikult teeme arvutilingvistika? Seega, kui mul on midagi näiteks "Sõbrad Allison." Ma näen, kui ma ei süntaktiline puu ma tean, et "Sõbrad" on nimisõna fraas on nimisõna ja siis "on Allison" on prepositionaali fraasi mis "on" on ettepanekute ja "Allison" on nimisõna. Mida ma saaksin teha, on õpetada minu arvuti et kui mul on nimisõna fraas üks ja siis prepositionaali fraas. Nii selles asjas "sõbrad" ja seejärel "kohta Milo "Ma tean, et see tähendab, et NP2, teine ​​omab NP1. 

Ma võin luua mingi seos, mingi funktsiooni ta. Nii et kui ma näen, see struktuur, mis sobib täpselt "sõprade Allison, "Ma tean, et Allison omab sõpru. Nii sõbrad on midagi et Allison on. Mõtet? Nii et see on põhimõtteliselt see, mida Graph Otsi teeb. See lihtsalt tekitab reeglid jaoks palju asju. Nii "sõprade Allison," "mu sõbrad kes elab Cambridge "," minu sõbrad kes Harvardi minna. "See loob reeglid kõik need asjad. 

Nüüd masintõlge. Niisiis, masintõlge on ka midagi statistiline. Ja tegelikult, kui saad osaleda arvutilingvistika, palju oma asjad saab olema statistika. Nii nagu ma tegin näiteks palju tõenäosused, et olin arvutamisel, ja siis sa saad seda väga väike number, mis on lõplik tõenäosus ja see, mida annab teile vastuse. Masintõlge kasutab ka statistilise mudeli. Ja kui sa tahad mõelda masin tõlkimine lihtsaimal võimalikul Muide, mida sa ei mõtle, on lihtsalt tõlkida sõna-sõnalt, eks? 

Kui sa õpid keelt Esimest korda, see on tavaliselt, mida sa teed, eks? Kui sa soovid tõlkida lause Teie keel keel sa õpid, tavaliselt esimene, siis tõlkida iga sõna individuaalselt ja siis proovida panna sõnad paika. 

Nii et kui ma tahtsin tõlkida see, [Räägitakse Portugali] mis tähendab "valge kass jooksis minema." Kui ma tahtsin seda tõlkida alates Portugali keelest inglise keelde, mida ma võiks teha, on esimene, ma lihtsalt tõlkida sõna-sõnalt. Nii "o" ei "," "Gato", "kass" "Branco", "valge" ja seejärel "fugio" on "Jooksis minema." 

Nii siis on mul kõik sõnad siin, kuid nad ei ole selleks. See on nagu "kass valge põgenesin" mis on ungrammatical. Nii, siis ma võib olla teine ​​samm, mis läheb leida ideaalne positsiooni iga sõna. Nii et ma tean, mida ma tegelikult tahan olla "Valge kass", mitte "kass valge." Nii Mida ma saan teha, on kõige naiivne meetod oleks luua kõik võimalike kombinatsioonide sõnadega seisukohti. Ja siis vaata, millest üks on suurima tõenäosusega vastavalt minu keel mudel. Ja siis, kui ma leida üks, mis on suurima tõenäosusega see, mis on ilmselt "valge kass jooksis minema," see on minu tõlge. 

Ja see on lihtsalt seletada kuidas palju masintõlge algoritmide töö. Kas see on mõtet? See on ka midagi väga põnevat et te saate olla uuringuteks lõplik projekt, jah? 

Õpilane: Noh, sa ütlesid, et see oli naiivne, nii, mida on mitte-naiivne viis? 

LUCAS FREITAS: mitte-naiivne viis? OK. Nii et esimene asi, mis on halvasti see meetod on see, et ma lihtsalt tõlkida sõnad, sõna-sõnalt. Aga mõnikord pead sõnu, võib olla mitu tõlked. Ma lähen, et proovida mõelda midagi. Näiteks "manga" portugali purk kas "purustama" või "varrukas". Nii kui sa üritad tõlkida sõna sõna, see võib anda teile midagi, mis ei ole mõistlik. 

Nii et te tegelikult soovite te vaatate kõik võimalik tõlked sõnad ja vaadata kõigepealt, mis on järjekorras. Me rääkisime permutating asjad? Et näha kõiki võimalikke käske ja valida üks kõrgeim tõenäosus? Võite ka kõiki võimalikke tõlked iga sõna ja siis vaata - koos permutatsiooni - millest üks on suurim tõenäosus. 

Plus, saate vaadata ka mitte ainult sõnades, vaid fraasid. nii saad analüüsida suhteid sõnad ja siis saad paremat tõlget. Ka midagi muud, nii et see semester Ma tegelikult teadustöö Hiina-inglise masintõlge, nii tõlkimisel Hiina keelest inglise keelde. 

Ja mida me teeme on, peale kasutades statistiline mudel, mis on vaid nägemine tõenäosuste nägemine mõned positsiooni lause, ma olen tegelikult ka lisades mõned süntaks minu mudel, öeldes, oh, kui ma näen seda tüüpi ehitus, see on see, mida ma tahan, seda muuta, kui ma tõlkida. Nii saate lisada ka mingi element süntaksi teha tõlkimise tõhusama ja täpsemaks. OK. 

Niisiis, kuidas saab kohe alustada, kui soovite midagi arvutilingvistika keeleteadus? 

Esmalt vali projekt mis hõlmab keelt. Niisiis, seal on nii palju seal. Seal on nii palju asju, mida saate teha. Ja siis ei mõtle mudel , mida saab kasutada. Tavaliselt see tähendab, et mõtlemine eeldused, nagu näiteks, oh, kui ma olin nagu mõtlemine lyrics. Ma olin nagu, noh, kui ma tahan, et aru välja, kes selle kirjutas, ma ilmselt tahad pilk sõnu isik kasutada ja näha, kes kasutab seda sõna väga tihti. Nii et proovige teha oletusi ja proovi mõelda mudeleid. Ja siis saate ka otsida online selline probleem, et teil on, ja see läheb soovitan Teile mudeleid, mis võib-olla modelleeritud, et asi hästi. 

Ja ka võite alati emaili mulle. me@lfreitas.com. Ja ma ei saa lihtsalt vastata teie küsimustele. Me võime isegi võib vastata nii, et mu anda soovitusi selle kohta, kuidas rakendamise projekti. Ja ma mõtlen, kui sa lüüa arvutilingvistika, see läheb olema suur. Sa lähed, et näha seal on nii palju potentsiaali. Ja tööstuse tahab palgata sa nii halb sellepärast. Nii et ma loodan, et te nautida seda. Kui te on küsimusi, võite küsida mind pärast seda. Aga tänan.