LUCAS Freitas: Hey. Velkomin á síðuna mína. Mitt nafn er Lucas Freitas. Ég er yngri í [inaudible] læra tölvunarfræði með áherslu á tölvumálvísindum. Svo er annar minn í tungumáli og tungumála kenning. Ég er virkilega spennt að kenna ykkur svolítið um sviði. Það er mjög spennandi svæði til að læra. Einnig með mikla möguleika til framtíðar. Svo, ég er virkilega spennt að þið eru að íhuga verkefni í tölvumálvísindum. Og ég ætla að vera meira en fús til að ráðleggja einhver ykkar ef þú ákveður að stunda einhverja þá. Svo fyrst af öllu hvað eru computational Málvísindi? Svo tölvumálvísindum er gatnamótum á milli málvísindum og tölvunarfræði. En hvað er Málvísindi? Hvað er tölvunarfræði? Vel úr málvísindum, hvað við tökum eru tungumál. Svo málvísindi er í raun rannsókn náttúrulegra tungumál almennt. Svo eðlilegt tungumál - við tölum um tungumál sem við notum í raun til samskipti við hvert annað. Þannig að við erum ekki nákvæmlega að tala um C eða Java. Við erum að tala meira um ensku og Kínverji og önnur mál sem við nota til að hafa samskipti við hvert annað. The krefjandi hlutur óður í það er að Núna höfum við næstum 7000 tungumál í heiminum. Þannig að það eru alveg hár fjölbreytni af tungumálum sem við getur rannsókn. Og þá finnst þér að það er sennilega mjög erfitt að gera, til dæmis, Þýðing frá einu tungumáli til annað, miðað við að þú hefur tæplega 7.000 þeirra. Svo, ef þú heldur að gera þýðingar frá einu tungumáli til annars þú hafa næstum meira en milljón mismunandi samsetningar sem þú getur hafa frá tungumáli tungumáli. Svo það er virkilega krefjandi að gera sumir konar dæmi þýðing kerfi fyrir hvert einasta tungumál. Svo, Málvísindi skemmtun með setningafræði, merkingarfræði, pragmatics. Þú krakkar gera ekki nákvæmlega þörf að vita hvað eru þeir eru. En mjög áhugaverður hlutur er að sem móðurmáli, þegar þú lærir tungumál sem barn lærir í raun alla þá hluti - setningafræði merkingarfræði og pragmatics - sjálfur. Og enginn þarf að kenna þér setningafræði til þér að skilja hvernig setningar eru uppbyggð. Svo, það er mjög áhugavert vegna þess að það er eitthvað sem kemur mjög innsær. Og hvað ert þú að taka frá Tölvunarfræðinámið? Jæja, það mikilvægasta sem við hafa í tölvunarfræði er fyrsta allt, gervigreind og vél nám. Svo, það sem við erum að reyna að gera tölvumálvísindum er kenna tölvan hvernig á að gera eitthvað með tungumál. Svo, til dæmis, í vél þýðingar. Ég er að reyna að kenna Tölva Hvernig minn að vita hvernig á að umskipti úr einu tungumál til annars. Svo, í grundvallaratriðum eins og kennslu A tölva tvö tungumál. Ef ég máltækni, en það er raunin td á Facebook Línurit Leita, kenna þér tölvan hvernig á að skilja fyrirspurnir vel. Svo, ef þú segir "myndir af mínum vinir. "Facebook er ekki meðhöndla sem sem öllu band sem hefur bara fullt af orðum. Það skilur í raun á tengslum milli "Myndir" og "Vinir mínir" og skilur að "myndir" eru eign "vinum mínum." Svo, það er hluti af, til dæmis, máltækni. Það er að reyna að skilja hvað er samband orð í setningu. Og stóra spurningin er, getur þú kenna tölvunni hvernig á að tala mál almennt? Sem er mjög áhugaverð spurning að hugsa, eins og ef til vill í framtíðinni, þú ert að fara að vera fær um að tala til klefi símanum. Góður af eins og það sem við gerum við Siri en eitthvað meira eins, getur þú í raun segðu það sem þú vilt og síminn er að fara að skilja allt. Og það getur haft eftirfylgni spurningum og halda að tala. Það er eitthvað mjög spennandi, að mínu mati. Svo eitthvað um náttúrulegum tungumálum. Eitthvað mjög áhugavert um náttúrulegum tungumálum er þessi, og þetta er inneign á málvísindum prófessor minn, Maria Polinsky. Hún gefur dæmi og ég held að það er mjög áhugavert. Vegna þess að við lærum tungumál frá þegar við erum fædd og þá innfæddur okkar tungumál konar vex á okkur. Og í rauninni þú lærir tungumál frá lágmarks inntak, ekki satt? Þú ert bara að fá inntak frá þér foreldrar hvað tungumálið hljómar eins og þú að læra bara það. Svo, það er áhugavert vegna þess að ef þú horfir á þau setningar, til dæmis. Þú horfir, "María setur á kápu hvers skipti sem hún fer í húsið. " Í þessu tilviki er hægt að láta Orðið "hún" er átt við Maríu, ekki satt? Þú getur sagt "María setur á kápu hvert skipti María skilur hús. "svo er það allt í lagi. En svo ef þú horfir á setningu "Hún setur á kápu hvert skipti Mary yfirgefur húsið. "þú veist það er ómögulegt að segja að "hún" er vísa til Maríu. Það er engin leið til að segja að "María setur á kápu hvert skipti Mary fer húsið. "Svo það er áhugavert vegna þess að þetta er eins konar innsæi að sérhver móðurmáli hefur. Og enginn var kennt að þetta er Leiðin að setningafræði virkar. Og að þú getur aðeins hafa þetta "hún" vísa til Maríu í ​​þessari fyrstu tilfelli, og reyndar í þessu annað líka, en ekki í þessu einn. En allir góður af fær að sama svar. Allir sammála um það. Svo er það mjög áhugavert hvernig þótt þú veist ekki allar reglur á þínu tungumáli sem þú skilur konar hvernig tungumálið virkar. Svo áhugaverður hlutur óður í eðlilegt tungumál er að þú þarft ekki að vita allir setningafræði til að vita hvort setningin er málfræði eða ungrammatical fyrir flestum tilvikum. Sem gerir þér held kannski hvað gerist er að með lífi þínu, þú bara að halda að fá meira og meira setningar sagt við þig. Og þá þú halda minnið allar setningar. Og svo þegar einhver segir þér eitthvað heyrist þessi setning og þú horfir á orðaforða þinn setningar og sjá hvort þessi setning er þarna. Og ef það er það sem þú segja að það er málfræði. Ef það er ekki að segja að það er ungrammatical. Svo, í því tilfelli, myndir þú segja, ó, svo þú hafa a gríðarstór listi af öllum mögulegar setningar. Og svo þegar þú heyrir setningu, veistu hvort það er málfræði eða ekki byggð á því. Málið er að ef þú horfir á setning, til dæmis, "The fimm-headed CS50 TFS eldað blinda kolkrabba notuðu DAPA mál. "Það er örugglega ekki setning að þú heyrt áður. En á sama tíma og þú veist það er ansi mikið málfræði, ekki satt? Það eru engar málfræði mistök og þú getur sagt að það er hægt setning. Svo það gerir okkur held að í raun og veru leiðin sem við lærum tungumál er ekki aðeins með því að hafa a gríðarstór gagnagrunnur mögulegt orð eða setningar, en meira um skilning á tengslum milli orð í þessum setningum. Er að skynsamleg? Svo, þá er spurningin, getur Tölvur læra tungumál? Getum við kennt tungumál við tölvur? Svo, við skulum hugsa um muninn milli móðurmáli á tungumál og tölva. Svo, hvað gerist í hátalara? Vel, móðurmáli lærir tungumál af völdum þess. Venjulega hennar barnæsku ár. Svo, í grundvallaratriðum, þú bara barn, og þú halda að tala við hana, og það bara lærir hvernig á að tala tungumálið, ekki satt? Svo, þú ert í rauninni að gefa inntak barnið. Svo, þá er hægt að halda því fram að tölvan getur gert það sama, ekki satt? Þú getur bara gefa tungumáli sem inntak til the tölva. Eins og til dæmis fullt af skrám sem hafa bækur á ensku. Kannski er það ein leið sem gæti hugsanlega kenna tölva English, ekki satt? Og í raun, ef þú hugsar um það, það tekur þig kannski nokkrar daga í að lesa bók. Fyrir tölvu það tekur annað við líta á öll orð í bók. Svo þú getur held að gæti verið bara þetta rök inntak frá í kringum þig, það er ekki nóg að segja að það er eitthvað sem aðeins menn geta gert. Þú getur held að tölvur Einnig er hægt að fá inntak. The second hlutur er að móðurmáli einnig að hafa heila sem hefur tungumálanám hæfileiki. En ef þér finnst um það, heila er solid hlutur. Þegar maður fæðist, það er nú þegar sett - þetta er heilinn. Og eins og þú vaxa upp, þú færð bara meira inntak tungumál og kannski næringarefni og annað efni. En ansi mikið heilinn er solid hlutur. Svo er hægt að segja, vel, kannski þú getur byggja upp tölvuna sem er með helling af aðgerðir og aðferðir sem bara líkja tungumálanám hæfileiki. Svo í þeim skilningi, gætir þú sagt, vel, ég geta hafa a tölva sem hefur alla hlutir sem ég þarf að læra tungumálið. Og síðasta er að innfæddur ræðumaður lærir af reynslu og villa. Svo í rauninni annar mikilvægur hlutur í tungumálanám er að þú góður af læra hluti með því að gera alhæfingar um það sem þú heyrir. Svo eins og þú ert að alast upp þú lærir að Sum orð eru meira eins og nafnorð, nokkrar aðrar sjálfur eru lýsingarorð. Og þú þarft ekki að hafa neitt þekking á málvísindum að skilja að. En þú veist að það séu nokkur orð eru staðsettar í sumum hluta af setningu og sumir aðrir í öðrum hlutar setningarinnar. Og að þegar þú gerir eitthvað sem er eins og setningu sem er ekki rétt - kannski vegna að yfir alhæfing til dæmis. Kannski þegar þú ert að alast upp, þú tekur eftir að fleirtölu er yfirleitt myndast með því að setja S á enda orðsins. Og þá reyna að gera fleirtölu "dádýr" sem "deers" eða "tönn" sem "TOOTHS." Svo þá foreldrar þínir eða einhver leiðréttir þig og segir, nei, fleirtölu af "hjörtur" er "dádýr," og fleirtölu af "tönn" er "tennur." Og þá þú lærir þá hluti. Svo að þú lærir af reynslu og villa. En þú getur líka gert það með tölvu. Hægt er að hafa eitthvað sem heitir styrking nám. Sem er í grundvallaratriðum eins og að gefa upp tölva laun þegar það gerist eitthvað rétt. Og gefa henni hið gagnstæða á laun og þegar það gerir eitthvað af sér. Þú geta raunverulega sjá að ef þú ferð til Google Translate og þú reynir að þýða setningu, það biður þig um endurgjöf. Þannig að ef þú segir, ó, það er betra þýðingar fyrir þessa setningu. Þú getur slegið það upp og þá ef einhver af fólk halda að segja að er betra þýðingar, lærir það bara að það ætti að nota þessi þýðingar í stað sá það var að gefa. Svo, það er mjög heimspekilega spurningu til að sjá hvort tölvur eru að fara að vera fær um að tala eða ekki í framtíðinni. En ég hef miklar vonir um að þeir geti bara byggt á þeim rökum. En það er bara meira af heimspekilegu spurning. Svo á meðan tölvur enn geta ekki talað, hvað er það sem við getum gert? Sumir raunverulega kaldur hlutur er Flokkun gagna. Svo, til dæmis, þú krakkar vita að tölvupóstur þjónustu gera fyrir dæmi, spam sía. Svo þegar þú færð ruslpóst, það reynir að sía í aðra kassa. Svo hvernig virkar það að gera það? Það er ekki eins og tölvan veit bara hvað netföng eru að senda spam. Svo það er meira byggt á efni skilaboðin, eða kannski titil, eða kannski sumir mynstur sem þú hefur. Svo, í grundvallaratriðum, hvað þú getur gert er að fá mikið af gögnum tölvupósta sem eru spam, tölvupóst sem ekki spam, og læra það konar mynstur þú hefur í þau sem eru spam. Og þetta er hluti af computational málvísindum. Það heitir flokkun gagna. Og við erum í raun að fara að sjá dæmi um að á næstu glærum. The second hlutur er náttúruleg tungumál vinnslu sem er hlutur sem Línurit Leit er að gera til að láta þú skrifar setningu. Og það treystir þú skilur hvað er merking og gefur þér betri niðurstöðu. Raunverulega, ef þú ferð á Google eða Bing og þú leita eitthvað eins og Lady Hæð Gaga er, þú ert í raun að fara að fá 5 '1 "í stað upplýsinga frá henni vegna þess að það skilur í raun hvað þú ert að tala um. Svo er það hluti af náttúrulegu tungumál vinnslu. Eða einnig þegar þú ert að nota Siri, fyrst þú hefur algrím sem reynir að þýða það sem þú ert að segja í orðum, í texta. Og þá reynir hann að þýða að í skilningi. Svo er það allt hluti af náttúru tungumál vinnslu. Síðan sem þú ert vélþýðingu - sem er í raun einn af mínum uppáhalds - sem er bara að þýða frá tungumál til annars. Svo er hægt að hugsa um að þegar þú ert að gera vél þýðing, hefur þú óendanlegir möguleikar á setningar. Þannig að það er engin leið að bara að geyma hvert einasta þýðing. Svo þú þarft að koma upp með áhugavert reiknirit til að vera fær um að þýða hvert einasta setning á einhvern hátt. Þið hafið einhverjar spurningar svo langt? Nei? OK. Og hvað erum við að fara að sjá í dag? Fyrst af öllu, ég ætla að tala um flokkun vandamál. Svo eitt sem ég var segja um spam. Hvað ég ætla að gera er að, gefið lyrics á lag, þú geta reyna að reikna út með miklum líkum sem er söngvari? Skulum segja að ég hef lög frá Lady Gaga og Katy Perry, ef ég gef þér nýtt lag, getur þú reikna út ef það er Katy Perry eða Lady Gaga? The second einn, ætla ég bara að fara að tala um skiptingu vandamál. Svo ég veit ekki hvort þú krakkar vita, en Kínversku, japönsku, önnur Asíu tungumálum, og önnur tungumál almennt, hafa ekki bil á milli orða. Og þá ef þú hugsa um leiðin sem tölva góður þinn reynir að skilja máltækni, það lítur á orð og reynir að skilja tengsl milli þeirra, ekki satt? En svo ef þú ert kínversku, og þú hafa núll rými, það er mjög erfitt að finna út hvað er samband orð, vegna þess að þeir hafa ekki allir orð fyrst. Svo þú ert að gera eitthvað sem kallast skiptingu sem þýðir bara að setja bil milli hvað við myndum kalla orð í þessum tungumálum. Skynsamleg? Og þá erum við að fara að tala um setningafræði. Svo bara svolítið um náttúrulegt tungumál vinnslu. Það er að fara að vera bara yfirlit. Svo í dag, í rauninni það sem ég vil gera er gefa ykkur smá af inni af því eru möguleikarnir sem þú getur gert með tölvuvæddum málvísindum. Og þá er hægt að sjá hvað þér finnst er kaldur meðal þessum hlutum. Og kannski er hægt að hugsa um verkefni og koma að tala við mig. Og ég get gefið þér góð ráð um hvernig á að framkvæma það. Svo setningafræði er að fara til vera a lítill hluti um Línurit leit og vél þýðingar. Ég ætla bara að fara að gefa dæmi um hvernig Þú gætir til dæmis þýða eitthvað frá portúgölsku yfir á ensku. Hljómar vel? Svo fyrst, flokkun vandamál. Ég segi að þessi hluti af námskeiðinu er að fara að vera mest krefjandi einn bara vegna þess að það er að fara að vera einhvers erfðaskrá. En það er að fara að vera Python. Ég veit að þú krakkar vita ekki Python, svo Ég ætla bara að fara að útskýra á hár stigi hvað ég er að gera. Og þú þarft ekki að alveg sama líka mikið um setningafræði því það er eitthvað sem þú krakkar geta lært. OK? Hljómar vel. Svo er það flokkun vandamálið? Svo þú ert að gefa einhverjum lyrics til lag, og þú vilt að giska sem er að syngja það. Og þetta getur verið af hvaða tagi annarra vandamála. Þannig að það getur verið, til dæmis, hefur þú forsetakosningarnar herferð og þú hafa a ræðu, og þú vilt að finna út ef það var, til dæmis, Obama eða Mitt Romney. Eða þú getur haft fullt af tölvupósti og þú vilt að reikna út ef þeir eru spam eða ekki. Svo það er bara að flokka sum Gögn sem byggjast á orðum sem þú hefur þar. Svo til að gera það, þarftu að gera nokkrar ályktanir. Svo mikið um tölvumálvísindum er gerð forsendur, yfirleitt sviði forsendur, þannig að þú getur fengið góðar niðurstöður. Reyna að búa til módel. Og þá reyna það út og sjá hvort það virkar, ef það gefur þér gott nákvæmni. Og ef það gerist, þá ertu reyna að bæta það. Ef það virkar ekki, þú ert eins og OK, kannski ég ætti að gera aðra forsendu. Svo þeirri forsendu að við erum að fara að gera er að listamaður yfirleitt syngur um efni mörgum sinnum, og kannski notar orð mörgum sinnum bara vegna þess að þeir eru vanir því. Þú getur bara að hugsa um vin þinn. Ég er viss um að þú krakkar hafa allir vinir sem segja undirskrift setningu þeirra, bókstaflega fyrir hvert einasta setning - eins og sumir sérstakur orð eða einhverjum tilteknum setningu sem þeir segja fyrir hvert einasta setning. Og hvað er hægt að segja er að ef þú sérð setning sem hefur undirskrift setningu, getur þú giska á að sennilega vinur þinn er eitt að segja það, ekki satt? Svo þú gerir það forsendu og þá það er hvernig þú búa til líkan. Dæmið sem ég ætla að gefa er á hvernig Lady Gaga, til dæmis, fólk segja að hún notar "barnið" fyrir allar hennar númer eitt lög. Og í raun er þetta myndband sem sýnir hana að segja orðið "barn" fyrir mismunandi lög. [Video spilun] - (Söngur) Baby. Baby. Baby. Baby. Baby. Babe. Baby. Baby. Baby. Baby. [END vídeó spilun- LUCAS Freitas: Þannig að það eru, að ég held, 40 lög hér þar sem hún segir Orðið "barn". Svo þú getur í rauninni giska að ef þú sérð lag sem hefur orðið "barn," það er einhver hár Líkurnar á að það er Lady Gaga. En við skulum reyna að þróa þetta frekar meira formlega. Svo að þetta eru lyrics to lög eftir Lady Gaga og Katy Perry. Svo þú horfir á Lady Gaga, þú sérð þær hafa a einhver fjöldi af tilfelli af "barn," a fullt af atburðum á "hátt." Og þá Katy Perry hefur fullt af atburðum sem "The", a einhver fjöldi af tilfelli af "eldi." Svo í rauninni það sem við viljum gera er, þú færð Ljóð. Segjum að þú færð Ljóð fyrir A lag sem er "barn," bara "barn". Ef þú færð bara orðið "barn," og þetta er öll gögn sem þú hefur frá Lady Gaga og Katy Perry, sem myndi þú giska er sá sem syngur lagið? Lady Gaga eða Katy Perry? Lady Gaga, ekki satt? Vegna þess að hún er sú eina sem segir "Barnið." Þetta hljómar heimskur, ekki satt? OK, þetta er mjög auðvelt. Ég er bara að horfa á tvö lög og Auðvitað, hún er sú eina sem hefur "Barnið." En hvað ef þú ert með fullt af orðum? Ef þú hefur í raun lyric, eitthvað eins, "elskan, ég bara fór að sjá A [? CFT?] fyrirlestur, "eða eitthvað svoleiðis, og þá þú ert í raun að reikna út - byggt á öllum þeim orðum - sem er listamaður sem líklega söng þetta lag? Þannig að við skulum reyna að þróa þetta aðeins lengra. OK, svo byggt bara á þeim gögnum sem við fékk, það virðist sem Gaga er sennilega söngvari. En hvernig getum við skrifað þetta meira formlega? Og það er að fara til vera a lítill hluti af tölfræði. Þannig að ef þú villast, bara að reyna að skilja hugtakið. Það skiptir ekki máli ef þú skilur jöfnur fullkomlega vel. Þetta er allt að fara að vera online. Svo í rauninni er það sem ég er að reikna á Líkurnar á að þetta lag er með Lady Gaga í ljósi þess að - þannig að þetta barnum þýðir í ljósi þess að - Ég sá orðið "barn". Er að skynsamleg? Þannig að ég ætla að reyna að reikna sem líkur. Svo er það þetta setning kallast Bayes setningin sem segir að líkurnar á tilteknu B, er líkur á B gefið, sinnum líkur á, yfir líkur af B. Þetta er löng jafna. En það sem þú verður að skilja frá sem er að þetta er það sem ég vil reikna, ekki satt? Svo líkurnar á því að það lag er með Lady Gaga í ljósi þess að ég sá orðið "Barnið." Og nú er það sem ég er að fá líkur á orðinu "barn" gefið að ég hef Lady Gaga. Og hvað er að í grundvallaratriðum? Hvað það þýðir er, hvað er líkur á að sjá orðið "barn" í Gaga lyrics? Ef ég vil að reikna út að í mjög einföld leið, það er bara fjöldi oft ég sjá "barnið" yfir heildarfjölda orða í Gaga lyrics, ekki satt? Hver er tíðni sem ég sé þessi orð í verki Gaga er? Skynsamleg? Seinni tíma er líkur á Gaga. Hvað þýðir það? Það þýðir í rauninni, hvað er líkur á að flokka sumir Lyrics sem Gaga? Og það er góður af furðulegur, en við skulum hugsa um dæmi. Svo skulum segja að líkurnar á hafa "barnið" í lag er sú sama for Gaga og Britney Spears. En Britney Spears hefur tvisvar fleiri lög en Lady Gaga. Þannig að ef einhver gefur bara af handahófi þér Lyrics of "Baby," The fyrstur hlutur þú líta á er, hvað eru líkurnar á hafa "barnið" í Gaga lagið, "barnið" í Britney lag? Og það er sama. Svo annað sem þú munt sjá er, Jæja, hvað eru líkurnar á þetta Lyric af sjálfu vera Gaga Ljóð, og hvað eru líkurnar á vera Britney Ljóð? Svo síðan Britney hefur svo marga fleiri lyrics en Gaga, myndir þú sennilega segja, vel, þetta er líklega A Britney Lyric. Svo að hvers vegna við höfum þetta litið hérna. Líkur á Gaga. Vit? Er það? OK. Og síðasta er bara líkurnar af "barnið" sem gerir ekki máli það mikið. En það er líkur á sjá "barnið" í ensku. Við venjulega ekki passa að mikið um það hugtak. Er að skynsamleg? Svo eru líkurnar á Gaga kallað áður líkur í bekknum Gaga. Því það þýðir bara að það er líkur á því að þessi tegund - sem er Gaga - bara almennt, bara án skilyrða. Og svo þegar ég hef líkur á Gaga gefin "barn," við köllum það plús teary líkurnar því það er líkurnar á því að hafa Gaga gefið vísbendingar. Þannig að ég ætla að gefa þér vísbendingar að ég sá orðið barn og lagið skynsamleg? OK. Þannig að ef ég reiknað út að fyrir hvert lögin fyrir Lady Gaga, hvað það væri - virðist, get ég ekki hreyft þetta. Líkurnar á Gaga verður eitthvað eins og 2 yfir 24, sinnum 1/2, yfir 2 yfir 53. Það skiptir ekki máli ef þú veist hvað þessar tölur eru að koma frá. En það er bara tala sem er að fara að vera meira en 0, ekki satt? Og svo þegar ég geri Katy Perry, sem líkur á "barnið" gefið Katy er þegar 0, ekki satt? Vegna þess að það er engin "barn" í Katy Perry. Svo þá verður þetta 0, og Gaga vinnur, sem þýðir að Gaga er líklega söngvari. Er að skynsamleg? OK. Þannig að ef ég vil gera þetta meira opinbert, Ég get í raun gert líkan fyrir mörgum orðum. Svo skulum segja að ég hef eitthvað eins, "elskan, ég er á eldinn, "eða eitthvað. Svo hefur það mörg orð. Og í þessu tilfelli er hægt að sjá að "barnið" er í Gaga, en það er ekki í Katy. Og "eld" er í Katy, en það er ekki í Gaga, ekki satt? Svo það er að fá trickier, ekki satt? Því það virðist sem þú næstum hafa lagst á milli. Svo er það sem þú þarft að gera ráð fyrir independency meðal orðum. Svo í rauninni hvað það þýðir er að Ég ætla bara að reikna hvað er líkur á að sjá "barnið," hvað er líkurnar á að sjá "Ég," og "Am", og "á" og "eldur" allt í sínu lagi. Þá er ég að margfalda þá alla. Og ég ætla að sjá hvað eru líkurnar af því að sjá alla setninguna. Skynsamleg? Svo í rauninni, ef ég hef bara eitt orð, það sem ég vil finna er Arg max, sem þýðir, hvað er tegund sem er gefa mér hæstu líkur? Svo er það flokkur sem gefur mig hæsta líkur fyrir líkur á bekknum gefið orð. Svo í þessu tilfelli, Gaga gefið "barni." Eða Katy gefið "barni." Skynsamleg? Og bara frá Bayes, sem jöfnu sem ég sýndi, Við byggjum þessa brot. Það eina er að þú sérð að líkurnar á orðinu gefið flokki breytingar eftir á bekknum, ekki satt? Fjölda "barnið" s sem ég hef í Gaga er frábrugðin Katy. Líkurnar á bekknum einnig breytingar vegna þess að það er bara tala af lögum hvert þeirra hefur. En líkurnar á að leggja í orðið er að fara til vera the sami fyrir alla listamenn, ekki satt? Svo eru líkurnar á orðinu bara, hvað eru líkurnar á sjá þessi orð í Enska? Svo það er sama fyrir alla. Svo þar sem þetta er fasti, við getum bara lækka á þessu og ekki hugsa um það. Þannig að þetta verður í raun Jafna við erum að leita að. Og ef ég hef mörg orð, er ég enn að fara að hafa fyrir Líkur hér. Það eina er að ég er að margfalda líkurnar á öll önnur orð. Þannig að ég ætla að margfalda þá alla. Skynsamleg? Það lítur skrítið en í rauninni þýðir, reikna fyrir í bekknum, og síðan margfalda með því að líkum á hvert þessara orða sé í þeim flokki. Og þú veist að líkur á Orðið gefið bekknum er að fara að vera hversu oft þú sérð þessi orð í sem bekknum, deilt með fjölda orð sem þú hefur í að flokki almennt. Skynsamleg? Það er bara hvernig "barnið" var 2 yfir fjöldi orða sem Ég hafði í textanum. Svo bara tíðni. En það er einn hlutur. Man hvernig ég var að sýna að líkur á "barnið" að vera lyrics frá Katy Perry var 0 bara vegna Katy Perry þurfti ekki "barnið" yfirleitt? En það hljómar svolítið sterk að bara einfaldlega að segja að Lyrics getur ekki verið frá listamaður bara vegna þess að þeir hafa ekki að orðið einkum á hverjum tíma. Svo þú gætir bara sagt, vel, ef þú ekki þetta orð, ég ætla að gefa þér minni líkur, en ég ætla bara ekki að fara að gefa þér 0 strax. Því ef til vill það var eitthvað eins og, "Eldur, eldur, eldur, eldur", sem er algerlega Katy Perry. Og þá "barnið" og fer það bara að 0 strax því það var eitt "Barnið." Svo í rauninni það sem við gerum er eitthvað heitir Laplace refur. Og þetta þýðir bara að ég ætla að gefa Nokkrar líkur jafnvel til orð sem ekki eru fyrir hendi. Svo er það sem ég geri það þegar ég er reikna þetta, bæti ég alltaf 1 til teljara. Svo jafnvel ef orðið er ekki til staðar, með þetta mál, ef þetta er 0, ég er enn reikna þetta sem 1 yfir heildarfjölda orða. Annars, ég fæ hversu mörg orð Ég hef og ég við 1. Þannig að ég ætla að telja fyrir báðum tilvikum. Skynsamleg? Svo nú skulum gera sumir kóðun. Ég ætla að hafa til að gera það nokkuð hratt, en það er bara mikilvægt að þú krakkar skilja hugtök. Svo það sem við erum að reyna að gera er einmitt að framkvæma þetta hlutur sem ég sagði bara - Ég vil að þú setja lyrics frá Lady Gaga og Katy Perry. Og the program er að fara að vera fær um að segja ef þessi nýju Lyrics eru frá Gaga eða Katy Perry. Skynsamleg? OK. Þannig að ég hef þetta forrit sem ég ætla að hringja classify.py. Þannig að þetta er Python. Það er nýtt forritunarmál. Það er mjög svipað í sumum Leiðir til C og PHP. Það er svipað því ef þú vilt að læra Python eftir að vita C, það er í raun ekki þessi mikill af a áskorun bara vegna þess að Python er mun auðveldara en C, fyrst af öllu. Og margt eru nú þegar framkvæmda fyrir þig. Svo eins og PHP er bara hvernig aðgerðir sem raða lista, eða bæta eitthvað til fjölda, eða bla, bla, bla. Python hefur alla þá eins og heilbrigður. Þannig að ég ætla bara að fara að útskýra hratt hvernig við gætum gert flokkun vandamál fyrir hér. Svo skulum segja að í þessu tilfelli, ég hef lyrics from Gaga og Katy Perry. Leiðin sem ég hef þá lyrics er að fyrstu orð textanum er nafn flytjanda, og restin er the lyrics. Svo skulum segja að ég hef þennan lista í sem sá fyrsti er lyrics by Gaga. Svo hér er ég á réttri leið. Og hið næsta er Katy, og það hefur einnig textana. Svo er þetta hvernig þú lýsa breytu í Python. Þú þarft ekki að gefa gögn tegund. Þú skrifar bara "lyrics," konar eins og í PHP. Skynsamleg? Svo það eru hlutir sem ég þarf að reikna til að vera fær um að reikna út líkur? Ég verð að reikna "priors" af hver á mismunandi flokkar sem ég hef. Ég verð að reikna "posteriors," eða nánast líkur á hvert hinna mismunandi orðum sem Ég get haft fyrir hvern tónlistarmann. Svo innan Gaga, til dæmis, ég er að fara að hafa lista yfir hve oft ég sé hvert orð. Skynsamleg? Og að lokum, ég ætla bara að fara að hafa listi sem heitir "orð" sem er bara að fara að hafa hversu mörg orð ég hafa fyrir hvern tónlistarmann. Svo for Gaga, til dæmis, þegar ég lít að textanum, sem ég hafði, held ég, 24 orð í aðaleinkunn. Svo þessi listi er bara að fara að hafa Gaga 24. og Katy annað númer. Skynsamleg? OK. Svo nú, í raun, við skulum fara í erfðaskrá. Svo í Python, getur þú í raun skila fullt af mismunandi hlutir úr aðgerð. Þannig að ég ætla að búa til þessa aðgerð kallast "skilyrt", sem er að fara til að fara aftur alla þá hluti, sem "priors," the "líkur" og "orð." Svo "skilyrt" og það er að fara að hringja í "lyrics". Svo nú vil ég að þú í raun og veru skrifa þessa aðgerð. Svo leið að ég get skrifað þetta virka er skilgreint ég bara þetta virka með "def." Svo ég gerði "def skilyrt, "og það tekur "Lyrics." Og hvað þetta er að fara að gera er fyrst af öllu, ég hef priors mínar að ég vil að reikna. Svo leið að ég get gert þetta er búið orðabók í Python, sem er laglegur mikill the sami hlutur eins og a kjötkássa borð, eða það er eins og endurtekningu array í PHP. Þetta er hvernig ég lýsa yfir orðabók. Og í rauninni hvað þetta þýðir er að priors af Gaga er 0,5, til dæmis, ef 50% af textanum eru frá Gaga, 50% eru frá Katy. Skynsamleg? Svo ég verð að reikna út hvernig að reikna priors. Næstu þær sem ég þarf að gera, einnig, eru líkur og orð. Svo líkur á Gaga er listi af öllum líkum sem ég hafa fyrir hvert orð fyrir Gaga. Þannig að ef ég fer til líkur á Gaga "Elskan," til dæmis, það mun gefa mér eitthvað eins og 2 yfir 24 í því tilfelli. Skynsamleg? Svo ég fer að "líkur," fara til "Gaga" fötu sem hefur a listi af öllum the Gaga orð, þá fer ég til að "barnið" og ég sé líkur. Og að lokum ég hef þetta "Orðin" orðabók. Svo hér, "líkur." Og þá "orð." Svo ef ég "orð", "Gaga," hvað er að fara að gerast er að það er að fara að gefa mér 24 og sagði að ég hafa 24 orð innan lyrics from Gaga. Vit? Svo hér, "orð" er jafnt og dah-dah-dah. OK Svo er það sem ég ætla að gera ég ætla að kunnugt er yfir hvert af textanum, svo hver af strengir sem Ég hef á listanum. Og ég ætla að reikna þá hluti fyrir hvert frambjóðendur. Vit? Svo ég verð að gera á fyrir lykkja. Svo í Python hvað ég get gert er "fyrir línu í texta. "það sama og að "Fyrir hverja" yfirlýsingu í PHP. Muna hvernig ef það var PHP ég gat segja "fyrir hverja lögin sem lína. "Vit? Þannig að ég ætla að taka hverja af línunum, í þessu tilfelli, þetta band og næsta band svo fyrir hvert af línunum sem ég er að að fara að gera er fyrst, ég ætla að kljúfa þessa línu í lista yfir orð eftir í reitinn. Svo er kaldur hlutur óður í Python sem þú gætir bara Google eins og "hvernig get ég kljúfa streng í orð? "Og það er að fara að segja þér hvernig á að gera það. Og leið til að gera það, það er bara "lína = Line.split () "og það er í rauninni að fara að gefa þér lista með hvert orð hér. Vit? Svo nú er að ég gerði það sem ég vil vita sem er söngvari það lag. Og til að gera að ég hef bara til að fá Fyrsti þáttur í fjölbreytta, ekki satt? Svo ég get bara sagt að ég "söngvari = Lína (0) "Vit? Og þá er það sem ég þarf að gera, fyrst af allt, ég ætla að uppfæra hversu margir Orðin, sem ég hef undir "Gaga." þannig að ég er bara fara að reikna hversu mörg orð ég hafa í þessum lista, ekki satt? Því þetta er hversu mörg orð sem ég hef í textanum og ég ætla bara að fara að bæta því við "Gaga" fylkisins. Er að skynsamleg? Ekki einblína of mikið á setningafræði. Hugsa meira um þær hugmyndir. Það er mikilvægur hluti. OK. Svo er það sem ég get gert það ef "Gaga" er þegar í þeim lista, þannig að "ef söngvari Orðin "sem þýðir að ég þegar hafa orð með Gaga. Ég vil bara að bæta frekari orð um það. Svo það sem ég gera er "orð (söngvara) + = Len (lína) - 1 ". Og þá get ég bara gert það Lengd línunnar. Svo hvernig margir þættir I hafa í array. Og ég verð að gera mínus 1 bara vegna Fyrsti þátturinn í array er bara söngvari og þeir eru ekki Lyrics. Vit? OK. "Annars," þá þýðir það að ég vil í raun og veru setja Gaga inn á listann. Svo ég bara "orð (söngvari) = Len (lína) - 1, "því miður. Svo að eini munurinn á milli tveggja línum er að þetta, er það ekki til enn, þannig að ég er bara Frumstilli það. Þetta eina sem ég er í raun að bæta við. OK. Þannig að þetta var að bæta við orðum. Nú vil ég að bæta við priors. Og hvernig fæ ég reikna priors? The priors má reikna eftir því hversu oft. Svo hvernig margir sinnum þú sérð þessi söngvari meðal allra söngvaranna sem þú hafa, ekki satt? Svo for Gaga og Katy Perry, í þessu tilfelli, ég sé Gaga einu sinni, Katy Perry einu sinni. Svo í grundvallaratriðum priors for Gaga og Katy Perry vildi bara vera einn, ekki satt? Þú bara hversu oft Ég sé listamanninn. Þannig að þetta er mjög auðvelt að reikna. Ég get bara eitthvað svipað og eins og "ef söngvari í priors, "Ég ætla bara að fara að bæta 1 til priors kassann þeirra. Svo, "priors (syngja)" + = 1 "og síðan" annað " Ég ætla að gera "priors (söngvari) = 1 ". Vit? Þannig að ef það er ekki til að ég setti bara og 1, annars ég bæta bara 1. OK, svo nú er allt sem ég hef eftir að gera er einnig bætt við hvert orð til líkur. Svo ég verð að telja hversu oft Ég sé hvert orð. Þannig að ég er bara að gera annað fyrir lykkju í línunni. Svo fyrsta sem ég ætla að gera er að athuga hvort söngvari hefur nú þegar líkur array. Þannig að ég ætla að athuga hvort söngvari ekki hafa Líkurnar array, ég er bara fara að frumstilla einn fyrir þá. Það er ekki einu fylki, því miður, það er orðabók. Svo líkur á söngvari er að fara að vera opinn orðabók, svo ég er bara Frumstilli orðabók fyrir það. OK? Og nú get ég í raun gert for lykkju til að reikna út hvert orð ' líkur. OK. Svo er það sem ég get gert fyrir lykkja. Þannig að ég ætla bara að fara að iterate yfir fylking. Svo leið að ég get gert það í Python er "fyrir i í bili." Frá 1 vegna þess að ég vil byrja á sekúndu þáttur þar sem fyrsta er söngvari nafn. Svo frá einum upp að Lengd línunnar. Og þegar ég allt það fara í raun frá eins og hér frá 1. til Len af lína mínus 1. Svo er það að þegar þessi hlutur að gera n mínus 1 til fylki sem er mjög þægilegt. Vit? Svo fyrir hvert þessara, hvað ég ætla að gera er, rétt eins og í öðrum, Ég ætla að athuga hvort orðið í þessu stöðu í línu er nú þegar í líkur. Og þá eins og ég sagði hér, líkur orð, eins og í ég setti "líkur (söngvara)". Svo heiti söngvari. Þannig að ef það er nú þegar í "Probabilit (söngvari)", þá þýðir það að ég vilt bæta 1 við það, þannig að ég ætla að gera "líkindi (söngvara)", og Orðið er kallað "línu (i)". Ég ætla að bæta 1 og "annað" ég er bara fara að frumstilla hana í 1. "Line (i)". Vit? Svo, I reiknað allar fylki. Svo, nú er allt sem ég þarf að gera fyrir þetta er bara "aftur priors, líkur og orðum. "Við skulum sjá hvort það eru einhverjar, OK. Það virðist allt er að vinna svo langt. Svo, það er vit í? Á einhvern hátt? OK. Svo nú hef ég allar líkur. Svo nú það eina sem ég á eftir er bara að hafa þessi hlutur sem reiknar margfeldi allra sem Líkurnar þegar ég fæ textana. Svo skulum segja að ég vil nú kalla þessi aðgerð "flokka ()" og hlutur sem virka tekur er bara rök. Skulum segja "Baby, ég er á eldinn" og það er fara að reikna út hvað er líkur á því að þetta er Gaga? Hvaða líkur að þetta er Katie? Hljómar vel? Þannig að ég ætla bara að fara að búa til nýtt hlutverk sem kallast "flokka ()" og það er að fara að taka nokkrar lögin sem vel. Og að auki textana ég líka verða að senda priors er líkur og orð. Þannig að ég ætla að senda ljóð, priors, líkur, orð. Þannig að þetta er að taka lyrics, priors, líkur, orð. Svo, hvað þýðir það ekki? Það í rauninni er að fara að fara í gegnum allt mögulegar frambjóðendur sem þú hafa sem söngvari. Og hvar eru þessir frambjóðendur? Þeir eru í priors, ekki satt? Svo ég hef allar þessar þarna. Þannig að ég ætla að hafa orðabók allra mögulegra frambjóðenda. Og þá fyrir hverja frambjóðandi í priors, svo það þýðir að það er að fara að vera Gaga, Katie ef ég hefði meira sem það væri meira. Ég ætla að byrja að reikna Þessar líkur. Líkurnar eins og við sáum í PowerPoint er fyrri sinnum Afurðin sem hvert af aðrar líkur. Svo ég get gert það sama hérna. Ég get bara gert líkur er upphaflega bara fyrir. Svo priors umsækjenda. Satt? Og nú þarf ég að iterate yfir alla Orðin sem ég hef á lyrics vera fær um að bæta líkurnar fyrir hvert þeirra, OK? Svo, "fyrir orð í lyrics" hvað ég ætla að gera er að, ef orðið er í "líkur (frambjóðandi)", sem þýðir að það er orð sem frambjóðandi hefur í textum sínum - til dæmis, "barnið" for Gaga - hvað ég ætla að gera er að líkur er að fara að margfalda um 1 plús líkur á frambjóðandi fyrir þessi orð. Og það er kallað "orð". Þetta deilt með fjölda orða sem ég hef fyrir að frambjóðandi. Heildarfjöldi þeirra orða sem ég hef fyrir söngvari sem ég er að horfa á. "Else". það þýðir að það er nýtt orð svo það væri eins og til dæmis "Eldur" Lady Gaga. Þannig að ég vil bara að gera 1 yfir "Orð (frambjóðandi)". Svo ég vil ekki að setja þetta hugtak hér. Svo það er að fara að vera í grundvallaratriðum afritar og límir þetta. En ég ætla að eyða þessum hluta. Svo það er bara að fara að vera 1 á það. Hljómar vel? Og nú á enda, ég ætla bara að fara að prenta nafn frambjóðanda og líkurnar á því að þú hefur af hafa S textunum sínum. Vit? Og ég í raun ekki einu sinni þörf á þessari orðabók. Vit? Svo, við skulum sjá hvort þetta í raun virkar. Þannig að ef ég keyrt þetta, gerði það ekki vinna. Bíddu eina sekúndu. "Orð (frambjóðandi)", "orð (frambjóðandi)", það er nafn fylkisins. OK Svo segir það að það er einhver padda fyrir frambjóðanda í priors. Láta mig slappað bara smá. OK. Skulum reyna. OK. Svo það gefur Katy Perry hefur þetta líkur á þessum tímum 10 til mínus 7, og Gaga hefur þetta sinnum 10 til mínus 6. Svo þú sérð að það sýnir að Gaga hefur meiri líkur. Svo "Baby, ég er á Fire" er sennilega Gaga lag. Vit? Svo er þetta það sem við gerðum. Þetta númer er að fara að vera staða online, svo þú krakkar geta stöðva það út. Kannski nota eitthvað af því að ef þú vilt að gera verkefni eða eitthvað sambærilegt. OK. Þetta var bara til að sýna hvaða computational Málvísindi kóða lítur út. En nú skulum við fara í fleiri mikil efni. OK. Svo önnur vandamál sem ég var að tala um - skiptingu vandamál er fyrsta af þeim. Svo þú hefur hér japönsku. Og svo þú sérð að Það eru engin bil. Þannig að þetta er í rauninni þýðir að það er efst á stól, ekki satt? Þú talar japönsku? Það er efst á stólnum, ekki satt? STUDENT: Ég veit ekki hvað á Kanji yfir er þarna. LUCAS Freitas: Það er [Tal Japanska] OK. Svo þýðir það í rauninni formann ofan. Þannig að ef þú hefðir til að setja inn bil það væri hér. Og þá verður þú [? Ueda-San. ?] Sem í grundvallaratriðum þýðir Mr Ueda. Og þú sérð að "Ueda" og þú ert með rúm og þá "San". Svo þú sérð að Hér getur þú "Ue" er eins af sjálfu sér. Og hér hefur það eðli við hliðina á henni. Svo það er ekki eins og í þeim tungumálum stafir sem þýðir orð það þú svo bara setja a einhver fjöldi af rýmum. Stafir tengjast hvert öðru. Og þeir geta verið saman eins og tveir, þrír, einn. Svo þú ert í raun að búa til einhvers konar af leið til að setja þau rými. Og þetta er að þegar þú færð gögn frá þessum Asíu tungumálum, allt kemur unsegmented. Því að enginn sem skrifar japönsku eða kínversku skrifar með bilum. Alltaf þegar þú ert að skrifa kínversku, Japanska þú skrifar bara allt með engin bil. Það skiptir ekki einu sinni skynsamleg að setja bil. Svo þá þegar þú fá gögn frá, sumir Austur Asíu tungumál, ef þú vilt að raunverulega gera eitthvað við það þú þarft að hluti fyrst. Hugsa um að gera fordæmi the lyrics bila. Þannig að eina ljóð sem þú hefur verður setningar, ekki satt? Aðskilin með tímabilum. En þá hafa bara setninguna mun ekki raunverulega hjálpa í að gefa upplýsingar af hverjir þessir Lyrics eru með. Satt? Svo þú ættir setur bil fyrst. Svo hvernig getur þú gert það? Svo kemur þá hugmyndin um tungumál líkan sem er eitthvað virkilega mikilvægt fyrir computational málvísindum. Svo er tungumál líkan grundvallaratriðum a borð af líkum sem sýnir í fyrsta lagi hvað er líkur af því að hafa orðið á tungumáli? Svo sýna hvernig tíður orð er. Og þá einnig að sýna tengsl milli orða í setningu. Svo er helsta hugmynd, ef útlendingur kom til þín og sagði heila setningu til að þú, hvað eru líkurnar á að, fyrir dæmi, "þetta er systir mín [? GTF"?] var setning sem maðurinn sagði? Svo augljóslega sumir setningar eru algengari en aðrir. Til dæmis, "Góðan daginn," eða "gott nótt, "eða" Hey there, "er miklu meira sameiginlegt en flest setningar að við höfum ensku. Svo hvers vegna eru þessir setningar tíðari? Fyrst af öllu, er það vegna þess að þú ert orð sem eru algengari. Svo, til dæmis, ef þú segir, hundurinn er stór, og hundurinn er risa, þú yfirleitt sennilega heyra hundurinn er stór oftar vegna "stór" er meira algengari í ensku en "risa." Svo er einn af hlutir er orðið tíðni. The second hlutur sem er í raun Mikilvægt er bara röð af orðum. Svo, það er algengt að segja "kötturinn er inni í kassanum. "en þú gerir venjulega ekki sjá í "The kassi er inni köttur." svo þú sérð að það er einhver mikilvægi í röð af orðum. Þú getur ekki bara sagt að þeir tveir setningar hafa sömu líkur bara vegna þess að þeir hafa sömu orð. Þú ert í raun að kæra um það bil röð eins vel. Skynsamleg? Svo hvað gerum við? Svo hvað ég gæti reynt að fá þig? Ég er að reyna að fá þér það sem við hringja í n-g líkan. Svo n-g módel grundvallaratriðum ráð að fyrir hvert orð sem þú ert í setningu. Það er líkur á því að þessi Orðið það veltur ekki aðeins á tíðni þessi orð í tungumálinu, heldur einnig á þau orð, sem eru í kringum hana. Svo til dæmis, oftast þegar þú sérð eitthvað eins og á eða þú ert líklega að fara að sjá nafnorð eftir það, ekki satt? Því þegar þú ert með preposition venjulega tekur það nafnorð eftir það. Eða ef þú ert á sögn sem er gegnvirk þú venjulega ert að fara að hafa nafnorð setningu. Svo það er að fara að hafa nafnorð einhvers staðar í kringum hana. Svo, í grundvallaratriðum, hvað það gerir er að það telur líkur á því að hafa orð við hliðina á hvor aðra, þegar þú ert að reikna út líkur á setningu. Og það er það tungumál líkan er í grundvallaratriðum. Bara að segja hvað er líkur af því að hafa ákveðið setning á tungumáli? Svo hvers vegna er það gagnlegt, í grundvallaratriðum? Og í fyrsta lagi hvað er N-g líkan, þá? Svo er n-grömm merkir að hvert orð veltur á Næsta N mínus 1 orðum. Svo, í grundvallaratriðum, það þýðir að ef ég lít, til dæmis, á CS50 TF þegar Ég reikna líkur á setningin, þú munt vera eins og " líkur á því að orðið "er" sinnum en líkurnar á að þurfa að " CS50 "sinnum líkurnar á því að fá "The CS50 TF." Svo, í grundvallaratriðum, telja ég allar mögulegar leiðir til að teygja það. Og þá oftast þegar þú ert að gera þetta, eins og í verkefni, að setja N til að vera í lægra gildi. Svo hafa yfirleitt bigrams eða trigrams. Þannig að þú telur bara tvo orðum, hópur af tveimur orðum, eða þrjú orðum, bara fyrir árangur málefni. Og einnig vegna þess að kannski ef þú ert með eitthvað eins og "The CS50 TF." Þegar þú hafa "TF", það er mjög mikilvægt að "CS50" er við hliðina á henni, ekki satt? Þessir tveir hlutir eru yfirleitt við hliðina á hvor aðra. Ef þú hugsa um "TF," það er líklega að fara að hafa það flokki það er TF'ing fyrir. Einnig "" er mjög mikilvægt fyrir CS50 TF. En ef þú ert eitthvað eins og "The CS50 TF fór í nám og gaf sínum nemendur sumir nammi. "" Candy "og" the " hafa ekki tengslum raun, ekki satt? Þeir eru svo langt frá hvert öðru að það skiptir ekki máli hvað orð sem þú hefur. Svo með því að gera bigram eða trigram, það þýðir bara að þú ert að takmarka sjálfur að nokkur orð sem eru í kring. Skynsamleg? Svo þegar þú vilt gera skiptingu, grundvallaratriðum, hvað þú vilt gera er að sjá hvað eru allar mögulegar leiðir sem þú getur hluti setninguna. Þannig að þú sérð hvað er líkur á hvert þessara setningar fyrirliggjandi í tungumálinu? Svo er það sem þú gerir eins vel, láta mér að reyna að setja hér pláss. Svo þú setja pláss þar og þú sérð hvað er líkur á þessi setning? Síðan sem þú ert eins og OK, kannski það var ekki gott. Þannig að ég setti pláss þar og bili þar, og þú reikna Líkur nú, og þú sérð að það er meiri líkur. Svo er þetta reiknirit sem kallast TANGO skiptingu reiknirit, sem er reyndar eitthvað sem væri mjög kaldur til verkefnis, sem grundvallaratriðum tekur unsegmented texta sem getur verið japanska eða kínverska eða kannski English án bila og reynir að setja bil milli orða og það gerir að með því að nota tungumál fyrirmynd og reyna að sjá hvað er hæsta líkur sem þú getur fengið. OK. Svo er þetta skiptingu. Nú setningafræði. Svo, setningafræði er notað fyrir svo margt núna. Svo fyrir Línurit Search, fyrir Siri fyrir nánast hvers konar náttúruleg tungumál vinnslu sem þú hefur. Svo hvaða ert the mikilvægur atriði um Setningafræði? Svo hafa setningar almennt það sem við köllum efnisþætti. Sem eru góður af eins hópa af orðum sem hafa hlutverki í setningu. Og þeir geta í raun ekki verið hvert frá öðru. Svo, ef ég segi, til dæmis, "Lauren elskar Milo. "Ég veit að" Lauren "er deildir og þá "elskar Milo "er líka annað. Því þú getur ekki sagt eins og "Lauren Milo elskar "að hafa sömu merkingu. Það er ekki að fara að hafa sömu merkingu. Eða ég get ekki sagt eins og "Milo Lauren elskar. "Ekki allt hefur sama sem þýðir að gera það. Þannig að tvær fleiri mikilvæg atriði um setningafræði eru lexical tegundir sem er grundvallaratriðum fallið sem þú hafa fyrir orðum við sig. Svo þú þarft að vita að "Lauren" og "Milo" eru nafnorð. "Love" er sögn. Og annað mikilvægt hlutur er að þær séu phrasal tegundir. Svo þú veist að "elskar Milo" er í raun orða setningu. Svo þegar ég segi "Lauren," Ég veit að Lauren er að gera eitthvað. Hvað er hún að gera? Hún elskandi Milo. Svo það er allt hlutur. En hluti þess eru nafnorð og sögn. En saman, gera þeir sögnin setningu. Svo, hvað getum við gert í raun með tölvumálvísindum? Svo ef ég hef eitthvað til dæmis "Vinir Allison." Ég sjá hvort ég bara gerði nokkur dæmi um setningarleg tré ég myndi vita að "Vinir" er nafnorð setningu það er nafnorð og þá "af Allison" er prepositional setning þar sem "af" er tillaga og "Allison" er nafnorð. Hvað ég gæti gert er að kenna tölvuna mína að þegar ég hef nafnorð setningu einu og þá prepositional setningu. Þannig að í þessu tilfelli, "vinir" og þá "á Milo "Ég veit að þetta þýðir að NP2, annað, á NP1. Svo ég get búið til einhvers konar tengslum, einhvers konar virka fyrir það. Svo þegar ég sé þessa uppbyggingu, sem passar nákvæmlega við "vinum Allison, "Ég veit að Allison eigandi vinum. Svo vinir eru eitthvað sem Allison hefur. Vit? Svo er þetta í rauninni það Línurit Leit gerir. Það skapar bara reglur fyrir a einhver fjöldi af hlutur. Svo "Vinir Allison," "vinir mínir sem búa í Cambridge, "" vinir mínir sem fara til Harvard. "Það skapar reglur fyrir alla þá hluti. Nú vél þýðingar. Svo, vél þýðingar er einnig eitthvað tölfræðilegt. Og í raun ef þú taka þátt í tölvumálvísindum, fullt af dótið þitt er að fara að vera tölfræði. Svo eins og ég var að gera dæmi með a einhver fjöldi af líkum sem ég var útreikning, og þá færðu að þetta mjög lítil tala sem er endanleg líkur, og það er það gefur þér svar. Vél þýðing notar einnig tölfræðileg módel. Og ef þú vilt að hugsa um vél Þýðing á einfaldasta mögulegt leið, hvað þú getur hugsa er bara þýða orð af orði, ekki satt? Þegar þú ert að læra tungumál fyrir fyrsta skipti, það er yfirleitt það þú gerir, ekki satt? Ef þú vilt að þýða setningu á þínu tungumáli yfir á tungumálið þú ert að læra, oftast fyrst, þú þýða hvert orð sig, og þá reyna að setja orð í stað. Þannig að ef ég vildi að þýða þetta, [Tal PORTÚGAL] sem þýðir "hvíti kötturinn hljóp í burtu." Ef ég vildi að þýða það frá Portúgalska á ensku, það sem ég gæti gert er fyrst, ég bara þýða orð af orði. Svo "o" er "," "Gato", "köttur" "Branco," "hvítur" og síðan "fugio" er "Hljóp í burtu." Svo þá hef ég öll þau orð hér, en þeir eru ekki í röð. Það er eins og "kötturinn hvítur hljóp í burtu" sem er ungrammatical. Svo er, þá get ég haft annað skref, sem er að fara að finna hið fullkomna staða fyrir hvert orð. Þannig að ég veit að ég vil í raun hafa "Hvítur köttur" í stað "köttur hvítur." Svo hvað ég get gert er, mest barnalegt Method væri að búa til allar mögulegar permutations af orð, staða. Og þá sjá hver einn hefur hæsta líkur samkvæmt að tungumál módel. Og svo þegar ég finna einn sem hefur hæsta líkur það, sem er sennilega "hvíta köttur hljóp í burtu," sem er þýðing mín. Og þetta er einföld leið til að útskýra hversu mikið af þýðingar vél reiknirit vinna. Er að skynsamleg? Þetta er líka eitthvað mjög spennandi að þið getið kannski kanna fyrir Lokaverkefni, já? STUDENT: Jæja, þú sagðir að það væri barnaleg leið, svo er það the non-barnaleg leið? LUCAS Freitas: The non-barnaleg leið? OK. Svo það fyrsta sem er slæmt um Þessi aðferð er að ég þýddi bara orð, orð af orði. En maður þarf stundum orð sem getur haft mörg þýðingar. Ég ætla að reyna að hugsa um eitthvað. Til dæmis, "Manga" á portúgölsku dós annað hvort að vera "mangle" eða "ermi." Svo þegar þú ert að reyna að þýða orð af orði, gæti það verið að gefa þér eitthvað sem gerir ekkert vit. Svo þú vilt í raun að þú horfir á alla mögulegar þýðingar á orð og sjá, fyrst af öllu, hvað er til. Við vorum að tala um permutating hlutir? Til að sjá allar mögulegar pantanir og velja einn með hæsta líkur? Þú getur einnig valið allar mögulegar þýðingar fyrir hvert orð og þá sjá - ásamt permutations - hver einn hefur hæstu líkur. Auk þess getur þú líka að líta á ekki aðeins orð en setningar. svo þú getur greina tengsl milli orð og þá fá betri þýðing. Einnig er eitthvað annað, þannig að þetta önn Ég er reyndar að gera rannsóknir á Kínverji-ensk vél þýðing, svo að þýða frá Kínverji á ensku. Og eitthvað sem við gerum er, fyrir utan að nota við tölfræðilegar upplýsingar, sem er bara sjá líkur á að sjá sumir stöðu í setningu, ég er reyndar einnig bæta við nokkrum setningafræði til mín líkan, segja, ó, ef ég sé svona byggingar, þetta er það sem ég vil að breyta því að þegar ég þýða. Svo þú getur líka bætt einhvers konar þáttur í setningafræði til að gera þýðingar skilvirkari og nákvæmari. OK. Svo hvernig er hægt að byrja, ef þú vilt að gera eitthvað í computational Málvísindi? Fyrst, þú velur verkefni sem felur í sér tungumál. Svo, það er svo margt þarna úti. Það er svo margir hlutir sem þú getur gert. Og þá er að hugsa um fyrirmynd sem þú getur notað. Venjulega þýðir að hugsa um forsendur, eins og eins, ó, þegar ég var eins hugsa um textana. Ég var eins, vel, ef ég vil að reikna út sem skrifaði þetta, vil ég sennilega að líta á þau orð sem maður nota og sjá sem notar þessi orð mjög oft. Svo reyna að gera ályktanir og reyna að hugsa um líkan. Og þá getur þú einnig leitað á netinu fyrir eins konar vandamál sem þú hefur, og það er að fara að stinga upp til þín módel sem kannski fyrirmynd þessi hlutur vel. Og einnig er alltaf hægt sendu mér tölvupóst. me@lfreitas.com. Og ég get bara svarað spurningum þínum. Við getum jafnvel gæti hittast svo ég get gefa ábendingar um leiðir til að við framkvæmd á verkefninu. Og ég meina ef þú taka þátt með tölvumálvísindum, það er að fara að vera mikill. Þú ert að fara að sjá það er svo mikill möguleiki. Og iðnaður vill ráða þú svo slæmt af því. Svo ég vona að þú krakkar gaman þetta. Ef þið hafið einhverjar spurningar, þú getur spurt mig eftir þetta. En þakka þér fyrir.