LUCAS Freitas: Hey. Karibu kila mtu. Jina langu ni Lucas Freitas. Mimi nina junior katika [inaudible] kusoma sayansi ya kompyuta kwa lengo katika computational isimu. Hivyo sekondari wangu ni katika lugha na nadharia ya lugha. Mimi kwa kweli msisimko kufundisha guys kidogo kuhusu shamba. Ni eneo kusisimua sana kujifunza. Pia pamoja na mengi ya uwezo kwa siku zijazo. Kwa hiyo, mimi nina kweli msisimko kwamba guys ni kuzingatia miradi katika computational isimu. Na mimi itabidi kuwa zaidi ya furaha kwa ushauri yoyote ya wewe kama wewe kuamua kujiingiza mmoja wa wale. Hivyo kwanza ya yote nini ni computational isimu? Isimu hivyo computational ni makutano kati ya lugha na sayansi ya kompyuta. Hivyo, ni nini isimu? Sayansi ya kompyuta ni nini? Vizuri kutoka lugha, nini sisi kuchukua ni lugha. Hivyo isimu ni kweli utafiti ya lugha ya asili kwa ujumla. Lugha hiyo asili - sisi majadiliano juu ya lugha kwamba sisi kweli kutumia kuwasiliana na kila mmoja. Hivyo sisi ni si hasa kuzungumza kuhusu C au Java. Tunazungumzia zaidi kuhusu lugha ya Kiingereza na Lugha ya Kichina na mengine ambayo sisi kutumia kuwasiliana na kila mmoja. kitu changamoto juu ya ni kwamba sasa hivi tuna karibu 7,000 lugha katika dunia. Hivyo kuna aina ya juu kabisa ya lugha ambazo tunaweza kujifunza. Na kisha unafikiri kwamba pengine vigumu sana kufanya, kwa mfano, tafsiri kutoka lugha moja hadi nyingine, kwa kuzingatia kwamba una karibu 7,000 wao. Hivyo, kama wewe kufikiria kufanya tafsiri ya kutoka lugha moja hadi nyingine unaweza kuwa karibu zaidi ya milioni mchanganyiko tofauti kwamba unaweza na kutoka lugha kwa lugha. Hivyo ni kweli changamoto ya kufanya baadhi ya aina ya mfumo wa mfano tafsiri kwa kila lugha moja. Hivyo, lugha chipsi na syntax, semantics, pragmatics. You guys si hasa haja kujua nini ni wao. Lakini jambo la kuvutia sana ni kwamba kama msemaji asili, wakati kujifunza lugha kama mtoto, kweli kujifunza mambo hayo yote - semantics syntax na pragmatics - na wewe mwenyewe. Na hakuna mtu ana kufundisha syntax kwa wewe kuelewa jinsi hukumu ni muundo. Hivyo, ni kweli kuvutia kwa sababu ni kitu ambacho huja sana intuitively. Na nini wewe ni kuchukua kutoka sayansi ya kompyuta? Naam, jambo muhimu zaidi kwamba sisi na katika sayansi ya kompyuta ni ya kwanza ya wote, akili bandia na kujifunza mashine. Hivyo, nini sisi ni kujaribu kufanya computational isimu ni kufundisha kompyuta yako jinsi ya kufanya kitu kwa lugha. Hivyo, kwa mfano, katika mashine tafsiri. Mimi kujaribu kufundisha kompyuta yangu jinsi kujua jinsi ya mpito kutoka moja lugha nyingine. Kwa hiyo, kimsingi kama mafundisho kompyuta lugha mbili. Kama mimi kufanya usindikaji lugha ya asili, ambayo ni kesi kwa mfano wa Picha ya Graph Search, kufundisha kompyuta yako jinsi ya kuelewa maswali vizuri. Hivyo, kama wewe kusema "photos yangu marafiki. "Facebook haina kutibu kwamba kama kamba zima ambayo ina tu rundo la maneno. Ni kweli anaelewa uhusiano kati ya "picha" na "rafiki yangu" na anaelewa kuwa "picha" ni mali ya "marafiki zangu." Kwa hiyo, hiyo ni sehemu ya, kwa mfano, usindikaji lugha ya asili. Ni kujaribu kuelewa nini ni uhusiano kati ya maneno katika sentensi. Na swali kubwa ni, unaweza kufundisha kompyuta jinsi ya kuzungumza lugha kwa ujumla? Ambayo ni swali kuvutia sana kufikiri, kama labda katika siku zijazo, utaenda kuwa na uwezo wa kuzungumza na simu yako ya mkononi. Aina ya kama nini cha kufanya na Siri lakini kitu zaidi kama, unaweza kweli kusema chochote unataka na simu ni kwenda kuelewa kila kitu. Na inaweza kuwa na kufuatilia maswali na kuendelea kuongea. Hiyo ni kitu kweli kusisimua, kwa maoni yangu. Kwa hiyo, kitu kuhusu lugha ya asili. Kitu kweli kuvutia kuhusu lugha ya asili ni kwamba, na hii ni mikopo kwa yangu Profesa wa isimu, Maria Polinsky. Anatoa mfano na nadhani ni kweli kuvutia. Kwa sababu sisi kujifunza lugha kutoka wakati sisi ni kuzaliwa na kisha asili yetu lugha aina ya kukua kwa sisi. Na kimsingi kujifunza lugha kutoka pembejeo ndogo, sawa? Wewe ni kupata tu pembejeo kutoka yako wazazi wa lugha gani yako sauti kama na wewe tu kujifunza. Hivyo, ni ya kuvutia kwa sababu kama ukiangalia katika hukumu hizo, kwa mfano. Unaweza kuangalia, "Mary unaweka juu ya kanzu kila wakati yeye majani ya nyumba. " Katika kesi hiyo, inawezekana kuwa na neno "yeye" rejea Mary, sawa? Unaweza kusema "Mary unaweka juu ya kanzu kila wakati Mary majani nyumba. "ili nzuri. Lakini basi ukiangalia hukumu "She unaweka juu ya koti kila wakati Mary majani ya nyumba. "unajua ni haiwezekani kusema kwamba "yeye" ni akimaanisha Mary. Hakuna njia ya kusema kwamba "Mary unaweka juu ya koti kila wakati Mary majani nyumba. "Kwa hiyo ni ya kuvutia kwa sababu hii ni aina ya Intuition kwamba kila msemaji uliotokea ana. Na hakuna mtu alikuwa akifundisha kwamba hii ni njia ambayo syntax kazi. Na kwamba unaweza tu na hii "yeye" akimaanisha Mary katika kesi hii kwanza, na kwa kweli katika hii nyingine sana, lakini si katika hili. Lakini kila mtu aina ya anapata kwa jibu moja. Kila mmoja anakubali juu ya hilo. Hivyo ni kweli kuvutia jinsi ingawa huna kujua sheria zote za katika lugha yako aina ya kuelewa jinsi lugha kazi. Kwa hivyo jambo la kuvutia kuhusu asili lugha ni kwamba huna kwa kujua syntax yoyote kujua kama hukumu ni sarufi au ungrammatical kwa kesi nyingi. Ambayo inafanya unafikiri kwamba labda nini kinatokea ni kwamba kwa njia ya maisha yako, tu kuweka kupata zaidi na zaidi hukumu aliiambia na wewe. Na kisha kuweka kukariri yote ya hukumu. Na wakati mtu anakwambia kitu, kusikia kwamba hukumu na ukiangalia msamiati wako ya hukumu na kuona kama hukumu hiyo ni huko. Na kama ni huko kusema ni sarufi. Kama siyo, unaweza kusema ni ungrammatical. Hivyo, katika kesi hiyo, kusema, oh, hivyo una orodha kubwa ya yote iwezekanavyo hukumu. Na kisha wakati wewe kusikia hukumu, unajua kama ni sarufi au si kwa kuzingatia kwamba. jambo ni kwamba kama ukiangalia hukumu, kwa mfano, " tano inaongozwa CS50 TFS kupikwa kipofu octopus kutumia DAPA mug. "Ni dhahiri si hukumu ya kwamba kusikia kabla. Lakini wakati huo huo unajua ni pretty much sarufi, sawa? Hakuna makosa ya kisarufi na unaweza kusema kwamba ni hukumu iwezekanavyo. Hivyo inafanya sisi kufikiri kwamba kweli njia ambayo sisi kujifunza lugha ni si tu kwa kuwa database kubwa ya uwezekano wa maneno au sentensi, lakini zaidi ya kuelewa uhusiano kati ya maneno katika hukumu hizo. Je, hiyo mantiki? Kwa hiyo, basi swali ni, unaweza kompyuta kujifunza lugha? Je, sisi kufundisha lugha ya kompyuta? Kwa hiyo, hebu fikiria ya tofauti kati ya msemaji asili ya lugha na kompyuta. Hivyo, nini kinatokea kwa msemaji? Naam, msemaji uliotokea kujifunza lugha kutoka yatokanayo na yake. Kawaida utoto wake mapema miaka. Kwa hiyo, kimsingi, wewe tu kuwa na mtoto, na kuweka kuzungumza na hayo, na tu kujifunza jinsi ya kuzungumza lugha, haki? Hivyo, wewe ni kimsingi kutoa pembejeo kwa mtoto. Kwa hiyo, basi unaweza kusema kwamba kompyuta unaweza kufanya kitu kimoja, sawa? Unaweza tu kutoa lugha kama pembejeo kwa kompyuta. Kama kwa mfano kundi la files kuwa na vitabu katika lugha ya Kiingereza. Labda hiyo ndiyo njia moja kwamba inaweza uwezekano wa kufundisha kompyuta Kiingereza, right? Na kwa kweli, kama wewe kufikiri juu yake, inachukua wewe labda michache siku ya kusoma kitabu. Kwa ajili ya kompyuta inachukua pili kwa kuangalia maneno yote katika kitabu. Hivyo unaweza kufikiri kwamba inaweza kuwa tu hii Hoja ya pembejeo kutoka kwa karibu na wewe, hiyo haitoshi kusema kwamba hiyo ni kitu ambacho binadamu tu anaweza kufanya. Unaweza kufikiria kompyuta pia wanaweza kupata pembejeo. Jambo la pili ni kwamba wasemaji pia na ubongo ambayo ina kujifunza lugha uwezo. Lakini kama wewe kufikiri juu yake, ubongo ni jambo imara. Wakati wewe ni kuzaliwa, ni tayari kuweka - hii ni ubongo wako. Na kama wewe kukua, wewe tu kupata zaidi mchango wa lugha na labda virutubisho na mambo mengine. Lakini pretty much ubongo wako ni kitu kigumu. Hivyo unaweza kusema, vizuri, labda unaweza kujenga kompyuta ambayo ina rundo la kazi na mbinu tu ya kuiga kujifunza lugha uwezo. Hivyo kwa mantiki hiyo, unaweza kusema, vizuri, mimi unaweza kuwa na kompyuta ambayo ina wote mambo mimi haja ya kujifunza lugha. Na jambo la mwisho ni kwamba asili msemaji kujifunza kutoka kwa majaribio na makosa. Hivyo kimsingi jambo lingine muhimu katika kujifunza lugha ni kwamba aina ya kujifunza mambo kwa kufanya generalizations ya nini kusikia. Hivyo kama wewe ni kupanda juu kujifunza kwamba baadhi ya maneno ni zaidi kama majina, baadhi wale wengine ni sifa. Na huna kuwa na yoyote maarifa ya isimu kuelewa kwamba. Lakini wewe tu kujua kuna baadhi ya maneno ni nafasi nzuri katika baadhi ya sehemu ya hukumu na baadhi ya watu wengine katika nchi nyingine sehemu ya hukumu. Na kwamba wakati wa kufanya kitu ambacho ni kama hukumu hiyo ni si sahihi - labda kwa sababu ya zaidi ya generalization kwa mfano. Labda wakati wewe ni kupanda juu, taarifa kwamba wingi ni kawaida sumu kwa kuweka S katika mwisho wa neno. Na kisha kujaribu kufanya wingi wa "Deer" kama "deers" au "jino" kama "Tooths." Hivyo basi wazazi wako au mtu husahihisha wewe na anasema, hapana, wingi wa "deer" ni "kulungu," na wingi wa "jino" ni "meno." Na kisha kujifunza mambo hayo. Hivyo kujifunza kutoka kwa majaribio na makosa. Lakini pia unaweza kufanya hivyo na kompyuta. Unaweza kuwa na kitu kinachoitwa kuimarisha kujifunza. Ambayo kimsingi ni kama kutoa kompyuta malipo wakati wowote haina kitu kwa usahihi. Na kutoa kinyume cha malipo na wakati gani kitu kibaya. Unaweza kweli kuona kwamba kama wewe kwenda kwa Google Tafsiri na wewe kujaribu kutafsiri hukumu, ni anauliza kwa maoni. Hivyo kama wewe kusema, oh, kuna bora tafsiri kwa adhabu hii. Unaweza aina it up na kisha kama mengi ya watu kuendelea kusema kwamba ni bora tafsiri, ni tu kujifunza kwamba ni lazima kutumia tafsiri badala ya moja ilikuwa kutoa. Hivyo, ni suala falsafa sana kuona kama kompyuta ni kwenda kuwa uwezo wa kuzungumza au si katika siku zijazo. Lakini Nina matumaini makubwa kwamba wanaweza tu kwa kuzingatia hoja hizo. Lakini ni tu zaidi ya falsafa swali. Hivyo wakati kompyuta bado hawezi kuzungumza, nini ni mambo ambayo tunaweza kufanya? Baadhi ya mambo ya kweli ya baridi ni data uainishaji. Hivyo, kwa mfano, you guys kujua kwamba huduma ya barua pepe kufanya, kwa mfano, spam filtering. Hivyo wakati wowote kupokea spam, ni anajaribu kuchuja kwa sanduku mwingine. Hivyo ni jinsi gani kufanya hivyo? Siyo kama kompyuta tu anajua anwani nini email ni kutuma spam. Hivyo ni zaidi ya msingi juu ya maudhui ya ujumbe, au labda cheo, au labda baadhi mfano kwamba wewe. Kwa hiyo, kimsingi, nini unaweza kufanya kupata ni mengi ya data ya barua pepe kwamba ni spam, barua pepe ambayo ni si spam, na kujifunza nini aina ya mifumo una katika wale ambao ni spam. Na hii ni sehemu ya computational isimu. Ni wito data uainishaji. Na sisi ni kweli kwenda kuona mfano wa kwamba katika slides ijayo. Jambo la pili ni lugha ya asili usindikaji ambayo ni kitu Graph Tafuta ni kufanya ya kuruhusu kuandika hukumu. Na amana wewe kuelewa nini ni maana na inatoa wewe matokeo bora. Kwa kweli, kama wewe kwenda Google au Bing na wewe kutafuta kitu kama Lady Urefu Gaga, wewe ni kweli kwenda kupata 5 '1 "badala ya habari kutoka kwake kwa sababu ni kweli anaelewa nini wewe kuzungumza juu. Hivyo kwamba ni sehemu ya asili usindikaji lugha. Au pia wakati unatumia Siri, kwanza una algorithm ambayo inajaribu kutafsiri unachosema katika maneno, katika maandishi. Na kisha anajaribu kutafsiri kwamba katika maana. Ili wote sehemu ya asili usindikaji lugha. Kisha una mashine tafsiri - ambayo ni kweli moja ya favorites yangu - ambayo ni kutafsiri tu kutoka lugha na mwingine. Hivyo unaweza kufikiri kwamba wakati unafanya tafsiri mashine, una uwezekano usio wa hukumu. Hivyo hakuna njia ya kuhifadhi tu kila tafsiri moja. Hivyo kuwa na kuja na kuvutia algorithms kuwa na uwezo wa kutafsiri kila moja hukumu kwa namna fulani. You guys una maswali yoyote hadi sasa? No? OK. Basi ni nini sisi kwenda kuona leo? Awali ya yote, mimi nina kwenda kuzungumza kuhusu Uainishaji tatizo. Hivyo moja kwamba nilikuwa kusema kuhusu spam. Nini mimi kwenda kufanya ni, kutokana na lyrics wimbo, unaweza kujaribu kufikiri na uwezekano mkubwa ambao ni muimbaji? Hebu kusema kwamba nina nyimbo kutoka Lady Gaga na Katy Perry, kama mimi kukupa wimbo mpya, unaweza kufikiri kama ni Katy Perry au Lady Gaga? moja ya pili, Mimi tu kwenda kuzungumza kuhusu tatizo segmentation. Basi, mimi sijui kama nyie kujua, lakini China, Japan, wengine Asia ya Mashariki lugha, na lugha nyingine kwa ujumla, hawana nafasi kati ya maneno. Na kisha kama unadhani kuhusu njia ambayo kompyuta ya aina yako ya inajaribu kwa kuelewa usindikaji lugha ya asili, inaonekana katika maneno na anajaribu kuelewa uhusiano kati yao, sawa? Lakini basi kama una Kichina, na kuwa na nafasi zero, ni ngumu kweli kweli kujua nini ni uhusiano kati ya maneno, kwa sababu wao hawana maneno ya kwanza. Hivyo kufanya kitu kinachoitwa segmentation ambayo ina maana ya kuweka nafasi kati ya kile tunatarajia kuwaita maneno katika lugha hizo. Mantiki? Na kisha tunakwenda majadiliano juu ya syntax. Hivyo tu kidogo kuhusu asili usindikaji lugha. Ni kwenda kuwa tu maelezo ya jumla. Kwa hiyo leo, kimsingi nini nataka kufanya ni kukupa guys kidogo ya ndani ya nini ni uwezekano kwamba unaweza kufanya na computational isimu. Na kisha unaweza kuona nini unafikiri ni baridi kati ya mambo hayo. Na labda unaweza kufikiria mradi na kuja kuzungumza na mimi. Na mimi siwezi kutoa ushauri juu ya jinsi ya kutekeleza. Hivyo syntax ni kwenda kuwa kidogo kuhusu Graph Search na mashine tafsiri. Mimi tu kwenda kutoa mfano wa jinsi unaweza, kwa mfano, kutafsiri kitu kutoka Ureno kwa lugha ya Kiingereza. Sauti nzuri? Hivyo kwanza, tatizo uainishaji. Mimi itabidi kusema kwamba sehemu hii ya semina ni kwenda kuwa magumu sana moja kwa sababu tu kuna kwenda kuwa baadhi ya coding. Lakini ni kwenda kuwa Python. Mimi najua wewe guys sijui Python, hivyo Mimi tu kwenda kueleza juu ngazi ya nini mimi kufanya. Na huna kwa kweli huduma pia mengi kuhusu syntax kwa sababu hiyo ni kitu guys wanaweza kujifunza. OK? Sauti nzuri. Kwa hiyo kile ni tatizo uainishaji? Hivyo wewe ni kutokana na baadhi ya lyrics kwa song na unataka nadhani ambaye ni kuimba. Na hii inaweza kuwa kwa aina yoyote ya matatizo mengine. Hivyo inaweza kuwa, kwa mfano, una kampeni ya urais na una hotuba, na unataka kupata nje kama ilikuwa, kwa mfano, Obama au Mitt Romney. Au unaweza kuwa na rundo la barua pepe na unataka kufikiri kama wao ni spam au la. Hivyo ni kuainisha baadhi tu data ya msingi juu ya maneno kwamba una huko. Kufanya hivyo kwamba, una kufanya baadhi ya mawazo. Hivyo mengi kuhusu computational isimu ni kufanya mawazo, mawazo kawaida smart, ili unaweza kupata matokeo mazuri. Kujaribu kujenga mfano wa kuigwa kwa ajili yake. Na kisha kujaribu nje na kuona kama ni kazi, kama anatoa usahihi nzuri. Na kama itakuwa hivyo, basi kujaribu kuboresha yake. Kama hana, wewe ni kama, OK, labda mimi wanapaswa kufanya dhana tofauti. Hivyo dhana kwamba tunakwenda kufanya ni kwamba msanii kawaida kuimba kuhusu mada mara nyingi, na labda anatumia maneno mara nyingi tu kwa sababu wao ni kutumika yake. Unaweza kufikiri tu ya rafiki yako. Mimi nina uhakika guys wote kuwa na marafiki kwamba kusema saini zao maneno, literally kwa kila sentensi moja - kama baadhi neno maalum au baadhi maalum maneno ya kwamba wanasema kwa kila sentensi moja. Na nini unaweza kusema ni kwamba kama unaweza kuona hukumu ambayo ina sahihi maneno, unaweza nadhani kwamba pengine rafiki yako ni moja kusema kuwa, right? Hivyo kudhani kuwa na kisha kwamba ni jinsi gani kujenga mfano wa kuigwa. mfano kwamba mimi nina kwenda kutoa ni juu ya jinsi Lady Gaga, kwa mfano, watu kusema kwamba anatumia "mtoto" kwa yake yote namba moja nyimbo. Na kwa kweli hii ni video ambayo inaonyesha yake akisema neno "mtoto" kwa nyimbo mbalimbali. [Video avspelning] - (KUIMBA) Baby. Baby. Baby. Baby. Baby. Babe. Baby. Baby. Baby. Baby. [Mwisho video avspelning- LUCAS Freitas: Hivyo kuna, nadhani, 40 nyimbo hapa katika ambayo anasema neno "mtoto." Hivyo unaweza kimsingi nadhani kwamba kama unaweza kuona wimbo ambayo ina neno "mtoto," kuna baadhi ya high uwezekano kwamba ni Lady Gaga. Lakini hebu jaribu kuendeleza hii zaidi zaidi rasmi. Basi hizi ni lyrics kwa nyimbo na Lady Gaga na Katy Perry. Hivyo ukiangalia Lady Gaga, unaweza kuona wao kuwa na mengi ya matukio ya "mtoto," a mengi ya matukio ya "njia." Na kisha Katy Perry ina mengi ya matukio ya "," Mengi ya matukio ya "moto." Hivyo kimsingi ni nini tunataka kufanya ni, unaweza kupata lyric. Hebu kusema kwamba, kupata lyric kwa wimbo kuwa ni "mtoto," tu "mtoto." Kama wewe tu kupata neno "mtoto," na hii ni data yote una kutoka Lady Gaga na Katy Perry, ambao wewe nadhani ni mtu ambao kuimba wimbo? Lady Gaga au Katy Perry? Lady Gaga, sawa? Kwa sababu yeye ni mmoja tu ambaye anasema "Mtoto." Hii inaonekana kijinga, sawa? OK, hii ni kweli ni rahisi. Mimi tu kuangalia nyimbo mbili na Bila shaka, yeye ni mmoja tu ambaye ana "Mtoto." Lakini nini kama wewe kuwa na rundo la maneno? Kama una halisi lyric, kitu kama, "mtoto, I just akaenda kuona [? CFT?] hotuba, "au kitu kama hicho, na basi kweli kuwa na takwimu nje - msingi maneno hayo yote - ambao ni msanii ambaye pengine kuimba wimbo huu? Basi hebu kujaribu kuendeleza hii kidogo zaidi. OK, hivyo msingi tu juu ya data kwamba sisi got, inaonekana kwamba Gaga pengine ni mwimbaji. Lakini jinsi gani tunaweza kuandika hii rasmi zaidi? Na kuna kwenda kuwa ni kidogo kidogo ya takwimu. Hivyo kama wewe kupotea, kujaribu tu kuelewa dhana. Haijalishi kama wewe kuelewa equations kikamilifu vizuri. Hii yote ni kwenda kuwa online. Hivyo kimsingi nini mimi kuhesabu ni uwezekano kwamba wimbo huu ni kwa Lady Gaga kutokana na kwamba - hivyo bar hii ina maana kutokana na kwamba - Niliona neno "mtoto." Je, hiyo mantiki? Basi, mimi nina kujaribu mahesabu ya kwamba uwezekano. Kwa hiyo, kuna theorem hii inayoitwa Bayes theorem kwamba anasema kwamba uwezekano wa B aliyopewa, ni uwezekano wa B kutolewa, mara uwezekano wa A, juu ya uwezekano ya B. Hii ni equation kwa muda mrefu. Lakini nini una kuelewa kutoka ni kwamba hii ni nini nataka mahesabu, right? Hivyo uwezekano kwamba wimbo ni kwa Lady Gaga kutokana na kwamba Niliona neno "Mtoto." Na sasa nini mimi kupata ni uwezekano wa neno "mtoto" kutokana na kwamba mimi na Lady Gaga. Na kile ambacho ni kwamba kimsingi? Nini maana ya ni, ni nini uwezekano wa kuona neno "mtoto" katika Gaga lyrics? Kama nataka kufanya mahesabu kwamba katika sana njia rahisi, ni tu ya idadi ya mara Mimi naona "mtoto" juu ya idadi ya jumla ya maneno katika Gaga lyrics, sawa? Ni frequency kwamba mimi kuona nini kwamba neno katika kazi Gaga ya? Mantiki? awamu ya pili ni uwezekano wa Gaga. Hiyo ina maana gani? Kwamba kimsingi ina maana, ni nini uwezekano wa kuainisha baadhi lyrics kama Gaga? Na kwamba ni aina ya weird, lakini hebu fikiria ya mfano. Basi hebu kusema kwamba uwezekano wa kuwa "mtoto" katika wimbo ni sawa kwa Gaga na Britney Spears. Lakini Britney Spears ina mara mbili zaidi ya nyimbo Lady Gaga. Hivyo kama mtu nasibu tu inakupa lyrics ya "mtoto," Jambo la kwanza kuangalia ni, ni nini uwezekano wa kuwa "mtoto" katika Gaga wimbo, "mtoto" katika Britney wimbo? Na kitu kimoja. Kwa hivyo jambo la pili kwamba utaona ni, vizuri, ni nini uwezekano wa lyric hii na yenyewe kuwa Gaga lyric, na ni nini uwezekano wa kuwa Britney lyric? Hivyo tangu Britney ina watu wengi zaidi lyrics kuliko Gaga, ungekuwa pengine kusema, vizuri, hii pengine ni Britney lyric. Hivyo ndiyo sababu tuna hii Muda hapa. Uwezekano wa Gaga. Hufanya akili? Gani? OK. Na ile ya mwisho ni uwezekano ya "mtoto" ambayo haina kweli jambo hilo sana. Lakini ni uwezekano wa kuona "mtoto" katika lugha ya Kiingereza. Sisi kwa kawaida hawajali kwamba mengi kuhusu muda huo. Je, hiyo mantiki? Hivyo uwezekano wa Gaga ni aitwaye uwezekano kabla ya ya Gaga darasa. Kwa sababu maana yake ni kwamba tu, ni nini uwezekano wa kuwa na darasa kwamba - ambayo ni Gaga - tu kwa ujumla, tu bila masharti. Na kisha wakati mimi na uwezekano wa Gaga kupewa "mtoto," tunasema pamoja na teary uwezekano kwa sababu ni uwezekano wa kuwa na Gaga kutokana na baadhi ya ushahidi. Hivyo mimi nina kutoa ushahidi kwamba Niliona neno mtoto na wimbo mantiki? OK. Hivyo Kama mimi mahesabu kwamba kwa kila ya nyimbo kwa ajili ya Lady Gaga, yale ambayo itakuwa - inaonekana, siwezi hoja hii. uwezekano wa Gaga itakuwa kitu kama, 2 zaidi ya 24, mara 1/2, zaidi ya 2 juu ya 53. Haijalishi kama unajua nini namba hizi ni kuja kutoka. Lakini ni idadi tu kwamba ni kwenda kuwa zaidi ya 0, sawa? Na kisha wakati mimi kufanya Katy Perry, uwezekano wa "mtoto" kutokana na Katy ni tayari 0, sawa? Kwa sababu hakuna "mtoto" katika Katy Perry. Hivyo basi hii inakuwa 0, na Gaga mafanikio, ambayo ina maana kwamba Gaga ni pengine mwimbaji. Je, hiyo mantiki? OK. Hivyo kama nataka kufanya rasmi hii zaidi, Mimi kweli anaweza kufanya mfano kwa maneno mengi. Basi hebu kusema kwamba nina kitu kama, "mtoto, mimi juu ya moto, "au kitu. Hivyo ina maneno mengi. Na katika kesi hii, unaweza kuona kwamba "mtoto" ni katika Gaga, lakini siyo katika Katy. Na "moto" ni katika Katy, lakini siyo katika Gaga, sawa? Hivyo ni kupata trickier, sawa? Kwa sababu inaonekana kwamba wewe karibu na tie kati ya mbili. Basi nini kufanya ni kudhani independency kati ya maneno. Hivyo kimsingi nini maana ya ni kwamba Mimi nina kuhesabu kile tu ni uwezekano wa kuona "mtoto," ni nini uwezekano wa kuona "Mimi," na "Ni", na "juu ya," na "moto," wote tofauti. Basi mimi nina kuzidisha wao wote. Na mimi nina kuona nini ni uwezekano ya kuona sentensi nzima. Mantiki? Hivyo kimsingi, kama mimi na neno moja tu, nini nataka kupata ni ARG max, ambayo ina maana, ni nini darasa kwamba ni kunipa uwezekano mkubwa? Kwa hiyo kile ni darasa kwamba ni kutoa mimi uwezekano mkubwa kwa uwezekano wa darasa kutokana na neno. Hivyo katika kesi hii, Gaga kupewa "mtoto." Au Katy kupewa "mtoto." Mantiki? Na tu kutoka Bayes, kwamba equation kwamba mimi ilionyesha, sisi kujenga sehemu hii. Kitu pekee ni kwamba unaweza kuona kwamba uwezekano wa neno kutokana na mabadiliko darasa kutegemea juu ya darasa, sawa? idadi ya "mtoto" s kwamba mimi na katika Gaga ni tofauti na Katy. uwezekano wa darasa pia mabadiliko kwa sababu ni idadi tu ya ya nyimbo kila mmoja wao ana. Lakini uwezekano wa neno lenyewe ni kwenda kuwa sawa kwa wote wasanii, sawa? Hivyo uwezekano wa neno ni tu, ni nini uwezekano wa kuona kwamba neno katika Lugha ya Kiingereza? Hivyo ni sawa kwa wote. Hivyo tangu hii ni mara kwa mara, tunaweza tu tone hii na si huduma ya juu yake. Hivyo hii itakuwa kweli equation sisi ni kuangalia kwa. Na kama mimi na maneno mengi, mimi nina bado kwenda na kabla ya uwezekano hapa. Kitu pekee ni kwamba mimi nina kuzidisha uwezekano wa maneno mengine yote. Hivyo mimi nina kuzidisha wao wote. Mantiki? Inaonekana weird lakini kimsingi ina maana, mahesabu ya kabla ya darasa, na kisha kuongezeka kwa uwezekano wa kila ya maneno kuwa katika darasa hilo. Na unajua kwamba uwezekano wa neno kutokana na darasa ni kwenda kuwa idadi ya nyakati unaweza kuona kwamba neno katika kwamba darasa, kugawanyika kwa idadi ya maneno na kwa kuwa darasa kwa ujumla. Mantiki? Ni jinsi "mtoto" ilikuwa 2 juu ya idadi ya maneno kwamba Nilikuwa katika lyrics. Hivyo tu frequency. Lakini kuna jambo moja. Kumbuka jinsi mimi alikuwa kuonyesha kwamba uwezekano wa "mtoto" kuwa lyrics kutoka Katy Perry alikuwa 0 kwa sababu tu Katy Perry hakuwa na "mtoto" wakati wote? Lakini inaonekana kidogo kali tu tu kusema kwamba lyrics hawezi kuwa kutoka msanii kwa sababu tu hawana kwamba neno hasa wakati wowote. Hivyo unaweza kusema tu, vizuri, kama hawana neno hili, mimi nina kwenda kukupa uwezekano chini, lakini nina si tu kwenda kukupa 0 haki mbali. Kwa sababu labda ni kitu kama, "Moto, moto, moto, moto," ambayo ni kabisa Katy Perry. Na kisha "mtoto," na huenda tu 0 haki mbali kwa sababu kulikuwa na mtu mmoja "Mtoto." Hivyo kimsingi nini cha kufanya ni kitu aitwaye Laplace smoothing. Na hii ina maana tu kwamba mimi nina kutoa baadhi uwezekano hata maneno ambazo hazipo. Hivyo nini mimi ni kwamba wakati mimi nina kuhesabu, daima kuongeza 1 kwa numerator. Hivyo hata kama neno haipo, katika kesi hii, kama hii ni 0, mimi bado nina kuhesabu hii kama 1 juu ya jumla ya idadi ya maneno. Vinginevyo, mimi kupata jinsi maneno mengi Mimi na mimi kuongeza 1. Hivyo mimi nina kuhesabu kwa hali zote mbili. Mantiki? Hivyo sasa hebu kufanya baadhi ya coding. Mimi nina kwenda na kufanya hivyo pretty haraka, lakini ni muhimu tu kwamba guys kuelewa dhana. Hivyo kile sisi ni kujaribu kufanya ni hasa kutekeleza hili jambo ambalo mimi tu alisema - Mimi nataka wewe kuweka lyrics kutoka Lady Gaga na Katy Perry. Na mpango ni kwenda kuwa na uwezo wa kusema kama haya lyrics mpya ni kutoka Gaga au Katy Perry. Mantiki? OK. Hivyo nina mpango huu mimi nina kwenda kuwaita classify.py. Hivyo hii ni Python. Ni mpya lugha ya programu. Ni sawa sana katika baadhi njia ya C na PHP. Ni sawa kwa sababu kama unataka kujifunza Python baada ya kujua C, ni kweli si kwamba sehemu kubwa ya changamoto kwa sababu tu Python ni rahisi sana kuliko C, kwanza ya yote. Na mambo mengi tayari kutekelezwa kwa ajili yenu. Hivyo tu jinsi kama PHP ina kazi ambayo aina orodha, au append kitu safu, au blah, blah, blah. Chatu ana wale wote pia. Hivyo mimi nina tu kwenda kueleza haraka jinsi gani tunaweza kufanya uainishaji tatizo kwa hapa. Basi hebu kusema kwamba katika kesi hii, nina lyrics kutoka Gaga na Katy Perry. njia ambayo mimi na wale lyrics ni kwamba neno la kwanza la lyrics ni jina la msanii, na wengine ni lyrics. Basi hebu kusema kwamba nina orodha hii katika ambayo moja ya kwanza ni lyrics na Gaga. Hivyo hapa mimi juu ya haki ya kufuatilia. Na moja ijayo ni Katy, na ina pia lyrics. Hivyo hii ni jinsi gani kutangaza variable katika Python. Huna kwa kutoa aina data. Wewe tu kuandika "lyrics," aina ya kama katika PHP. Mantiki? Hivyo ni mambo ambayo mimi na nini mahesabu ya kuwa na uwezo wa mahesabu ya probabilities? Mimi na kwa mahesabu ya "Priors" ya kila mbalimbali madarasa ambayo mimi. Mimi na kwa mahesabu ya "posteriors," au pretty much probabilities ya kila ya maneno tofauti kwamba Naweza kuwa na kwa kila msanii. Hivyo ndani ya Gaga, kwa mfano, mimi nina kwenda kuwa na orodha ya mara ngapi mimi kuona kila ya maneno. Mantiki? Na hatimaye, mimi nina kwenda tu kuwa orodha inayoitwa "maneno" kwamba ni kwenda tu kuwa na jinsi maneno mengi mimi na kwa kila msanii. Hivyo kwa Gaga, kwa mfano, wakati mimi kuangalia kwa lyrics, nilikuwa, nadhani, 24 maneno katika jumla. Hivyo orodha hii ni kwenda tu kuwa na Gaga 24, na Katy mwingine idadi. Mantiki? OK. Basi sasa, kwa kweli, hebu kwenda coding. Hivyo katika Python, unaweza kweli kurudi kundi la mbalimbali mambo kutoka kazi. Hivyo nina kwenda kujenga kazi hii inayoitwa "masharti", ambayo ni kwenda kurudi yote ya mambo hayo, "Priors," "probabilities," na "Maneno." Kwa hiyo, "masharti," na ni kwenda kuwa wito katika "lyrics." Basi sasa mimi nataka wewe kweli kuandika kazi hii. Hivyo njia kwamba naweza kuandika hii kazi ni mimi tu kuelezwa hii kazi na "def." Hivyo mimi "def masharti, "na ni kuchukua "Lyrics." Na jambo hili ni kwenda kufanya ni, kwanza ya yote, nina Priors yangu kwamba mimi nataka mahesabu. Hivyo njia kwamba naweza kuwafanyia jambo hilo ni kujenga kamusi katika Python, ambayo ni pretty much kitu kimoja kama hash meza, au ni kama iterative safu katika PHP. Hii ni jinsi mimi kutangaza dictionary. Na kimsingi nini maana ya hii ni kwamba Priors ya Gaga ni 0.5, kwa mfano, kama 50% ya lyrics ni kutoka Gaga, 50% ni kutoka Katy. Mantiki? Hivyo nina kufikiri jinsi mahesabu ya Priors. ndio pili kwamba mimi kufanya, pia, ni probabilities na maneno. Hivyo probabilities ya Gaga ni orodha ya probabilities wote kwamba mimi na kwa kila moja ya maneno kwa Gaga. Basi, ikiwa mimi kwenda probabilities ya Gaga "Mtoto," kwa mfano, kutakuwa na kunipa kitu kama 2 zaidi ya 24 katika kesi hiyo. Mantiki? Basi, mimi kwenda na "probabilities" kwenda "Gaga" ndoo ambayo ina orodha ya Maneno Gaga, basi mimi kwenda na "mtoto," na mimi kuona uwezekano. Na hatimaye nina hii "Maneno" dictionary. Hivyo hapa, "probabilities." Na kisha "Maneno." Basi, ikiwa mimi kufanya "maneno", "Gaga," ni nini kinaenda kutokea ni kwamba ni anaenda kunipa 24, kusema kwamba mimi na maneno 24 ndani ya lyrics kutoka Gaga. Hufanya akili? Hivyo hapa, "maneno" ni sawa na dah-dah-dah. OK Hivyo nini mimi kwenda kufanya ni mimi nina kwenda iterate juu ya kila mmoja lyrics, hivyo kila ya masharti kwamba Nina katika orodha. Na mimi nina kwenda kwa mahesabu ya mambo hayo kwa kila mmoja wa wagombea. Hufanya akili? Hivyo nina kufanya kwa kitanzi. Hivyo katika Python nini siwezi kufanya ni "kwa ajili ya line katika lyrics. "kitu kimoja kama "Kwa kila" taarifa katika PHP. Kumbuka jinsi ikiwa ni PHP mimi naweza kusema "kwa kila lyrics kama line. "Hufanya akili? Hivyo mimi nina kuchukua kila wa mistari, katika hii kesi, hii kamba na wa pili kamba hivyo kwa kila moja ya mistari nini mimi kwenda kufanya ni mara ya kwanza, mimi nina kwenda kwa mgawanyiko mstari huu katika orodha ya maneno kutengwa na nafasi. Hivyo jambo zuri kuhusu Python ni kwamba unaweza tu Google kama "jinsi gani mimi mgawanyiko kamba katika maneno? "Na ni kwenda kuwaambia jinsi ya kufanya hivyo. Na njia ya kufanya hivyo, ni tu "line = Line.split () "na kimsingi ni kwenda kukupa orodha na kila ya maneno hapa. Hufanya akili? Hivyo sasa kwamba mimi kwamba nataka kujua ambao ni muimbaji wa wimbo huo. Na kwa kufanya hivyo mimi tu na kupata hiki kwanza ya safu, sawa? Hivyo naweza kusema tu kwamba mimi "mwimbaji = Line (0) "Hufanya akili? Na kisha mimi haja ya kufanya ni nini, ya kwanza ya wote, mimi nina kwenda update wangapi maneno nina chini ya "Gaga." hivyo mimi nina tu kwenda kwa mahesabu ya jinsi maneno mengi mimi na katika orodha hii, sawa? Kwa sababu hii ni jinsi maneno mengi mimi na katika lyrics na mimi nina kwenda tu kwa kuongeza na "Gaga" safu. Je, hiyo mantiki? Wala kuzingatia sana juu ya syntax. Fikiria zaidi kuhusu dhana. Hiyo ni sehemu muhimu zaidi. OK. Basi nini siwezi kufanya hivyo ni kama "Gaga" ni tayari katika orodha hiyo, hivyo "kama mwimbaji katika maneno "ambayo ina maana kwamba mimi tayari na maneno kwa Gaga. Mimi nataka tu kuongeza nyongeza ya maneno ya hiyo. Hivyo nini mimi ni "maneno (mwimbaji) + = Len (line) - 1 ". Na kisha naweza tu kufanya urefu wa line. Mambo hivyo jinsi wengi mimi na katika safu. Na mimi kufanya minus 1 kwa sababu tu hiki kwanza ya safu ni mwimbaji na wale si lyrics. Hufanya akili? OK. "Else," maana yake ni kwamba mimi unataka kweli kuingiza Gaga katika orodha. Hivyo mimi tu kufanya "maneno (mwimbaji) = Len (line) - 1, "sorry. Hivyo tofauti kati ya wawili mistari ni kwamba hii moja, haina halipo, hivyo mimi nina tu initializing yake. Hii ni moja ya Mimi kwa kweli kuongeza. OK. Hiyo hii ilikuwa kuongeza maneno. Sasa nataka kuongeza Priors. Hivyo ni jinsi gani mimi mahesabu ya Priors? Priors inaweza kuwa mahesabu na jinsi mara nyingi. Hivyo ni jinsi mara nyingi unaweza kuona kwamba mwimbaji kati ya wote wa waimbaji kwamba na, sawa? Hivyo kwa Gaga na Katy Perry, katika kesi hii, naona Gaga mara moja, Katy Perry mara moja. Hivyo kimsingi Priors kwa Gaga na kwa Katy Perry ingekuwa tu kuwa moja, sawa? Wewe tu mara ngapi Mimi naona msanii. Hivyo hii ni rahisi sana kwa mahesabu. Naweza tu kitu sawa kama kama "kama mwimbaji katika Priors, "Mimi kwenda tu kuongeza 1 kwa Priors yao sanduku. Hivyo, "Priors (kuimba)" + = 1 "na kisha" mwingine " Mimi nina kwenda kufanya "Priors (mwimbaji) = 1. "Hufanya akili? Hivyo kama haipo mimi tu ya kuweka kama 1, vinginevyo mimi tu kuongeza 1. OK, hivyo sasa wote kwamba nina kushoto kufanya pia kuongeza kila ya maneno ya probabilities. Hivyo nina kuhesabu ni mara ngapi Mimi naona kila ya maneno. Hivyo mimi tu na kufanya mwingine kwa kitanzi katika line. Kitu hivyo kwanza kwamba mimi nina kwenda kufanya ni kuangalia kama mwimbaji tayari ina probabilities safu. Hivyo mimi nina kuangalia kama mwimbaji haina na probabilities safu, mimi tu kwenda initialize moja kwa ajili yao. Siyo hata safu, sorry, ni dictionary. Hivyo probabilities ya mwanamuziki ni kwenda kuwa kamusi wazi, hivyo mimi nina tu initializing kamusi kwa ajili yake. OK? Na sasa mimi kweli anaweza kufanya kwa kitanzi mahesabu ya kila ya maneno ' probabilities. OK. Hivyo nini siwezi kufanya ni kwa kitanzi. Hivyo mimi nina tu kwenda iterate juu ya safu. Hivyo njia kwamba naweza kufanya hivyo katika Python ni "kwa ajili ya i katika mbalimbali." Kutoka 1 kwa sababu Mimi nataka kuanza katika pili hiki kwa sababu kwanza ni mwimbaji jina. Kwa hiyo kutokana na moja hadi urefu wa line. Na wakati mimi mbalimbali ni kweli kwenda kutoka kama hapa kutoka 1 kwa len ya line minus 1. Hivyo tayari gani kwamba jambo la kufanya n minus 1 kwa arrays ambayo ni sana urahisi. Hufanya akili? Hivyo kwa kila moja ya haya, nini mimi kwenda kwa kufanya ni, kama vile katika mtu mwingine, Mimi nina kwenda kuangalia kama neno katika hii nafasi katika line tayari ni katika probabilities. Na kisha kama nilivyosema hapa, probabilities maneno, kama katika mimi kuweka "Probabilities (mwimbaji)". Na jina la mwimbaji. Hivyo kama ni tayari katika "Probabilit (mwimbaji)", maana yake ni kwamba mimi unataka kuongeza 1 kwa hiyo, hivyo mimi nina kwenda kwa kufanya "probabilities (mwimbaji)", na neno inaitwa "line (i)". Mimi nina kwenda kuongeza 1 na "mwingine" Mimi tu kwenda initialize 1. "Line (i)". Hufanya akili? Kwa hiyo, mimi mahesabu yote ya arrays. Kwa hiyo, sasa wote kwamba mimi kufanya kwa ajili ya hii moja ni tu "kurudi Priors, probabilities na maneno. "Hebu kuona kama kuna yoyote, OK. Inaonekana kila kitu ni kazi hadi sasa. Hivyo, kwamba inafanya hisia? Katika baadhi ya njia? OK. Basi sasa nina probabilities wote. Hivyo sasa kitu tu mimi wameondoka ni tu na kwamba jambo mahesabu ya bidhaa ya yote probabilities wakati mimi kupata lyrics. Basi hebu kusema kwamba mimi nataka sasa kuwaita kazi hii "kuainisha ()" na kitu kazi ambayo inachukua ni hoja tu. Hebu sema "Baby, mimi niko kwenye moto" na ni kwenda kufikiri nini ni uwezekano kwamba hii ni Gaga? Ni uwezekano gani kwamba hii ni Katie? Sauti nzuri? Hivyo mimi nina kwenda tu na kujenga kazi mpya iitwayo "kuainisha ()" na ni kwenda kuchukua baadhi lyrics pia. Na badala ya lyrics mimi pia na kutuma Priors, probabilities na maneno. Hivyo nina kwenda kwa kutuma lyrics, Priors, probabilities, maneno. Hivyo hii ni kuchukua lyrics, Priors, probabilities, maneno. Hiyo, ni nini ni nini? Ni kimsingi ni kwenda njia zote wagombea inawezekana kwamba wewe na kama mwimbaji. Na ambapo ni wagombea hao? Wao uko katika Priors, sawa? Hivyo nina wale wote huko. Hivyo nina kwenda kuwa na kamusi ya wagombea wote iwezekanavyo. Na kisha kwa kila mgombea katika Priors, hivyo ina maana kwamba ni kwenda kuwa Gaga, Katie kama alikuwa zaidi itakuwa zaidi. Mimi nina kwenda kuanza kuhesabu uwezekano huu. uwezekano kama tuliona katika PowerPoint ni mara kabla ya bidhaa ya kila probabilities nyingine. Hivyo siwezi kufanya hivyo hapa. Naweza tu kufanya uwezekano ni awali tu kabla ya. Hivyo Priors wa mgombea. Haki? Na sasa nina iterate juu ya yote maneno ambayo nina katika lyrics kuwa uwezo wa kuongeza uwezekano kwa kila mmoja wao, OK? Hivyo, "kwa neno katika lyrics" nini mimi kwenda kufanya, kama neno ni katika "Probabilities (mgombea)", ambayo ina maana kwamba ni neno mgombea ana katika lyrics yao - kwa mfano, "mtoto" kwa Gaga - nini mimi kwenda kufanya ni kwamba uwezekano ni kwenda tele na 1 pamoja na probabilities ya mgombea wa neno hilo. Na ni kuitwa "neno". Hii kugawanywa na idadi ya maneno kwamba nina kwa mgombea huyo. jumla ya idadi ya maneno ambayo nina kwa mwimbaji kwamba mimi nina kuangalia. "Else." maana ni neno jipya hivyo Ningependa kuwa kama kwa mfano "Moto" kwa Lady Gaga. Kwa hiyo mimi nataka tu kufanya 1 juu ya "Neno (mgombea)". Hivyo mimi si unataka kuweka muda huu hapa. Hivyo ni kwenda kwa kuwa kimsingi kuiga na pasting hii. Lakini mimi nina kwenda kufuta sehemu hii. Hivyo ni kwenda tu kuwa 1 juu ya hilo. Sauti nzuri? Na sasa mwishoni, mimi nina kwenda tu kwa magazeti jina la mgombea na uwezekano kwamba una ya kuwa S juu ya lyrics yao. Hufanya akili? Na mimi kwa kweli kufanya hata haja kamusi hii. Hufanya akili? Kwa hiyo, hebu angalia kama hii kweli kazi. Basi, ikiwa mimi kukimbia hii, haikuwa kazi. Kusubiri moja ya pili. "Maneno (mgombea)", "maneno (mgombea)", kwamba jina la safu. OK Kwa hiyo, anasema kuna baadhi mdudu kwa mgombea katika Priors. Napenda tu chill kidogo. OK. Hebu jaribu. OK. Hivyo anatoa Katy Perry ana hili uwezekano wa hili mara kwa mara 10 kwa minus 7, na Gaga ana hili mara 10 kwa minus 6. Hivyo unaweza kuona inaonyesha kwamba Gaga ina uwezekano ya juu. Kwa hiyo, "Baby, mimi nina on Fire" ni pengine Gaga wimbo. Hufanya akili? Hivyo hii ni nini sisi alivyofanya. Kanuni hii ni kwenda kuwa posted online, hivyo guys unaweza kuangalia ni nje. Labda kutumia baadhi ya ni kwa ajili ya kama unataka kufanya mradi au kitu sawa. OK. Hii ilikuwa ni kuonyesha nini computational isimu code inaonekana kama. Lakini sasa hebu kwenda zaidi kiwango cha juu mambo ya ajabu. OK. Hivyo matatizo mengine mimi alikuwa anazungumza juu ya - tatizo segmentation ni ya kwanza ya yao. Hivyo kuwa hapa Japan. Na kisha unaweza kuona kwamba hakuna nafasi. Hivyo hii ni kimsingi ina maana kwamba ni juu ya kiti, sawa? Kusema Kijapani? Ni juu ya kiti, sawa? STUDENT: Mimi sijui nini ja zaidi ya hapo ni. LUCAS Freitas: Ni [ANAZUNGUMZA Kijapani] OK. Hivyo kimsingi ina maana mwenyekiti wa juu. Hivyo kama wewe alikuwa na kuweka nafasi itakuwa hapa. Na kisha una [? Ueda-san. ?] Ambayo kimsingi ina maana Mheshimiwa Ueda. Na unaweza kuona kwamba "Ueda" na una nafasi na kisha "san." Hivyo unaweza kuona kwamba hapa "UE" ni kama kwa yenyewe. Na hapa ina tabia karibu na hiyo. Hivyo si kama katika lugha hizo wahusika maana neno ni hivyo tu kuweka mengi ya nafasi. Wahusika yanahusiana na kila mmoja. Na wanaweza kuwa pamoja kama mbili, tatu, moja. Hivyo kweli na kujenga aina fulani njia ya kuweka nafasi hizo. Na jambo hili ni kwamba wakati wowote, kupata data kutoka lugha hizo Asia, kila kitu huja unsegmented. Kwa sababu hakuna mtu ambaye anaandika Kijapani au Kichina anaandika na nafasi. Kila wewe ni kuandika Kichina, Japan wewe andika tu kila kitu na hakuna nafasi. Haina hata mantiki kuweka mazingira. Hivyo basi wakati kupata data kutoka, baadhi Lugha Asia ya Mashariki, kama unataka kweli kufanya kitu na kwamba una sehemu ya kwanza. Fikiria ya kufanya mfano wa lyrics bila nafasi. Hivyo lyrics tu kwamba una itakuwa hukumu, sawa? Kutengwa na vipindi. Lakini basi tu kuwa hukumu mapenzi si kweli kusaidia juu ya kutoa taarifa nani wale lyrics ni kwa. Haki? Hivyo ni lazima unaweka nafasi ya kwanza. Hivyo jinsi gani unaweza kufanya hivyo? Hivyo basi huja wazo la lugha mfano ambayo ni kitu kweli muhimu kwa computational isimu. Hivyo mfano lugha kimsingi ni meza ya probabilities kwamba inaonyesha Awali ya yote nini ni uwezekano ya kuwa na neno katika lugha? Hivyo kuonyesha jinsi ya mara kwa mara neno ni. Na kisha pia kuonyesha uhusiano kati ya maneno katika sentensi. Hivyo wazo kuu, kama mgeni alikuja wewe na alisema adhabu ninyi, je, ni uwezekano kwamba, kwa mfano, "hii ni dada yangu [? GTF"?] ni hukumu ya kwamba mtu alisema? Hivyo ni wazi baadhi ya sentensi ni kawaida zaidi kuliko wengine. Kwa mfano, "asubuhi nzuri," au "nzuri usiku, "au" hey huko, "ni zaidi ya kawaida zaidi kuliko hukumu nyingi za kwamba tuna lugha ya Kiingereza. Hivyo kwa nini ni hukumu wale mara kwa mara zaidi? Awali ya yote, ni kwa sababu una maneno ambayo ni mara kwa mara. Hivyo, kwa mfano, kama wewe kusema, mbwa ni kubwa, na mbwa ni mkubwa, wewe kawaida pengine kusikia mbwa ni kubwa mara nyingi zaidi kwa sababu "kubwa" ni zaidi mara kwa mara katika lugha ya Kiingereza ya "mkubwa." Kwa hiyo, moja ya mambo ni neno frequency. Jambo la pili ambayo ni kweli muhimu ni tu utaratibu wa maneno. Kwa hiyo, ni kawaida kwa kusema "paka ni ndani ya boksi. "lakini huna kawaida kuona katika "sanduku ndani ya ni paka." hivyo unaweza kuona kwamba kuna baadhi ya umuhimu katika utaratibu wa maneno. Huwezi tu kusema kwamba hizo mbili hukumu kuwa na uwezekano sawa kwa sababu tu wao na maneno yale yale. Wewe kweli kuwa na huduma ya kuhusu utaratibu pia. Mantiki? Hivyo tunafanya nini? Basi nini mimi ili kujaribu kupata wewe? Mimi nina kujaribu kupata nini sisi kuwaita mifano n-gram. Hivyo mifano n-gram kimsingi kudhani kwamba kwa kila neno una katika hukumu. Ni uwezekano wa kuwa na kwamba neno huko inategemea si tu juu ya mzunguko wa neno katika lugha, lakini pia juu ya maneno ambayo ni jirani yake. Hivyo kwa mfano, kwa kawaida wakati unaweza kuona kitu kama juu ya au wewe ni pengine ni kwenda kuona noun baada ya yake, sawa? Kwa sababu wakati una preposition kawaida inachukua noun baada ya yake. Au kama una verb kwamba ni elekezi kawaida ni kwenda na noun maneno. Hivyo ni kwenda kuwa na noun mahali fulani karibu yake. Kwa hiyo, kimsingi, kile yake ni kwamba anaona uwezekano wa kuwa na maneno karibu na kila mmoja, wakati wewe ni kuhesabu uwezekano wa adhabu. Na kwamba ni nini lugha mfano ni kimsingi. Kusema tu nini uwezekano ya kuwa na maalum hukumu katika lugha? Hivyo ni kwa nini kwamba muhimu, kimsingi? Na ya kwanza ya wote ni nini kwa n-gram mfano, basi? Hivyo n-gram mfano ina maana kwamba kila neno inategemea ijayo N minus 1 maneno. Kwa hiyo, kimsingi, ina maana kwamba kama mimi kuangalia, kwa mfano, katika CS50 TF wakati Mimi nina kuhesabu uwezekano wa hukumu, wewe utakuwa na kama " uwezekano wa kuwa na neno "" mara uwezekano wa kuwa " CS50 "mara uwezekano wa kuwa na "CS50 TF." Kwa hiyo, kimsingi, mimi kuhesabu kila njia ya kukaza mwendo yake. Na kisha kawaida wakati wewe ni kufanya hivyo, kama katika mradi, kuweka N kuwa chini thamani. Hivyo, kwa kawaida na bigrams au trigrams. Ili tu kuhesabu maneno mawili, a kundi la maneno mawili, au maneno tatu, tu kwa ajili ya masuala ya utendaji. Na pia kwa sababu labda kama una kitu kama "CS50 TF." Wakati na "TF," ni muhimu sana kwamba "CS50" ni karibu na hiyo, right? Mambo hayo mawili ni kawaida karibu na kila mmoja. Kama unafikiri ya "TF," pengine ni kwenda na nini darasa ni TF'ing kwa. Pia "" kwa kweli ni muhimu kwa CS50 TF. Lakini kama una kitu kama "CS50 TF aliingia darasani na alitoa yao baadhi ya wanafunzi pipi. "" Candy "na" " kuwa hakuna uhusiano kweli, haki? Wao uko hivyo mbali na kila mmoja kwamba ni kweli haina jambo gani maneno na. Hivyo kwa kufanya bigram au trigram, ni tu ina maana kwamba wewe ni kikwazo mwenyewe baadhi ya maneno kwamba ni karibu. Mantiki? Hivyo wakati unataka kufanya segmentation, kimsingi, nini unataka kufanya ni kuona ni njia zipi wote inawezekana kwamba unaweza sehemu ya hukumu. Kama kwamba wewe kuona ni nini uwezekano wa kila ya hukumu wale zilizopo katika lugha? Hivyo nini kufanya ni kama, vizuri, basi mimi kujaribu kuweka nafasi hapa. Hivyo kuweka nafasi huko na unaweza kuona nini ni uwezekano wa hukumu hiyo? Basi ni kama, OK, labda kwamba alikuwa si nzuri. Basi, mimi kuweka nafasi huko na nafasi huko, na mahesabu uwezekano sasa, na unaweza kuona kwamba ni uwezekano mkubwa. Hivyo hii ni algorithm aitwaye TANGO segmentation algorithm, ambayo ni kweli kitu ambacho itakuwa kweli baridi kwa mradi huo, ambao kimsingi inachukua Nakala unsegmented ambayo inaweza kuwa Japan au China au labda Kiingereza bila nafasi na anajaribu kuweka nafasi kati ya maneno na haina kwamba kwa kutumia mfano lugha na kujaribu kuona ni nini juu uwezekano unaweza kupata. OK. Hivyo hii ni segmentation. Sasa syntax. Hivyo, syntax ni kuwa kutumika kwa ajili ya mambo mengi hivi sasa. Hivyo kwa Graph Search, kwa Siri kwa pretty much aina yoyote ya asili usindikaji lugha una. Kwa hiyo kile ni muhimu kuhusu mambo ya syntax? Kwa hiyo, hukumu kwa ujumla na kile tunachokiita wapiga kura. Ambayo ni aina ya kama makundi ya maneno kuwa na kazi katika hukumu. Na wanaweza si kweli kuwa mbali na kila mmoja. Hivyo, kama mimi kusema, kwa mfano, "Lauren anapenda Milo. "Najua kwamba" Lauren "ni Constituent na kisha "anapenda Milo "ni pia mtu mwingine. Kwa sababu huwezi kusema kama "Lauren Milo anapenda "kuwa na maana moja. Ni si kwenda kuwa na maana moja. Au siwezi kusema kama "Milo Lauren anapenda. "Si kila kitu ina sawa maana kufanya hivyo. Hivyo mambo mawili muhimu zaidi kuhusu syntax ni aina lexical ambayo ni kimsingi kazi kwamba na kwa maneno kwa wenyewe. Hivyo kuwa na kujua kwamba "Lauren" na "Milo" ni nomino. "Upendo" ni kitenzi. Na jambo la pili muhimu ni kwamba wao ni aina verbs. Hivyo unajua kuwa "anapenda Milo" ni kweli maneno ya matusi. Hivyo wakati mimi kusema "Lauren," Najua kwamba Lauren ni kufanya kitu fulani. Mwanamke anafanya nini? Yeye upendo Milo. Hivyo ni jambo zima. Lakini sehemu yake ni noun na verb. Lakini pamoja, wao kufanya kifungu kitenzi. Hivyo, nini unaweza sisi kwa kweli kufanya na computational isimu? Hivyo, kama mimi kuwa na kitu kwa mfano "Marafiki wa Allison." Mimi naona kama mimi tu hakuwa mti Kiwango cha kisintaksia napenda kujua kwamba "Marafiki" ni noun maneno ni noun na kisha "ya Allison" ni prepositional maneno ambayo "ya" ni pendekezo na "Allison" ni jina. Nini mimi naweza kufanya ni kufundisha kompyuta yangu kwamba wakati mimi na noun maneno moja na kisha maneno prepositional. Hivyo katika kesi hii, "marafiki" na kisha "ya Milo "Najua kwamba hii ina maana kwamba NP2, wa pili, anamiliki NP1. Hivyo siwezi kujenga aina fulani ya uhusiano, baadhi ya aina ya kazi kwa ajili yake. Hivyo wakati wowote naona muundo huu, ambayo mechi hasa na marafiki wa " Allison, "Najua kwamba Allison anamiliki marafiki. Hivyo marafiki ni kitu kwamba Allison ana. Hufanya akili? Hivyo hii ni kimsingi nini Graph Tafuta gani. Inasababisha sheria kwa mambo mengi. Kwa hiyo, "marafiki wa Allison," "marafiki zangu ambao wanaishi katika Cambridge, "" marafiki zangu wanaokwenda Harvard. "Ni inajenga sheria kwa mambo hayo yote. Sasa tafsiri mashine. Hivyo, mashine ya tafsiri ni pia kitu takwimu. Na kama kweli kujihusisha katika isimu mahesabu, mengi ya mambo yako ni kwenda kuwa takwimu. Ili nilikuwa akifanya mfano pamoja mengi ya probabilities kwamba mimi ni kuhesabu, na kisha kupata hii idadi ndogo sana kwamba mwisho uwezekano, na kwamba ni nini anatoa jibu. Tafsiri mashine pia hutumia mfano takwimu. Na kama unataka kufikiri ya mashine tafsiri katika rahisi iwezekanavyo njia, nini unaweza kufikiria ni kutafsiri neno kwa neno, sawa? Wakati wewe ni kujifunza lugha kwa mara ya kwanza, hiyo ni kawaida nini kufanya, sawa? Kama unataka kutafsiri hukumu katika lugha yako kwa lugha wewe ni kujifunza, kwa kawaida kwanza, kutafsiri kila ya maneno mmoja mmoja, na kisha kujaribu kuweka maneno katika nafasi. Basi, ikiwa mimi alitaka kutafsiri hii, [ANAZUNGUMZA KIRENO] ambayo ina maana "cat nyeupe mbio mbali." Kama nilitaka kutafsiri kutoka Kireno Kiingereza, kile inaweza kufanya ni, kwanza, mimi tu kutafsiri neno kwa neno. Kwa hiyo, "o" ni "," "Gato," "paka," "Branco," "nyeupe," na kisha "fugio" ni "Mbio mbali." Hivyo basi mimi na maneno yote hapa, lakini siyo katika utaratibu. Ni kama "paka nyeupe wakakimbia" ambayo ni ungrammatical. Kwa hiyo, basi naweza kuwa na hatua ya pili, ambayo ni kwenda kuwa kutafuta bora nafasi kwa ajili ya kila ya maneno. Hivyo najua kwamba mimi kwa kweli unataka kuwa na "Nyeupe paka" badala ya "cat nyeupe." Hivyo nini siwezi kufanya ni, njia ya naive itakuwa kujenga wote permutations uwezekano wa maneno, ya nafasi. Na kisha kuona ambayo moja ina uwezekano mkubwa kwa mujibu kwa lugha mfano wangu. Na kisha wakati mimi kupata moja ambayo ina uwezekano mkubwa yake, ambayo ni pengine "cat nyeupe akakimbia," kwamba tafsiri yangu. Na hii ni njia rahisi ya kueleza jinsi mengi ya mashine tafsiri algorithms kazi. Je, hiyo mantiki? Hii pia ni kitu kweli kusisimua kwamba wewe guys unaweza labda kuchunguza kwa mradi wa mwisho, yeah? Mwanafunzi: Naam, ninyi alisema ilikuwa njia naive, hivyo nini mashirika yasiyo ya naive njia? LUCAS Freitas: njia zisizo za naive? OK. Hivyo jambo la kwanza kwamba ni mbaya kuhusu njia hii ni kwamba mimi tu kutafsiriwa maneno, neno kwa neno. Lakini wakati mwingine una maneno ambayo inaweza kuwa na tafsiri nyingi. Mimi nina kwenda kujaribu kufikiri ya kitu fulani. Kwa mfano, "manga" kwa Kireno can ama kuwa "guruta" au "sleeve." Hivyo wakati wewe ni kujaribu kutafsiri neno na neno, inaweza kuwa kutoa kitu ambacho haina mantiki. Hivyo kweli wanataka kuangalia wakati wote tafsiri uwezekano wa maneno na kuona, kwanza ya yote, nini ni utaratibu. Sisi walikuwa wanazungumza juu ya permutating mambo? Kuona maagizo yote iwezekanavyo na kuchagua moja na ya juu uwezekano? Unaweza pia kuchagua inawezekana tafsiri kwa kila neno na kisha kuona - pamoja na permutations - ambayo moja ina uwezekano mkubwa. Plus, unaweza pia kuangalia si maneno tu lakini maneno. hivyo unaweza kuchambua uhusiano kati ya maneno na kisha kupata bora ya tafsiri. Pia kitu kingine, hivyo muhula hii Mimi kwa kweli kufanya utafiti katika Kichina-Kiingereza tafsiri mashine, hivyo kutafsiri kutoka Kichina katika lugha ya Kiingereza. Na kitu sisi kufanya ni, badala ya kutumia mfano takwimu, ambayo ni kuona probabilities ya kuona baadhi ya msimamo katika hukumu, mimi nina kweli pia kuongeza baadhi ya syntax kwa yangu mfano, akisema, oh, kama mimi kuona aina hii ya ujenzi, hii ni nini nataka mabadiliko hayo kwa wakati mimi kutafsiri. Hivyo unaweza pia kuongeza baadhi ya aina ya kipengele cha syntax kufanya tafsiri ufanisi zaidi na sahihi zaidi. OK. Hivyo jinsi gani unaweza kuanza, kama unataka kufanya kitu katika computational isimu? Kwanza, unaweza kuchagua mradi ambayo inahusisha lugha. Hivyo, kuna wengi huko nje. Kuna mambo mengi unaweza kufanya. Na kisha unaweza kufikiria mfano kwamba unaweza kutumia. Kawaida kwamba maana yake ni mawazo ya mawazo, kama kama, oh, wakati mimi nilikuwa kama kufikiri ya maneno. Mimi nilikuwa kama, vizuri, kama nataka kufikiri nje ambaye aliandika hii, mimi pengine wanataka kuangalia maneno mtu kutumika na kuona ambaye anatumia neno kwamba mara nyingi sana. Hivyo kujaribu kufanya mawazo na jaribu kufikiria mifano. Na kisha unaweza pia kutafuta online kwa aina ya tatizo kwamba una, na ni kwenda na kupendekeza wewe mifano ya kwamba labda inatokana kwamba kitu vizuri. Na pia unaweza daima email yangu. me@lfreitas.com. Na naweza tu kujibu maswali yako. Tunaweza hata wanaweza kukutana ili niweze kutoa mapendekezo juu ya njia za utekelezaji wa mradi wako. Na mimi maana kama wewe kujihusisha na isimu mahesabu, itakuja kuwa kubwa. Wewe ni kwenda kuona kuna fursa nyingi mno. Na sekta ya anataka kuajiri hivyo mbaya kwa sababu ya hiyo. Hivyo Natumaini guys starehe hii. Kama wewe guys una maswali yoyote, unaweza kuuliza mimi baada ya hii. Lakini asante.